このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。
公開日が20230604となっている論文です。
Title | Authors | Abstract | 論文公表日・翻訳日 |
---|---|---|---|
# マルチバース解析におけるデバッグワークフローの理解と支援 Understanding and Supporting Debugging Workflows in Multiverse Analysis ( http://arxiv.org/abs/2210.03804v3 ) ライセンス: Link先を確認 | Ken Gu, Eunice Jun, and Tim Althoff | (参考訳) 統計的分析のためのパラダイムであるマルチバース分析は、合理的な分析選択のすべての組み合わせを並列に考慮し、透明性と再現性を改善することを約束する。
最近のツールは、アナリストがマルチバース分析を特定するのに役立つが、実際には使用が困難である。
本研究では,解析からバグ検出までの遅延や,バグの診断に必要なメタデータ処理の規模など,デバッグを重要な障壁として認識する。
これらの課題に対処するために、マルチバースバグとプロパゲート修正のバグの診断を支援するコマンドラインインターフェースツールであるMultiverse Debuggerのプロトタイプを作成しました。
定性的なラボスタディ(n=13)では、マルチバースデバッガをプローブとして、デバッグワークフローのモデルを開発し、マルチバースの構成を理解することの難しさを含む特定の課題を特定する。
今後の多元解析オーサリングシステムの設計上の意味から結論づける。 Multiverse analysis, a paradigm for statistical analysis that considers all combinations of reasonable analysis choices in parallel, promises to improve transparency and reproducibility. Although recent tools help analysts specify multiverse analyses, they remain difficult to use in practice. In this work, we identify debugging as a key barrier due to the latency from running analyses to detecting bugs and the scale of metadata processing needed to diagnose a bug. To address these challenges, we prototype a command-line interface tool, Multiverse Debugger, which helps diagnose bugs in the multiverse and propagate fixes. In a qualitative lab study (n=13), we use Multiverse Debugger as a probe to develop a model of debugging workflows and identify specific challenges, including difficulty in understanding the multiverse's composition. We conclude with design implications for future multiverse analysis authoring systems. | 翻訳日:2023-10-24 14:57:08 公開日:2023-06-04 |
# LGBTQIA+ソフトウェアプロフェッショナルへのリモートワークのメリットと限界 Benefits and Limitations of Remote Work to LGBTQIA+ Software Professionals ( http://arxiv.org/abs/2301.05379v4 ) ライセンス: Link先を確認 | Ronnie de Souza Santos, Cleyton Magalhaes, Paul Ralph | (参考訳) 背景。
新型コロナウイルス(covid-19)パンデミックによるリモートワークへの大量移行は、ソフトウェア専門家に大きな影響を与えた。
この移行がこれらの専門家に与える影響は、文脈や個人の特異性によって複雑である。
近年の研究は、リモート構造が多くの株式保存グループに機会をもたらすことを提唱しているが、女性や障害者など一部の個人にとってもリモートワークは困難である。
目的。
本研究は,LGBTQIA+ソフトウェアプロフェッショナルに対するリモートワークの効果を検討することを目的とする。
方法。
基礎理論手法は,57名のLGBTQIA+ソフトウェア専門家を対象にしたアンケート調査と,9名の個人へのフォローアップインタビューの2つの情報源から得られた情報に基づいて適用された。
このサンプルには、異なる性別、民族、性的指向、経験レベルの専門家が含まれていた。
発見。
その結果,(1) LGBTQIA+ は,セキュリティと可視性の向上によって,リモートワークは LGBTQIA+ のソフトウェアプロフェッショナルに害を与え,(3) ソフトウェア企業による支援策により,欠点を軽減できることが示唆された。
結論だ
本稿では、リモートワークがLGBTQIA+ソフトウェアプロフェッショナルにどのように影響するかを調査し、ソフトウェア企業がこのワークモデルに関連するメリットと限界にどう対処できるかについて、一連の勧告を提示した。
要約すると、リモートワークはソフトウェア産業における多様性と包括性を高める上で不可欠である、と結論づけました。 Background. The mass transition to remote work amid the COVID-19 pandemic profoundly affected software professionals, who abruptly shifted into ostensibly temporary home offices. The effects of this transition on these professionals are complex, depending on the particularities of the context and individuals. Recent studies advocate for remote structures to create opportunities for many equity-deserving groups; however, remote work can also be challenging for some individuals, such as women and individuals with disabilities. Objective. This study aims to investigate the effects of remote work on LGBTQIA+ software professionals. Method. Grounded theory methodology was applied based on information collected from two main sources: a survey questionnaire with a sample of 57 LGBTQIA+ software professionals and nine follow-up interviews with individuals from this sample. This sample included professionals of different genders, ethnicities, sexual orientations, and levels of experience. Findings. Our findings demonstrate that (1) remote work benefits LGBTQIA+ people by increasing security and visibility; (2) remote work harms LGBTQIA+ software professionals through isolation and invisibility; (3) the benefits outweigh the drawbacks; (4) the drawbacks can be mitigated by supportive measures developed by software companies. Conclusion. This paper investigated how remote work can affect LGBTQIA+ software professionals and presented a set of recommendations on how software companies can address the benefits and limitations associated with this work model. In summary, we concluded that remote work is crucial in increasing diversity and inclusion in the software industry. | 翻訳日:2023-10-24 13:37:13 公開日:2023-06-04 |
# ACETest:ディープラーニングオペレータのテストのための制約自動抽出 ACETest: Automated Constraint Extraction for Testing Deep Learning Operators ( http://arxiv.org/abs/2305.17914v2 ) ライセンス: Link先を確認 | Jingyi Shi, Yang Xiao, Yuekang Li, Yeting Li, Dongsong Yu, Chendong Yu, Hui Su, Yufeng Chen, Wei Huo | (参考訳) ディープラーニング(DL)アプリケーションは、最近は複数のタスクに役立ちます。
DLライブラリはDLアプリケーションを構築するのに不可欠である。
さらに、DL演算子は多次元データ(テンソル)を演算するDLライブラリの重要な構成要素である。
したがって、dlオペレータのバグは大きな影響を与える可能性がある。
テストはdlオペレータのバグを検出するための実用的なアプローチである。
DL演算子を効果的にテストするためには、テストケースが入力妥当性チェックをパスし、演算子のコア関数ロジックに到達できることが不可欠である。
したがって、高品質なテストケースを生成するには、入力検証制約を抽出する必要がある。
既存のテクニックは、制約を抽出するためにDLライブラリAPIの人的努力またはドキュメントに依存する。
それらは複雑な制約を抽出できず、抽出された制約は実際のコード実装と異なる可能性がある。
この課題に対処するため,コードから入力検証制約を自動的に抽出して,多種多様なテストケースを構築する手法であるACETestを提案し,DL演算子のコア関数ロジックのバグを効果的に露呈する。
この目的でacetestは、dlオペレータの入力検証コードを自動的に識別し、関連する制約を抽出し、制約に従ってテストケースを生成する。
人気のDLライブラリであるTensorFlowとPyTorchの実験結果は、ACETestが最先端(SOTA)技術よりも高い品質の制約を抽出できることを実証している。
さらにACETestは96.4%の制約を抽出し、SOTAテクニックの1.95から55倍のバグを検出することができる。
私たちはacetestを使って、tensorflowとpytorchでこれまで知られていなかった108のバグを検出しました。
最後に、セキュリティ上の影響により5つのバグがCVE IDに割り当てられた。 Deep learning (DL) applications are prevalent nowadays as they can help with multiple tasks. DL libraries are essential for building DL applications. Furthermore, DL operators are the important building blocks of the DL libraries, that compute the multi-dimensional data (tensors). Therefore, bugs in DL operators can have great impacts. Testing is a practical approach for detecting bugs in DL operators. In order to test DL operators effectively, it is essential that the test cases pass the input validity check and are able to reach the core function logic of the operators. Hence, extracting the input validation constraints is required for generating high-quality test cases. Existing techniques rely on either human effort or documentation of DL library APIs to extract the constraints. They cannot extract complex constraints and the extracted constraints may differ from the actual code implementation. To address the challenge, we propose ACETest, a technique to automatically extract input validation constraints from the code to build valid yet diverse test cases which can effectively unveil bugs in the core function logic of DL operators. For this purpose, ACETest can automatically identify the input validation code in DL operators, extract the related constraints and generate test cases according to the constraints. The experimental results on popular DL libraries, TensorFlow and PyTorch, demonstrate that ACETest can extract constraints with higher quality than state-of-the-art (SOTA) techniques. Moreover, ACETest is capable of extracting 96.4% more constraints and detecting 1.95 to 55 times more bugs than SOTA techniques. In total, we have used ACETest to detect 108 previously unknown bugs on TensorFlow and PyTorch, with 87 of them confirmed by the developers. Lastly, five of the bugs were assigned with CVE IDs due to their security impacts. | 翻訳日:2023-10-24 05:18:16 公開日:2023-06-04 |
# 合成のためのメタグラム行列探索のための遺伝的アルゴリズム Genetic Algorithms for Searching a Matrix of Metagrammars for Synthesis ( http://arxiv.org/abs/2306.00521v2 ) ライセンス: Link先を確認 | Yixuan Li, Federico Mora, Elizabeth Polgreen, Sanjit A. Seshia | (参考訳) 構文誘導合成(syntic-guided synthesis)は、候補解の探索空間が文法の形で構文テンプレートによって制約されるプログラム合成のパラダイムである。
これらの構文的制約は、言語をユーザが望む空間に制約するだけでなく、シンセサイザーのために検索スペースを抽出する、という2つの目的を果たす。
よく書かれた構文テンプレートを考えると、これは非常に効果的なテクニックである。
しかし、これはそのようなテンプレートを提供するユーザによって大きく依存している。検索スペースが大きくなり、合成が遅くなる統語的テンプレートと、小さすぎる統語的テンプレートは、必要なソリューションを含まない可能性がある。
本研究では,構文テンプレートの空間を規則の行列として構成し,この行列を遺伝的アルゴリズムなどの単純な探索手法を用いて,少ない訓練データで効果的に探索できることを実証する。 Syntax-guided synthesis is a paradigm in program synthesis in which the search space of candidate solutions is constrained by a syntactic template in the form of a grammar. These syntactic constraints serve two purposes: constraining the language to the space the user desires, but also rendering the search space tractable for the synthesizer. Given a well-written syntactic template, this is an extremely effective technique. However, this is highly dependent on the user providing such a template: a syntactic template that is too large results in a larger search space and slower synthesis, and a syntactic template that is too small may not contain the solution needed. In this work, we frame the space of syntactic templates as a matrix of rules, and demonstrate how this matrix can be searched effectively with little training data using simple search techniques such as genetic algorithms, giving improvements in both the number of benchmarks solved and solving time for the state-of-the-art synthesis solver. | 翻訳日:2023-10-24 04:57:58 公開日:2023-06-04 |
# 正確な断層定位のためのテスト・ミュータント関係の学習 Learning Test-Mutant Relationship for Accurate Fault Localisation ( http://arxiv.org/abs/2306.02319v1 ) ライセンス: Link先を確認 | Jinhan Kim, Gabin An, Robert Feldt, Shin Yoo | (参考訳) コンテキスト: 自動障害ローカライゼーション(Automated fault Localization)は,障害の根本原因を特定するタスクにおいて,潜在的な障害箇所の空間を狭めることで,開発者の支援を目的とする。
Mutation Based Fault Localization (MBFL) と呼ばれるプログラムの変種をシミュレートして, 故障を自動的に検出する手法が提案されている。
その成功にもかかわらず、既存のMBFL技術は、欠陥が観測された後に突然変異解析を行うコストに悩まされている。
方法: この欠点を克服するため, SIMFL (Statistical Inference for Mutation-based Fault Localization) と呼ばれる新しいMBFL手法を提案する。
SIMFLは、プロジェクト履歴の初期バージョンで実施された突然変異解析の過去の結果に基づいて、障害をローカライズする。
複数の統計的推論法を用いて、simflは変異体の試験結果とその位置の関係をモデル化し、その後現在の故障の位置を推測する。
結果: defects4jデータセットに関する実証研究は、simflが224の障害のうち1ランクに113の障害をローカライズできることを示した。
SIMFLが予測されたキルマトリクスで訓練されたとしても、SIMFLは194の断層のうち1位で95の断層をローカライズすることができる。
さらに, 余剰変異体を除去することにより, SIMFLの局所化精度は第1位51位まで低下する。
結論:本稿では,先行変異解析を活用し,現在の故障を局所化する新しいmbfl手法であるsimflを提案する。
SIMFLは費用対効果があるだけでなく、故障が観測された後に突然変異解析を行う必要はない。 Context: Automated fault localisation aims to assist developers in the task of identifying the root cause of the fault by narrowing down the space of likely fault locations. Simulating variants of the faulty program called mutants, several Mutation Based Fault Localisation (MBFL) techniques have been proposed to automatically locate faults. Despite their success, existing MBFL techniques suffer from the cost of performing mutation analysis after the fault is observed. Method: To overcome this shortcoming, we propose a new MBFL technique named SIMFL (Statistical Inference for Mutation-based Fault Localisation). SIMFL localises faults based on the past results of mutation analysis that has been done on the earlier version in the project history, allowing developers to make predictions on the location of incoming faults in a just-in-time manner. Using several statistical inference methods, SIMFL models the relationship between test results of the mutants and their locations, and subsequently infers the location of the current faults. Results: The empirical study on Defects4J dataset shows that SIMFL can localise 113 faults on the first rank out of 224 faults, outperforming other MBFL techniques. Even when SIMFL is trained on the predicted kill matrix, SIMFL can still localise 95 faults on the first rank out of 194 faults. Moreover, removing redundant mutants significantly improves the localisation accuracy of SIMFL by the number of faults localised at the first rank up to 51. Conclusion: This paper proposes a new MBFL technique called SIMFL, which exploits ahead-of-time mutation analysis to localise current faults. SIMFL is not only cost-effective, as it does not need a mutation analysis after the fault is observed, but also capable of localising faults accurately. | 翻訳日:2023-10-24 04:36:14 公開日:2023-06-04 |
# DSL駆動によるDIMEにおけるHTTPサービスの統合 DSL-driven Integration of HTTP Services in DIME ( http://arxiv.org/abs/2306.02299v1 ) ライセンス: Link先を確認 | Bruno Steffen | (参考訳) Web アプリケーションへの Web サービスの統合がますます一般的になるにつれて,ローコードやノーコード環境に対するソリューションを見つける必要がある。
この論文は、ドメイン固有言語(DSL)であるHTTP-DSLを用いて、Webサービスを低コード没入型モデリング環境(IME)DIMEに簡単に統合できるようにする最初の試みである。
DIMEユーザは、数行のコードでWebサービスへのHTTPリクエストを指定でき、DIMEが提供するモデリング言語にこれらのリクエストを統合することができる。 As the integration of web services into web applications becomes more and more common, it is necessary to find a solution for low-code or no-code environments. This thesis is the first attempt to allow for the easy integration of web services into the low-code immersive modeling environment (IME) DIME, by means of a domain-specific language (DSL), the HTTP-DSL. DIME users can specify HTTP requests to web services with few lines of code, and then integrate these requests into the modeling languages provided by DIME. | 翻訳日:2023-10-24 04:35:41 公開日:2023-06-04 |
# Prompt Sapper: LLMを活用したAIネイティブサービスのためのソフトウェアエンジニアリングインフラストラクチャ Prompt Sapper: LLM-Empowered Software Engineering Infrastructure for AI-Native Services ( http://arxiv.org/abs/2306.02230v1 ) ライセンス: Link先を確認 | Zhenchang Xing, Qing Huang, Yu Cheng, Liming Zhu, Qinghua Lu, Xiwei Xu | (参考訳) gpt-4やdall-eといったファンデーションモデルでは、前例のないai"運用システム"効果と、aiネイティブサービスにおけるイノベーションの波が引き起こされ、自然言語が直接実行可能な"コード"として機能し(実行可能コードとして表現される)、中間言語としてのプログラミング言語の必要性をなくし、パーソナルaiへの扉を開く。
Prompt Sapperは、AIチェーンエンジニアリングによるAIネイティブサービスの開発をサポートすることを約束して、対応として登場した。
大規模な言語モデル(LLM)によって、人間とAIのコラボレーションによるAIチェーンのオーサリング、すべての個人のAIイノベーションの可能性の解放、すべての人がAIイノベーションのマスターになれる未来のための、ソフトウェアエンジニアリングインフラストラクチャが構築される。
この記事では、Prompt Sapperの背後にあるR&Dモチベーションと、対応するAIチェーンエンジニアリング方法論と技術的なプラクティスを紹介する。 Foundation models, such as GPT-4, DALL-E have brought unprecedented AI "operating system" effect and new forms of human-AI interaction, sparking a wave of innovation in AI-native services, where natural language prompts serve as executable "code" directly (prompt as executable code), eliminating the need for programming language as an intermediary and opening up the door to personal AI. Prompt Sapper has emerged in response, committed to support the development of AI-native services by AI chain engineering. It creates a large language model (LLM) empowered software engineering infrastructure for authoring AI chains through human-AI collaborative intelligence, unleashing the AI innovation potential of every individual, and forging a future where everyone can be a master of AI innovation. This article will introduce the R\&D motivation behind Prompt Sapper, along with its corresponding AI chain engineering methodology and technical practices. | 翻訳日:2023-10-24 04:35:31 公開日:2023-06-04 |
# chatgptによる理論のプロトタイピング:技術受容モデルによる実験 Prototyping Theories with ChatGPT: Experiment with the Technology Acceptance Model ( http://arxiv.org/abs/2307.05488v1 ) ライセンス: Link先を確認 | Tiong-Thye Goh | (参考訳) 本研究は,ChatGPTを理論プロトタイピングのツールとして用いた2つの実験結果について述べる。
研究の目的は、chatgptが理論的概念を理解し、構成を区別する能力を評価することである。
実験では、それぞれ26.25%と40%の重複反応率で、研究1と研究2の両方で重複反応が同定された。
実験の結果,ChatGPTは,TAM(Technology Acceptance Model)の構成要素に沿った応答を生成できることが示唆された。
負荷係数と信頼性係数はモデルの妥当性を示し,研究1ではR2乗値が82%,研究2では71%であった。
研究2では, 負の単語を持つ2項目が低負荷を示し, その後, モデルから除去された。
どちらの研究もtam構成物間の相関が高いにもかかわらず、合理的な判別的妥当性を示している。
実験は、特に性別と使用経験に関して、生成されたサンプルの潜在的なバイアスを明らかにする。
これらのバイアスは構造体の応答に影響を与える可能性があり、ChatGPTの概念的能力を解釈する際に考慮すべきである。
まとめると、chatgptはpromiseを理論のプロトタイピングのツールとして示し、理論的な構成と一致した関連する応答を生成する。
しかし、重複した応答、プロンプトのバリエーション、異なるコンテキストに対する発見の一般化可能性といった制限に対処するためには、さらなる調査が必要である。 This research paper presents the findings of two experimental studies that explore the use of ChatGPT as a tool for theory prototyping. The objective of the studies is to assess ChatGPT's ability to comprehend theoretical concepts and differentiate between constructs. During the experiments, duplicated responses were identified in both Study 1 and Study 2, with duplicate response rates of 26.25% and 40% respectively. The results of the experiments indicate that ChatGPT can generate responses aligned with the constructs of the Technology Acceptance Model (TAM). The loading and reliability coefficients demonstrate the validity of the models, with Study 1 achieving an R-squared value of 82% and Study 2 achieving 71%. In Study 2, two items with negative wording exhibited low loadings and were subsequently removed from the model. Both studies exhibit reasonable discriminant validity despite high correlations among the TAM constructs. The experiments reveal potential biases in the generated samples, particularly regarding gender and usage experiences. These biases may impact the responses of constructs and should be considered when interpreting ChatGPT's conceptual capabilities. In sum, ChatGPT shows promise as a tool for theory prototyping, generating relevant responses aligned with theoretical constructs. However, further investigation is needed to address limitations such as duplicated responses, variations in prompts, and the generalizability of findings to different contexts. | 翻訳日:2023-10-23 17:43:04 公開日:2023-06-04 |
# ポイント時空間オートエンコーダを用いたポイントクラウドビデオ異常検出 Point Cloud Video Anomaly Detection Based on Point Spatio-Temporal Auto-Encoder ( http://arxiv.org/abs/2306.04466v1 ) ライセンス: Link先を確認 | Tengjiao He and Wenguang Wang | (参考訳) ビデオ異常検出は重要な領域の生産と監視において安全性を高める大きな可能性を秘めている。
現在、ほとんどのビデオ異常検出手法はrgbモダリティに基づいているが、冗長な意味情報は住民や患者のプライバシーを侵害する可能性がある。
深度カメラとLiDARによって得られた3Dデータは、人間の姿勢や動き情報を保存しながら、3D空間における異常事象を正確に検出することができる。
個人をクラウドで特定することは、個人のプライバシーを守るため困難である。
本研究では,ポイントクラウド動画を入力として,ポイントクラウドビデオの異常を検出する自動エンコーダフレームワークであるpoint spatio-temporal auto-encoder (pstae)を提案する。
我々はPSTOpとPSTTransOpを導入し、点雲ビデオにおける空間的幾何学的・時間的運動情報を維持する。
提案するオートエンコーダフレームワークの復元損失を測定するため,浅部特徴抽出器に基づく再構成損失計測戦略を提案する。
TIMoデータセットを用いた実験結果から,本手法はAUROCにおいて現在代表的奥行き変調法よりも優れており,医学的問題異常の検出に優れた性能を示した。
これらの結果は,ビデオ異常検出における点雲変調の可能性を示している。
本手法はTIMoデータセット上に新しい最先端(SOTA)を設定する。 Video anomaly detection has great potential in enhancing safety in the production and monitoring of crucial areas. Currently, most video anomaly detection methods are based on RGB modality, but its redundant semantic information may breach the privacy of residents or patients. The 3D data obtained by depth camera and LiDAR can accurately locate anomalous events in 3D space while preserving human posture and motion information. Identifying individuals through the point cloud is difficult due to its sparsity, which protects personal privacy. In this study, we propose Point Spatio-Temporal Auto-Encoder (PSTAE), an autoencoder framework that uses point cloud videos as input to detect anomalies in point cloud videos. We introduce PSTOp and PSTTransOp to maintain spatial geometric and temporal motion information in point cloud videos. To measure the reconstruction loss of the proposed autoencoder framework, we propose a reconstruction loss measurement strategy based on a shallow feature extractor. Experimental results on the TIMo dataset show that our method outperforms currently representative depth modality-based methods in terms of AUROC and has superior performance in detecting Medical Issue anomalies. These results suggest the potential of point cloud modality in video anomaly detection. Our method sets a new state-of-the-art (SOTA) on the TIMo dataset. | 翻訳日:2023-06-08 14:00:52 公開日:2023-06-04 |
# フーリエ変換を用いた時間依存Schr\"{o}ディンガー方程式のデカップリング再帰 Decoupling recursion in the time dependent Schr\"{o}dinger equation using Fourier transforms ( http://arxiv.org/abs/2306.03107v1 ) ライセンス: Link先を確認 | Sky Nelson-Isaacs | (参考訳) 摂動時間依存のschr\"{o}dinger方程式(tdse)、より一般にダイソン級数を再帰フーリエ変換を用いた畳み込み方程式として記述し、時間順序演算子を用いることなく2階積分を1階から分離する戦略を開発した。
2階のエネルギー分布は、いくつかの標準摂動理論の例といくつかの新しい例で計算される。
量子計算におけるボソニックサンプリングと量子力学におけるトンネル振幅のためのフォトニックスペクトルのキャラクタリゼーションを含む。 A strategy is developed for writing the perturbative time-dependent Schr\"{o}dinger equation (TDSE), and more generally the Dyson Series, as a convolution equation using recursive Fourier transforms, thereby decoupling the second-order integral from the first without using the time ordering operator. The second-order energy distribution is calculated for a number of standard perturbation theory examples, and some novel ones. Applications include characterization of photonic spectra for bosonic sampling in quantum computation and tunneling amplitude in quantum mechanics. | 翻訳日:2023-06-07 19:09:30 公開日:2023-06-04 |
# ブラックボックス変分推論における確率収束保証 Provable convergence guarantees for black-box variational inference ( http://arxiv.org/abs/2306.03638v1 ) ライセンス: Link先を確認 | Justin Domke, Guillaume Garrigos and Robert Gower | (参考訳) ブラックボックス変分推論は広く用いられているが、確率最適化が成功するという証拠はない。
これは既存の確率的最適化証明の理論的ギャップ、すなわち異常なノイズ境界を持つ勾配推定器の挑戦と、複合的な非スムース目的によるものである。
密度ガウス変分族に対しては、再パラメータ化に基づく既存の勾配推定器が二次雑音境界を満たすことを観察し、この境界を用いた近位および近位確率勾配勾配の新規収束保証を与える。
これは、現実的な推論問題に対してブラックボックス変分推論が収束するという最初の厳密な保証を提供する。 While black-box variational inference is widely used, there is no proof that its stochastic optimization succeeds. We suggest this is due to a theoretical gap in existing stochastic optimization proofs-namely the challenge of gradient estimators with unusual noise bounds, and a composite non-smooth objective. For dense Gaussian variational families, we observe that existing gradient estimators based on reparameterization satisfy a quadratic noise bound and give novel convergence guarantees for proximal and projected stochastic gradient descent using this bound. This provides the first rigorous guarantee that black-box variational inference converges for realistic inference problems. | 翻訳日:2023-06-07 15:36:22 公開日:2023-06-04 |
# DANSE:教師なし学習セットアップにおけるモデルフリープロセスのデータ駆動非線形状態推定 DANSE: Data-driven Non-linear State Estimation of Model-free Process in Unsupervised Learning Setup ( http://arxiv.org/abs/2306.03897v1 ) ライセンス: Link先を確認 | Anubhab Ghosh, Antoine Honor\'e and Saikat Chatterjee | (参考訳) 教師なし学習環境におけるモデルフリープロセスのベイズ状態推定と予測の課題に対処する。
本稿では,データ駆動非線形状態推定法であるDANSEを提案する。
DANSEは、状態の線形測定を与えられたモデルフリープロセスの状態の閉形式後部を提供する。
さらに、予測のためのクローズドフォーム後部を提供する。
データ駆動リカレントニューラルネットワーク(RNN)は、状態の先行パラメータを提供するために、DANSEで使用される。
前者は入力として過去の測定値に依存し、その後、電流測定を入力として状態のクローズドフォーム後端を見つける。
データ駆動RNNは、モデルフリープロセスの基盤となる非線形ダイナミクスをキャプチャする。
DANSEのトレーニングは、主にRNNのパラメータを学習するが、教師なし学習アプローチを用いて実行される。
教師なし学習では、測定データトラジェクトリのみからなるトレーニングデータセットにアクセスできるが、状態トラジェクトリにはアクセスできない。
したがって、DANSEはトレーニングデータの状態情報にアクセスできず、教師あり学習を利用できない。
線形および非線形過程モデル(lorenz attractorおよびchen attractor)を用いて教師なし学習に基づくダンスを評価する。
提案手法は,プロセスモデルに関する知識がなく,教師付き学習も無く,Kalmanフィルタ (KF) や拡張KF (EKF) やunscented KF (UKF) といったモデル駆動手法と競合する性能を持つことを示す。 We address the tasks of Bayesian state estimation and forecasting for a model-free process in an unsupervised learning setup. In the article, we propose DANSE -- a Data-driven Nonlinear State Estimation method. DANSE provides a closed-form posterior of the state of the model-free process, given linear measurements of the state. In addition, it provides a closed-form posterior for forecasting. A data-driven recurrent neural network (RNN) is used in DANSE to provide the parameters of a prior of the state. The prior depends on the past measurements as input, and then we find the closed-form posterior of the state using the current measurement as input. The data-driven RNN captures the underlying non-linear dynamics of the model-free process. The training of DANSE, mainly learning the parameters of the RNN, is executed using an unsupervised learning approach. In unsupervised learning, we have access to a training dataset comprising only a set of measurement data trajectories, but we do not have any access to the state trajectories. Therefore, DANSE does not have access to state information in the training data and can not use supervised learning. Using simulated linear and non-linear process models (Lorenz attractor and Chen attractor), we evaluate the unsupervised learning-based DANSE. We show that the proposed DANSE, without knowledge of the process model and without supervised learning, provides a competitive performance against model-driven methods, such as the Kalman filter (KF), extended KF (EKF), unscented KF (UKF), and a recently proposed hybrid method called KalmanNet. | 翻訳日:2023-06-07 14:05:05 公開日:2023-06-04 |
# スケールでのパラフレーズ表現 Paraphrastic Representations at Scale ( http://arxiv.org/abs/2104.15114v2 ) ライセンス: Link先を確認 | John Wieting, Kevin Gimpel, Graham Neubig, Taylor Berg-Kirkpatrick | (参考訳) 本稿では,ユーザが様々な言語で独自の文表現を訓練できるシステムを提案する。
英語、アラビア語、ドイツ語、フランス語、スペイン語、ロシア語、トルコ語、中国語のトレーニングモデルもリリースしています。
これらのモデルを大量のデータでトレーニングし,単言語的意味的類似性,言語間意味的類似性,バイテキストマイニングタスクの組について提案する論文から,その性能を大幅に向上させた。
さらに、結果として得られたモデルは、教師なしのセマンティックテキスト類似性に関する以前のすべての作業を超えており、Sentence-BERT (Reimers and Gurevych, 2019)のようなBERTベースのモデルよりも大幅に優れています。
さらに、我々のモデルは以前の作業よりも桁違いに高速で、推論速度の差がほとんどなく、CPU上で使用することができる(より多くのCPUコアを使用する場合、GPUよりも速度が向上する)。
最後に、パラフラスティック文モデルのトレーニング、推論と並列データを持つ任意の言語に対するトレーニングの両方での使用を緩和するためのコードベースに、大幅に機能拡張を加えました。
トレーニングデータをダウンロードして前処理するコードも含んでいます。 We present a system that allows users to train their own state-of-the-art paraphrastic sentence representations in a variety of languages. We also release trained models for English, Arabic, German, French, Spanish, Russian, Turkish, and Chinese. We train these models on large amounts of data, achieving significantly improved performance from the original papers proposing the methods on a suite of monolingual semantic similarity, cross-lingual semantic similarity, and bitext mining tasks. Moreover, the resulting models surpass all prior work on unsupervised semantic textual similarity, significantly outperforming even BERT-based models like Sentence-BERT (Reimers and Gurevych, 2019). Additionally, our models are orders of magnitude faster than prior work and can be used on CPU with little difference in inference speed (even improved speed over GPU when using more CPU cores), making these models an attractive choice for users without access to GPUs or for use on embedded devices. Finally, we add significantly increased functionality to the code bases for training paraphrastic sentence models, easing their use for both inference and for training them for any desired language with parallel data. We also include code to automatically download and preprocess training data. | 翻訳日:2023-06-07 06:12:48 公開日:2023-06-04 |
# 一方向歩行者検出のためのセグメンテーションベースバウンディングボックス生成 Segmentation-Based Bounding Box Generation for Omnidirectional Pedestrian Detection ( http://arxiv.org/abs/2104.13764v3 ) ライセンス: Link先を確認 | Masato Tamura, Tomoaki Yoshinaga | (参考訳) そこで本研究では,全方位歩行者検出のためのセグメンテーションに基づく境界ボックス生成法を提案する。
視野が広いため、全方位カメラは標準カメラよりも費用対効果が高く、大規模監視に適している。
全方位カメラを用いた歩行者検出の問題点は、全方位画像における歩行者の外観が任意の角度に回転する可能性があるため、標準歩行者検知器の性能が大幅に低下する可能性があることである。
既存の方法は、推論中に画像を変換することでこの問題を軽減する。
しかし、変換は検出精度と速度を大幅に低下させる。
最近提案された手法は、全方位画像を用いた検出器の訓練によって変換を省略する。
変換とアノテーションの動作を損なうため、我々は既存の大規模オブジェクト検出データセットを活用している。
我々は、データセットのセグメンテーションアノテーションから生成された回転画像と密着バウンディングボックスアノテーションで検出器を訓練し、密着バウンディングボックスで全方位画像中の歩行者を検出する。
また,擬似魚眼歪み増強法を開発し,さらなる性能向上を図る。
広範囲な分析により,我々の検出器は歩行者にバウンディングボックスを適合させることに成功し,大幅な性能向上を示した。 We propose a segmentation-based bounding box generation method for omnidirectional pedestrian detection that enables detectors to tightly fit bounding boxes to pedestrians without omnidirectional images for training. Due to the wide angle of view, omnidirectional cameras are more cost-effective than standard cameras and hence suitable for large-scale monitoring. The problem of using omnidirectional cameras for pedestrian detection is that the performance of standard pedestrian detectors is likely to be substantially degraded because pedestrians' appearance in omnidirectional images may be rotated to any angle. Existing methods mitigate this issue by transforming images during inference. However, the transformation substantially degrades the detection accuracy and speed. A recently proposed method obviates the transformation by training detectors with omnidirectional images, which instead incurs huge annotation costs. To obviate both the transformation and annotation works, we leverage an existing large-scale object detection dataset. We train a detector with rotated images and tightly fitted bounding box annotations generated from the segmentation annotations in the dataset, resulting in detecting pedestrians in omnidirectional images with tightly fitted bounding boxes. We also develop pseudo-fisheye distortion augmentation, which further enhances the performance. Extensive analysis shows that our detector successfully fits bounding boxes to pedestrians and demonstrates substantial performance improvement. | 翻訳日:2023-06-07 06:12:26 公開日:2023-06-04 |
# マルチキュービットゲートを用いたフォールトトレラント測定自由量子誤差補正 Fault-tolerant measurement-free quantum error correction with multi-qubit gates ( http://arxiv.org/abs/2007.09804v3 ) ライセンス: Link先を確認 | Michael A. Perlin, Vickram N. Premakumar, Jiakai Wang, Mark Saffman, Robert Joynt | (参考訳) 測定自由量子誤り訂正(MFQEC)は、無条件の量子ビットリセットゲートを持つプラットフォームにおける標準測定ベースのQECに代わる手段を提供する。
マルチキュービットゲートを利用するsteane符号の計測フリー変種に対して、フォールトトレランスの問題を再検討し、フォールトトレランスを損なう、これまで見過ごされていたフェーズフリップエラーを見つけ出す。
我々は,全ての単一ビット誤りに対して耐性を持つMFQEC回路設計を改良したが,それにもかかわらず,特定の相関誤差を許容することができない。
フォールトトレランスを系統的に調査するために,MFQEC回路を古典的にシミュレートする効率的な手法を提案する。
(i)シンドローム抽出のためのクリフォードゲート
(ii)アンシラ制御されたパウリのデコード操作、及び
(iii)ポーリノイズモデル。
これにより,本論文で以前に検討した制限ノイズモデルに基づくmfqecステイン符号の疑似値である$\sim0.7\%$を求めることができる。
次に,マルチキュービットゲートにおけるフォールトトレランスの一般的な要件を特定するために,ノイズモデルの仮定を緩和し,既存のマルチキュービット中性原子ゲートは,測定ベースと測定フリーのステインコードの両方においてフォールトトレラントシンドローム抽出と相容れないことを発見した。
また,マルチキュービットゲートを2キュービットのゲート集合に分解することで,測定フリーのステイン符号に対するフォールトトレランスが損なわれることも判明した。
最後に,MFQEC符号の耐故障性回復に必要な理論的要素について考察する。 Measurement-free quantum error correction (MFQEC) offers an alternative to standard measurement-based QEC in platforms with an unconditional qubit reset gate. We revisit the question of fault tolerance for a measurement-free variant of the Steane code that leverages multi-qubit gates, finding previously overlooked phase-flip errors that undermine fault tolerance. We construct a revised MFQEC circuit design that is resistant to all single-qubit errors, but which nonetheless cannot tolerate certain correlated errors. In order to investigate fault tolerance systematically, we introduce an efficient method to classically simulate MFQEC circuits with (i) Clifford gates for syndrome extraction, (ii) ancilla-controlled Pauli operations for decoding, and (iii) a Pauli noise model. We thereby find a pseudothreshold of $\sim0.7\%$ for our revised MFQEC Steane code under a restricted noise model previously considered in the literature. We then relax noise model assumptions to identify general requirements for fault tolerance with multi-qubit gates, finding that existing multi-qubit neutral atom gates are incompatible with fault-tolerant syndrome extraction in both the measurement-based and measurement-free Steane code. We also find that decomposing multi-qubit gates down to a two-qubit gate set similarly spoils fault tolerance for the measurement-free Steane code. Finally, we discuss the theoretical ingredients that are necessary to recover fault tolerance for MFQEC codes. | 翻訳日:2023-06-07 06:11:16 公開日:2023-06-04 |
# シンクホーン分布ロバスト最適化 Sinkhorn Distributionally Robust Optimization ( http://arxiv.org/abs/2109.11926v4 ) ライセンス: Link先を確認 | Jie Wang, Rui Gao, Yao Xie | (参考訳) エントロピー正則化に基づくワッサーシュタイン距離の変種であるシンクホーン距離を持つ分布ロバスト最適化(DRO)について検討する。
一般名目分布, 輸送コスト, 損失関数に対する凸計画の双対再構成を導出する。
wasserstein droと比較すると,提案手法は幅広い損失関数に対する計算容量性を高め,最悪の場合分布は実用シナリオにおいて高い可能性を示す。
二重再構成を解くため,偏りの偏りを持つ確率的ミラー降下アルゴリズムを開発した。
驚くべきことに、このアルゴリズムはスムース損失関数と非スムース損失関数の両方の最適化されたサンプル複雑性を達成し、経験的リスク最小化関数のサンプル複雑性とほぼ一致する。
最後に,合成データと実データを用いて,その優れた性能を示す数値例を示す。 We study distributionally robust optimization (DRO) with Sinkhorn distance -- a variant of Wasserstein distance based on entropic regularization. We derive convex programming dual reformulation for general nominal distributions, transport costs, and loss functions. Compared with Wasserstein DRO, our proposed approach offers enhanced computational tractability for a broader class of loss functions, and the worst-case distribution exhibits greater plausibility in practical scenarios. To solve the dual reformulation, we develop a stochastic mirror descent algorithm with biased gradient oracles. Remarkably, this algorithm achieves near-optimal sample complexity for both smooth and nonsmooth loss functions, nearly matching the sample complexity of the Empirical Risk Minimization counterpart. Finally, we provide numerical examples using synthetic and real data to demonstrate its superior performance. | 翻訳日:2023-06-07 06:01:34 公開日:2023-06-04 |
# 誤り駆動型入力変調:後進パスのないクレジット割り当て問題の解決 Error-driven Input Modulation: Solving the Credit Assignment Problem without a Backward Pass ( http://arxiv.org/abs/2201.11665v3 ) ライセンス: Link先を確認 | Giorgia Dellaferrera, Gabriel Kreiman | (参考訳) ニューラルネットワークの監視学習は一般的にバックプロパゲーションに依存し、エラー関数の勾配に基づいて重みが更新され、出力層から入力層へ順次伝播する。
このアプローチは幅広い応用分野において有効であることが証明されているが、重量対称性問題、非局所的な信号への学習の依存、エラー伝播時の神経活動の凍結、更新ロック問題など、多くの点で生物学的な妥当性に欠ける。
信号対称性、フィードバックアライメント、直接的なフィードバックアライメントなど、代替のトレーニングスキームが導入されたが、それらは必ず、すべての問題を同時に解決する可能性を妨げる後方パスに依存している。
本稿では,ネットワークの誤差に応じて入力信号が変調される第2のフォワードパスにバックワードパスを置き換えることを提案する。
この新しい学習規則は,上記の問題をすべて包括的に解決し,完全連結モデルと畳み込みモデルの両方に適用可能であることを示す。
MNIST, CIFAR-10, CIFAR-100でこの学習規則を検証した。
これらの結果は、生物学的原理を機械学習に組み込むのに役立つ。 Supervised learning in artificial neural networks typically relies on backpropagation, where the weights are updated based on the error-function gradients and sequentially propagated from the output layer to the input layer. Although this approach has proven effective in a wide domain of applications, it lacks biological plausibility in many regards, including the weight symmetry problem, the dependence of learning on non-local signals, the freezing of neural activity during error propagation, and the update locking problem. Alternative training schemes have been introduced, including sign symmetry, feedback alignment, and direct feedback alignment, but they invariably rely on a backward pass that hinders the possibility of solving all the issues simultaneously. Here, we propose to replace the backward pass with a second forward pass in which the input signal is modulated based on the error of the network. We show that this novel learning rule comprehensively addresses all the above-mentioned issues and can be applied to both fully connected and convolutional models. We test this learning rule on MNIST, CIFAR-10, and CIFAR-100. These results help incorporate biological principles into machine learning. | 翻訳日:2023-06-07 05:52:32 公開日:2023-06-04 |
# シミュレーション統合型バイオインスパイアサーチベーステストを用いたadasの機械学習テスト Machine Learning Testing in an ADAS Case Study Using Simulation-Integrated Bio-Inspired Search-Based Testing ( http://arxiv.org/abs/2203.12026v3 ) ライセンス: Link先を確認 | Mahshid Helali Moghadam, Markus Borg, Mehrdad Saadatmand, Seyed Jalaleddin Mousavirad, Markus Bohlin, Bj\"orn Lisper | (参考訳) 本稿では,ディープニューラルネットワークを用いた車線維持システムをテストするためのフェールリベリングテストシナリオを生成する,サーチベースのシミュレーション統合テストソリューションであるDeeperの拡張版を提案する。
新たに提案されたバージョンでは、新しいバイオインスパイアされた検索アルゴリズム、遺伝的アルゴリズム(GA)、$({\mu}+{\lambda})$および$({\mu},{\lambda})$進化戦略(ES)、そして品質の高い集団種子とドメイン固有のクロスオーバーと突然変異操作を利用する粒子群最適化(PSO)を利用する。
SBST 2021のサイバー物理システムテストコンテストに参加する5つのツールについて,Deeper内の新しいテストジェネレータの能力を実証するため,実証的な評価と比較を行った。
評価の結果,新たに提案するテストジェネレータは,前バージョンの大幅な改善を示すだけでなく,ml駆動レーンキーピングシステムをテストする上で,多数の多様な障害回避テストシナリオを誘発する上で有効かつ効率的であることが判明した。
テストシナリオの多様性を促進しながら、テスト時間の予算の制限、高いターゲット障害の重大さ、厳格な速度制限の下で、いくつかの障害をトリガーすることができる。 This paper presents an extended version of Deeper, a search-based simulation-integrated test solution that generates failure-revealing test scenarios for testing a deep neural network-based lane-keeping system. In the newly proposed version, we utilize a new set of bio-inspired search algorithms, genetic algorithm (GA), $({\mu}+{\lambda})$ and $({\mu},{\lambda})$ evolution strategies (ES), and particle swarm optimization (PSO), that leverage a quality population seed and domain-specific cross-over and mutation operations tailored for the presentation model used for modeling the test scenarios. In order to demonstrate the capabilities of the new test generators within Deeper, we carry out an empirical evaluation and comparison with regard to the results of five participating tools in the cyber-physical systems testing competition at SBST 2021. Our evaluation shows the newly proposed test generators in Deeper not only represent a considerable improvement on the previous version but also prove to be effective and efficient in provoking a considerable number of diverse failure-revealing test scenarios for testing an ML-driven lane-keeping system. They can trigger several failures while promoting test scenario diversity, under a limited test time budget, high target failure severity, and strict speed limit constraints. | 翻訳日:2023-06-07 05:43:52 公開日:2023-06-04 |
# データ効率と解釈可能な表状異常検出 Data-Efficient and Interpretable Tabular Anomaly Detection ( http://arxiv.org/abs/2203.02034v2 ) ライセンス: Link先を確認 | Chun-Hao Chang, Jinsung Yoon, Sercan Arik, Madeleine Udell, Tomas Pfister | (参考訳) 異常検出(AD)は多くのアプリケーションにおいて重要な役割を果たす。
私たちは、現実のアプリケーションに統合するために重要なADの2つの未調査の側面に焦点を当てます。
第一に、ほとんどのADメソッドはラベル付きデータを組み込むことができないが、これは実際に少量で利用可能であり、高いAD精度を達成するために不可欠である。
第二に、ほとんどの広告メソッドは解釈不可能であり、ステークホルダーが異常の背後にある理由を理解するのを妨げるボトルネックである。
本稿では,ホワイトボックスモデルクラスである一般化加法モデルを適用し,ノイズや不均質な特徴を自然に処理する部分識別目的を用いて異常を検出する新しいアドフレームワークを提案する。
さらに、提案フレームワークであるDIADは、ラベル付きデータの少量を組み込んで、半教師付き設定における異常検出性能をさらに向上させることができる。
各種表付きデータセットを用いた教師なし設定と半教師なし設定の両方において、これまでの作業と比較して、我々のフレームワークの優位性を示す。
例えば、5以下のラベル付き異常DIADは、ラベルなしデータからADを学習することで86.2\%から89.4\%に改善される。
また、diadが特定のサンプルを異常と考える理由を説明する洞察的な解釈も提示する。 Anomaly detection (AD) plays an important role in numerous applications. We focus on two understudied aspects of AD that are critical for integration into real-world applications. First, most AD methods cannot incorporate labeled data that are often available in practice in small quantities and can be crucial to achieve high AD accuracy. Second, most AD methods are not interpretable, a bottleneck that prevents stakeholders from understanding the reason behind the anomalies. In this paper, we propose a novel AD framework that adapts a white-box model class, Generalized Additive Models, to detect anomalies using a partial identification objective which naturally handles noisy or heterogeneous features. In addition, the proposed framework, DIAD, can incorporate a small amount of labeled data to further boost anomaly detection performances in semi-supervised settings. We demonstrate the superiority of our framework compared to previous work in both unsupervised and semi-supervised settings using diverse tabular datasets. For example, under 5 labeled anomalies DIAD improves from 86.2\% to 89.4\% AUC by learning AD from unlabeled data. We also present insightful interpretations that explain why DIAD deems certain samples as anomalies. | 翻訳日:2023-06-07 05:42:24 公開日:2023-06-04 |
# MAMLとAnILはおそらく表現を学ぶ MAML and ANIL Provably Learn Representations ( http://arxiv.org/abs/2202.03483v2 ) ライセンス: Link先を確認 | Liam Collins, Aryan Mokhtari, Sewoong Oh and Sanjay Shakkottai | (参考訳) 最近の実証的証拠は、グラデーションベースのメタラーニング(gbml)手法が、タスク間で共有される表現力のあるデータ表現を学習するため、少数の学習でうまく機能すると信じている。
しかし、GBMLの力学は理論的な観点からほとんど謎のままである。
本稿では,MAMLとANILの2つのよく知られたGBML手法と,それらの一階述語近似が与えられたタスク間の共通表現を学習できることを示す。
具体的には、よく知られたマルチタスク線形表現学習環境では、指数関数的に速い速度で基底表現を復元することができる。
さらに,MAMLとANILを誘導する駆動力がモデルの最終層を適応させることで,タスクの多様性を生かし,関心のあらゆる方向の表現を改善することが本分析から明らかとなった。
私たちの知る限り、これらはMAMLおよび/またはANILが表現表現を学習し、その理由を厳格に説明するための最初の結果である。 Recent empirical evidence has driven conventional wisdom to believe that gradient-based meta-learning (GBML) methods perform well at few-shot learning because they learn an expressive data representation that is shared across tasks. However, the mechanics of GBML have remained largely mysterious from a theoretical perspective. In this paper, we prove that two well-known GBML methods, MAML and ANIL, as well as their first-order approximations, are capable of learning common representation among a set of given tasks. Specifically, in the well-known multi-task linear representation learning setting, they are able to recover the ground-truth representation at an exponentially fast rate. Moreover, our analysis illuminates that the driving force causing MAML and ANIL to recover the underlying representation is that they adapt the final layer of their model, which harnesses the underlying task diversity to improve the representation in all directions of interest. To the best of our knowledge, these are the first results to show that MAML and/or ANIL learn expressive representations and to rigorously explain why they do so. | 翻訳日:2023-06-07 05:40:33 公開日:2023-06-04 |
# 訓練やテストデータへのアクセスを必要としない一般化メトリクスによる自然言語処理モデルの評価 Evaluating natural language processing models with generalization metrics that do not need access to any training or testing data ( http://arxiv.org/abs/2202.02842v3 ) ライセンス: Link先を確認 | Yaoqing Yang, Ryan Theisen, Liam Hodgkinson, Joseph E. Gonzalez, Kannan Ramchandran, Charles H. Martin, Michael W. Mahoney | (参考訳) 適切なアーキテクチャパラメータの選択とハイパーパラメータのトレーニングは、機械学習(ML)モデルのパフォーマンス向上に不可欠である。
最近のいくつかの実証研究は、ニューラルネットワーク(nns)の大規模相関分析を行い、このタイプのモデル選択を導く効果的な \emph{generalization metrics} を探索する。
効果的なメトリクスは一般的にテストのパフォーマンスと強く相関することが期待されます。
本稿では, 一般化・メトリックベースモデル選択を目的とし, 先行分析について拡張する。
(i)自然言語処理(NLP)タスクに焦点を合わせ、先行作業は主にコンピュータビジョン(CV)タスクに集中する。
(ii) \emph{ Generalization gap} の代わりに \emph{test error} を直接予測する指標を考える。
(iii) 計算するデータへのアクセスを必要としないメトリクスを探索すること。
これらの目的から,一般化指標を用いて,ハギングフェイスによる大規模事前学習トランスフォーマーの最初のモデル選択結果を提供できる。
分析では,(I)データ量,モデルサイズ,最適化ハイパーパラメータを体系的に変化させ,(II)GPT2,BERTなどを含む8種類のHugingface NLPモデルから,51種類の事前学習トランスフォーマーを,(III)既存の28種類の一般化指標と新規な一般化指標を比較検討した。
ニッチな状況にもかかわらず、ヘビーテール(ht)の観点から得られるメトリクスは特にnlpタスクで有用であり、他の人気のあるメトリクスよりも強い相関を示す。
これらの指標をさらに検討するため、電力法(PL)スペクトル分布に依存する事前定式化を指数関数法(EXP)および指数関数的に歪んだ電力法(E-TPL)系に拡張する。 Selecting suitable architecture parameters and training hyperparameters is essential for enhancing machine learning (ML) model performance. Several recent empirical studies conduct large-scale correlational analysis on neural networks (NNs) to search for effective \emph{generalization metrics} that can guide this type of model selection. Effective metrics are typically expected to correlate strongly with test performance. In this paper, we expand on prior analyses by examining generalization-metric-based model selection with the following objectives: (i) focusing on natural language processing (NLP) tasks, as prior work primarily concentrates on computer vision (CV) tasks; (ii) considering metrics that directly predict \emph{test error} instead of the \emph{generalization gap}; (iii) exploring metrics that do not need access to data to compute. From these objectives, we are able to provide the first model selection results on large pretrained Transformers from Huggingface using generalization metrics. Our analyses consider (I) hundreds of Transformers trained in different settings, in which we systematically vary the amount of data, the model size and the optimization hyperparameters, (II) a total of 51 pretrained Transformers from eight families of Huggingface NLP models, including GPT2, BERT, etc., and (III) a total of 28 existing and novel generalization metrics. Despite their niche status, we find that metrics derived from the heavy-tail (HT) perspective are particularly useful in NLP tasks, exhibiting stronger correlations than other, more popular metrics. To further examine these metrics, we extend prior formulations relying on power law (PL) spectral distributions to exponential (EXP) and exponentially-truncated power law (E-TPL) families. | 翻訳日:2023-06-07 05:40:13 公開日:2023-06-04 |
# テキスト分類は本当に大きく進歩しているのか?
比較レビュー Are We Really Making Much Progress in Text Classification? A Comparative Review ( http://arxiv.org/abs/2204.03954v5 ) ライセンス: Link先を確認 | Lukas Galke, Andor Diera, Bao Xin Lin, Bhakti Khera, Tim Meuser, Tushar Singhal, Fabian Karl, Ansgar Scherp | (参考訳) 本研究は,単音節と複数音節のテキスト分類の手法をレビュー・比較し,その手法を単語のバガオブワード,シーケンスベース,グラフベース,階層的手法に分類した。
この比較は、5つのシングルラベルと7つのマルチラベルデータセットの文献を集計し、それらを新しい実験で補完する。
その結果、最近提案されたグラフベースおよび階層ベース手法はすべて、事前学習された言語モデルよりも優れておらず、時として、多層パーセプトロンのような標準的な機械学習手法よりもパフォーマンスが悪くなることが判明した。
テキスト分類の真の科学的進歩を評価するために、将来の研究は、強固な単語ベースラインと最先端の事前学習言語モデルに対して徹底的にテストされるべきである。 This study reviews and compares methods for single-label and multi-label text classification, categorized into bag-of-words, sequence-based, graph-based, and hierarchical methods. The comparison aggregates results from the literature over five single-label and seven multi-label datasets and complements them with new experiments. The findings reveal that all recently proposed graph-based and hierarchy-based methods fail to outperform pre-trained language models and sometimes perform worse than standard machine learning methods like a multilayer perceptron on a bag-of-words. To assess the true scientific progress in text classification, future work should thoroughly test against strong bag-of-words baselines and state-of-the-art pre-trained language models. | 翻訳日:2023-06-07 05:33:56 公開日:2023-06-04 |
# 特徴の関連性を明らかにするためのセットメンバーシップアプローチとニューラルクラシファイア決定の解説 A Set Membership Approach to Discovering Feature Relevance and Explaining Neural Classifier Decisions ( http://arxiv.org/abs/2204.02241v2 ) ライセンス: Link先を確認 | Stavros P. Adam, Aristidis C. Likas | (参考訳) ニューラル分類器は、学習した特定の問題に対して、パターンのクラスを決定する非線形システムである。
各パターンの分類器によって計算された出力は、未知の関数の出力の近似を構成し、パターンデータをそれぞれのクラスにマッピングする。
このような関数の知識の欠如と神経分類器の複雑さ、特にこれらがディープラーニングアーキテクチャである場合、特定の予測が行われたかに関する情報を得ることができない。
したがって、これらの強力な学習システムはブラックボックスと見なされ、重要なアプリケーションではそれらの使用は不適切と見なされる傾向がある。
このようなブラックボックス操作についての洞察を得ることは、神経分類器の操作を解釈し、その決定の妥当性を評価するための一つのアプローチとなる。
本稿では,訓練されたニューラル分類器がどの特徴を関連づけているか,どの特徴が分類器の出力にどう影響するか,という新たな手法を導入し,その決定について説明する。
機械学習の文献では特徴的関連性が注目されているが,本論文では,区間分析に基づく集合メンバシップアプローチを対象とする非線形パラメータ推定について再考する。
そこで,提案手法は健全な数学的アプローチに基づいて構築され,その結果は分類者の決定前提の信頼性を推定する。 Neural classifiers are non linear systems providing decisions on the classes of patterns, for a given problem they have learned. The output computed by a classifier for each pattern constitutes an approximation of the output of some unknown function, mapping pattern data to their respective classes. The lack of knowledge of such a function along with the complexity of neural classifiers, especially when these are deep learning architectures, do not permit to obtain information on how specific predictions have been made. Hence, these powerful learning systems are considered as black boxes and in critical applications their use tends to be considered inappropriate. Gaining insight on such a black box operation constitutes a one way approach in interpreting operation of neural classifiers and assessing the validity of their decisions. In this paper we tackle this problem introducing a novel methodology for discovering which features are considered relevant by a trained neural classifier and how they affect the classifier's output, thus obtaining an explanation on its decision. Although, feature relevance has received much attention in the machine learning literature here we reconsider it in terms of nonlinear parameter estimation targeted by a set membership approach which is based on interval analysis. Hence, the proposed methodology builds on sound mathematical approaches and the results obtained constitute a reliable estimation of the classifier's decision premises. | 翻訳日:2023-06-07 05:33:10 公開日:2023-06-04 |
# 神経埋め込みによる周囲からの音声の分離 Disentangling speech from surroundings with neural embeddings ( http://arxiv.org/abs/2203.15578v2 ) ライセンス: Link先を確認 | Ahmed Omran, Neil Zeghidour, Zal\'an Borsos, F\'elix de Chaumont Quitry, Malcolm Slaney, Marco Tagliasacchi | (参考訳) 本稿では,ニューラルオーディオコーデックの埋め込み空間における雑音環境から音声信号を分離する手法を提案する。
そこで本研究では,組込みベクトルが音声信号を表す場合,組込みベクトルの一部が環境を表す場合,組込みベクトルによって与えられる音声波形の構造化符号化を行うための新しい学習手順を提案する。
異なる入力波形の埋め込みを分割し、混合したパーティションから音声を忠実に再構築するためにモデルをトレーニングすることで、各パーティションが別のオーディオ属性を符号化できるようにする。
使用例として,背景雑音や残響特性からの音声の分離を示す。
また,音声出力特性を目標に調整することも可能である。 We present a method to separate speech signals from noisy environments in the embedding space of a neural audio codec. We introduce a new training procedure that allows our model to produce structured encodings of audio waveforms given by embedding vectors, where one part of the embedding vector represents the speech signal, and the rest represent the environment. We achieve this by partitioning the embeddings of different input waveforms and training the model to faithfully reconstruct audio from mixed partitions, thereby ensuring each partition encodes a separate audio attribute. As use cases, we demonstrate the separation of speech from background noise or from reverberation characteristics. Our method also allows for targeted adjustments of the audio output characteristics. | 翻訳日:2023-06-07 05:30:59 公開日:2023-06-04 |
# フェアラベルクラスタリング Fair Labeled Clustering ( http://arxiv.org/abs/2205.14358v2 ) ライセンス: Link先を確認 | Seyed A. Esmaeili, Sharmila Duppala, John P. Dickerson, Brian Brubach | (参考訳) 様々なフェアネスの概念の下でクラスタリングの基本的な問題のために多くのアルゴリズムが作成されている。
おそらく、現在研究されている最も一般的な概念の族は群フェアネスであり、比例群表現はすべてのクラスターで保証される。
このような状況下でのクラスタ化の下流適用と,グループフェア性を保証する方法を考えることで,この方向を拡張する。
具体的には、意思決定者がクラスタリングアルゴリズムを実行し、各クラスタの中央を検査し、対応するクラスタの適切な結果(ラベル)を決定する共通設定を検討する。
例えば、採用する場合には、正(hire)と負(reject)の2つの結果があり、各クラスタには2つの結果のうちの1つが割り当てられる。
このような設定でグループフェア性を確保するためには、すべてのラベルに比例するグループ表現を希望するが、グループフェアクラスタリングで行われているように、すべてのクラスタで必ずしもそうではない。
このような問題に対するアルゴリズムを提供し,グループフェアクラスタリングにおけるnp-hard対応とは対照的に,効率的な解法を実現できることを示す。
また, 計量空間における中心の位置に関係なく, 意思決定者が自由にクラスタにラベルを割り当てることができるような, モチベーションの高い代替設定も検討する。
この設定は,問題に対する追加的な制約により計算困難から容易への興味深い遷移を示す。
さらに、制約パラメータが自然の値を取ると、常に最適なクラスタリングを達成し、期待される公正性制約を満たすこの設定に対するランダム化アルゴリズムを示す。
最後に,実世界のデータセットで実験を行い,アルゴリズムの有効性を検証する。 Numerous algorithms have been produced for the fundamental problem of clustering under many different notions of fairness. Perhaps the most common family of notions currently studied is group fairness, in which proportional group representation is ensured in every cluster. We extend this direction by considering the downstream application of clustering and how group fairness should be ensured for such a setting. Specifically, we consider a common setting in which a decision-maker runs a clustering algorithm, inspects the center of each cluster, and decides an appropriate outcome (label) for its corresponding cluster. In hiring for example, there could be two outcomes, positive (hire) or negative (reject), and each cluster would be assigned one of these two outcomes. To ensure group fairness in such a setting, we would desire proportional group representation in every label but not necessarily in every cluster as is done in group fair clustering. We provide algorithms for such problems and show that in contrast to their NP-hard counterparts in group fair clustering, they permit efficient solutions. We also consider a well-motivated alternative setting where the decision-maker is free to assign labels to the clusters regardless of the centers' positions in the metric space. We show that this setting exhibits interesting transitions from computationally hard to easy according to additional constraints on the problem. Moreover, when the constraint parameters take on natural values we show a randomized algorithm for this setting that always achieves an optimal clustering and satisfies the fairness constraints in expectation. Finally, we run experiments on real world datasets that validate the effectiveness of our algorithms. | 翻訳日:2023-06-07 05:24:21 公開日:2023-06-04 |
# UnifieR: 大規模検索のための統一検索ツール UnifieR: A Unified Retriever for Large-Scale Retrieval ( http://arxiv.org/abs/2205.11194v2 ) ライセンス: Link先を確認 | Tao Shen, Xiubo Geng, Chongyang Tao, Can Xu, Guodong Long, Kai Zhang, Daxin Jiang | (参考訳) 大規模な検索は、クエリを与えられた巨大なコレクションから関連するドキュメントをリコールする。
ドキュメントやクエリを共通のセマンティックエンコーディング空間に埋め込むための表現学習に依存している。
符号化空間によれば, 事前学習言語モデル(PLM)に基づく最近の検索手法は, 密度ベクターあるいはレキシコンに基づくパラダイムに大別することができる。
これらの2つのパラダイムは、PLMの表現能力を異なる粒度、すなわちグローバルシーケンスレベルの圧縮とローカルワードレベルのコンテキストで表す。
そこで我々は,2つの表現能力を持つ1つのモデルにおいて,高密度ベクトルとレキシコンに基づく検索を統一する学習フレームワークUnifieRを提案する。
パッセージ検索ベンチマーク実験は両パラダイムにおいてその効果を検証している。
uni-retrievalスキームは、さらに優れた検索品質で示される。
最後に、このモデルをBEIRベンチマークで評価し、転送性を検証する。 Large-scale retrieval is to recall relevant documents from a huge collection given a query. It relies on representation learning to embed documents and queries into a common semantic encoding space. According to the encoding space, recent retrieval methods based on pre-trained language models (PLM) can be coarsely categorized into either dense-vector or lexicon-based paradigms. These two paradigms unveil the PLMs' representation capability in different granularities, i.e., global sequence-level compression and local word-level contexts, respectively. Inspired by their complementary global-local contextualization and distinct representing views, we propose a new learning framework, UnifieR which unifies dense-vector and lexicon-based retrieval in one model with a dual-representing capability. Experiments on passage retrieval benchmarks verify its effectiveness in both paradigms. A uni-retrieval scheme is further presented with even better retrieval quality. We lastly evaluate the model on BEIR benchmark to verify its transferability. | 翻訳日:2023-06-07 05:22:36 公開日:2023-06-04 |
# Heterformer:異種テキストリッチネットワークを用いたトランスフォーマーに基づくディープノード表現学習 Heterformer: Transformer-based Deep Node Representation Learning on Heterogeneous Text-Rich Networks ( http://arxiv.org/abs/2205.10282v2 ) ライセンス: Link先を確認 | Bowen Jin, Yu Zhang, Qi Zhu, Jiawei Han | (参考訳) ネットワーク上での表現学習は,各ノードに対して有意義なベクトル表現を導出することを目的として,リンク予測やノード分類,ノードクラスタリングといった下流タスクを容易にする。
ヘテロジニアスなテキストリッチネットワークでは、(1)テキストの有無、(2)リッチなテキスト情報に関連付けられたノード、(2)複数のタイプのノードとエッジの多様性が異質なネットワーク構造を形成する、という課題がある。
事前学習された言語モデル(PLM)は、広く一般化可能なテキスト表現を得る上での有効性を示したため、PLMをテキストリッチネットワーク上での表現学習に組み込むことにかなりの努力が払われている。
しかし、各ノードの豊富なテキスト意味情報だけでなく、異種構造(ネットワーク)情報も効果的に検討できるものはほとんどない。
本稿では,コンテキスト化されたテキストエンコーディングとヘテロジニアスな構造エンコーディングを行うヘテロジニアス・ネットワーク駆動トランスフォーマを提案する。
具体的には、ノードテキストを符号化する際、トランスフォーマー層に異種構造情報を注入する。
一方、heterformerは、node/edge型の不均一性を特徴付け、テキストの有無にかかわらずノードをエンコーディングすることができる。
異なるドメインの3つの大規模データセット上で,3つのタスク(リンク予測,ノード分類,ノードクラスタリング)に関する総合的な実験を行い,heterformerが競合ベースラインを著しくかつ一貫して上回っている。 Representation learning on networks aims to derive a meaningful vector representation for each node, thereby facilitating downstream tasks such as link prediction, node classification, and node clustering. In heterogeneous text-rich networks, this task is more challenging due to (1) presence or absence of text: Some nodes are associated with rich textual information, while others are not; (2) diversity of types: Nodes and edges of multiple types form a heterogeneous network structure. As pretrained language models (PLMs) have demonstrated their effectiveness in obtaining widely generalizable text representations, a substantial amount of effort has been made to incorporate PLMs into representation learning on text-rich networks. However, few of them can jointly consider heterogeneous structure (network) information as well as rich textual semantic information of each node effectively. In this paper, we propose Heterformer, a Heterogeneous Network-Empowered Transformer that performs contextualized text encoding and heterogeneous structure encoding in a unified model. Specifically, we inject heterogeneous structure information into each Transformer layer when encoding node texts. Meanwhile, Heterformer is capable of characterizing node/edge type heterogeneity and encoding nodes with or without texts. We conduct comprehensive experiments on three tasks (i.e., link prediction, node classification, and node clustering) on three large-scale datasets from different domains, where Heterformer outperforms competitive baselines significantly and consistently. | 翻訳日:2023-06-07 05:22:22 公開日:2023-06-04 |
# 低偽陽性条件におけるマルウェア分類と抗ウイルス Stealing and Evading Malware Classifiers and Antivirus at Low False Positive Conditions ( http://arxiv.org/abs/2204.06241v2 ) ライセンス: Link先を確認 | Maria Rigaki and Sebastian Garcia | (参考訳) モデル盗難攻撃は多くの機械学習ドメインで成功したが、これらの攻撃がマルウェア検出を行うモデルに対してどのように動作するかはほとんど理解されていない。
マルウェア検出やセキュリティドメインには独自の条件がある。
特に、低い偽陽性率(FPR)に対する強い要求がある。
機械学習を利用するアンチウイルス製品(AV)は盗むための非常に複雑なシステムであり、マルウェアのバイナリは継続的に変化し、環境全体が自然に逆らう。
本研究は、市販のスタンドアロン機械学習マルウェア分類器およびアンチウイルス製品に対するアクティブラーニングモデル盗み攻撃を評価する。
本研究では,surrogate model(dualffnn)のためのニューラルネットワークアーキテクチャと,surrogate creation(ffnn-tl)のための転送とアクティブラーニングを組み合わせた新しいモデル盗み攻撃を提案する。
従来のトレーニングデータセットの4%以下を用いて,対象モデルとの99\%の一致で,スタンドアローン分類器の優れたサロゲートを実現した。
AVシステムの優れたサロゲートも、最大99%の合意と4,000のクエリでトレーニングされた。
この研究は最高のサロゲートを使って、(インターネット接続なしで)スタンドアロンとAVの両方のターゲットモデルを避けるために、敵のマルウェアを生成する。
その結果, サロゲートモデルでは, ターゲットを回避できるが, ターゲットモデルを直接使用するよりも成功率が低い敵マルウェアを生成できることがわかった。
しかし、avsをマルウェア生成に使用するのは非常に時間がかかり、avsがインターネットに接続されている時に簡単に検出できるため、surrogatesの使用は依然として良い選択である。 Model stealing attacks have been successfully used in many machine learning domains, but there is little understanding of how these attacks work against models that perform malware detection. Malware detection and, in general, security domains have unique conditions. In particular, there are very strong requirements for low false positive rates (FPR). Antivirus products (AVs) that use machine learning are very complex systems to steal, malware binaries continually change, and the whole environment is adversarial by nature. This study evaluates active learning model stealing attacks against publicly available stand-alone machine learning malware classifiers and also against antivirus products. The study proposes a new neural network architecture for surrogate models (dualFFNN) and a new model stealing attack that combines transfer and active learning for surrogate creation (FFNN-TL). We achieved good surrogates of the stand-alone classifiers with up to 99\% agreement with the target models, using less than 4% of the original training dataset. Good surrogates of AV systems were also trained with up to 99% agreement and less than 4,000 queries. The study uses the best surrogates to generate adversarial malware to evade the target models, both stand-alone and AVs (with and without an internet connection). Results show that surrogate models can generate adversarial malware that evades the targets but with a lower success rate than directly using the target models to generate adversarial malware. Using surrogates, however, is still a good option since using the AVs for malware generation is highly time-consuming and easily detected when the AVs are connected to the internet. | 翻訳日:2023-06-07 05:20:59 公開日:2023-06-04 |
# タイミングはすべて:コストのかかる行動と予算制約で選択的に行動することを学ぶ Timing is Everything: Learning to Act Selectively with Costly Actions and Budgetary Constraints ( http://arxiv.org/abs/2205.15953v4 ) ライセンス: Link先を確認 | David Mguni, Aivar Sootla, Juliusz Ziomek, Oliver Slumbers, Zipeng Dai, Kun Shao, Jun Wang | (参考訳) 多くの現実世界の設定では、アクションの実行にコストがかかり、金融システムのトランザクションコストや燃料コストが一般的な例である。
これらの設定では、各ステップでのアクションの実行は、すぐにコストを蓄積し、非常に低い結果をもたらす。
さらに、反復的な演技は、摩耗と涙を生じさせ、最終的にダメージを与える。
textit{when to act} の決定は成功には不可欠であるが、最小の有界コストを伴わないアクションが最適に振る舞うことの課題は解決されていない。
本稿では,行動時と行動時の両方を最適に選択するために,強化学習(RL)フレームワークであるtextbf{L}earnable \textbf{I}mpulse \textbf{C}ontrol \textbf{R}einforcement \textbf{A}lgorithm (licRA)を導入する。
licraの中核は、rlと \textit{impulse control}として知られるポリシーを結合したネスト構造であり、アクションがコストが発生すると目的を最大化するために学習する。
我々は,任意のRL法をシームレスに採用したlicRAが,動作のタイミングと最適等級を最適に選択するポリシーに収束していることを証明する。
次に、エージェントが最大$k<\infty$アクションで実行できる問題に対処するためにlicRAを増強し、より一般的には予算制約に直面します。
licRAが最適値関数を学習し、予算制約がほぼ確実に満たされることを示す。
我々は,openai gym の \textit{lunar lander} と \textit{highway} 環境でのベンチマーク rl メソッドに対する licra の優れた性能と,金融における merton portfolio 問題の変種を示す。 Many real-world settings involve costs for performing actions; transaction costs in financial systems and fuel costs being common examples. In these settings, performing actions at each time step quickly accumulates costs leading to vastly suboptimal outcomes. Additionally, repeatedly acting produces wear and tear and ultimately, damage. Determining \textit{when to act} is crucial for achieving successful outcomes and yet, the challenge of efficiently \textit{learning} to behave optimally when actions incur minimally bounded costs remains unresolved. In this paper, we introduce a reinforcement learning (RL) framework named \textbf{L}earnable \textbf{I}mpulse \textbf{C}ontrol \textbf{R}einforcement \textbf{A}lgorithm (LICRA), for learning to optimally select both when to act and which actions to take when actions incur costs. At the core of LICRA is a nested structure that combines RL and a form of policy known as \textit{impulse control} which learns to maximise objectives when actions incur costs. We prove that LICRA, which seamlessly adopts any RL method, converges to policies that optimally select when to perform actions and their optimal magnitudes. We then augment LICRA to handle problems in which the agent can perform at most $k<\infty$ actions and more generally, faces a budget constraint. We show LICRA learns the optimal value function and ensures budget constraints are satisfied almost surely. We demonstrate empirically LICRA's superior performance against benchmark RL methods in OpenAI gym's \textit{Lunar Lander} and in \textit{Highway} environments and a variant of the Merton portfolio problem within finance. | 翻訳日:2023-06-07 05:13:35 公開日:2023-06-04 |
# リワードマシンの階層性 Hierarchies of Reward Machines ( http://arxiv.org/abs/2205.15752v2 ) ライセンス: Link先を確認 | Daniel Furelos-Blanco, Mark Law, Anders Jonsson, Krysia Broda, Alessandra Russo | (参考訳) Reward Machine(RM)は、高レベルイベントを用いてタスクのサブゴールを符号化した有限状態マシンを通じて強化学習タスクの報酬関数を表現するための最近のフォーマリズムである。
RMの構造は、タスクを単純かつ独立に解けるサブタスクに分解し、長い水平および/またはスパース報酬タスクに取り組むのに役立つ。
本稿では,RMを他のRMを呼ばせることによってサブタスク構造をさらに抽象化するフォーマリズムを提案し,RMの階層構造を構成する。
我々は、オプションフレームワークを用いてRMへの各呼び出しを独立して解決可能なサブタスクとして扱い、エージェントが観測したトレースからHRMを学習するためのカリキュラムベースの方法を記述する。
実験の結果,手作り HRM を活用すれば,平面 HRM よりも高速な収束が得られ,等価な平坦表現が存在しない場合には,HRM の学習が実現可能であることがわかった。 Reward machines (RMs) are a recent formalism for representing the reward function of a reinforcement learning task through a finite-state machine whose edges encode subgoals of the task using high-level events. The structure of RMs enables the decomposition of a task into simpler and independently solvable subtasks that help tackle long-horizon and/or sparse reward tasks. We propose a formalism for further abstracting the subtask structure by endowing an RM with the ability to call other RMs, thus composing a hierarchy of RMs (HRM). We exploit HRMs by treating each call to an RM as an independently solvable subtask using the options framework, and describe a curriculum-based method to learn HRMs from traces observed by the agent. Our experiments reveal that exploiting a handcrafted HRM leads to faster convergence than with a flat HRM, and that learning an HRM is feasible in cases where its equivalent flat representation is not. | 翻訳日:2023-06-07 05:12:57 公開日:2023-06-04 |
# 属性除去サブネットによるモジュール・オンデマンドバイアス低減 Modular and On-demand Bias Mitigation with Attribute-Removal Subnetworks ( http://arxiv.org/abs/2205.15171v5 ) ライセンス: Link先を確認 | Lukas Hauzenberger, Shahed Masoudian, Deepak Kumar, Markus Schedl, Navid Rekabsaz | (参考訳) 社会バイアスは、大きな事前学習された言語モデルと下流タスクの微調整されたバージョンに反映される。
逆行訓練や相互情報除去といった一般的なプロセス内バイアス軽減手法は、さらなる最適化基準を導入し、新しいバイアス状態に到達するためにモデルを更新する。
しかし、実際には、エンドユーザと実践者は元のモデルに切り替えるか、保護された属性の特定のサブセットのみにデバイアスを適用することを好みます。
そこで本研究では,各デバイアスモジュールをオンデマンドでコアモデルに統合可能な,スタンドアローンの高度疎脱バイアスサブネットワークからなる,新しいモジュラーバイアス緩和手法を提案する。
提案手法は,<emph{diff> pruningの概念から導き出され,様々な表現不等角化最適化に適応可能な新しいトレーニングレジームを提案する。
我々は、性別、人種、年齢の3つの分類タスクを保護属性として実験する。
その結果、タスク性能を維持しながら、我々のモジュラーアプローチは、ベースラインファインタニングと比較してバイアス軽減の効果を向上(少なくともそれと同等に)することを示した。
特に2属性のデータセットでは、個別に学習したデバイアスサブネットを用いたアプローチは、選択バイアス軽減のためのサブネットの有効利用を示す。 Societal biases are reflected in large pre-trained language models and their fine-tuned versions on downstream tasks. Common in-processing bias mitigation approaches, such as adversarial training and mutual information removal, introduce additional optimization criteria, and update the model to reach a new debiased state. However, in practice, end-users and practitioners might prefer to switch back to the original model, or apply debiasing only on a specific subset of protected attributes. To enable this, we propose a novel modular bias mitigation approach, consisting of stand-alone highly sparse debiasing subnetworks, where each debiasing module can be integrated into the core model on-demand at inference time. Our approach draws from the concept of \emph{diff} pruning, and proposes a novel training regime adaptable to various representation disentanglement optimizations. We conduct experiments on three classification tasks with gender, race, and age as protected attributes. The results show that our modular approach, while maintaining task performance, improves (or at least remains on-par with) the effectiveness of bias mitigation in comparison with baseline finetuning. Particularly on a two-attribute dataset, our approach with separately learned debiasing subnetworks shows effective utilization of either or both the subnetworks for selective bias mitigation. | 翻訳日:2023-06-07 05:12:39 公開日:2023-06-04 |
# スコア型生成モデルの保守的性質の検討 On Investigating the Conservative Property of Score-Based Generative Models ( http://arxiv.org/abs/2209.12753v3 ) ライセンス: Link先を確認 | Chen-Hao Chao, Wei-Fang Sun, Bo-Wun Cheng, Chun-Yi Lee | (参考訳) 既存のスコアベースモデル(SBM)は、パラメータ化アプローチに従って制約付きSBM(CSBM)または制約なしSBM(USBM)に分類される。
csbmsモデル確率密度関数をボルツマン分布とし、それらの予測をスカラー値エネルギー関数の負の勾配として割り当てる。
一方、USBMはエネルギー関数を明示的にモデル化することなくスコアを直接推定できる柔軟なアーキテクチャを採用している。
本稿では,CSBMのアーキテクチャ上の制約がモデリング能力を制限することを実証する。
さらに,USBMの保守性維持能力の低下は,実際に性能低下につながる可能性が示唆された。
以上の課題に対処するため、CSBMとUSBMの両方の利点を維持するために、準保守スコアベースモデル(QCSBM)を提案する。
理論的導出は, ハッチンソンのトレース推定器を利用して, qcsbmsの訓練目標を効率的に訓練プロセスに統合できることを示す。
さらに, CIFAR-10, CIFAR-100, ImageNet, SVHNデータセットによる実験結果から, QCSBMの有効性を検証した。
最後に、一層オートエンコーダの例を用いてQCSBMの利点を正当化する。 Existing Score-Based Models (SBMs) can be categorized into constrained SBMs (CSBMs) or unconstrained SBMs (USBMs) according to their parameterization approaches. CSBMs model probability density functions as Boltzmann distributions, and assign their predictions as the negative gradients of some scalar-valued energy functions. On the other hand, USBMs employ flexible architectures capable of directly estimating scores without the need to explicitly model energy functions. In this paper, we demonstrate that the architectural constraints of CSBMs may limit their modeling ability. In addition, we show that USBMs' inability to preserve the property of conservativeness may lead to degraded performance in practice. To address the above issues, we propose Quasi-Conservative Score-Based Models (QCSBMs) for keeping the advantages of both CSBMs and USBMs. Our theoretical derivations demonstrate that the training objective of QCSBMs can be efficiently integrated into the training processes by leveraging the Hutchinson's trace estimator. In addition, our experimental results on the CIFAR-10, CIFAR-100, ImageNet, and SVHN datasets validate the effectiveness of QCSBMs. Finally, we justify the advantage of QCSBMs using an example of a one-layered autoencoder. | 翻訳日:2023-06-07 04:43:57 公開日:2023-06-04 |
# フロッケ工学双極子アンサンブルにおける局所熱化ダイナミクスの制御 Controlling local thermalization dynamics in a Floquet-engineered dipolar ensemble ( http://arxiv.org/abs/2209.09297v2 ) ライセンス: Link先を確認 | Leigh S. Martin, Hengyun Zhou, Nathaniel T. Leitao, Nishad Maskara, Oksana Makarova, Haoyang Gao, Qian-Ze Zhu, Mincheol Park, Matthew Tyler, Hongkun Park, Soonwon Choi, and Mikhail D. Lukin | (参考訳) 閉じた量子系における熱分解の微視的メカニズムを理解することは、現代の量子多体物理学における重要な課題である。
本研究は, 大規模多体系における局所熱化を, その特性を生かして探索し, 可変相互作用を有する3次元双極子相互作用スピン系における熱化機構を明らかにする方法である。
高度なハミルトニアン工学技術を用いて様々なスピンハミルトニアンを探索し、エンジニアリングされた交換異方性を変化させるにつれて、特性形状と局所相関減衰の時間スケールの顕著な変化を観察する。
これらの観測は、系の固有多体力学に由来することを示し、グローバルプローブでは容易には現れないスピンの局所化されたクラスター内の保存則の署名を明らかにする。
本手法は局所熱化ダイナミクスの調整可能な性質に精巧なレンズを提供し, 強相互作用量子系におけるスクランブル, 熱化, 流体力学の詳細な研究を可能にする。 Understanding the microscopic mechanisms of thermalization in closed quantum systems is among the key challenges in modern quantum many-body physics. We demonstrate a method to probe local thermalization in a large-scale many-body system by exploiting its inherent disorder, and use this to uncover the thermalization mechanisms in a three-dimensional, dipolar-interacting spin system with tunable interactions. Utilizing advanced Hamiltonian engineering techniques to explore a range of spin Hamiltonians, we observe a striking change in the characteristic shape and timescale of local correlation decay as we vary the engineered exchange anisotropy. We show that these observations originate from the system's intrinsic many-body dynamics and reveal the signatures of conservation laws within localized clusters of spins, which do not readily manifest using global probes. Our method provides an exquisite lens into the tunable nature of local thermalization dynamics, and enables detailed studies of scrambling, thermalization and hydrodynamics in strongly-interacting quantum systems. | 翻訳日:2023-06-07 04:42:48 公開日:2023-06-04 |
# 量子非分解測定による原子スクイーズ生成へのハイブリッド近似アプローチ Hybrid approximation approach to generation of atomic squeezing with quantum nondemolition measurements ( http://arxiv.org/abs/2209.07915v2 ) ライセンス: Link先を確認 | Ebubechukwu O. Ilo-Okeke, Manikandan Kondappan, Ping Chen, Yuping Mao, Valentin Ivannikov and Tim Byrnes | (参考訳) 量子非退化測定を用いて,二重井戸トラップにおけるボース・アインシュタイン凝縮体のスクイーズを誘導する手法を解析した。
前回の論文 [ilo-okeke et al.] では
Phys
A \textbf{104}, 053324 (2021)], 我々は全ての原子-光相互作用時間の波動関数を正確に解くモデルを導入した。
ここでは,スクイージングの生成に関係する短い相互作用時間系の近似を行う。
我々のアプローチでは、光変数を正確に扱いながら、原子のホルシュタイン・プリマコフ近似を用いる。
これは, 凝縮状態が偶数パリティ状態の重ね合わせとして表される凝縮状態内の相関を, 測定が誘導することを示すことを可能にする。
長い相互作用時間体制では,相関の喪失のメカニズムを同定することができる。
測定結果に条件付けられた原子スピン変数の分散に対する単純な式を導出する。
短い相互作用時間体制における正確な解と結果が一致していることが分かる。
さらに,この式は原子の分散と測定値の和であることを示す。
短い相互作用時間体制を超えて、我々のスキームは光に結合するスピン変数の正確な解と定性的に一致する。 We analyze a scheme that uses quantum nondemolition measurements to induce squeezing of a spinor Bose-Einstein condensate in a double well trap. In a previous paper [Ilo-Okeke et al. Phys. Rev. A \textbf{104}, 053324 (2021)], we introduced a model to solve exactly the wavefunction for all atom-light interaction times. Here, we perform approximations for the short interaction time regime, which is relevant for producing squeezing. Our approach uses a Holstein-Primakoff approximation for the atoms while we treat the light variables exactly. It allows us to show that the measurement induces correlations within the condensate, which manifest in the state of the condensate as a superposition of even parity states. In the long interaction time regime, our methods allow us to identify the mechanism for loss of correlation. We derive simple expressions for the variances of atomic spin variables conditioned on the measurement outcome. We find that the results agree with the exact solution in the short interaction time regime. Additionally, we show that the expressions are the sum of the variances of the atoms and the measurement. Beyond the short interaction time regime, our scheme agrees qualitatively with the exact solution for the spin variable that couples to light. | 翻訳日:2023-06-07 04:42:29 公開日:2023-06-04 |
# 競合強度の順序的潜在変数モデル An Ordinal Latent Variable Model of Conflict Intensity ( http://arxiv.org/abs/2210.03971v2 ) ライセンス: Link先を確認 | Niklas Stoehr, Lucas Torroba Hennigen, Josef Valvoda, Robert West, Ryan Cotterell, Aaron Schein | (参考訳) 武力衝突の監視と追跡には、イベントの強度の測定が不可欠である。
自動イベント抽出の進歩により、データ駆動による競合監視を可能にする“誰に何をしたか”という大規模なデータセットが生まれている。
ゴールドスタインスケール(Goldstein scale)は、紛争と協力の規模でイベントをスコアする専門家ベースの尺度である。
これはアクションカテゴリ("What")のみに基づいており、イベントの主題("who")と対象("to who")だけでなく、関連するカジュアリティカウントのようなコンテキスト情報も無視し、イベントの"intensity"に対する認識に寄与すべきである。
本稿では、競合強度を測定するために潜伏変数に基づくアプローチをとる。
我々は,各観測事象が潜在強度クラスと関連していると仮定した確率的生成モデルを導入する。
このモデルの新しい側面は、高い値のクラスがより高いレベルの強度を示すように、クラスに順序付けを課すことである。
潜在変数の順序性は、高い値が自然に高い強度を示すデータ(例えば、カジュアル数)の自然に順序付けられた側面から誘導される。
提案手法は本質的および外部的に評価し, 比較的良好な予測性能が得られることを示した。 Measuring the intensity of events is crucial for monitoring and tracking armed conflict. Advances in automated event extraction have yielded massive data sets of "who did what to whom" micro-records that enable data-driven approaches to monitoring conflict. The Goldstein scale is a widely-used expert-based measure that scores events on a conflictual-cooperative scale. It is based only on the action category ("what") and disregards the subject ("who") and object ("to whom") of an event, as well as contextual information, like associated casualty count, that should contribute to the perception of an event's "intensity". This paper takes a latent variable-based approach to measuring conflict intensity. We introduce a probabilistic generative model that assumes each observed event is associated with a latent intensity class. A novel aspect of this model is that it imposes an ordering on the classes, such that higher-valued classes denote higher levels of intensity. The ordinal nature of the latent variable is induced from naturally ordered aspects of the data (e.g., casualty counts) where higher values naturally indicate higher intensity. We evaluate the proposed model both intrinsically and extrinsically, showing that it obtains comparatively good held-out predictive performance. | 翻訳日:2023-06-07 04:34:32 公開日:2023-06-04 |
# 幾何学的複素PDEを解くための統一ハード制約フレームワーク A Unified Hard-Constraint Framework for Solving Geometrically Complex PDEs ( http://arxiv.org/abs/2210.03526v6 ) ライセンス: Link先を確認 | Songming Liu, Zhongkai Hao, Chengyang Ying, Hang Su, Jun Zhu, Ze Cheng | (参考訳) 本稿では,最もよく用いられるディリクレ,ノイマン,ロビン境界条件(bcs)を考えるニューラルネットワークを用いて,幾何学的に複雑なpdesを解決するための統一的ハードコンストラクションフレームワークを提案する。
具体的には、まず混合有限要素法から「外部場」を導入し、3種類のBCを線形方程式に等価に変換するためにPDEを再構成する。
改革に基づいて、BCの一般的な解を解析的に導き、BCに自動的に満足するアンザッツを構築するために使用される。
このようなフレームワークを用いることで、余分な損失項を加えることなくニューラルネットワークをトレーニングし、幾何学的に複雑なPDEを効率的に処理し、BCとPDEに対応する損失項間の不均衡な競合を軽減することができる。
理論上は,「エクストラフィールド」がトレーニングプロセスを安定化できることを実証する。
実世界の幾何学的複素PDEの実験結果は,最先端のベースラインと比較して,本手法の有効性を示した。 We present a unified hard-constraint framework for solving geometrically complex PDEs with neural networks, where the most commonly used Dirichlet, Neumann, and Robin boundary conditions (BCs) are considered. Specifically, we first introduce the "extra fields" from the mixed finite element method to reformulate the PDEs so as to equivalently transform the three types of BCs into linear equations. Based on the reformulation, we derive the general solutions of the BCs analytically, which are employed to construct an ansatz that automatically satisfies the BCs. With such a framework, we can train the neural networks without adding extra loss terms and thus efficiently handle geometrically complex PDEs, alleviating the unbalanced competition between the loss terms corresponding to the BCs and PDEs. We theoretically demonstrate that the "extra fields" can stabilize the training process. Experimental results on real-world geometrically complex PDEs showcase the effectiveness of our method compared with state-of-the-art baselines. | 翻訳日:2023-06-07 04:34:11 公開日:2023-06-04 |
# 自分に教える:ノード分類のためのグラフ自己蒸留 Teaching Yourself: Graph Self-Distillation on Neighborhood for Node Classification ( http://arxiv.org/abs/2210.02097v5 ) ライセンス: Link先を確認 | Lirong Wu, Jun Xia, Haitao Lin, Zhangyang Gao, Zicheng Liu, Guojiang Zhao, Stan Z. Li | (参考訳) 近年、グラフ関連タスクをグラフニューラルネットワーク(gnns)で処理することに成功した。
学術的成功にもかかわらず、マルチ層パーセプトロン (MLP) は、実用産業における主要な仕事場である。
この学術と産業のギャップの1つは、gnnのデータ依存によって発生する近隣の遅延が原因で、高速な推論を必要とするレイテンシに敏感なアプリケーションへのデプロイが困難になる。
逆に、機能集約を伴わずに、MPPはデータ依存がなく、GNNよりもはるかに高速だが、そのパフォーマンスは競争力が少ない。
これらの相補的な強みと弱みに感化されて、GNNとMPPのギャップを減らすためのグラフ自己蒸留(GSDN)フレームワークを提案する。
具体的には、GSDNフレームワークは純粋にMLPに基づいており、構造情報は、GNNのような明示的な近隣情報伝達を代用して、近隣と対象との知識自己蒸留を導くために、前もって暗黙的にのみ使用される。
結果として、gsdnはトレーニングにおけるグラフトポロジ認識の利点を享受するが、推論にはデータ依存がない。
例えば、GSDNはスタンドアローンのMLPを平均15.54%改善し、6つのデータセットで最先端のGNNよりも性能が向上する。
推論速度に関して、gsdnは既存のgnnより75x-89倍速く、他の推論加速法よりも16x-25倍高速である。 Recent years have witnessed great success in handling graph-related tasks with Graph Neural Networks (GNNs). Despite their great academic success, Multi-Layer Perceptrons (MLPs) remain the primary workhorse for practical industrial applications. One reason for this academic-industrial gap is the neighborhood-fetching latency incurred by data dependency in GNNs, which make it hard to deploy for latency-sensitive applications that require fast inference. Conversely, without involving any feature aggregation, MLPs have no data dependency and infer much faster than GNNs, but their performance is less competitive. Motivated by these complementary strengths and weaknesses, we propose a Graph Self-Distillation on Neighborhood (GSDN) framework to reduce the gap between GNNs and MLPs. Specifically, the GSDN framework is based purely on MLPs, where structural information is only implicitly used as prior to guide knowledge self-distillation between the neighborhood and the target, substituting the explicit neighborhood information propagation as in GNNs. As a result, GSDN enjoys the benefits of graph topology-awareness in training but has no data dependency in inference. Extensive experiments have shown that the performance of vanilla MLPs can be greatly improved with self-distillation, e.g., GSDN improves over stand-alone MLPs by 15.54% on average and outperforms the state-of-the-art GNNs on six datasets. Regarding inference speed, GSDN infers 75X-89X faster than existing GNNs and 16X-25X faster than other inference acceleration methods. | 翻訳日:2023-06-07 04:33:54 公開日:2023-06-04 |
# MonoNeRF:カメラを使わずにモノクロビデオから一般化可能なNeRFを学習 MonoNeRF: Learning Generalizable NeRFs from Monocular Videos without Camera Pose ( http://arxiv.org/abs/2210.07181v2 ) ライセンス: Link先を確認 | Yang Fu, Ishan Misra, Xiaolong Wang | (参考訳) 我々は,静的なシーン内を移動しながら,奥行きやカメラのポーズの微妙なアノテーションを使わずに,大規模モノクロ映像をトレーニング可能な,一般化可能なニューラルラジアンス場MonoNeRFを提案する。
MonoNeRFはオートエンコーダベースのアーキテクチャに従っており、そこではエンコーダが単眼深度とカメラのポーズを推定し、デコーダは奥行きエンコーダの特徴に基づいてマルチプレーンのNeRF表現を構築し、入力フレームを推定カメラでレンダリングする。
学習は再構成エラーによって監視される。
モデルが学習されると、深度推定、カメラポーズ推定、シングルイメージの新規ビュー合成など、複数のアプリケーションに適用することができる。
より質的な結果は以下の通りである。 We propose a generalizable neural radiance fields - MonoNeRF, that can be trained on large-scale monocular videos of moving in static scenes without any ground-truth annotations of depth and camera poses. MonoNeRF follows an Autoencoder-based architecture, where the encoder estimates the monocular depth and the camera pose, and the decoder constructs a Multiplane NeRF representation based on the depth encoder feature, and renders the input frames with the estimated camera. The learning is supervised by the reconstruction error. Once the model is learned, it can be applied to multiple applications including depth estimation, camera pose estimation, and single-image novel view synthesis. More qualitative results are available at: https://oasisyang.github.io/mononerf . | 翻訳日:2023-06-07 04:24:12 公開日:2023-06-04 |
# トランスファーラーニングによる臨床領域用多言語事前学習機械翻訳モデルの検討 Investigating Massive Multilingual Pre-Trained Machine Translation Models for Clinical Domain via Transfer Learning ( http://arxiv.org/abs/2210.06068v2 ) ライセンス: Link先を確認 | Lifeng Han, Gleb Erofeev, Irina Sorokina, Serge Gladkoff, Goran Nenadic | (参考訳) 近年、多言語事前学習言語モデル (MMPLM) が開発され、下流タスクのために獲得した超能力と事前知識が実証されている。
本研究は,MMPLMが臨床ドメイン機械翻訳(MT)に適用可能かどうかを,転写学習を通じて完全に見えない言語に適用できるかどうかを検討する。
チェコ語、ドイツ語、ハウサ語、アイスランド語、日本語、ロシア語、中国語の7つの言語対と14の翻訳方向で事前訓練されたメタAIのMPLM「wmt21-dense-24wide-en-X and X-en(WMT21fb)」を用いた実験を行った。
これらのmmplmsを英語-\textit{ spanish} 言語ペアに向けて微調整し、それは、元の事前学習されたコーパスにおいて、暗黙的にも明示的にも全く存在しない。
我々は、この微調整のために、慎重に整列された \textit{clinical} ドメインデータを準備する。
実験結果から, 臨床症例, 臨床用語, オントロジー概念の3つのサブタスク翻訳テストにおいて, ドメイン内en-esセグメントが250kのみであった。
Meta-AIの別のMMPLM NLLBに非常に近い評価スコアを達成している。
我々の知る限り、これは事前学習中に全く見えない言語に対して、textit{clinical domain transfer-learning NMT} に対して MMPLMs を使用する最初の試みである。 Massively multilingual pre-trained language models (MMPLMs) are developed in recent years demonstrating superpowers and the pre-knowledge they acquire for downstream tasks. This work investigates whether MMPLMs can be applied to clinical domain machine translation (MT) towards entirely unseen languages via transfer learning. We carry out an experimental investigation using Meta-AI's MMPLMs ``wmt21-dense-24-wide-en-X and X-en (WMT21fb)'' which were pre-trained on 7 language pairs and 14 translation directions including English to Czech, German, Hausa, Icelandic, Japanese, Russian, and Chinese, and the opposite direction. We fine-tune these MMPLMs towards English-\textit{Spanish} language pair which \textit{did not exist at all} in their original pre-trained corpora both implicitly and explicitly. We prepare carefully aligned \textit{clinical} domain data for this fine-tuning, which is different from their original mixed domain knowledge. Our experimental result shows that the fine-tuning is very successful using just 250k well-aligned in-domain EN-ES segments for three sub-task translation testings: clinical cases, clinical terms, and ontology concepts. It achieves very close evaluation scores to another MMPLM NLLB from Meta-AI, which included Spanish as a high-resource setting in the pre-training. To the best of our knowledge, this is the first work on using MMPLMs towards \textit{clinical domain transfer-learning NMT} successfully for totally unseen languages during pre-training. | 翻訳日:2023-06-07 04:23:35 公開日:2023-06-04 |
# スパイクニューラルネットワークのためのadcレスインメモリコンピューティングハードウェアとハードウェア・ソフトウェアの共同設計 Hardware/Software co-design with ADC-Less In-memory Computing Hardware for Spiking Neural Networks ( http://arxiv.org/abs/2211.02167v2 ) ライセンス: Link先を確認 | Marco Paul E. Apolinario, Adarsh Kumar Kosta, Utkarsh Saxena, Kaushik Roy | (参考訳) スパイキングニューラルネットワーク(SNN)は、資源制約されたエッジデバイス上でのシーケンシャルタスクのエネルギー効率の高い実装を実現する大きな可能性を秘めている。
しかし、標準GPUベースの商用エッジプラットフォームは、SNNのデプロイに最適化されていないため、高エネルギーとレイテンシが生じる。
アナログメモリ・コンピューティング (IMC) プラットフォームはエネルギー効率のよい推論エンジンとして機能するが、高速ADC (HP-ADC) の膨大なエネルギー、レイテンシ、領域要求により達成され、インメモリ・コンピューティングの利点を誇示している。
本稿では,従来のHP-ADCに代えて,センスアンプを1ビットのADCとして使用して,SNNをADC-Less IMCアーキテクチャにデプロイするハードウェア/ソフトウェア共同設計手法を提案する。
提案手法は,ハードウェア・アウェア・トレーニングによって最小限の精度劣化を生じさせ,単純な画像分類タスクを超えて複雑な逐次回帰タスクにスケールすることができる。
光フロー推定とジェスチャー認識の複雑なタスクの実験により、SNNトレーニング中にハードウェアの認識が徐々に増加し、ADC-Less IMCの非理想性による誤りを適応し、学習することが可能になった。
また、提案されたADC-Less IMCは、HP-ADC IMCと比較して、SNNモデルとワークロードに応じて、それぞれ2-7\times$と8.9-24.6\times$の大幅なエネルギーと遅延の改善を提供する。 Spiking Neural Networks (SNNs) are bio-plausible models that hold great potential for realizing energy-efficient implementations of sequential tasks on resource-constrained edge devices. However, commercial edge platforms based on standard GPUs are not optimized to deploy SNNs, resulting in high energy and latency. While analog In-Memory Computing (IMC) platforms can serve as energy-efficient inference engines, they are accursed by the immense energy, latency, and area requirements of high-precision ADCs (HP-ADC), overshadowing the benefits of in-memory computations. We propose a hardware/software co-design methodology to deploy SNNs into an ADC-Less IMC architecture using sense-amplifiers as 1-bit ADCs replacing conventional HP-ADCs and alleviating the above issues. Our proposed framework incurs minimal accuracy degradation by performing hardware-aware training and is able to scale beyond simple image classification tasks to more complex sequential regression tasks. Experiments on complex tasks of optical flow estimation and gesture recognition show that progressively increasing the hardware awareness during SNN training allows the model to adapt and learn the errors due to the non-idealities associated with ADC-Less IMC. Also, the proposed ADC-Less IMC offers significant energy and latency improvements, $2-7\times$ and $8.9-24.6\times$, respectively, depending on the SNN model and the workload, compared to HP-ADC IMC. | 翻訳日:2023-06-07 04:16:37 公開日:2023-06-04 |
# 分布外検出におけるパーセプトロンバイアスの拡散分解過程 Diffusion Denoising Process for Perceptron Bias in Out-of-distribution Detection ( http://arxiv.org/abs/2211.11255v2 ) ライセンス: Link先を確認 | Luping Liu and Yi Ren and Xize Cheng and Rongjie Huang and Chongxuan Li and Zhou Zhao | (参考訳) アウト・オブ・ディストリビューション(OOD)検出は、ディープラーニングの信頼性と安全性を確保するための重要なタスクである。
現在、判別器モデルは、この点で他の方法よりも優れている。
しかし、識別器モデルで使用される特徴抽出プロセスは、重大な情報の喪失に悩まされ、悪いケースや悪意のある攻撃の余地が残る。
本稿では,識別器モデルが入力の特定の特徴に対してより敏感であることを示唆する新しいパーセプトロンバイアスの仮定を導入する。
本稿では,識別器と生成モデルを組み合わせた新しいフレームワークを提案し,拡散モデル(DM)をOOD検出に統合する。
DMの拡散分解過程 (DDP) が非対称補間の新しい形態として機能し, 入力の強化と過信問題を緩和するのに適していることを示す。
OODデータの識別器モデルの特徴はDDPの下で急激な変化を示し,この変化の規範を指標スコアとして活用する。
CIFAR10, CIFAR100, ImageNetによる実験により, 提案手法がSOTA手法より優れていることが示された。
特に,難易度の高いInD ImageNet と OOD 種のデータセットでは,従来の SOTA 手法のスコア 77.4 を上回り,AUROC 85.7 を達成している。
我々の実装は \url{https://github.com/luping-liu/DiffOOD} で利用可能です。 Out-of-distribution (OOD) detection is a crucial task for ensuring the reliability and safety of deep learning. Currently, discriminator models outperform other methods in this regard. However, the feature extraction process used by discriminator models suffers from the loss of critical information, leaving room for bad cases and malicious attacks. In this paper, we introduce a new perceptron bias assumption that suggests discriminator models are more sensitive to certain features of the input, leading to the overconfidence problem. To address this issue, we propose a novel framework that combines discriminator and generation models and integrates diffusion models (DMs) into OOD detection. We demonstrate that the diffusion denoising process (DDP) of DMs serves as a novel form of asymmetric interpolation, which is well-suited to enhance the input and mitigate the overconfidence problem. The discriminator model features of OOD data exhibit sharp changes under DDP, and we utilize the norm of this change as the indicator score. Our experiments on CIFAR10, CIFAR100, and ImageNet show that our method outperforms SOTA approaches. Notably, for the challenging InD ImageNet and OOD species datasets, our method achieves an AUROC of 85.7, surpassing the previous SOTA method's score of 77.4. Our implementation is available at \url{https://github.com/luping-liu/DiffOOD}. | 翻訳日:2023-06-07 04:06:01 公開日:2023-06-04 |
# 結合型生物地球化学物理モデルのベイズ学習 Bayesian Learning of Coupled Biogeochemical-Physical Models ( http://arxiv.org/abs/2211.06714v2 ) ライセンス: Link先を確認 | Abhinav Gupta and Pierre F. J. Lermusiaux | (参考訳) 海洋生態系の予測力学モデルは様々なニーズに使われている。
希少な測定と海洋プロセスの理解が限られているため、大きな不確実性がある。
パラメータ値にはモデル不確実性、多様なパラメータ化を伴う関数形式、必要となる複雑さのレベル、したがって状態フィールドがある。
我々は,ベイズモデル学習手法を開発し,ベイズモデルの空間を補間し,ノイズ,スパース,間接観測から新しいモデルの発見を可能にするとともに,状態場とパラメータ値を推定し,全ての学習量の共同PDFも作成する。
状態拡張と計算効率のよいGMM-DOフィルタを用いて,PDEが管理する高次元・多分野ダイナミックスの課題に対処する。
我々の革新には、候補モデルを単一の一般モデルに統一する確率的定式化と複雑性パラメータ、および分断関数近似内の確率的拡張パラメータが含まれ、密な候補モデル空間を生成する。
これらの革新により、多くの互換性のある組込み候補モデルを扱うことができ、それらはおそらく正確ではなく、未知の機能形式を学べる。
我々の新しい方法論は一般化可能であり、解釈可能であり、新しい手法を発見するためにモデルの空間から外挿する。
カオス対流を含む3-5成分生態系モデルと結合した尾根を流れる流れに基づく一連の双対実験を行う。
既知の、不確定な、未知のモデル定式化、および状態フィールドとパラメータの確率はベイズの法則を用いて共同で更新される。
非ガウス統計、曖昧さ、偏見が捉えられる。
データを最もよく説明するパラメータ値とモデル定式化が識別される。
観測が十分有益な場合、モデルの複雑さと関数が発見される。 Predictive dynamical models for marine ecosystems are used for a variety of needs. Due to sparse measurements and limited understanding of the myriad of ocean processes, there is however significant uncertainty. There is model uncertainty in the parameter values, functional forms with diverse parameterizations, level of complexity needed, and thus in the state fields. We develop a Bayesian model learning methodology that allows interpolation in the space of candidate models and discovery of new models from noisy, sparse, and indirect observations, all while estimating state fields and parameter values, as well as the joint PDFs of all learned quantities. We address the challenges of high-dimensional and multidisciplinary dynamics governed by PDEs by using state augmentation and the computationally efficient GMM-DO filter. Our innovations include stochastic formulation and complexity parameters to unify candidate models into a single general model as well as stochastic expansion parameters within piecewise function approximations to generate dense candidate model spaces. These innovations allow handling many compatible and embedded candidate models, possibly none of which are accurate, and learning elusive unknown functional forms. Our new methodology is generalizable, interpretable, and extrapolates out of the space of models to discover new ones. We perform a series of twin experiments based on flows past a ridge coupled with three-to-five component ecosystem models, including flows with chaotic advection. The probabilities of known, uncertain, and unknown model formulations, and of state fields and parameters, are updated jointly using Bayes' law. Non-Gaussian statistics, ambiguity, and biases are captured. The parameter values and model formulations that best explain the data are identified. When observations are sufficiently informative, model complexity and functions are discovered. | 翻訳日:2023-06-07 04:04:22 公開日:2023-06-04 |
# 位置感応性巨大ラムシフトに基づくサブナノメータ精度による光散乱イメージング Optical scattering imaging with sub-nanometer precision based on position-ultra-sensitive giant Lamb shift ( http://arxiv.org/abs/2211.03247v2 ) ライセンス: Link先を確認 | Zeyang Liao, Yuwei Lu, and Xue-Hua Wang | (参考訳) 高次プラズモニックダークモードによって主に誘導されるプラズモニックナノ構造に非常に近い量子エミッタのラムシフトは、自由空間において3桁以上大きな大きさで、エミッタ位置と偏光に極性がある。
この巨大ラムシフトは、プラズモニックナノ粒子または先端がエミッタを通して走査する場合、結合系の散乱スペクトルのディップシフトから敏感に観測できることを示した。
これらの観測に基づいて、蛍光の代わりに散乱スペクトルを検出することにより、量子エミッタのサブナノメータ精度を有する光局在化および偏光顕微鏡手法を提案する。
本手法は蛍光焼成問題がなく,プラズモン-エミッタカップリング系において比較的容易に実装できる。
さらに、この方法の試料は、放射蛍光率を高めるためにプラズモニックピコキャビティ内に置かれる必要はなく、また、量子エミッタが誘電体面より少し下でも機能し、物理学、化学、医学、生命科学、物質科学など様々な分野に広く応用することができる。 The Lamb shift of a quantum emitter very close to a plasmonic nanostructure, mainly induced by the higher-order plasmonic dark modes, can be three or more orders of magnitude larger than that in the free space and it is ultra-sensitive to the emitter position and polarization. We show that this giant Lamb shift can be sensitively observed from the scattering spectrum dip shift of coupled system when the plasmonic nanoparticle or tip scans through the emitter. Based on these observations, we propose an optical localization and polarization microscopy scheme with sub-nanometer precision for a quantum emitter via detecting the scattering spectrum instead of fluorescence. Our method is free of fluorescence quenching problem and it is relatively easier to be implemented in the plasmon-emitter coupling system. Moreover, the sample in our method does not need to be placed inside a plasmonic picocavity to enhance the radiative fluorescence rate and it also works even if the quantum emitter is slightly below a dielectric surface which can bring about broader applications in various fields, such as physics, chemistry, medicine, life science and materials science. | 翻訳日:2023-06-07 04:03:00 公開日:2023-06-04 |
# 非凸関数の定常点を求めるための量子下界 Quantum Lower Bounds for Finding Stationary Points of Nonconvex Functions ( http://arxiv.org/abs/2212.03906v2 ) ライセンス: Link先を確認 | Chenyi Zhang, Tongyang Li | (参考訳) 最適化問題に対する量子アルゴリズムは一般に興味深い。
異なる設定下での非凸最適化の古典的下界と凸最適化の量子的下界の最近の進歩にもかかわらず、非凸最適化の量子的下界は依然として広く開放されている。
本稿では,非凸関数の定常点である $\epsilon$-approximate を求める量子問合せ下限を体系的に研究し,次の2つの重要な設定を考察する。
1) $p$-th order デリバティブへのアクセスを有すること,又は
2)確率勾配へのアクセス。
古典的なクエリの下界は、第一設定に関して$\Omega\big(\epsilon^{-\frac{1+p}{p}}\big)$、第二設定に関して$\Omega(\epsilon^{-4})$である(あるいは、確率勾配関数が平均二乗滑らかであれば$\Omega(\epsilon^{-3})$)。
本稿では、これらの古典的な下界を量子設定に拡張する。
彼らはそれぞれ古典的なアルゴリズムの結果と一致し、平均二乗滑らか性仮定の有無にかかわらず、$p$-階微分入力または確率勾配入力を持つ非凸関数の$\epsilon$-stationary点を求める量子スピードアップがないことを示した。
技術的には、これらのすべての設定における古典的ハードインスタンスのシーケンシャルな性質が量子クエリにも適用されることを示し、定常点の情報の逐次的な開示以外の量子スピードアップを防止している。 Quantum algorithms for optimization problems are of general interest. Despite recent progress in classical lower bounds for nonconvex optimization under different settings and quantum lower bounds for convex optimization, quantum lower bounds for nonconvex optimization are still widely open. In this paper, we conduct a systematic study of quantum query lower bounds on finding $\epsilon$-approximate stationary points of nonconvex functions, and we consider the following two important settings: 1) having access to $p$-th order derivatives; or 2) having access to stochastic gradients. The classical query lower bounds is $\Omega\big(\epsilon^{-\frac{1+p}{p}}\big)$ regarding the first setting, and $\Omega(\epsilon^{-4})$ regarding the second setting (or $\Omega(\epsilon^{-3})$ if the stochastic gradient function is mean-squared smooth). In this paper, we extend all these classical lower bounds to the quantum setting. They match the classical algorithmic results respectively, demonstrating that there is no quantum speedup for finding $\epsilon$-stationary points of nonconvex functions with $p$-th order derivative inputs or stochastic gradient inputs, whether with or without the mean-squared smoothness assumption. Technically, our quantum lower bounds are obtained by showing that the sequential nature of classical hard instances in all these settings also applies to quantum queries, preventing any quantum speedup other than revealing information of the stationary points sequentially. | 翻訳日:2023-06-07 03:57:07 公開日:2023-06-04 |
# スコアベース拡散モデルにおける判別器指導による精錬生成過程 Refining Generative Process with Discriminator Guidance in Score-based Diffusion Models ( http://arxiv.org/abs/2211.17091v4 ) ライセンス: Link先を確認 | Dongjun Kim, Yeongmin Kim, Se Jung Kwon, Wanmo Kang, Il-Chul Moon | (参考訳) 提案手法は,事前学習した拡散モデルのサンプル生成を改善することを目的としている。
このアプローチでは、現実的かどうかに関わらず、明確な監視を行う識別器を導入している。
GANとは異なり、我々の手法はスコアネットワークと差別ネットワークの合同トレーニングを必要としない。
代わりに、スコアトレーニング後に差別者を訓練し、差別者を安定させ、収束させます。
サンプル生成では、予め学習したスコアに補助語を加え、判別器を欺く。
この用語は、モデルスコアを最適な判別器のデータスコアに補正するものであり、判別器が補足的な方法でより良いスコア推定を助けることを意味する。
提案アルゴリズムを用いて,画像Net 256x256 に FID 1.83 を付加し,検証データの FID (1.68) やリコール (0.66) と同様,0.64 をリコールした。
コードをhttps://github.com/alsdudrla10/DGでリリースします。 The proposed method, Discriminator Guidance, aims to improve sample generation of pre-trained diffusion models. The approach introduces a discriminator that gives explicit supervision to a denoising sample path whether it is realistic or not. Unlike GANs, our approach does not require joint training of score and discriminator networks. Instead, we train the discriminator after score training, making discriminator training stable and fast to converge. In sample generation, we add an auxiliary term to the pre-trained score to deceive the discriminator. This term corrects the model score to the data score at the optimal discriminator, which implies that the discriminator helps better score estimation in a complementary way. Using our algorithm, we achive state-of-the-art results on ImageNet 256x256 with FID 1.83 and recall 0.64, similar to the validation data's FID (1.68) and recall (0.66). We release the code at https://github.com/alsdudrla10/DG. | 翻訳日:2023-06-07 03:56:05 公開日:2023-06-04 |
# 機械学習学習のための任意大ランダム満足度式 Arbitrarily Large Labelled Random Satisfiability Formulas for Machine Learning Training ( http://arxiv.org/abs/2211.15368v2 ) ライセンス: Link先を確認 | Dimitris Achlioptas, Amrit Daswaney, Periklis A. Papakonstantinou | (参考訳) 複雑な組み合わせ問題の実例をディープラーニングで解決することは、大きな可能性を秘めている。
この方向の研究は、理論的な中心性と実践的重要性の両方から、ブール満足度(SAT)問題に焦点を当てている。
しかし、大きな障害の1つは、トレーニングセットが実用上の関心のある公式よりも数桁小さい大きさのランダムな公式に制限され、一般化に関する深刻な懸念が高まることである。
これは、増大する大きさのランダムな公式のラベル付けが急速に難解になるためである。
確率的手法を基本的手法で活用することにより、このブロックを完全に除去する: 根底にある決定問題を解くことなく、任意の大きさのランダムな公式を正しくラベル付けする方法を示す。
さらに, 単純なスカラーパラメータを変化させることで, 生成元が生成する公式の分類作業の難しさを調整できる。
これにより、Satifiability(満足度)に対処できる機械学習手法の、まったく新しいレベルの洗練がもたらされる。
生成器を使って既存の最先端モデルを訓練し、1万変数の式で満足度を予測する。
彼らはランダムな推測以上のことはしない。
新しいジェネレータによって何が達成できるかの最初の兆候として、多くの難易度において、同じデータセットで99%をランダムに推測するよりも大幅に優れた新しい分類器を提案する。
重要な点は、式を構文的に特徴付けして学習する過去のアプローチと異なり、我々の分類器は、解答者の計算の短い接頭辞でその学習を実行する。 Applying deep learning to solve real-life instances of hard combinatorial problems has tremendous potential. Research in this direction has focused on the Boolean satisfiability (SAT) problem, both because of its theoretical centrality and practical importance. A major roadblock faced, though, is that training sets are restricted to random formulas of size several orders of magnitude smaller than formulas of practical interest, raising serious concerns about generalization. This is because labeling random formulas of increasing size rapidly becomes intractable. By exploiting the probabilistic method in a fundamental way, we remove this roadblock entirely: we show how to generate correctly labeled random formulas of any desired size, without having to solve the underlying decision problem. Moreover, the difficulty of the classification task for the formulas produced by our generator is tunable by varying a simple scalar parameter. This opens up an entirely new level of sophistication for the machine learning methods that can be brought to bear on Satisfiability. Using our generator, we train existing state-of-the-art models for the task of predicting satisfiability on formulas with 10,000 variables. We find that they do no better than random guessing. As a first indication of what can be achieved with the new generator, we present a novel classifier that performs significantly better than random guessing 99% on the same datasets, for most difficulty levels. Crucially, unlike past approaches that learn based on syntactic features of a formula, our classifier performs its learning on a short prefix of a solver's computation, an approach that we expect to be of independent interest. | 翻訳日:2023-06-07 03:55:48 公開日:2023-06-04 |
# 絡み合った準周期性および非エルミティ性から生まれる局在制御 Localization control born of intertwined quasiperiodicity and non-Hermiticity ( http://arxiv.org/abs/2211.14336v2 ) ライセンス: Link先を確認 | Junmo Jeon, SungBin Lee | (参考訳) 準周期系は、周期的長さスケールがない場合、ランダムに乱れも翻訳的に不変でもない。
それらの不規則順序に基づいて、臨界状態や自己相似波動関数のような新しい物理的性質が活発に議論されている。
しかし、非エルミート・ハミルトニアンによって一般に説明されるオープンシステムでは、そのような準周期的な順序が新しい現象にどのようにつながるかは分かっていない。
本研究では,非ヘルミティック性と相互に絡み合わされた準周期性が,臨界状態と局所状態の完全非局在化という驚くべき効果をもたらすことを初めて示す。
特に,非相反ホッピング位相が存在するオーブリー・アンドレ・フィボナッチモデルにおける波動関数の局在性について検討する。
ここで、AFモデルは金属から絶縁体への遷移と臨界状態の間の2つの異なる限界を連続的に補間し、非ハーミティシティはホッピング相因子にエンコードされる。
驚くべきことに、それらの相互作用によって状態の完全な非局在化がもたらされ、ハーミティリティを持つ準周期系では許されない。
逆参加比とフラクタル次元による局所化を定量化することにより、非エルミタンホッピング相が波動関数の局所化特性の微妙な制御につながることを議論する。
本研究は,(1)非エルミートホッピング相による準周期系の創発的非局在化遷移,(2)臨界状態の詳細な局在制御,(3)フォトニック結晶を用いた制御可能な局所化・臨界・非局在化状態の実験的実現を提供する。 Quasiperiodic systems are neither randomly disordered nor translationally invariant in the absence of periodic length scales. Based on their incommensurate order, novel physical properties such as critical states and self-similar wavefunctions have been actively discussed. However, in open systems generally described by the non-Hermitian Hamiltonians, it is hardly known how such quasiperiodic order would lead to new phenomena. In this work, we show for the first time that the intertwined quasiperiodicity and non-Hermiticity can give rise to striking effects: perfect delocalization of the critical and localized states to the extended states. In particular, we explore the wave function localization character in the Aubry-Andre-Fibonacci (AAF) model where non-reciprocal hopping phases are present. Here, the AAF model continuously interpolates the two different limit between metal to insulator transition and critical states, and the nonHermiticity is encoded in the hopping phase factors. Surprisingly, their interplay results in the perfect delocalization of the states, which is never allowed in quasiperiodic systems with Hermiticity. By quantifying the localization via inverse participation ratio and the fractal dimension, we discuss that the non-Hermitian hopping phase leads to delicate control of localization characteristics of the wave function. Our work offers (1) emergent delocalization transition in quasiperiodic systems via non-Hermitian hopping phase, (2) detailed localization control of the critical states, (3) experimental realization of controllable localized, critical and delocalized states, using photonic crystals. | 翻訳日:2023-06-07 03:55:05 公開日:2023-06-04 |
# 第二の考えでは、ステップバイステップで考えよう!
ゼロショット推論におけるバイアスと毒性 On Second Thought, Let's Not Think Step by Step! Bias and Toxicity in Zero-Shot Reasoning ( http://arxiv.org/abs/2212.08061v2 ) ライセンス: Link先を確認 | Omar Shaikh, Hongxin Zhang, William Held, Michael Bernstein, Diyi Yang | (参考訳) CoT(Chain of Thought)の生成は、幅広いNLPタスクにおいて、大きな言語モデル(LLM)のパフォーマンスを継続的に改善することが示されている。
しかしながら、先行研究は主に論理的推論タスク(算術、常識QAなど)に焦点を当てており、改善がより多様な推論、特に社会的に位置する文脈において成立するかどうかは不明である。
具体的には、有害な質問とステレオタイプベンチマークという2つの社会的に敏感な領域におけるゼロショットCoTの制御評価を行う。
感度領域におけるゼロショットCoT推論は、異なるプロンプトフォーマットやモデル変種にまたがる傾向を保ちながら、有害または望ましくない出力を生成するモデルの可能性を大幅に増大させる。
さらに, 有害なCoTsはモデルサイズによって増加するが, 命令に従うと減少することを示した。
我々の研究は、ゼロショットCoTは社会的に重要なタスク、特に疎外化グループやセンシティブなトピックが関与する場合に注意を払って使用するべきであることを示唆している。 Generating a Chain of Thought (CoT) has been shown to consistently improve large language model (LLM) performance on a wide range of NLP tasks. However, prior work has mainly focused on logical reasoning tasks (e.g. arithmetic, commonsense QA); it remains unclear whether improvements hold for more diverse types of reasoning, especially in socially situated contexts. Concretely, we perform a controlled evaluation of zero-shot CoT across two socially sensitive domains: harmful questions and stereotype benchmarks. We find that zero-shot CoT reasoning in sensitive domains significantly increases a model's likelihood to produce harmful or undesirable output, with trends holding across different prompt formats and model variants. Furthermore, we show that harmful CoTs increase with model size, but decrease with improved instruction following. Our work suggests that zero-shot CoT should be used with caution on socially important tasks, especially when marginalized groups or sensitive topics are involved. | 翻訳日:2023-06-07 03:44:27 公開日:2023-06-04 |
# 等分散によるロバスト知覚 Robust Perception through Equivariance ( http://arxiv.org/abs/2212.06079v2 ) ライセンス: Link先を確認 | Chengzhi Mao, Lingyu Zhang, Abhishek Joshi, Junfeng Yang, Hao Wang, Carl Vondrick | (参考訳) コンピュータビジョンのためのディープネットワークは、敵の例に遭遇すると信頼できない。
本稿では,自然画像における密集した内在的制約を用いて推論を堅牢化する枠組みを提案する。
推論時間に制約を導入することで、ロバストネスの負担をトレーニングから推論アルゴリズムにシフトさせることにより、モデルが各画像のユニークで潜在的に新しい特徴に対して、推論時に動的に調整することができる。
異なる制約のうち、等分散に基づく制約が最も効果的であることは、細粒度レベルで表現を過度に制約することなく、機能空間における密集した制約を可能にするためである。
理論的な結果は, 推定時にそのような密度制約を持つことの重要性を検証した。
実験の結果, 推定時間における特徴等分散の復元は, 最悪の対向摂動を防御することが示された。
本手法は,画像認識,セマンティックセグメンテーション,インスタンスセグメンテーションの4つのデータセット(ImageNet,Cityscapes,PASCAL VOC,MS-COCO)の対向ロバスト性を向上させる。
プロジェクトページは equi4robust.cs.columbia.edu で公開されている。 Deep networks for computer vision are not reliable when they encounter adversarial examples. In this paper, we introduce a framework that uses the dense intrinsic constraints in natural images to robustify inference. By introducing constraints at inference time, we can shift the burden of robustness from training to the inference algorithm, thereby allowing the model to adjust dynamically to each individual image's unique and potentially novel characteristics at inference time. Among different constraints, we find that equivariance-based constraints are most effective, because they allow dense constraints in the feature space without overly constraining the representation at a fine-grained level. Our theoretical results validate the importance of having such dense constraints at inference time. Our empirical experiments show that restoring feature equivariance at inference time defends against worst-case adversarial perturbations. The method obtains improved adversarial robustness on four datasets (ImageNet, Cityscapes, PASCAL VOC, and MS-COCO) on image recognition, semantic segmentation, and instance segmentation tasks. Project page is available at equi4robust.cs.columbia.edu. | 翻訳日:2023-06-07 03:44:09 公開日:2023-06-04 |
# アンバイアスドラーニングのランク付けにおける意義とバイアスの解消に向けて Towards Disentangling Relevance and Bias in Unbiased Learning to Rank ( http://arxiv.org/abs/2212.13937v4 ) ライセンス: Link先を確認 | Yunan Zhang, Le Yan, Zhen Qin, Honglei Zhuang, Jiaming Shen, Xuanhui Wang, Michael Bendersky, Marc Najork | (参考訳) Unbiased Learning to rank (ULTR)は、クリックのような暗黙のユーザフィードバックデータから様々なバイアスを緩和する問題を研究しており、近年かなりの注目を集めている。
現実世界のアプリケーションで一般的なULTRアプローチでは、クリックモデリングを通常の入力特徴を持つ関連タワーに分解する2towerアーキテクチャと、文書の位置のようなバイアス関連入力を持つバイアスタワーを用いる。
ファクター化の成功により、関係塔はバイアスを免除される。
本研究では,既存のULTR法が無視する重要な問題であるバイアスタワーを,基礎となる真の関連性を通じて,関連塔と結合することができることを示す。
特に、それらのポジションはロギングポリシー、すなわち関連情報を持つ以前の生産モデルによって決定された。
このような相関関係から相関塔に負の効果を示すために,理論解析と実験結果の両方を与える。
次に, 関連度やバイアスの解消により, 負の共起効果を緩和する3つの手法を提案する。
制御されたパブリックデータセットと大規模産業データセットの両方の実証結果は、提案手法の有効性を示している。 Unbiased learning to rank (ULTR) studies the problem of mitigating various biases from implicit user feedback data such as clicks, and has been receiving considerable attention recently. A popular ULTR approach for real-world applications uses a two-tower architecture, where click modeling is factorized into a relevance tower with regular input features, and a bias tower with bias-relevant inputs such as the position of a document. A successful factorization will allow the relevance tower to be exempt from biases. In this work, we identify a critical issue that existing ULTR methods ignored - the bias tower can be confounded with the relevance tower via the underlying true relevance. In particular, the positions were determined by the logging policy, i.e., the previous production model, which would possess relevance information. We give both theoretical analysis and empirical results to show the negative effects on relevance tower due to such a correlation. We then propose three methods to mitigate the negative confounding effects by better disentangling relevance and bias. Empirical results on both controlled public datasets and a large-scale industry dataset show the effectiveness of the proposed approaches. | 翻訳日:2023-06-07 03:36:31 公開日:2023-06-04 |
# dext: 検出器説明ツールキット DExT: Detector Explanation Toolkit ( http://arxiv.org/abs/2212.11409v2 ) ライセンス: Link先を確認 | Deepan Chakravarthi Padmanabhan, Paul G. Pl\"oger, Octavio Arriaga, Matias Valdenegro-Toro | (参考訳) 最先端の物体検出器は、非線形内部計算のためにブラックボックスとして扱われる。
検出器の性能が前例のない進歩にもかかわらず、その出力がどのように生成されるかを説明することができないことは、安全クリティカルなアプリケーションでの使用を制限する。
以前の研究は、境界ボックスと分類決定の両方の説明を作成できず、一般に様々な検出器に対して個別の説明を行う。
本稿では, ある勾配に基づく説明手法を用いて, 検出器決定の全体的説明を生成するための, 提案手法を実装したオープンソースのディテクタ説明ツールキット(DExT)を提案する。
画像中の複数の物体の説明をマージする多目的可視化手法と,それに対応する複数の物体を単一の画像にマージする手法を提案する。
定量的評価の結果, 単ショットマルチボックス検出器 (SSD) は, 説明方法にかかわらず, 他の検出器と比較して忠実に説明されている。
SmoothGrad with Guided Backpropagation (GBP)は、すべての検出器で選択された方法の中でより信頼できる説明を提供する。
dextは、境界ボックスと分類決定の両方を説明することによって、解釈可能性の観点から物体検出器を評価する動機づけになることを期待する。 State-of-the-art object detectors are treated as black boxes due to their highly non-linear internal computations. Even with unprecedented advancements in detector performance, the inability to explain how their outputs are generated limits their use in safety-critical applications. Previous work fails to produce explanations for both bounding box and classification decisions, and generally make individual explanations for various detectors. In this paper, we propose an open-source Detector Explanation Toolkit (DExT) which implements the proposed approach to generate a holistic explanation for all detector decisions using certain gradient-based explanation methods. We suggests various multi-object visualization methods to merge the explanations of multiple objects detected in an image as well as the corresponding detections in a single image. The quantitative evaluation show that the Single Shot MultiBox Detector (SSD) is more faithfully explained compared to other detectors regardless of the explanation methods. Both quantitative and human-centric evaluations identify that SmoothGrad with Guided Backpropagation (GBP) provides more trustworthy explanations among selected methods across all detectors. We expect that DExT will motivate practitioners to evaluate object detectors from the interpretability perspective by explaining both bounding box and classification decisions. | 翻訳日:2023-06-07 03:36:14 公開日:2023-06-04 |
# 不確実な知識蒸留によるインクリメンタルニューラルインシシシト表現 Incremental Neural Implicit Representation with Uncertainty-Filtered Knowledge Distillation ( http://arxiv.org/abs/2212.10950v2 ) ライセンス: Link先を確認 | Mengqi Guo, Chen Li, Hanlin Chen, Gim Hee Lee | (参考訳) 最近の神経暗黙表現(NIR)は、3次元再構成と新しいビュー合成のタスクにおいて大きな成功を収めている。
しかし、事前に見たデータを再訪することなくストリーミングデータから継続的に学習する場合、彼らは壊滅的な忘れる問題に苦しむ。
この制限は、画像が順次入ってくるシナリオへの既存のNIRの適用を禁止している。
この観点から,本研究におけるNIRの漸進的学習の課題について考察する。
学生・教師の枠組みをデザインし,破滅的な忘れ方問題を軽減する。
具体的には、各段階の終わりに生徒を教師として使用するプロセスを繰り返すとともに、次の段階において生徒の指導を指導する。
その結果、学生ネットワークはストリーミングデータから新たな情報を学び、教師ネットワークから古い知識を同時に保持することができる。
直感的ではあるが、生徒-教師パイプラインの適用は我々の作業ではうまくいきません。
教師ネットワークからのすべての情報は、古いデータでのみ訓練されているため、役に立たない。
この問題を軽減するために,有用情報をフィルタするランダムな問い合わせ器と不確実性に基づくフィルタを導入する。
提案手法は汎用的であり,ニューラルレイディアンス場(NeRF)やニューラルSDFなどの暗黙表現に適応することができる。
3次元再構成と新しいビュー合成の併用による大規模な実験結果から, 異なるベースラインに対するアプローチの有効性が示された。 Recent neural implicit representations (NIRs) have achieved great success in the tasks of 3D reconstruction and novel view synthesis. However, they suffer from the catastrophic forgetting problem when continuously learning from streaming data without revisiting the previously seen data. This limitation prohibits the application of existing NIRs to scenarios where images come in sequentially. In view of this, we explore the task of incremental learning for NIRs in this work. We design a student-teacher framework to mitigate the catastrophic forgetting problem. Specifically, we iterate the process of using the student as the teacher at the end of each time step and let the teacher guide the training of the student in the next step. As a result, the student network is able to learn new information from the streaming data and retain old knowledge from the teacher network simultaneously. Although intuitive, naively applying the student-teacher pipeline does not work well in our task. Not all information from the teacher network is helpful since it is only trained with the old data. To alleviate this problem, we further introduce a random inquirer and an uncertainty-based filter to filter useful information. Our proposed method is general and thus can be adapted to different implicit representations such as neural radiance field (NeRF) and neural SDF. Extensive experimental results for both 3D reconstruction and novel view synthesis demonstrate the effectiveness of our approach compared to different baselines. | 翻訳日:2023-06-07 03:35:57 公開日:2023-06-04 |
# コントラスト学習を超えて:多言語検索のための変分生成モデル Beyond Contrastive Learning: A Variational Generative Model for Multilingual Retrieval ( http://arxiv.org/abs/2212.10726v2 ) ライセンス: Link先を確認 | John Wieting, Jonathan H. Clark, William W. Cohen, Graham Neubig, and Taylor Berg-Kirkpatrick | (参考訳) コントラスト学習は意味的に整合した文の検索に成功しているが、しばしば大きなバッチサイズや注意深いエンジニアリングが必要となる。
本稿では,文対の検索や採点に使用できる多言語テキスト埋め込み学習のための生成モデルを提案する。
提案モデルは,n$言語における並列データに基づいて動作し,この多言語環境でのソース分離を効率的に促進し,文体的あるいは言語固有の変動から翻訳間で共有される意味情報を分離する。
本稿では,多言語テキスト埋め込み学習におけるコントラストと世代ベースアプローチの大規模比較を行い,これらのアプローチが人気を博したにもかかわらず,我々の知識の最良の部分では実現されていない比較を行った。
本稿では,この手法を意味的類似性,バイテキストマイニング,言語間質問検索を含む一連のタスクで評価する。
全体として、我々の変分多言語ソース分離変換器(VMSST)モデルは、これらのタスクに対して強いコントラストと生成的ベースラインの両方を上回ります。 Contrastive learning has been successfully used for retrieval of semantically aligned sentences, but it often requires large batch sizes or careful engineering to work well. In this paper, we instead propose a generative model for learning multilingual text embeddings which can be used to retrieve or score sentence pairs. Our model operates on parallel data in $N$ languages and, through an approximation we introduce, efficiently encourages source separation in this multilingual setting, separating semantic information that is shared between translations from stylistic or language-specific variation. We show careful large-scale comparisons between contrastive and generation-based approaches for learning multilingual text embeddings, a comparison that has not been done to the best of our knowledge despite the popularity of these approaches. We evaluate this method on a suite of tasks including semantic similarity, bitext mining, and cross-lingual question retrieval -- the last of which we introduce in this paper. Overall, our Variational Multilingual Source-Separation Transformer (VMSST) model outperforms both a strong contrastive and generative baseline on these tasks. | 翻訳日:2023-06-07 03:35:20 公開日:2023-06-04 |
# SAMモデリングのためのSDE:理論と展望 An SDE for Modeling SAM: Theory and Insights ( http://arxiv.org/abs/2301.08203v3 ) ライセンス: Link先を確認 | Enea Monzio Compagnoni, Luca Biggio, Antonio Orvieto, Frank Norbert Proske, Hans Kersting, Aurelien Lucchi | (参考訳) より古典的な確率勾配勾配よりも高い性能を持つSAM(Sharpness-Aware Minimization)オプティマイザについて検討した。
私たちの主な貢献は、SAMの連続時間モデル(SDEの形で)と、フルバッチとミニバッチ設定の2つのバリエーションの導出です。
これらのSDEは実離散時間アルゴリズムの厳密な近似であることを示す(弱い意味では学習速度と線形にスケールする)。
これらのモデルを用いて、SAMがシャープなものよりもフラットなミニマを好む理由を解説し、ヘッセン依存ノイズ構造で暗黙的に規則化された損失を最小限に抑えることを示す。
最後に,SAMが現実的な条件下でのサドル点に惹かれることを示す。
我々の理論結果は詳細な実験によって裏付けられている。 We study the SAM (Sharpness-Aware Minimization) optimizer which has recently attracted a lot of interest due to its increased performance over more classical variants of stochastic gradient descent. Our main contribution is the derivation of continuous-time models (in the form of SDEs) for SAM and two of its variants, both for the full-batch and mini-batch settings. We demonstrate that these SDEs are rigorous approximations of the real discrete-time algorithms (in a weak sense, scaling linearly with the learning rate). Using these models, we then offer an explanation of why SAM prefers flat minima over sharp ones~--~by showing that it minimizes an implicitly regularized loss with a Hessian-dependent noise structure. Finally, we prove that SAM is attracted to saddle points under some realistic conditions. Our theoretical results are supported by detailed experiments. | 翻訳日:2023-06-07 03:24:37 公開日:2023-06-04 |
# 生成的対向対称性発見 Generative Adversarial Symmetry Discovery ( http://arxiv.org/abs/2302.00236v3 ) ライセンス: Link先を確認 | Jianke Yang, Robin Walters, Nima Dehmamy, Rose Yu | (参考訳) 科学応用における等価ニューラルネットワークの成功にもかかわらず、それらは対称性群 a を事前に知る必要がある。
しかし、実際どの対称性を帰納的バイアスとして使うかを知るのは難しいかもしれない。
間違った対称性を強制してもパフォーマンスを損なうことさえある。
本稿では,生成的対人訓練に類似したパラダイムを用いて,データセットから同値を自動的に検出するフレームワークLieGANを提案する。
具体的には、生成器がデータに適用された変換のグループを学習し、元の分布を保存し、識別器を騙す。
リーGANは対称性を解釈可能なリー代数基底として表現し、回転群 $\mathrm{SO}(n)$、制限ローレンツ群 $\mathrm{SO}(1,3)^+$ のような様々な対称性を軌道予測やトップクォークタギングタスクにおいて発見することができる。
学習された対称性は、予測の精度と一般化を改善するために、既存の同変ニューラルネットワークで容易に利用できる。 Despite the success of equivariant neural networks in scientific applications, they require knowing the symmetry group a priori. However, it may be difficult to know which symmetry to use as an inductive bias in practice. Enforcing the wrong symmetry could even hurt the performance. In this paper, we propose a framework, LieGAN, to automatically discover equivariances from a dataset using a paradigm akin to generative adversarial training. Specifically, a generator learns a group of transformations applied to the data, which preserve the original distribution and fool the discriminator. LieGAN represents symmetry as interpretable Lie algebra basis and can discover various symmetries such as the rotation group $\mathrm{SO}(n)$, restricted Lorentz group $\mathrm{SO}(1,3)^+$ in trajectory prediction and top-quark tagging tasks. The learned symmetry can also be readily used in several existing equivariant neural networks to improve accuracy and generalization in prediction. | 翻訳日:2023-06-07 03:17:40 公開日:2023-06-04 |
# 人間表現へのアライメントはロバストな少数ショット学習を支援する Alignment with human representations supports robust few-shot learning ( http://arxiv.org/abs/2301.11990v2 ) ライセンス: Link先を確認 | Ilia Sucholutsky, Thomas L. Griffiths | (参考訳) AIシステムは、人間のものと似た世界の表現を持っているかどうかを気にすべきだろうか?
我々は,人間との表現的アライメントの程度と,少数の学習タスクにおけるパフォーマンスとの間には,u型関係があることを示唆する情報論的分析を行う。
この予測を実証的に確認し,491台のコンピュータビジョンモデルの性能解析において,このような関係を見出した。
また、高整合モデルは敵攻撃とドメインシフトの両方に対してより堅牢であることを示す。
以上の結果から,モデルが限られたデータを有効に利用し,堅牢で,一般化するのには,人間関係は十分であるが必要ではない場合が多いことが示唆された。 Should we care whether AI systems have representations of the world that are similar to those of humans? We provide an information-theoretic analysis that suggests that there should be a U-shaped relationship between the degree of representational alignment with humans and performance on few-shot learning tasks. We confirm this prediction empirically, finding such a relationship in an analysis of the performance of 491 computer vision models. We also show that highly-aligned models are more robust to both adversarial attacks and domain shifts. Our results suggest that human-alignment is often a sufficient, but not necessary, condition for models to make effective use of limited data, be robust, and generalize well. | 翻訳日:2023-06-07 03:16:32 公開日:2023-06-04 |
# サブサンプリングによる実用的微分プライベートハイパーパラメータチューニング Practical Differentially Private Hyperparameter Tuning with Subsampling ( http://arxiv.org/abs/2301.11989v2 ) ライセンス: Link先を確認 | Antti Koskela and Tejas Kulkarni | (参考訳) 差分プライベート(DP)機械学習(ML)アルゴリズムのハイパーパラメータをチューニングするには、しばしば機密データを使用する必要があり、これはハイパーパラメータ値を介してプライベート情報をリークする可能性がある。
最近、papernot と steinke (2022) は、ランダムな探索サンプルの数がランダム化されるdpハイパーパラメータチューニングアルゴリズムのクラスを提案した。
一般的に、これらのアルゴリズムはdpプライバシパラメータである$\varepsilon$を非チューニングのdp mlモデルトレーニングよりも大幅に増加させており、ハイパーパラメータ候補の評価には新たなトレーニング実行が必要になるため、計算量的に重い。
本稿では,高パラメータチューニングのための機密データのランダムなサブセットのみを用いてDP境界と計算コストを下げることと,最適な値をより大きなデータセットに外挿することに集中する。
本稿では,提案手法に対するR'enyi差分プライバシー解析を行い,Papernot と Steinke による基本手法よりも優れたプライバシー利用トレードオフをもたらすことを示す。 Tuning the hyperparameters of differentially private (DP) machine learning (ML) algorithms often requires use of sensitive data and this may leak private information via hyperparameter values. Recently, Papernot and Steinke (2022) proposed a certain class of DP hyperparameter tuning algorithms, where the number of random search samples is randomized itself. Commonly, these algorithms still considerably increase the DP privacy parameter $\varepsilon$ over non-tuned DP ML model training and can be computationally heavy as evaluating each hyperparameter candidate requires a new training run. We focus on lowering both the DP bounds and the computational cost of these methods by using only a random subset of the sensitive data for the hyperparameter tuning and by extrapolating the optimal values to a larger dataset. We provide a R\'enyi differential privacy analysis for the proposed method and experimentally show that it consistently leads to better privacy-utility trade-off than the baseline method by Papernot and Steinke. | 翻訳日:2023-06-07 03:16:19 公開日:2023-06-04 |
# ANTM: 進化するトピックを探索するニューラルネットワークトピックモデル ANTM: An Aligned Neural Topic Model for Exploring Evolving Topics ( http://arxiv.org/abs/2302.01501v2 ) ライセンス: Link先を確認 | Hamed Rahimi, Hubert Naacke, Camelia Constantin, Bernd Amann | (参考訳) 本稿では、新しいデータマイニングアルゴリズムを組み合わせて、進化するトピックを発見するためのモジュラーフレームワークを提供する、Aligned Neural Topic Models (ANTM) と呼ばれる動的トピックモデルのアルゴリズムファミリを提案する。
ANTMは、高度に訓練された大規模言語モデル(LLM)を用いて文書から時間的特徴を抽出し、逐次文書クラスタリングに重なり合うスライディングウインドウアルゴリズムを用いて、進化するトピックの時間的連続性を維持する。
この重なり合うスライディングウインドウアルゴリズムは、時間枠ごとに異なるトピックを識別し、意味的に類似した文書クラスタを時間間隔で調整する。
このプロセスは、異なる期間にわたる出現傾向と衰退傾向を捉え、進化するトピックをより解釈可能な表現を可能にします。
4つの異なるデータセットの実験により、ANTMはトピックコヒーレンスと多様性の指標で確率論的動的トピックモデルより優れていることが示された。
さらに、動的トピックモデルのスケーラビリティと柔軟性を、さまざまなタイプのアルゴリズムにアクセスし、適応することで改善する。
さらに、pythonパッケージは、大規模なテキストデータでトピックのトレンドと進化パターンを研究したい研究者や科学者のために開発されている。 This paper presents an algorithmic family of dynamic topic models called Aligned Neural Topic Models (ANTM), which combine novel data mining algorithms to provide a modular framework for discovering evolving topics. ANTM maintains the temporal continuity of evolving topics by extracting time-aware features from documents using advanced pre-trained Large Language Models (LLMs) and employing an overlapping sliding window algorithm for sequential document clustering. This overlapping sliding window algorithm identifies a different number of topics within each time frame and aligns semantically similar document clusters across time periods. This process captures emerging and fading trends across different periods and allows for a more interpretable representation of evolving topics. Experiments on four distinct datasets show that ANTM outperforms probabilistic dynamic topic models in terms of topic coherence and diversity metrics. Moreover, it improves the scalability and flexibility of dynamic topic models by being accessible and adaptable to different types of algorithms. Additionally, a Python package is developed for researchers and scientists who wish to study the trends and evolving patterns of topics in large-scale textual data. | 翻訳日:2023-06-07 03:05:07 公開日:2023-06-04 |
# 高速・微分可能・スパーストップ-k:凸解析の観点から Fast, Differentiable and Sparse Top-k: a Convex Analysis Perspective ( http://arxiv.org/abs/2302.01425v3 ) ライセンス: Link先を確認 | Michael E. Sander, Joan Puigcerver, Josip Djolonga, Gabriel Peyr\'e and Mathieu Blondel | (参考訳) トップk演算子はスパースベクトルを返し、非ゼロ値は入力の k 最大の値に対応する。
残念ながら、不連続関数であるため、トレーニングされたエンドツーエンドとバックプロパゲーションを組み込むのは難しい。
近年の研究では、正規化または摂動法に基づく微分可能な緩和が検討されている。
しかし、これまでのところ、完全に微分可能でスパースなアプローチは存在しません。
本稿では,新しい微分可能かつスパースなトップk演算子を提案する。
我々はtop-k作用素を、置換の凸包であるペルムタヘドロン上の線型プログラムと考える。
次に、演算子を滑らかにするためにpノルム正規化項を導入し、その計算を等張最適化に還元できることを示す。
我々のフレームワークは既存のフレームワークよりもはるかに一般的であり、例えば、大小の値を選択するトップk演算子を表現できる。
アルゴリズム側では, 隣り合うビオレータ(pav)アルゴリズムのプールに加えて, 等張最適化問題を解決するための新しいgpu/tpuフレンドリーなdykstraアルゴリズムを提案する。
私たちは、ニューラルネットワークの重み付け、微調整の視覚変換器、そして未熟な専門家のルーターとして、オペレーターをうまく利用しました。 The top-k operator returns a sparse vector, where the non-zero values correspond to the k largest values of the input. Unfortunately, because it is a discontinuous function, it is difficult to incorporate in neural networks trained end-to-end with backpropagation. Recent works have considered differentiable relaxations, based either on regularization or perturbation techniques. However, to date, no approach is fully differentiable and sparse. In this paper, we propose new differentiable and sparse top-k operators. We view the top-k operator as a linear program over the permutahedron, the convex hull of permutations. We then introduce a p-norm regularization term to smooth out the operator, and show that its computation can be reduced to isotonic optimization. Our framework is significantly more general than the existing one and allows for example to express top-k operators that select values in magnitude. On the algorithmic side, in addition to pool adjacent violator (PAV) algorithms, we propose a new GPU/TPU-friendly Dykstra algorithm to solve isotonic optimization problems. We successfully use our operators to prune weights in neural networks, to fine-tune vision transformers, and as a router in sparse mixture of experts. | 翻訳日:2023-06-07 03:04:45 公開日:2023-06-04 |
# epistemic-risk-seeking policy optimizationによる効率的な探索 Efficient Exploration via Epistemic-Risk-Seeking Policy Optimization ( http://arxiv.org/abs/2302.09339v2 ) ライセンス: Link先を確認 | Brendan O'Donoghue | (参考訳) 深層強化学習(RL)における探索は依然として重要な課題である。
不確実性に直面した最適性は、表面設定における理論的保証を持つよく知られたヒューリスティックであるが、オンライン確率勾配とディープネットワーク関数近似器を含むディープ強化学習にその原理をどう翻訳するかは、完全には理解されていない。
本稿では,最適化された場合,関数近似の下でも有効に探索できるポリシが得られた,新たな楽観的目標を提案する。
我々の新しい目的は、不確実性を価値に変換し、不確実な状態を探索することを奨励する、疫学リスク探索ユーティリティ関数をエージェントに付与したゼロサム2プレーヤゲームである。
このゲームに対する解法は後悔の上限の上限を最小化し、「プレイヤー」はそれぞれ特定の後悔の分解の1つの成分を最小化しようとする。
我々は,ゲームへの同時確率的勾配上昇の応用である「epistemic-risk-seeking actor-critic(ersac)」と呼ばれる新しいモデルフリーアルゴリズムを導出する。
最後に,オフ・ポリシー・データを統合するためのレシピを議論し,リスク・シーキングの目的とリプレイ・データの組み合わせが,統計効率の面で二重の利益をもたらすことを示す。
この手法を「深海深層探査」環境に適用した深部RLエージェントの性能向上と,Atariベンチマークの性能向上を両立させるとともに,他の効率的な探査手法よりも高い性能向上を図った結果が得られた。 Exploration remains a key challenge in deep reinforcement learning (RL). Optimism in the face of uncertainty is a well-known heuristic with theoretical guarantees in the tabular setting, but how best to translate the principle to deep reinforcement learning, which involves online stochastic gradients and deep network function approximators, is not fully understood. In this paper we propose a new, differentiable optimistic objective that when optimized yields a policy that provably explores efficiently, with guarantees even under function approximation. Our new objective is a zero-sum two-player game derived from endowing the agent with an epistemic-risk-seeking utility function, which converts uncertainty into value and encourages the agent to explore uncertain states. We show that the solution to this game minimizes an upper bound on the regret, with the 'players' each attempting to minimize one component of a particular regret decomposition. We derive a new model-free algorithm which we call 'epistemic-risk-seeking actor-critic' (ERSAC), which is simply an application of simultaneous stochastic gradient ascent-descent to the game. Finally, we discuss a recipe for incorporating off-policy data and show that combining the risk-seeking objective with replay data yields a double benefit in terms of statistical efficiency. We conclude with some results showing good performance of a deep RL agent using the technique on the challenging 'DeepSea' environment, showing significant performance improvements even over other efficient exploration techniques, as well as improved performance on the Atari benchmark. | 翻訳日:2023-06-07 02:58:21 公開日:2023-06-04 |
# enfomax: domain generalized face anti-spoofingにおけるドメインエントロピーと相互情報最大化 EnfoMax: Domain Entropy and Mutual Information Maximization for Domain Generalized Face Anti-spoofing ( http://arxiv.org/abs/2302.08674v2 ) ライセンス: Link先を確認 | Tianyi Zheng | (参考訳) face anti-spoofing (FAS) 法はドメイン内の設定でよく機能する。
しかし、そのクロスドメインのパフォーマンスは満足できない。
その結果,領域一般化(DG)法はFASにおいて注目されている。
既存の手法では、FASを単純なバイナリ分類タスクとして扱い、ドメイン不変の特徴を学習するためのヒューリスティックな学習目標を提案する。
しかし、ドメイン不変の特徴が何であるかの理論的な説明はない。
さらに、理論的支援の欠如により、敵の訓練のような領域一般化技術は訓練安定性を欠いている。
そこで本稿では,情報理論を用いてクロスドメインfasタスクを分析するenfomaxフレームワークを提案する。
このフレームワークは、ドメイン一般化FASタスクに対する理論的保証と最適化の目的を提供する。
enfomaxは、逆学習を用いることなく、ソースドメイン内のライブサンプルのドメインエントロピーと相互情報を最大化する。
実験の結果,我々のアプローチは広範な公開データセット上で良好に動作し,最先端の手法よりも優れていることがわかった。 The face anti-spoofing (FAS) method performs well under intra-domain setups. However, its cross-domain performance is unsatisfactory. As a result, the domain generalization (DG) method has gained more attention in FAS. Existing methods treat FAS as a simple binary classification task and propose a heuristic training objective to learn domain-invariant features. However, there is no theoretical explanation of what a domain-invariant feature is. Additionally, the lack of theoretical support makes domain generalization techniques such as adversarial training lack training stability. To address these issues, this paper proposes the EnfoMax framework, which uses information theory to analyze cross-domain FAS tasks. This framework provides theoretical guarantees and optimization objectives for domain-generalized FAS tasks. EnfoMax maximizes the domain entropy and mutual information of live samples in source domains without using adversarial learning. Experimental results demonstrate that our approach performs well on extensive public datasets and outperforms state-of-the-art methods. | 翻訳日:2023-06-07 02:57:39 公開日:2023-06-04 |
# 勾配分割による異種データのビザンチン・ロバスト学習 Byzantine-Robust Learning on Heterogeneous Data via Gradient Splitting ( http://arxiv.org/abs/2302.06079v2 ) ライセンス: Link先を確認 | Yuchen Liu, Chen Chen, Lingjuan Lyu, Fangzhao Wu, Sai Wu, Gang Chen | (参考訳) 連合学習はビザンチン攻撃の脆弱性を示しており、ビザンチン攻撃者は中央サーバーに任意の勾配を送り、グローバルモデルの収束と性能を破壊することができる。
ビザンツの攻撃から守るために、強固なアグリゲーションルール(agr)が提案されている。
しかし、Byzantineのクライアントは、データが非IdenticallyでIndependently Distributed(非IID)である場合でも、堅牢なAGRを回避することができる。
本稿では,非IID環境下での現在のロバストなAGRの性能劣化の根本原因を明らかにする。
この問題に対処するために,既存のロバストなAGRを非IID設定に適応させる手法であるGASを提案する。
また,既存のロバストなAGRとGASを組み合わせた場合の収束解析について述べる。
実世界の各種データセットにおける実験により,提案するガスの有効性が検証された。
実装コードはhttps://github.com/yuchenliu-a/byzantine-gasで提供されている。 Federated learning has exhibited vulnerabilities to Byzantine attacks, where the Byzantine attackers can send arbitrary gradients to a central server to destroy the convergence and performance of the global model. A wealth of robust AGgregation Rules (AGRs) have been proposed to defend against Byzantine attacks. However, Byzantine clients can still circumvent robust AGRs when data is non-Identically and Independently Distributed (non-IID). In this paper, we first reveal the root causes of performance degradation of current robust AGRs in non-IID settings: the curse of dimensionality and gradient heterogeneity. In order to address this issue, we propose GAS, a \shorten approach that can successfully adapt existing robust AGRs to non-IID settings. We also provide a detailed convergence analysis when the existing robust AGRs are combined with GAS. Experiments on various real-world datasets verify the efficacy of our proposed GAS. The implementation code is provided in https://github.com/YuchenLiu-a/byzantine-gas. | 翻訳日:2023-06-07 02:56:28 公開日:2023-06-04 |
# グラフニューラルネットワークのための等変多項式 Equivariant Polynomials for Graph Neural Networks ( http://arxiv.org/abs/2302.11556v2 ) ライセンス: Link先を確認 | Omri Puny, Derek Lim, Bobak T. Kiani, Haggai Maron, Yaron Lipman | (参考訳) グラフニューラルネットワーク(GNN)は本質的に表現力に制限がある。
最近のセミナー作品(Xu et al., 2019; Morris et al., 2019b)は、表現力の尺度としてWeisfeiler-Lehman階層を導入した。
この階層構造は、GNN分析とアーキテクチャ開発に大きな進歩をもたらしたが、いくつかの重大な制限に悩まされている。
これには、モデル改善のための直接的なガイダンスが欠けている複雑な定義と、現在のGNNを研究するには大きすぎるWL階層が含まれる。
本稿では、GNNが等変多項式をある程度計算する能力に基づいて、別の表現力階層を提案する。
最初のステップとして、具体的基礎を導入し、前の結果を著しく一般化することで、すべての同変グラフ多項式の完全な特徴づけを提供する。
各基底要素は特定の多重グラフに対応し、そのグラフデータ入力上の計算はテンソル収縮問題に対応する。
第2に、テンソルの縮約配列を用いてGNNの表現性を評価するアルゴリズムツールを提案し、人気のあるGNNの表現力を算出する。
最後に,この理論に触発された多項式特徴や演算・集約を追加することで,共通gnnアーキテクチャの表現性を高める。
これらの強化されたGNNは、複数のグラフ学習ベンチマークの実験において最先端の結果を示す。 Graph Neural Networks (GNN) are inherently limited in their expressive power. Recent seminal works (Xu et al., 2019; Morris et al., 2019b) introduced the Weisfeiler-Lehman (WL) hierarchy as a measure of expressive power. Although this hierarchy has propelled significant advances in GNN analysis and architecture developments, it suffers from several significant limitations. These include a complex definition that lacks direct guidance for model improvement and a WL hierarchy that is too coarse to study current GNNs. This paper introduces an alternative expressive power hierarchy based on the ability of GNNs to calculate equivariant polynomials of a certain degree. As a first step, we provide a full characterization of all equivariant graph polynomials by introducing a concrete basis, significantly generalizing previous results. Each basis element corresponds to a specific multi-graph, and its computation over some graph data input corresponds to a tensor contraction problem. Second, we propose algorithmic tools for evaluating the expressiveness of GNNs using tensor contraction sequences, and calculate the expressive power of popular GNNs. Finally, we enhance the expressivity of common GNN architectures by adding polynomial features or additional operations / aggregations inspired by our theory. These enhanced GNNs demonstrate state-of-the-art results in experiments across multiple graph learning benchmarks. | 翻訳日:2023-06-07 02:45:54 公開日:2023-06-04 |
# 生涯機械学習の可能性 Lifelong Machine Learning Potentials ( http://arxiv.org/abs/2303.05911v2 ) ライセンス: Link先を確認 | Marco Eckhoff and Markus Reiher | (参考訳) 正確な量子化学データに基づいてトレーニングされた機械学習ポテンシャル(MLP)は、計算要求にほとんど影響せず、高い精度を維持することができる。
マイナス面は、個々のシステムのためにトレーニングする必要があります。
近年、多くのMLPがゼロから訓練されている。なぜなら、追加のデータを学習するには、通常、以前取得した知識を忘れないように、すべてのデータで再びトレーニングする必要があるからだ。
さらに、MLPの構造記述子は、多くの異なる化学元素を効率的に表現することはできない。
本研究では,原子中心対称性関数 (eeacsfs) を周期表から構造的性質と元素情報を組み合わせて導入することにより,これらの問題に対処する。
これらのeeACSFは、生涯にわたる機械学習の可能性(lMLP)の発展の鍵です。
不確かさの定量化は、予め定義された精度のレベルを確保できるため、固定された事前訓練されたMLPを継続的に適応するlMLPに到達させるために利用することができる。
lmlpの新たなシステムへの適用性を高めるために,連続学習戦略を適用し,新たなデータの連続ストリーム上での自律的およびオンザフライトレーニングを実現する。
深層ニューラルネットワークの学習のために,データのリハーサル,パラメータの正規化,モデルのアーキテクチャに依存する連続的回復性(コア)オプティマイザとインクリメンタル学習戦略を提案する。 Machine learning potentials (MLPs) trained on accurate quantum chemical data can retain the high accuracy, while inflicting little computational demands. On the downside, they need to be trained for each individual system. In recent years, a vast number of MLPs has been trained from scratch because learning additional data typically requires to train again on all data to not forget previously acquired knowledge. Additionally, most common structural descriptors of MLPs cannot represent efficiently a large number of different chemical elements. In this work, we tackle these problems by introducing element-embracing atom-centered symmetry functions (eeACSFs) which combine structural properties and element information from the periodic table. These eeACSFs are a key for our development of a lifelong machine learning potential (lMLP). Uncertainty quantification can be exploited to transgress a fixed, pre-trained MLP to arrive at a continuously adapting lMLP, because a predefined level of accuracy can be ensured. To extend the applicability of an lMLP to new systems, we apply continual learning strategies to enable autonomous and on-the-fly training on a continuous stream of new data. For the training of deep neural networks, we propose the continual resilient (CoRe) optimizer and incremental learning strategies relying on rehearsal of data, regularization of parameters, and the architecture of the model. | 翻訳日:2023-06-07 02:40:21 公開日:2023-06-04 |
# ブラックボックス変分ベイズ推定のための実用的・整合勾配分散境界 Practical and Matching Gradient Variance Bounds for Black-Box Variational Bayesian Inference ( http://arxiv.org/abs/2303.10472v4 ) ライセンス: Link先を確認 | Kyurae Kim, Kaiwen Wu, Jisu Oh, Jacob R. Gardner | (参考訳) black-box variational inference(bbvi)の勾配分散を理解することは、その収束を確立しアルゴリズムの改善を開発する上で重要なステップである。
しかし、既存の研究ではbbviの勾配分散がbbviのワークホースである確率勾配降下(sgd)の収束を研究するのに使われた条件を満たすことがわかっていない。
本研究では, BBVI が, SGD の文献で用いられる$ABC$条件に対応して, 滑らかで二次的に成長するログライクな条件に適合することを示す。
この結果はBBVIの実践で広く用いられている非線形共分散パラメータ化に一般化される。
さらに, 平均場パラメタライゼーションのばらつきは, 寸法依存性が良好であることを示す。 Understanding the gradient variance of black-box variational inference (BBVI) is a crucial step for establishing its convergence and developing algorithmic improvements. However, existing studies have yet to show that the gradient variance of BBVI satisfies the conditions used to study the convergence of stochastic gradient descent (SGD), the workhorse of BBVI. In this work, we show that BBVI satisfies a matching bound corresponding to the $ABC$ condition used in the SGD literature when applied to smooth and quadratically-growing log-likelihoods. Our results generalize to nonlinear covariance parameterizations widely used in the practice of BBVI. Furthermore, we show that the variance of the mean-field parameterization has provably superior dimensional dependence. | 翻訳日:2023-06-07 02:28:24 公開日:2023-06-04 |
# 内部スクイーズによる力センサの量子デコヒーレンス緩和 Mitigating quantum decoherence in force sensors by internal squeezing ( http://arxiv.org/abs/2303.09983v2 ) ライセンス: Link先を確認 | Mikhail Korobko, Jan S\"udbeck, Sebastian Steinlechner, Roman Schnabel | (参考訳) レーザ干渉力センシングへの最も効率的なアプローチは、信号サイドバンドスペクトルを持つ単色キャリア光を圧縮真空状態に使用することである。
量子デコヒーレンス(つまり、光学的損失による通常の真空状態との混合)が主な感度限界である。
本研究は,光学キャビティで強化された高精度レーザー干渉力センサの量子デコヒーレンスを,センサのキャビティ内における量子絞殺操作により緩和できるという理論的および実験的証拠を共に提示する。
本実験では,広帯域の光読み出し損失に依存しない測定感度の向上を示す。
以上の結果から,従来は高デコヒーレンスでシャープ光の使用が禁止されていたシナリオにおいて,量子的改善の道を開いた。
この結果は,量子センサの分野を前進させ,高精度計測技術における新しい実験的アプローチを実現するための大きな可能性を秘めている。 The most efficient approach to laser interferometric force sensing to date uses monochromatic carrier light with its signal sideband spectrum in a squeezed vacuum state. Quantum decoherence, i.e. mixing with an ordinary vacuum state due to optical losses, is the main sensitivity limit. In this work, we present both theoretical and experimental evidence that quantum decoherence in high-precision laser interferometric force sensors enhanced with optical cavities and squeezed light injection can be mitigated by a quantum squeeze operation inside the sensor's cavity. Our experiment shows an enhanced measurement sensitivity that is independent of the optical readout loss in a wide range. Our results pave the way for quantum improvements in scenarios where high decoherence previously precluded the use of squeezed light. Our results hold significant potential for advancing the field of quantum sensors and enabling new experimental approaches in high-precision measurement technology. | 翻訳日:2023-06-07 02:27:54 公開日:2023-06-04 |
# 量子計測における普遍性 Universality in Quantum Measurements ( http://arxiv.org/abs/2303.07966v2 ) ライセンス: Link先を確認 | Avijit Lahiri | (参考訳) 本稿では, 波動関数崩壊仮説とは違って, 波動関数のユニタリなSchr\odinger進化と整合した理論として出現するという, 2つの一般的な原理の形で, 測定装置の環境誘起デコヒーレンスに基づく量子計測理論のアプローチの主な特徴を概観する。
我々は、量子論が現実を記述せず、我々の現象的現実を文脈内で解釈する「it解釈」を構成するという、プランクスケールが交差しないような、哲学的性質のいくつかの観察で締めくくった。
プランクスケールを超えて、現実の根本的に新しい解釈が現れる可能性が高い。 We briefly review a number of major features of the approach to quantum measurement theory based on environment-induced decoherence of the measuring apparatus, and summarize our observations in the form of a couple of general principles that, unlike the wave function collapse hypothesis, emerge as ones consistent with the unitary Schr\"odinger evolution of wave functions. We conclude with a few observations of a philosophical nature, to the effect that that quantum theory does not purport to describe reality but constitutes an {\it interpretation} of our phenomenal reality within a context -- one where the Planck scale is not crossed. Beyond the Planck scale, a radically new interpretation of reality is likely to emerge. | 翻訳日:2023-06-07 02:26:59 公開日:2023-06-04 |
# ラッソ群を用いたグリーディプルーニングによるマトリクスセンシングの一般化 Greedy Pruning with Group Lasso Provably Generalizes for Matrix Sensing ( http://arxiv.org/abs/2303.11453v2 ) ライセンス: Link先を確認 | Nived Rajaraman, Devvrit, Aryan Mokhtari, Kannan Ramchandran | (参考訳) プルーニングスキームは、大量のパラメータを持つ訓練されたモデルの複雑さを減らすために、実際に広く用いられている。
実際、いくつかの実用的な研究により、刈り取られたモデルがグラデーションベースの更新で微調整されている場合、新しいサンプルにうまく一般化することが示されている。
上記のパイプラインはプルーニングとファインチューニングと呼ばれ、訓練されたモデルの複雑さを下げることに成功したが、この成功の背後にある理論についてはほとんど分かっていない。
本稿では、基底真理$U_\star \in \mathbb{R}^{d \times r}$と超パラメータモデル$U \in \mathbb{R}^{d \times k}$を$k \gg r$とすることで、超パラメータ化行列センシング問題に対するプルーニングと微調整の枠組みを調査し、この問題に対処する。
平均二乗誤差の近似局所ミニマを、群ラッソ正則化器の滑らかなバージョン、$\sum_{i=1}^k \| U e_i \|_2$で拡張する。
特に、ある明示的な$\ell_2$-normしきい値以下にすべての列をプルーニングすると、$U_{\text{prune}}$が最小の列数$r$を持つが、トレーニング損失の根本的真実に近いソリューションとなることを確実に示します。
さらに、その後の微調整フェーズでは、$U_{\text{prune}}$で初期化された勾配降下はその極限まで線形速度で収束する。
我々の分析では, 刈り取りにおける正規化の役割について考察する一方で, 正規化の欠如による勾配降下の結果, グリーディ・プルーニングに適さないモデル, すなわち, 多くの列は最大値に匹敵する$\ell_2$ のノルムを持つことができることを示した。
我々の知識を最大限に活用するために、我々の結果はグリーディ・プルーニング+ファインチューニングがなぜより小さなモデルに導かれるのかという厳密な洞察を与える。 Pruning schemes have been widely used in practice to reduce the complexity of trained models with a massive number of parameters. In fact, several practical studies have shown that if a pruned model is fine-tuned with some gradient-based updates it generalizes well to new samples. Although the above pipeline, which we refer to as pruning + fine-tuning, has been extremely successful in lowering the complexity of trained models, there is very little known about the theory behind this success. In this paper, we address this issue by investigating the pruning + fine-tuning framework on the overparameterized matrix sensing problem with the ground truth $U_\star \in \mathbb{R}^{d \times r}$ and the overparameterized model $U \in \mathbb{R}^{d \times k}$ with $k \gg r$. We study the approximate local minima of the mean square error, augmented with a smooth version of a group Lasso regularizer, $\sum_{i=1}^k \| U e_i \|_2$. In particular, we provably show that pruning all the columns below a certain explicit $\ell_2$-norm threshold results in a solution $U_{\text{prune}}$ which has the minimum number of columns $r$, yet close to the ground truth in training loss. Moreover, in the subsequent fine-tuning phase, gradient descent initialized at $U_{\text{prune}}$ converges at a linear rate to its limit. While our analysis provides insights into the role of regularization in pruning, we also show that running gradient descent in the absence of regularization results in models which {are not suitable for greedy pruning}, i.e., many columns could have their $\ell_2$ norm comparable to that of the maximum. To the best of our knowledge, our results provide the first rigorous insights on why greedy pruning + fine-tuning leads to smaller models which also generalize well. | 翻訳日:2023-06-07 02:17:22 公開日:2023-06-04 |
# 量子チャネルの純度を考慮したガンクレーゼ型量子ポントリャーギンニューラルネットワーク Quantum Pontryagin Neural Networks in Gamkrelidze Form Subjected to the Purity of Quantum Channels ( http://arxiv.org/abs/2304.02616v3 ) ライセンス: Link先を確認 | Nahid Binandeh Dehaghani, A. Pedro Aguiar, Rafal Wisniewski | (参考訳) 本研究では,lindblad(あるいはgorini-kossakowski-sudarshan-lindblad)マスター方程式によって動的に制御される開量子系に対する時間とエネルギーの最小化最適制御問題を検討する。
散逸はマルコフ時間非依存であり、制御は量子力学系のハミルトニアンによって支配される。
我々は、状態と制御入力に制約された散逸系における純度の研究に特に関心がある。
この問題を解決するためのアイデアは、以下の2つのテクニックを組み合わせている。
我々は、飽和関数とシステム拡張の概念を通じて制御制約を処理しながら、gamkrelidze再訪メソッドによる状態制約を扱う。
量子純度保存がそのような枠組みで定式化されたのはこれが初めてである。
我々はポントリャーギン最小原理を通じて最適性の必要条件を得る。
最後に、得られた境界値問題は、物理情報ニューラルネットワーク(PINN)アプローチによって解決される。
悪用されたポントリャーギンPINN技術は、量子制御の文脈でも新しい。
これらのPINNが最適制御行動の学習に有効であることを示す。 We investigate a time and energy minimization optimal control problem for open quantum systems, whose dynamics is governed through the Lindblad (or Gorini-Kossakowski-Sudarshan-Lindblad) master equation. The dissipation is Markovian time-independent, and the control is governed by the Hamiltonian of a quantum-mechanical system. We are specifically interested to study the purity in a dissipative system constrained by state and control inputs. The idea for solving this problem is by the combination of two following techniques. We deal with the state constraints through Gamkrelidze revisited method, while handling control constraints through the idea of saturation functions and system extensions. This is the first time that quantum purity conservation is formulated in such framework. We obtain the necessary conditions of optimality through the Pontryagin Minimum Principle. Finally, the resulted boundary value problem is solved by a Physics-Informed Neural Network (PINN) approach. The exploited Pontryagin PINN technique is also new in quantum control context. We show that these PINNs play an effective role in learning optimal control actions. | 翻訳日:2023-06-07 02:09:00 公開日:2023-06-04 |
# 医用画像分割のための明示的形状事前学習 Learning with Explicit Shape Priors for Medical Image Segmentation ( http://arxiv.org/abs/2303.17967v2 ) ライセンス: Link先を確認 | Xin You, Junjun He, Jie Yang, and Yun Gu | (参考訳) 医用画像分割は医用画像解析と手術計画の基本的なタスクである。
近年,UNetベースのネットワークが医療画像セグメンテーションの分野で普及している。
しかし、畳み込み神経ネットワーク(CNN)は受容野が限られており、臓器や腫瘍の長距離依存性をモデル化できない。
さらに、これらのモデルは最終セグメンテーションヘッドのトレーニングに大きく依存している。
既存のメソッドでは,これら2つの制限を同時に対処することはできない。
そこで本研究では, unetベースのモデルのセグメンテーション性能向上のために, 形状先行を明示的に導入できる新しい形状優先モジュール(spm)を提案する。
明示的な形状優先は、大域的および局所的な形状優先からなる。
前者は粗い形状の表現で、グローバルコンテキストをモデル化できるネットワークを提供する。
より詳細な形状情報を持つ後者は、セグメンテーション性能を向上させるための追加のガイダンスとなり、セグメンテーションヘッドの学習可能なプロトタイプへの重度な依存を緩和する。
SPMの有効性を評価するため、3つの挑戦的な公開データセットで実験を行った。
そして,提案モデルは最先端の性能を実現する。
さらに、SPMは従来のCNNや最近のTransformerベースのバックボーンに優れた一般化能力を示し、異なるデータセットのセグメンテーションタスクのプラグアンドプレイ構造として機能する。
ソースコードはhttps://github.com/AlexYouXin/Explicit-Shape-Priorsで入手できる。 Medical image segmentation is a fundamental task for medical image analysis and surgical planning. In recent years, UNet-based networks have prevailed in the field of medical image segmentation. However, convolution-neural networks (CNNs) suffer from limited receptive fields, which fail to model the long-range dependency of organs or tumors. Besides, these models are heavily dependent on the training of the final segmentation head. And existing methods can not well address these two limitations at the same time. Hence, in our work, we proposed a novel shape prior module (SPM), which can explicitly introduce shape priors to promote the segmentation performance of UNet-based models. The explicit shape priors consist of global and local shape priors. The former with coarse shape representations provides networks with capabilities to model global contexts. The latter with finer shape information serves as additional guidance to boost the segmentation performance, which relieves the heavy dependence on the learnable prototype in the segmentation head. To evaluate the effectiveness of SPM, we conduct experiments on three challenging public datasets. And our proposed model achieves state-of-the-art performance. Furthermore, SPM shows an outstanding generalization ability on classic CNNs and recent Transformer-based backbones, which can serve as a plug-and-play structure for the segmentation task of different datasets. Source codes are available at https://github.com/AlexYouXin/Explicit-Shape-Priors | 翻訳日:2023-06-07 02:07:43 公開日:2023-06-04 |
# SOSR: Wavelet Augmentation Transformer を用いたソースフリー画像超解像 SOSR: Source-Free Image Super-Resolution with Wavelet Augmentation Transformer ( http://arxiv.org/abs/2303.17783v2 ) ライセンス: Link先を確認 | Yuang Ai, Xiaoqiang Zhou, Huaibo Huang, Lei Zhang, Ran He | (参考訳) 異なる分解カーネルを持つ異なるカメラによって撮影された実世界の画像は、しばしば画像超解像におけるデバイス間ドメインギャップをもたらす。
この問題に対する一般的な試みは、ソースデータにアクセスする必要のないドメイン適応(UDA)である。
多くの実用的なアプリケーションにおいて、データのプライバシーポリシーや送信制限を考慮して、ラベル付きソースデータに事前トレーニングされたモデルを、ラベルなしのターゲットデータのみを持つターゲットドメインに適応させる、ソースフリーイメージスーパーレゾリューションフレームワーク(sosr)を提案する。
SOSRはソースモデルを利用して、教師学習のための洗練された擬似ラベルを生成する。
そこで本研究では,既存のネットワークに柔軟に組み込むことができるWavelet Augmentation Transformer (WAT) という,新しいウェーブレットベースの拡張手法を提案する。
WATは、変形可能な注意によって効率的に集約される様々なサンプルの様々なレベルの低周波情報を学習する。
さらに,疑似ラベルの精度を向上させるために,不確実性を考慮した自己学習機構を提案する。
より優れたSR結果を取得し、擬似ラベルの過適合を避けるために、ターゲットLRとSR画像間の周波数情報を制限するために、いくつかの正規化損失を提案する。
実験により、ソースデータにアクセスせずに、SOSRは最先端のUDA手法よりも優れた結果が得られることが示された。 Real-world images taken by different cameras with different degradation kernels often result in a cross-device domain gap in image super-resolution. A prevalent attempt to this issue is unsupervised domain adaptation (UDA) that needs to access source data. Considering privacy policies or transmission restrictions of data in many practical applications, we propose a SOurce-free image Super-Resolution framework (SOSR) to address this issue, i.e., adapt a model pre-trained on labeled source data to a target domain with only unlabeled target data. SOSR leverages the source model to generate refined pseudo-labels for teacher-student learning. To better utilize the pseudo-labels, this paper proposes a novel wavelet-based augmentation method, named Wavelet Augmentation Transformer (WAT), which can be flexibly incorporated with existing networks, to implicitly produce useful augmented data. WAT learns low-frequency information of varying levels across diverse samples, which is aggregated efficiently via deformable attention. Furthermore, an uncertainty-aware self-training mechanism is proposed to improve the accuracy of pseudo-labels, with inaccurate predictions being rectified by uncertainty estimation. To acquire better SR results and avoid overfitting pseudo-labels, several regularization losses are proposed to constrain the frequency information between target LR and SR images. Experiments show that without accessing source data, SOSR achieves superior results to the state-of-the-art UDA methods. | 翻訳日:2023-06-07 02:07:21 公開日:2023-06-04 |
# 制御されたResNetの無限幅深度限界としてのニューラルシグネチャカーネル Neural signature kernels as infinite-width-depth-limits of controlled ResNets ( http://arxiv.org/abs/2303.17671v2 ) ライセンス: Link先を確認 | Nicola Muca Cirone, Maud Lemercier, Cristopher Salvi | (参考訳) rnnとresnetを包含する統一アーキテクチャであるneural controlled differential equation(neural cdes)のeuler-discretizationとして定義されるランダム初期化制御resnetについて考察する。
無限幅幅の極限と適切なスケーリングの下では、これらのアーキテクチャは連続経路のある空間にインデックス付けされたガウス過程に弱収束し、活性化関数の選択に応じて異なる偏微分方程式 (PDE) を満たすカーネルと収束し、ヘイユー (2022), ヘイユー・アンド・ヤン (2023) の結果を制御および均一なケースに拡張する。
アクティベーションが恒等性である特別な場合において、方程式が線形PDEに還元され、制限カーネルがSalvi et al. (2021a) のシグネチャカーネルと一致することを示す。
我々はこの制限カーネルの新たなファミリーをニューラルシグネチャカーネルと名付けた。
最後に,有限深層構造において,有限幅制御レネットは,重みが層間で共有されているか,時間に依存しないかガウス的か,あるいは行列値のブラウン運動のように振る舞うランダムベクトル場を持つ神経cdに分布的に収束することを示した。 Motivated by the paradigm of reservoir computing, we consider randomly initialized controlled ResNets defined as Euler-discretizations of neural controlled differential equations (Neural CDEs), a unified architecture which enconpasses both RNNs and ResNets. We show that in the infinite-width-depth limit and under proper scaling, these architectures converge weakly to Gaussian processes indexed on some spaces of continuous paths and with kernels satisfying certain partial differential equations (PDEs) varying according to the choice of activation function, extending the results of Hayou (2022); Hayou & Yang (2023) to the controlled and homogeneous case. In the special, homogeneous, case where the activation is the identity, we show that the equation reduces to a linear PDE and the limiting kernel agrees with the signature kernel of Salvi et al. (2021a). We name this new family of limiting kernels neural signature kernels. Finally, we show that in the infinite-depth regime, finite-width controlled ResNets converge in distribution to Neural CDEs with random vector fields which, depending on whether the weights are shared across layers, are either time-independent and Gaussian or behave like a matrix-valued Brownian motion. | 翻訳日:2023-06-07 02:06:36 公開日:2023-06-04 |
# nomaネットワーク上での通信効率のよい連合学習のためのクライアント選択と資源割り当て Joint Age-based Client Selection and Resource Allocation for Communication-Efficient Federated Learning over NOMA Networks ( http://arxiv.org/abs/2304.08996v3 ) ライセンス: Link先を確認 | Bibo Wu, Fang Fang, and Xianbin Wang | (参考訳) フェデレーション学習(fl)では、分散クライアントは、ローカルにトレーニングデータを保持しながら、共有グローバルモデルを協調的にトレーニングすることができる。
それでもflの性能は、無線ネットワーク上でflが展開されるときに通信リンクが不十分なため、収束が遅いため、しばしば制限される。
無線リソースの不足により、FL性能を向上させるために、クライアントを正確に選択し、通信リソースを正確に割り当てることが重要である。
本稿では,非正方形多重アクセス(noma)対応無線ネットワークにおけるflにおける各ラウンドの合計時間消費を最小化することを目的とした,クライアント選択とリソース割り当ての同時最適化問題を提案する。
具体的には,ローカルflモデルの陳腐性を考慮して,aou( age of update)ベースの新規クライアント選択方式を提案する。
その後、資源割当のための閉形式式は単調性解析と双対分解法によって導出される。
さらに、各ラウンドで選択されていないクライアントのFLモデルを予測し、FL性能をさらに向上するために、サーバサイド人工知能ニューラルネットワーク(ANN)を提案する。
最後に, FL性能, 平均AoU, 総時間消費よりも提案手法の方が優れた性能を示した。 In federated learning (FL), distributed clients can collaboratively train a shared global model while retaining their own training data locally. Nevertheless, the performance of FL is often limited by the slow convergence due to poor communications links when FL is deployed over wireless networks. Due to the scarceness of radio resources, it is crucial to select clients precisely and allocate communication resource accurately for enhancing FL performance. To address these challenges, in this paper, a joint optimization problem of client selection and resource allocation is formulated, aiming to minimize the total time consumption of each round in FL over a non-orthogonal multiple access (NOMA) enabled wireless network. Specifically, considering the staleness of the local FL models, we propose an age of update (AoU) based novel client selection scheme. Subsequently, the closed-form expressions for resource allocation are derived by monotonicity analysis and dual decomposition method. In addition, a server-side artificial neural network (ANN) is proposed to predict the FL models of clients who are not selected at each round to further improve FL performance. Finally, extensive simulation results demonstrate the superior performance of the proposed schemes over FL performance, average AoU and total time consumption. | 翻訳日:2023-06-07 02:00:21 公開日:2023-06-04 |
# カーネル化スタインの相違に基づく適合性試験の改善のための摂動法 Using Perturbation to Improve Goodness-of-Fit Tests based on Kernelized Stein Discrepancy ( http://arxiv.org/abs/2304.14762v3 ) ライセンス: Link先を確認 | Xing Liu, Andrew B. Duncan, Axel Gandy | (参考訳) kernelized stein discrepancy (ksd) は、適合度テストで広く使われるスコアベースの不一致である。
対象分布が未知の正規化因子を持つ場合でも、ベイズ解析のように適用することができる。
我々は、KSD試験が、ターゲットと代替分布が同一の分離モードを持つが混合比が異なる場合、低出力に悩まされることを理論的かつ実証的に示す。
対象分布が不変である点に関して,マルコフ遷移核を介して観測試料を摂動させることを提案する。
これにより、摂動サンプルにKSDテストを適用することができます。
我々は,選択された遷移核を用いて提案手法が ksd テストよりも大幅に高い出力をもたらすことを示す数値的証拠を提供する。 Kernelized Stein discrepancy (KSD) is a score-based discrepancy widely used in goodness-of-fit tests. It can be applied even when the target distribution has an unknown normalising factor, such as in Bayesian analysis. We show theoretically and empirically that the KSD test can suffer from low power when the target and the alternative distributions have the same well-separated modes but differ in mixing proportions. We propose to perturb the observed sample via Markov transition kernels, with respect to which the target distribution is invariant. This allows us to then employ the KSD test on the perturbed sample. We provide numerical evidence that with suitably chosen transition kernels the proposed approach can lead to substantially higher power than the KSD test. | 翻訳日:2023-06-07 01:48:25 公開日:2023-06-04 |
# 変圧器のトーケン位置バイアスに関する技術報告 Technical Report on Token Position Bias in Transformers ( http://arxiv.org/abs/2304.13567v2 ) ライセンス: Link先を確認 | Mehdi Ben Amor, Michael Granitzer, Jelena Mitrovi\'c | (参考訳) 言語モデル(LM)は自然言語処理(NLP)タスクにおける最先端のパフォーマンスを示している。
名前付きエンティティ認識(ner)やpart-of-speech(pos)タグといった下流タスクは、データ不均衡の問題、特にポジティブな例とネガティブな例の比率、クラス不均衡に苦しむことが知られている。
本稿では,トークン分類タスクにおける肯定的な例の位置バイアスという言語モデルに対する追加的な問題について検討する。
そこで我々は,トークン分類ベンチマークの微調整時のlms性能に対する位置バイアスの影響を詳細に評価した。
調査対象は,NER 用 CoNLL03 と OntoNote5.0 ,POS タグ付け用 English Tree Bank UD_en と TweeBank である。
本稿では,変圧器モデルにおける位置バイアスの評価手法を提案する。
BERT, ERNIE, ELECTRA などのエンコーダや GPT2 や BLOOM などのデコーダは, 平均 3 % と 9 % の低下でこのバイアスに悩まされることを示す。
この効果を緩和するため,訓練中にバッチに適用するランダム位置シフト法とコンテキスト摂動法という2つの手法を提案する。
その結果,CoNLL03,UD_en,TweeBankのモデルの性能は,$\approx$2\%向上した。 Language Models (LMs) have shown state-of-the-art performance in Natural Language Processing (NLP) tasks. Downstream tasks such as Named Entity Recognition (NER) or Part-of-Speech (POS) tagging are known to suffer from data imbalance issues, specifically in terms of the ratio of positive to negative examples, and class imbalance. In this paper, we investigate an additional specific issue for language models, namely the position bias of positive examples in token classification tasks. Therefore, we conduct an in-depth evaluation of the impact of position bias on the performance of LMs when fine-tuned on Token Classification benchmarks. Our study includes CoNLL03 and OntoNote5.0 for NER, English Tree Bank UD_en and TweeBank for POS tagging. We propose an evaluation approach to investigate position bias in Transformer models. We show that encoders like BERT, ERNIE, ELECTRA, and decoders such as GPT2 and BLOOM can suffer from this bias with an average drop of 3\% and 9\% in their performance. To mitigate this effect, we propose two methods: Random Position Shifting and Context Perturbation, that we apply on batches during the training process. The results show an improvement of $\approx$ 2\% in the performance of the model on CoNLL03, UD_en, and TweeBank. | 翻訳日:2023-06-07 01:47:53 公開日:2023-06-04 |
# ディラックの自由場の量子論 Quantum theory of Dirac's free field ( http://arxiv.org/abs/2304.12182v3 ) ライセンス: Link先を確認 | Ion I. Cotaescu | (参考訳) 自由質量フェルミオンのディラック理論は、新しい保存されたスピン作用素とその関連する位置を中心に、長い間Pryceによって提案され、最近適切なスペクトル表現を用いて再定義されている。
I. Cot\u aescu, Eur
Phys
J.C (2022) 82:1073。
ここで、この方法は任意の積分作用素に関連付け、モードスピノルの代わりに運動量表現において粒子と反粒子波スピノルに作用する一対の積分作用素を配置表現する。
その結果、従来の解釈でジッタベグングを生成するもののように、主オブザーバブルがサームを振動させることなく一粒子作用素となるコヒーレント量子論をもたらす効果的な量子化過程が生じる。
このアプローチでは、スピン作用素は保存されるが、Pryceによって最初に提案された位置演算子は、保存速度とともに線形に進化する双極子作用素の量子化の後になる。
アイソメトリー生成器や様々な位置演算子を含む可観測物のリッチ代数を慎重に研究する。
1粒子波束の伝播は、このフレームワークで初めて、これらの動きが通常、他のスカラー波束や非相対論的波束のように時間的に均一に広がることを発見したと考えられている。 The Dirac theory of free massive fermions is reconstructed around the new conserved spin operator and its associated position one proposed initially by Pryce long time ago and re-defined recently by using suitable spectral representations [I. I. Cot\u aescu, Eur. Phys. J. C (2022) 82:1073]. This method is generalized here associating to any integral operator in configuration representation a pair of integral operators acting on particle and antiparticle wave spinors in momentum representation instead on the mode spinors. It results thus an effective quantization procedure giving rise to a coherent quantum theory in which the principal observables are one-particle operators without oscillating therms as those producing zitterbewegung in the traditional interpretation. In this approach the spin operator is conserved while the position one, proposed initially by Pryce as mass-center operator, becomes after quantization the dipole operator evolving linearly in time with a conserved velocity. The rich algebra of observables including the isometry generators and various position operators is carefully studied. The propagation of one-particle wave-packets is considered for the first time in this framework finding that these move uniformly spreading in time normally as any other scalar or non-relativistic wave-packet. | 翻訳日:2023-06-07 01:46:44 公開日:2023-06-04 |
# SI-LSTM:会話における感情認識のための話者ハイブリッド長短記憶とクロスモーダル注意 SI-LSTM: Speaker Hybrid Long-short Term Memory and Cross Modal Attention for Emotion Recognition in Conversation ( http://arxiv.org/abs/2305.03506v2 ) ライセンス: Link先を確認 | Xingwei Liang, You Zou, Ruifeng Xu | (参考訳) 会話における感情認識(erc)は、インテリジェントな医療、会話のための人工知能、チャット履歴に関する意見のマイニングなど、さまざまなアプリケーションにとって極めて重要である。
ERCの要点は、会話全体での相互モダリティと相互時間相互作用の両方をモデル化することである。
従来の方法では,会話の時系列情報を学習する一方で,会話における各話者の異なる感情状態を追跡する能力が欠如している。
本稿では,ERCタスクにおける話者情報強化長短記憶(SI-LSTM)と呼ばれる繰り返し構造を提案する。
さらに、ercにおけるマルチモーダル特徴の学習を改善するために、クロスモーダル注意成分を用いて、異なるモーダリティ間の特徴を融合させ、異なるモーダリティから重要な情報の相互作用をモデル化する。
2つのベンチマークデータセットの実験結果は、マルチモーダルデータに基づくERCタスクにおける最先端のベースライン手法に対する提案したSI-LSTMの優位性を示している。 Emotion Recognition in Conversation~(ERC) across modalities is of vital importance for a variety of applications, including intelligent healthcare, artificial intelligence for conversation, and opinion mining over chat history. The crux of ERC is to model both cross-modality and cross-time interactions throughout the conversation. Previous methods have made progress in learning the time series information of conversation while lacking the ability to trace down the different emotional states of each speaker in a conversation. In this paper, we propose a recurrent structure called Speaker Information Enhanced Long-Short Term Memory (SI-LSTM) for the ERC task, where the emotional states of the distinct speaker can be tracked in a sequential way to enhance the learning of the emotion in conversation. Further, to improve the learning of multimodal features in ERC, we utilize a cross-modal attention component to fuse the features between different modalities and model the interaction of the important information from different modalities. Experimental results on two benchmark datasets demonstrate the superiority of the proposed SI-LSTM against the state-of-the-art baseline methods in the ERC task on multimodal data. | 翻訳日:2023-06-07 01:39:16 公開日:2023-06-04 |
# llmによるジェネレイティブニュースレコメンデーションを初めて見る A First Look at LLM-Powered Generative News Recommendation ( http://arxiv.org/abs/2305.06566v2 ) ライセンス: Link先を確認 | Qijiong Liu, Nuo Chen, Tetsuya Sakai, Xiao-Ming Wu | (参考訳) パーソナライズされたニュースレコメンデーションシステムは、ユーザーが大量のオンラインニュースコンテンツをナビゲートするために欠かせないツールとなっているが、既存のニュースレコメンデーターは、コールドスタート問題、ユーザープロファイルモデリング、ニュースコンテンツ理解といった重要な課題に直面している。
それまでの作品は、モデル設計を通じて特定の課題に対処するために柔軟性のないルーチンに従ってきたが、ニュースコンテンツを理解し、ユーザーの興味を捉える能力に制限がある。
本稿では,大規模言語モデルから事前学習された意味的知識を活用し,ニュースデータを強化した,llmを活用したニュースレコメンデーションフレームワークであるaversationを紹介する。
当社の目標は,モデル設計から迅速な設計に移行することで,ニュースレコメンデーションのフレキシブルで統一的なソリューションを提供することです。
本稿では、パーソナライズされたニュース生成、ユーザプロファイリング、ニュース要約におけるGENREの使用について紹介する。
様々なリコメンデーションモデルを用いた大規模な実験は、genREの有効性を示す。
他の研究者が作業を再現するために、コードとデータを公開します。 Personalized news recommendation systems have become essential tools for users to navigate the vast amount of online news content, yet existing news recommenders face significant challenges such as the cold-start problem, user profile modeling, and news content understanding. Previous works have typically followed an inflexible routine to address a particular challenge through model design, but are limited in their ability to understand news content and capture user interests. In this paper, we introduce GENRE, an LLM-powered generative news recommendation framework, which leverages pretrained semantic knowledge from large language models to enrich news data. Our aim is to provide a flexible and unified solution for news recommendation by moving from model design to prompt design. We showcase the use of GENRE for personalized news generation, user profiling, and news summarization. Extensive experiments with various popular recommendation models demonstrate the effectiveness of GENRE. We will publish our code and data for other researchers to reproduce our work. | 翻訳日:2023-06-07 01:29:24 公開日:2023-06-04 |
# 文書レベル機械翻訳のためのターゲット側拡張 Target-Side Augmentation for Document-Level Machine Translation ( http://arxiv.org/abs/2305.04505v2 ) ライセンス: Link先を確認 | Guangsheng Bao, Zhiyang Teng, Yue Zhang | (参考訳) ドキュメントレベルの機械翻訳は、長い入力長と少量のトレーニングデータによってデータのスパーシティの課題に直面し、スプリアスパターンを学習するリスクを増大させる。
この課題に対処するために,データ拡張(DA)モデルを導入し,各ソース文書に対して潜在的に多くの翻訳を生成するターゲット側拡張手法を提案する。
これらの広い範囲の翻訳を学習することにより、MTモデルはスムーズな分布を学習し、データ間隔のリスクを低減することができる。
後続分布を推定するDAモデルはMT性能を大幅に改善し,NewsとEuroparlのベンチマークで2.30 s-BLEUを上回り,新しい最先端のベンチマークを実現した。
私たちのコードはhttps://github.com/baoguangsheng/target-side-augmentationで利用可能です。 Document-level machine translation faces the challenge of data sparsity due to its long input length and a small amount of training data, increasing the risk of learning spurious patterns. To address this challenge, we propose a target-side augmentation method, introducing a data augmentation (DA) model to generate many potential translations for each source document. Learning on these wider range translations, an MT model can learn a smoothed distribution, thereby reducing the risk of data sparsity. We demonstrate that the DA model, which estimates the posterior distribution, largely improves the MT performance, outperforming the previous best system by 2.30 s-BLEU on News and achieving new state-of-the-art on News and Europarl benchmarks. Our code is available at https://github.com/baoguangsheng/target-side-augmentation. | 翻訳日:2023-06-07 01:27:28 公開日:2023-06-04 |
# 2次元投影画像を用いた歯科用cbctおよび顔スキャンデータの3次元自動登録 Automatic 3D Registration of Dental CBCT and Face Scan Data using 2D Projection images ( http://arxiv.org/abs/2305.10132v2 ) ライセンス: Link先を確認 | Hyoung Suk Park and Chang Min Hyun and Sang-Hwy Lee and Jin Keun Seo and Kiwan Jeon | (参考訳) 本稿では,歯科用コーンビームCT(CBCT)と顔スキャンデータの完全自動登録法を提案する。
3Dデジタル治療計画や矯正手術など、様々な用途で3D顎顔面モデルのデジタルプラットフォームとして使用できる。
顔スキャンとCBCT画像の正確な融合の困難は、異なる画像取得方法と2つの顔表面の対応範囲の制限によるものである。
また、放射線被曝を伴う顔関連3d医療データを用いるため、機械学習技術を使うことは困難であり、訓練には入手が困難である。
提案手法は,既存の機械学習に基づく2Dランドマーク検出アルゴリズムをオープンソースライブラリに再利用し,対応する2Dランドマークの知識からペア化された3Dランドマークを識別する新しい数学的アルゴリズムを開発した。
本研究の主な貢献は,様々な2次元顔画像モデルに頑健で一般化された顔ランドマーク検出アルゴリズムを用いて,顔ランドマークの注釈付きトレーニングデータを必要としないことである。
これにより、2つの異なる投影角度から生成された2次元投影画像上で対応するランドマークを識別する2次元問題に3次元ランドマーク検出問題を還元する。
登録対象の3次元ランドマークは,cbctおよび顔スキャン環境下での幾何変化の少ないサブサーフェスから選択した。
最終微調整には3次元ランドマーク周辺の幾何学的情報を利用する反復クローズトポイント法が適用された。
実験の結果,提案手法は3組のcbctおよびface scanデータセットにおいて平均0.74mmの面距離誤差を達成した。 This paper presents a fully automatic registration method of dental cone-beam computed tomography (CBCT) and face scan data. It can be used for a digital platform of 3D jaw-teeth-face models in a variety of applications, including 3D digital treatment planning and orthognathic surgery. Difficulties in accurately merging facial scans and CBCT images are due to the different image acquisition methods and limited area of correspondence between the two facial surfaces. In addition, it is difficult to use machine learning techniques because they use face-related 3D medical data with radiation exposure, which are difficult to obtain for training. The proposed method addresses these problems by reusing an existing machine-learning-based 2D landmark detection algorithm in an open-source library and developing a novel mathematical algorithm that identifies paired 3D landmarks from knowledge of the corresponding 2D landmarks. A main contribution of this study is that the proposed method does not require annotated training data of facial landmarks because it uses a pre-trained facial landmark detection algorithm that is known to be robust and generalized to various 2D face image models. Note that this reduces a 3D landmark detection problem to a 2D problem of identifying the corresponding landmarks on two 2D projection images generated from two different projection angles. Here, the 3D landmarks for registration were selected from the sub-surfaces with the least geometric change under the CBCT and face scan environments. For the final fine-tuning of the registration, the Iterative Closest Point method was applied, which utilizes geometrical information around the 3D landmarks. The experimental results show that the proposed method achieved an averaged surface distance error of 0.74 mm for three pairs of CBCT and face scan datasets. | 翻訳日:2023-06-07 01:19:56 公開日:2023-06-04 |
# 非エルミートスターク多体局在 Non-Hermitian Stark Many-Body Localization ( http://arxiv.org/abs/2305.09387v2 ) ライセンス: Link先を確認 | Han-Ze Li, Xue-Jia Yu, and Jian-Xin Zhong | (参考訳) 正確な対角化 (ED) 技術を用いて, テール曲率を持つスタークポテンシャル下での1次元の非相互相互作用型ハードコアボソンモデルについて検討する。
非ゼロ仮想アイジネギー比、半鎖エンタングルメントエントロピー、固有状態不安定性を用いて、スペクトル実複素遷移(RC)と多体局在化(MBL)相転移の臨界点が同一でないことを数値的に確認し、位相図の検証により、スペクトルRC遷移がMBL相転移の前に生じることが示され、新しい非MBL誘起スペクトルRC転移の存在が示唆される。
これらの発見は予想外であり、障害駆動相互作用非エルミート系における観察とは全く異なる。
この研究は、無秩序相互作用を持つ非エルミート系における相転移のさらなる研究に役立つ。 Utilizing exact diagonalization (ED) techniques, we investigate a one-dimensional, non-reciprocal, interacting hard-core boson model under a Stark potential with tail curvature. By employing the non-zero imaginary eigenenergies ratio, half-chain entanglement entropy, and eigenstate instability, we numerically confirm that the critical points of spectral real-complex (RC) transition and many-body localization (MBL) phase transition are not identical, and an examination of the phase diagrams reveals that the spectral RC transition arises before the MBL phase transition, which suggests the existence of a novel non-MBL-driven spectral RC transition. These findings are quite unexpected, and they are entirely different from observations in disorder-driven interacting non-Hermitian systems. This work provides a useful reference for further research on phase transitions in disorder-free interacting non-Hermitian systems. | 翻訳日:2023-06-07 01:18:43 公開日:2023-06-04 |
# 対話型意味解析のための自然言語フィードバックのシミュレーション Learning to Simulate Natural Language Feedback for Interactive Semantic Parsing ( http://arxiv.org/abs/2305.08195v2 ) ライセンス: Link先を確認 | Hao Yan, Saurabh Srivastava, Yintao Tai, Sida I. Wang, Wen-tau Yih, Ziyu Yao | (参考訳) 自然言語(nl)フィードバックに基づく対話的意味解析は、ユーザーがパーサーの間違いを修正するためのフィードバックを提供するもので、従来のワンショット意味解析よりも実用的なシナリオとして登場している。
しかし、従来の作業は、対話型セマンティックパーサをトレーニングするために、人間に注釈付けされたフィードバックデータに大きく依存している。
本研究では,対話型意味解析のためのNLフィードバックをシミュレーションするタスクを提案する。
私たちはそのタスクに新しいフィードバック評価器を伴います。
evaluatorはシミュレーションされたフィードバックの品質を評価するために特別に設計されており、提案手法から最適なフィードバックシミュレータを決定する。
テキストからSQLへのデータセットでは、フィードバックシミュレータが高品質なNLフィードバックを生成し、特定のパーサの誤り訂正能力を向上できることを示す。
低データ設定で、私たちのフィードバックシミュレータは、コストがかかるフルヒューマンアノテーションを使用してトレーニングされたエラー修正のパフォーマンスを同等に達成できます。 Interactive semantic parsing based on natural language (NL) feedback, where users provide feedback to correct the parser mistakes, has emerged as a more practical scenario than the traditional one-shot semantic parsing. However, prior work has heavily relied on human-annotated feedback data to train the interactive semantic parser, which is prohibitively expensive and not scalable. In this work, we propose a new task of simulating NL feedback for interactive semantic parsing. We accompany the task with a novel feedback evaluator. The evaluator is specifically designed to assess the quality of the simulated feedback, based on which we decide the best feedback simulator from our proposed variants. On a text-to-SQL dataset, we show that our feedback simulator can generate high-quality NL feedback to boost the error correction ability of a specific parser. In low-data settings, our feedback simulator can help achieve comparable error correction performance as trained using the costly, full set of human annotations. | 翻訳日:2023-06-07 01:18:24 公開日:2023-06-04 |
# 完全分子生成のための学習ジョイント2次元および3次元拡散モデル Learning Joint 2D & 3D Diffusion Models for Complete Molecule Generation ( http://arxiv.org/abs/2305.12347v2 ) ライセンス: Link先を確認 | Han Huang, Leilei Sun, Bowen Du, Weifeng Lv | (参考訳) 新しい分子を設計することは、創薬と物質科学に欠かせない。
近年,分子分布のモデル化を目的とした深層生成モデルが化学研究空間の縮小と高忠実性分子の生成に有望な進歩を遂げている。
しかし、現在の生成モデルは、分子の相補的記述子である2d結合グラフまたは3dジオメトリのモデリングのみに焦点を当てている。
共同でモデリングする能力の欠如は、生成品質の改善と下流アプリケーションの改善を制限します。
本稿では, 原子タイプ, 正式な電荷, 結合情報, および3次元座標を持つ完全分子を生成する結合2Dおよび3D拡散モデル(JODO)を提案する。
拡散過程における分子グラフとジオメトリの相関関係を捉えるため,拡散グラフ変換器を開発し,ノイズデータから元のデータを復元するデータ予測モデルをパラメータ化する。
Diffusion Graph Transformerは、我々のリレーショナルアテンション機構に基づいてノードとエッジの表現をやり取りし、同時にスカラー特徴と幾何ベクトルを伝播・更新する。
我々のモデルは、単一または複数の量子特性をターゲットとした逆分子設計のために拡張することもできる。
非条件ジョイント生成のための包括的評価パイプラインにおいて、実験の結果から、浄土はqm9およびgeom-drugsデータセットのベースラインを著しく上回っていることが判明した。
さらに, このモデルは, 逆分子設計や分子グラフ生成と同様に, 数段階の高速サンプリングに優れている。
コードはhttps://github.com/graph-0/jodoで提供します。 Designing new molecules is essential for drug discovery and material science. Recently, deep generative models that aim to model molecule distribution have made promising progress in narrowing down the chemical research space and generating high-fidelity molecules. However, current generative models only focus on modeling either 2D bonding graphs or 3D geometries, which are two complementary descriptors for molecules. The lack of ability to jointly model both limits the improvement of generation quality and further downstream applications. In this paper, we propose a new joint 2D and 3D diffusion model (JODO) that generates complete molecules with atom types, formal charges, bond information, and 3D coordinates. To capture the correlation between molecular graphs and geometries in the diffusion process, we develop a Diffusion Graph Transformer to parameterize the data prediction model that recovers the original data from noisy data. The Diffusion Graph Transformer interacts node and edge representations based on our relational attention mechanism, while simultaneously propagating and updating scalar features and geometric vectors. Our model can also be extended for inverse molecular design targeting single or multiple quantum properties. In our comprehensive evaluation pipeline for unconditional joint generation, the results of the experiment show that JODO remarkably outperforms the baselines on the QM9 and GEOM-Drugs datasets. Furthermore, our model excels in few-step fast sampling, as well as in inverse molecule design and molecular graph generation. Our code is provided in https://github.com/GRAPH-0/JODO. | 翻訳日:2023-06-07 01:09:59 公開日:2023-06-04 |
# 非曖昧な言語間関係抽出のためのコード混合ユニバーサル依存林の構築 Constructing Code-mixed Universal Dependency Forest for Unbiased Cross-lingual Relation Extraction ( http://arxiv.org/abs/2305.12258v3 ) ライセンス: Link先を確認 | Hao Fei, Meishan Zhang, Min Zhang, Tat-Seng Chua | (参考訳) 言語間関係抽出(xre)に関する最近の取り組みは、言語間の必然的な言語差のために偏りのある伝達(例えば、ターゲットバイアスまたはソースバイアス)に苦しむ一方で、普遍依存(ud)リソースから言語に一貫性のある構造的特徴を積極的に活用している。
本研究では,コード混合型UDフォレストの構築により,非バイアス型UDベースのXRE転送について検討する。
まず、ソース言語の文を並列ターゲット側言語に翻訳し、それぞれUDツリーを解析する。
次に、ソース/ターゲット側UD構造を統合コード混合UD林として統合する。
このような森林特性により、トレーニングと予測フェーズ間のUDベースのXREのギャップを効果的に閉じることができる。
我々はACE XREベンチマークデータセットの実験を行い、提案したコード混合UDフォレストがUDベースXRE転送の偏りをなくし、XREの性能向上を実現していることを示す。 Latest efforts on cross-lingual relation extraction (XRE) aggressively leverage the language-consistent structural features from the universal dependency (UD) resource, while they may largely suffer from biased transfer (e.g., either target-biased or source-biased) due to the inevitable linguistic disparity between languages. In this work, we investigate an unbiased UD-based XRE transfer by constructing a type of code-mixed UD forest. We first translate the sentence of the source language to the parallel target-side language, for both of which we parse the UD tree respectively. Then, we merge the source-/target-side UD structures as a unified code-mixed UD forest. With such forest features, the gaps of UD-based XRE between the training and predicting phases can be effectively closed. We conduct experiments on the ACE XRE benchmark datasets, where the results demonstrate that the proposed code-mixed UD forests help unbiased UD-based XRE transfer, with which we achieve significant XRE performance gains. | 翻訳日:2023-06-07 01:09:34 公開日:2023-06-04 |
# グラフニューラルネットワークからの低周波・高周波知識の抽出とMLPへの注入:効率的なGNN-to-MLP蒸留フレームワーク Extracting Low-/High- Frequency Knowledge from Graph Neural Networks and Injecting it into MLPs: An Effective GNN-to-MLP Distillation Framework ( http://arxiv.org/abs/2305.10758v2 ) ライセンス: Link先を確認 | Lirong Wu, Haitao Lin, Yufei Huang, Tianyu Fan, and Stan Z. Li | (参考訳) 近年、グラフ関連タスクの処理においてグラフニューラルネットワーク(GNN)が大きな成功を収めているのを目撃している。
しかし、MLPは推論効率とスケーラビリティが望ましいため、実用的な産業アプリケーションの主要な作業場である。
ギャップを減らすために、よく設計された教師GNNから、GNN-to-MLP蒸留と呼ばれる学生MLPへの知識を直接蒸留することができる。
しかし、蒸留の過程は通常、情報の喪失を伴い、「GNNのどの知識パターンが残され、MLPに蒸留されるか」は重要な問題となっている。
本稿では,まず,gnnが学習した知識をスペクトル領域の低周波成分と高周波成分に分解し,その空間領域における対応関係を導出する。
さらに,既存のgnn-to-mlp蒸留における潜在的な情報ドローイング問題,すなわち,事前訓練されたgnnの高周波知識は,蒸留中の低周波知識に圧倒される可能性があることを明らかにした。
本稿では,GNNから低周波および高周波の知識を抽出し,MPPに注入する全周波数GNN-to-MLP(FF-G2M)蒸留フレームワークを提案する。
大規模な実験により、FF-G2MはバニラMLPを12.6%改善し、対応する教師GNNを6つのグラフデータセットと3つの共通GNNアーキテクチャで平均2.6%上回った。 Recent years have witnessed the great success of Graph Neural Networks (GNNs) in handling graph-related tasks. However, MLPs remain the primary workhorse for practical industrial applications due to their desirable inference efficiency and scalability. To reduce their gaps, one can directly distill knowledge from a well-designed teacher GNN to a student MLP, which is termed as GNN-to-MLP distillation. However, the process of distillation usually entails a loss of information, and ``which knowledge patterns of GNNs are more likely to be left and distilled into MLPs?" becomes an important question. In this paper, we first factorize the knowledge learned by GNNs into low- and high-frequency components in the spectral domain and then derive their correspondence in the spatial domain. Furthermore, we identified a potential information drowning problem for existing GNN-to-MLP distillation, i.e., the high-frequency knowledge of the pre-trained GNNs may be overwhelmed by the low-frequency knowledge during distillation; we have described in detail what it represents, how it arises, what impact it has, and how to deal with it. In this paper, we propose an efficient Full-Frequency GNN-to-MLP (FF-G2M) distillation framework, which extracts both low-frequency and high-frequency knowledge from GNNs and injects it into MLPs. Extensive experiments show that FF-G2M improves over the vanilla MLPs by 12.6% and outperforms its corresponding teacher GNNs by 2.6% averaged over six graph datasets and three common GNN architectures. | 翻訳日:2023-06-07 01:07:31 公開日:2023-06-04 |
# 深層学習のための確率的一階法のための層ワイド適応ステップサイズ Layer-wise Adaptive Step-Sizes for Stochastic First-Order Methods for Deep Learning ( http://arxiv.org/abs/2305.13664v2 ) ライセンス: Link先を確認 | Achraf Bahamou, Donald Goldfarb | (参考訳) 本稿では,ディープラーニングにおける経験的損失関数を最小化し,学習率(LR)を調整する必要をなくすための,確率的1次最適化手法を提案する。
提案手法は、ディープニューラルネットワーク(DNN)におけるヘッセンの対角ブロックに含まれる層幅確率曲率情報を用いて、各層に対する適応的なステップサイズ(LR)を計算する。
この手法は、一階法に匹敵するメモリ要件を持ち、その時間単位の複雑性は、追加の勾配計算とほぼ同等の量でのみ増大する。
数値実験により、SGDと運動量とAdamWと、提案した階層ごとのステップサイズの組み合わせにより、これらの手法の効率的なLRスケジュールと細調整LRバージョン、およびオートエンコーダ、畳み込みニューラルネットワーク(CNN)、グラフ畳み込みニューラルネットワーク(GCN)モデルでDNNをトレーニングするための一般的な1次および2次アルゴリズムを選択できることが示されている。
最後に,全バッチ勾配を用いた場合,層別ステップサイズを持つsgdの理想化バージョンが線形収束することが証明された。 We propose a new per-layer adaptive step-size procedure for stochastic first-order optimization methods for minimizing empirical loss functions in deep learning, eliminating the need for the user to tune the learning rate (LR). The proposed approach exploits the layer-wise stochastic curvature information contained in the diagonal blocks of the Hessian in deep neural networks (DNNs) to compute adaptive step-sizes (i.e., LRs) for each layer. The method has memory requirements that are comparable to those of first-order methods, while its per-iteration time complexity is only increased by an amount that is roughly equivalent to an additional gradient computation. Numerical experiments show that SGD with momentum and AdamW combined with the proposed per-layer step-sizes are able to choose effective LR schedules and outperform fine-tuned LR versions of these methods as well as popular first-order and second-order algorithms for training DNNs on Autoencoder, Convolutional Neural Network (CNN) and Graph Convolutional Network (GCN) models. Finally, it is proved that an idealized version of SGD with the layer-wise step sizes converges linearly when using full-batch gradients. | 翻訳日:2023-06-07 00:59:48 公開日:2023-06-04 |
# コントラスト学習とプロトタイプ学習による言語横断型エンティティ認識のための自己学習の改善 Improving Self-training for Cross-lingual Named Entity Recognition with Contrastive and Prototype Learning ( http://arxiv.org/abs/2305.13628v2 ) ライセンス: Link先を確認 | Ran Zhou, Xin Li, Lidong Bing, Erik Cambria, Chunyan Miao | (参考訳) 言語横断的エンティティ認識(NER)では、擬似ラベル付きターゲット言語データに基づく訓練により、言語ギャップをブリッジするために自己学習が一般的である。
しかし、ターゲット言語での準最適性能のため、擬似ラベルはしばしばノイズが多く、全体的な性能が制限される。
本研究は,表現学習と擬似ラベルの洗練を両立させることにより,言語間NERの自己学習を改善することを目的とする。
提案手法,すなわちContProtoは主に,(1)コントラスト型自己学習と(2)プロトタイプベース擬似ラベルの2つのコンポーネントから構成される。
対照的な自己学習は、異なるクラスの集合を分離することでスパン分類を促進し、ソースとターゲット言語間の密結合表現を生成することにより、言語間転送性を高める。
一方、プロトタイプベースの擬似ラベルは、トレーニング中の擬似ラベルの精度を効果的に向上させる。
提案手法は,複数のトランスファーペアにおけるcontprotoを評価し,現行手法よりも大幅に改善することを示す。 In cross-lingual named entity recognition (NER), self-training is commonly used to bridge the linguistic gap by training on pseudo-labeled target-language data. However, due to sub-optimal performance on target languages, the pseudo labels are often noisy and limit the overall performance. In this work, we aim to improve self-training for cross-lingual NER by combining representation learning and pseudo label refinement in one coherent framework. Our proposed method, namely ContProto mainly comprises two components: (1) contrastive self-training and (2) prototype-based pseudo-labeling. Our contrastive self-training facilitates span classification by separating clusters of different classes, and enhances cross-lingual transferability by producing closely-aligned representations between the source and target language. Meanwhile, prototype-based pseudo-labeling effectively improves the accuracy of pseudo labels during training. We evaluate ContProto on multiple transfer pairs, and experimental results show our method brings in substantial improvements over current state-of-the-art methods. | 翻訳日:2023-06-07 00:59:23 公開日:2023-06-04 |
# Scan and Snap: 1層トランスにおけるトレーニングダイナミクスとトークン構成の理解 Scan and Snap: Understanding Training Dynamics and Token Composition in 1-layer Transformer ( http://arxiv.org/abs/2305.16380v2 ) ライセンス: Link先を確認 | Yuandong Tian, Yiping Wang, Beidi Chen, Simon Du | (参考訳) トランスフォーマーアーキテクチャは、複数の研究領域で顕著なパフォーマンスを示し、多くのニューラルネットワークモデルのバックボーンとなっている。
しかし、その仕組みについては理解が限られている。
特に、単純な予測損失により、勾配 \emph{training dynamics} からどのように表現が現れるかは謎のままである。
本稿では, 1層自己着脱層と1層デコーダ層を有する1層変圧器について,次のトークン予測タスクに対するsgdトレーニングダイナミクスを数学的に厳密に解析する。
自己注意層が入力トークンを結合する方法の動的プロセスのブラックボックスを開き、基礎となる帰納バイアスの性質を明らかにする。
より具体的に言うと
(a)位置符号化なし。
(b)長い入力シーケンス、及び
(c)デコーダ層は自己アテンション層よりも早く学習し、自己アテンションが \emph{discriminative scan algorithm} として機能することを証明する。
異なるトークンの中では、トレーニングセット内のキーとクエリトークンの間の低いから高い共起の順序に従って、徐々に注目の重みを減らします。
興味深いことに、この手順は勝者の獲得に繋がらないが、2つの層の学習速度によって制御され、(ほとんど)固定されたトークンの組み合わせを残している 'emph{phase transition} によって減速する。
合成および実世界データ(wikitext)上でのこの \textbf{\emph{scan and snap}} ダイナミクスを検証する。 Transformer architecture has shown impressive performance in multiple research domains and has become the backbone of many neural network models. However, there is limited understanding on how it works. In particular, with a simple predictive loss, how the representation emerges from the gradient \emph{training dynamics} remains a mystery. In this paper, for 1-layer transformer with one self-attention layer plus one decoder layer, we analyze its SGD training dynamics for the task of next token prediction in a mathematically rigorous manner. We open the black box of the dynamic process of how the self-attention layer combines input tokens, and reveal the nature of underlying inductive bias. More specifically, with the assumption (a) no positional encoding, (b) long input sequence, and (c) the decoder layer learns faster than the self-attention layer, we prove that self-attention acts as a \emph{discriminative scanning algorithm}: starting from uniform attention, it gradually attends more to distinct key tokens for a specific next token to be predicted, and pays less attention to common key tokens that occur across different next tokens. Among distinct tokens, it progressively drops attention weights, following the order of low to high co-occurrence between the key and the query token in the training set. Interestingly, this procedure does not lead to winner-takes-all, but decelerates due to a \emph{phase transition} that is controllable by the learning rates of the two layers, leaving (almost) fixed token combination. We verify this \textbf{\emph{scan and snap}} dynamics on synthetic and real-world data (WikiText). | 翻訳日:2023-06-07 00:49:26 公開日:2023-06-04 |
# tドープ安定化状態の学習 Learning t-doped stabilizer states ( http://arxiv.org/abs/2305.15398v3 ) ライセンス: Link先を確認 | Lorenzo Leone, Salvatore F. E. Oliviero and Alioscia Hamma | (参考訳) 本稿では,非クリフォードゲートの有限数tをドープしたクリフォード回路により計算基底状態から得られた学習状態を対象とした学習アルゴリズムを提案する。
そこで本研究では, 安定性エントロピーのツールを用いて, t-ドープ安定化状態の代数的枠組みを提案する。
そこで本研究では, 状態のベルサンプリングによって得られるポーリ作用素の期待値と, その共役を計算ベースで求めることで得られる分布からのサンプリングを用いるアルゴリズムを開発した。
このアルゴリズムは複雑さのリソースである$O(\exp(t)poly(n))$を必要とし、指数的に小さな失敗の確率を示す。 In this paper, we present a learning algorithm aimed at learning states obtained from computational basis states by Clifford circuits doped with a finite number t of non-Clifford gates. To tackle this problem, we introduce a novel algebraic framework for t-doped stabilizer states by utilizing tools from stabilizer entropy. Leveraging this new structure, we develop an algorithm that uses sampling from the distribution obtained by squaring expectation values of Pauli operators that can be obtained by Bell sampling on the state and its conjugate in the computational basis. The algorithm requires resources of complexity $O(\exp(t)poly(n))$ and exhibits an exponentially small probability of failure. | 翻訳日:2023-06-07 00:47:41 公開日:2023-06-04 |
# 非凸環境における凸リスク境界付き連続時間軌道計画と管設計 Convex Risk Bounded Continuous-Time Trajectory Planning and Tube Design in Uncertain Nonconvex Environments ( http://arxiv.org/abs/2305.17291v2 ) ライセンス: Link先を確認 | Ashkan Jasour, Weiqiao Han, and Brian Williams | (参考訳) 本稿では,不確定な非凸静的および動的環境において,確率的位置,大きさ,形状を有する障害物を含む軌道計画問題に対処する。
この問題に対処するため,我々は,計画時地平線上の境界リスクを保証した連続時間トラジェクタを探索するリスク境界軌道計画手法を提案する。
リスクは不確定な障害と衝突する確率として定義される。
リスク境界軌道計画問題に対処するための既存のアプローチは、ガウスの不確実性や凸障害物に限られるか、あるいは不確実性サンプルと時間離散化を必要とするサンプリングベースの手法に依存している。
リスク境界軌道計画問題に対処するために,リスク輪郭の概念を利用してリスク境界計画問題を決定論的最適化問題に変換する。
リスク輪郭(英: risk contour)とは、境界のあるリスクが保証された不確定な環境におけるすべての点の集合である。
得られた決定論的最適化は、一般に非線形および非凸時変最適化である。
得られた非凸時間変化最適化問題を効率的に解き,時間離散化を伴わない連続時間リスク有界軌道を得るために,2乗最適化に基づく凸法を提案する。
提案手法は, 任意の確率的不確実性, 非凸, 非線形, 静的, 動的障害に対処し, オンライン軌道計画問題に適している。
さらに, 管内の任意の状態が有界リスクを持つことが保証されるように, 軌跡に沿ったパラメータ化に対して最大サイズの管を構築するために, 総和二乗最適化に基づく凸法を提供する。 In this paper, we address the trajectory planning problem in uncertain nonconvex static and dynamic environments that contain obstacles with probabilistic location, size, and geometry. To address this problem, we provide a risk bounded trajectory planning method that looks for continuous-time trajectories with guaranteed bounded risk over the planning time horizon. Risk is defined as the probability of collision with uncertain obstacles. Existing approaches to address risk bounded trajectory planning problems either are limited to Gaussian uncertainties and convex obstacles or rely on sampling-based methods that need uncertainty samples and time discretization. To address the risk bounded trajectory planning problem, we leverage the notion of risk contours to transform the risk bounded planning problem into a deterministic optimization problem. Risk contours are the set of all points in the uncertain environment with guaranteed bounded risk. The obtained deterministic optimization is, in general, nonlinear and nonconvex time-varying optimization. We provide convex methods based on sum-of-squares optimization to efficiently solve the obtained nonconvex time-varying optimization problem and obtain the continuous-time risk bounded trajectories without time discretization. The provided approach deals with arbitrary (and known) probabilistic uncertainties, nonconvex and nonlinear, static and dynamic obstacles, and is suitable for online trajectory planning problems. In addition, we provide convex methods based on sum-of-squares optimization to build the max-sized tube with respect to its parameterization along the trajectory so that any state inside the tube is guaranteed to have bounded risk. | 翻訳日:2023-06-07 00:41:38 公開日:2023-06-04 |
# VoxDet: 新しいインスタンス検出のためのVoxel Learning VoxDet: Voxel Learning for Novel Instance Detection ( http://arxiv.org/abs/2305.17220v3 ) ライセンス: Link先を確認 | Bowen Li, Jiashun Wang, Yaoyu Hu, Chen Wang, Sebastian Scherer | (参考訳) マルチビューテンプレートに基づくunseenインスタンスの検出は、そのオープンワールドの性質上、難しい問題である。
2次元表現とマッチング技術に主に依存する伝統的な方法論は、ポーズのバリエーションやオクルージョンを扱うのに不十分であることが多い。
この問題を解決するために,我々は,強力な3次元ボクセル表現と信頼性の高いボクセルマッチング機構をフルに活用した,先駆的な3次元幾何認識フレームワークvoxdetを紹介する。
VoxDetはまず、マルチビュー2D画像を効果的に3Dボクセル特徴に変換するテンプレートボクセルアグリゲーション(TVA)モジュールを提案する。
関連するカメラポーズを活用することで、これらの機能はコンパクトな3dテンプレートvoxelに集約される。
新規なインスタンス検出では、このボクセル表現は閉塞に対する抵抗性を高め、変動を生じさせる。
また,TVAの2D-3Dマッピングを事前学習する上で,3次元再構成の目的が有効であることが判明した。
次に、VoxDetはテンプレートのvoxelと迅速に連携するために、Query Voxel Matching (QVM)モジュールを組み込んでいる。
2dクエリはまず、学習した2d-3dマッピングでvoxel表現に変換される。
3次元ボクセル表現は幾何学をエンコードするので、まず相対回転を推定し、配置されたボクセルを比較することで精度と効率が向上する。
要求されるLineMod-Occlusion、YCB-video、新たに構築されたRoboToolsベンチマークにおいて、VoxDetはリコール率20%、高速な2Dベースラインを著しく上回っている。
我々の知る限りでは、VoxDetは暗黙の3D知識を初めて2D検出タスクに組み込んだものだ。 Detecting unseen instances based on multi-view templates is a challenging problem due to its open-world nature. Traditional methodologies, which primarily rely on 2D representations and matching techniques, are often inadequate in handling pose variations and occlusions. To solve this, we introduce VoxDet, a pioneer 3D geometry-aware framework that fully utilizes the strong 3D voxel representation and reliable voxel matching mechanism. VoxDet first ingeniously proposes template voxel aggregation (TVA) module, effectively transforming multi-view 2D images into 3D voxel features. By leveraging associated camera poses, these features are aggregated into a compact 3D template voxel. In novel instance detection, this voxel representation demonstrates heightened resilience to occlusion and pose variations. We also discover that a 3D reconstruction objective helps to pre-train the 2D-3D mapping in TVA. Second, to quickly align with the template voxel, VoxDet incorporates a Query Voxel Matching (QVM) module. The 2D queries are first converted into their voxel representation with the learned 2D-3D mapping. We find that since the 3D voxel representations encode the geometry, we can first estimate the relative rotation and then compare the aligned voxels, leading to improved accuracy and efficiency. Exhaustive experiments are conducted on the demanding LineMod-Occlusion, YCB-video, and the newly built RoboTools benchmarks, where VoxDet outperforms various 2D baselines remarkably with 20% higher recall and faster speed. To the best of our knowledge, VoxDet is the first to incorporate implicit 3D knowledge for 2D detection tasks. | 翻訳日:2023-06-07 00:41:11 公開日:2023-06-04 |
# 教師なしNMTのコピー問題--言語識別器損失のある訓練スケジュールについて- On the Copying Problem of Unsupervised NMT: A Training Schedule with a Language Discriminator Loss ( http://arxiv.org/abs/2305.17182v2 ) ライセンス: Link先を確認 | Yihong Liu, Alexandra Chronopoulou, Hinrich Sch\"utze, Alexander Fraser | (参考訳) unsupervised neural machine translation (UNMT)は、多くの言語対で成功したが、特に低リソース言語が関与する場合には、コピーの問題、すなわち入力文の一部を翻訳として直接コピーすることが一般的である。
この問題は,オンライン翻訳(BT)における予期せぬ複製行動と密接に関連している。
本研究では,言語判別器の損失を組み込んだ簡易かつ効果的な訓練スケジュールを提案する。
この損失は、翻訳が所望の言語にあるように中間翻訳に制約を課す。
類似言語,遠隔言語,高低リソース言語など,異なる言語対に対する広範な実験を行うことで,提案手法が複写問題を軽減し,低リソース言語での翻訳性能を向上させることが確認された。 Although unsupervised neural machine translation (UNMT) has achieved success in many language pairs, the copying problem, i.e., directly copying some parts of the input sentence as the translation, is common among distant language pairs, especially when low-resource languages are involved. We find this issue is closely related to an unexpected copying behavior during online back-translation (BT). In this work, we propose a simple but effective training schedule that incorporates a language discriminator loss. The loss imposes constraints on the intermediate translation so that the translation is in the desired language. By conducting extensive experiments on different language pairs, including similar and distant, high and low-resource languages, we find that our method alleviates the copying problem, thus improving the translation performance on low-resource languages. | 翻訳日:2023-06-07 00:40:40 公開日:2023-06-04 |
# フェルミオンスピン1/2模型における多体傷の安定性 Stability of the many-body scars in fermionic spin-1/2 models ( http://arxiv.org/abs/2305.17164v2 ) ライセンス: Link先を確認 | Patrice Kolb, Kiryl Pakrouski | (参考訳) スピン-1/2フェルミオン系における多体傷の安定性について, 関連物質における最も典型的な摂動下で検討した。
いくつかの傷跡は特定の摂動には全く敏感ではない。
他の場合では摂動理論の第一次に安定である。
我々の分析結果は、(arXiv:2106.10300)で知られている多くのハミルトン派に当てはまる。
数値計算では、ハイゼンベルクとハバードの相互作用を含む変形した$t-J-U$モデルを選択する。
本稿では,初期波動関数の忠実性ではなく,物理的観測性に基づく2つの新しい安定性尺度を提案する。
傷跡の実験的検出を可能にし、理論的および数値的な観点からより信頼性が高い。
これらの測定方法の1つは、正確な多体傷がエネルギーに等間隔にある他のシステムで応用される可能性がある。
小型系や小摂動系では、量子シミュレーターに特に関係する機構として、多体傷が示すさらなる安定性を同定し記述する。
より大きな摂動強度については、多体局在と一致する異なるエルゴディシティ破壊モードを観察する。 We study the stability of the many-body scars in spin-1/2 fermionic systems under the most typical perturbations in relevant materials. We find that some families of scars are completely insensitive to certain perturbations. In some other cases they are stable to the first order in perturbation theory. Our analytical results apply to a large class of Hamiltonians that are known [arXiv:2106.10300] to support exact many-body scars. For the numerical calculations we choose the deformed $t-J-U$ model that includes both Heisenberg and Hubbard interactions. We propose two new stability measures that are based on physical observables rather than the fidelity to the exact initial wavefunction. They enable the experimental detection of scars and are more reliable from the theoretical and numerical perspectives. One of these measures may potentially find applications in other systems where the exact many-body scars are equally spaced in energy. In small systems and at small perturbations, a regime particularly relevant for quantum simulators, we identify and describe an additional stability exhibited by the many-body scars. For larger perturbation strengths we observe a distinct mode of ergodicity breaking that is consistent with many-body localization. | 翻訳日:2023-06-07 00:40:24 公開日:2023-06-04 |
# 概念を学ぶ:視覚的に拡張された自然言語生成 Learning to Imagine: Visually-Augmented Natural Language Generation ( http://arxiv.org/abs/2305.16944v2 ) ライセンス: Link先を確認 | Tianyi Tang, Yushuo Chen, Yifan Du, Junyi Li, Wayne Xin Zhao, and Ji-Rong Wen | (参考訳) 人々はしばしば、執筆プロセスを支援するために関連するシーンを想像します。
本研究では,人間と同じような構成で視覚情報を活用することを目的とする。
本稿では,事前学習型言語モデル(PLM)を視覚的に拡張した自然言語gEnerationのために学習するLIVEを提案する。
まず,テキストに基づくシーンを想像する。我々は拡散モデルを用いて,入力テキストを条件とした高品質な画像を合成する。
次に、CLIPを使用して、テキストが後方方向のイマジネーションを誘発できるかどうかを判断する。
最後に、想像力は動的であり、段落全体に対して1つの画像だけを生成するのではなく、各文の合成を行います。
技術的には、各テキストに対する視覚的に拡張された表現を得るために、新しいプラグアンドプレイ融合層を提案する。
視覚テキスト融合層はトランスフォーマーベースのアーキテクチャと互換性があります。
我々は,BARTとT5を用いた4世代タスクの広範な実験を行い,提案手法の有効性を実証した。
コード、モデル、データをリンクでリリースします。 https://github.com/rucaibox/live。 People often imagine relevant scenes to aid in the writing process. In this work, we aim to utilize visual information for composition in the same manner as humans. We propose a method, LIVE, that makes pre-trained language models (PLMs) Learn to Imagine for Visuallyaugmented natural language gEneration. First, we imagine the scene based on the text: we use a diffusion model to synthesize high-quality images conditioned on the input texts. Second, we use CLIP to determine whether the text can evoke the imagination in a posterior way. Finally, our imagination is dynamic, and we conduct synthesis for each sentence rather than generate only one image for an entire paragraph. Technically, we propose a novel plug-and-play fusion layer to obtain visually-augmented representations for each text. Our vision-text fusion layer is compatible with Transformerbased architecture. We have conducted extensive experiments on four generation tasks using BART and T5, and the automatic results and human evaluation demonstrate the effectiveness of our proposed method. We will release the code, model, and data at the link: https://github.com/RUCAIBox/LIVE. | 翻訳日:2023-06-07 00:39:51 公開日:2023-06-04 |
# バイレベル学習による最適正規化パラメータについて On Optimal Regularization Parameters via Bilevel Learning ( http://arxiv.org/abs/2305.18394v2 ) ライセンス: Link先を確認 | Matthias J. Ehrhardt, Silvia Gazzola and Sebastian J. Scott (Department of Mathematical Sciences, University of Bath, Bath, UK) | (参考訳) 変分正規化は線形逆問題を解くためによく使われ、正規化子によるデータの忠実度を増強する。
正規化器は事前情報を促進するために使用され、正規化パラメータによって重み付けされる。
適切な正規化パラメータの選択は重要であり、様々な選択が全く異なる再構成につながる。
相違原理やL曲線といった既存の戦略を用いて適切なパラメータ値を決定することができるが、近年はバイレベル学習と呼ばれる教師付き機械学習アプローチが採用されている。
バイレベル学習は最適パラメータを決定する強力なフレームワークであり、ネスト最適化問題を解決することを含む。
従来の戦略は様々な理論的な成果を享受するが、この環境における二段階学習はいまだ発展途上である。
1つの必須性質は、決定された正則化パラメータの正則性である。
本研究では,既存の理論よりも最適正則化パラメータの正値性をよりよく特徴付ける新しい条件を提案する。
数値計算により、この新条件を小・大ともに検証・検討する。 Variational regularization is commonly used to solve linear inverse problems, and involves augmenting a data fidelity by a regularizer. The regularizer is used to promote a priori information, and is weighted by a regularization parameter. Selection of an appropriate regularization parameter is critical, with various choices leading to very different reconstructions. Existing strategies such as the discrepancy principle and L-curve can be used to determine a suitable parameter value, but in recent years a supervised machine learning approach called bilevel learning has been employed. Bilevel learning is a powerful framework to determine optimal parameters, and involves solving a nested optimisation problem. While previous strategies enjoy various theoretical results, the well-posedness of bilevel learning in this setting is still a developing field. One necessary property is positivity of the determined regularization parameter. In this work, we provide a new condition that better characterises positivity of optimal regularization parameters than the existing theory. Numerical results verify and explore this new condition for both small and large dimensional problems. | 翻訳日:2023-06-07 00:29:03 公開日:2023-06-04 |
# カナディアン・クロプランド・データセット:農業における多時期的深層学習分類のための新しい土地被覆データセット The Canadian Cropland Dataset: A New Land Cover Dataset for Multitemporal Deep Learning Classification in Agriculture ( http://arxiv.org/abs/2306.00114v2 ) ライセンス: Link先を確認 | Amanda A. Boatswain Jacques and Abdoulaye Banir\'e Diallo and Etienne Lord | (参考訳) リモートセンシングによる土地被覆のモニタリングは, 環境変化を調査し, 収量予測による地球規模の食料安全確保に不可欠である。
具体的には、マルチテンポラルリモートセンシング画像は、シーンのダイナミックスに関する関連情報を提供し、よりよい土地被覆分類結果をもたらすことが証明されている。
それでも、信頼性、微粒化、高品質な注釈付きサンプルへのアクセスが難しいため、空間的および時間的解像度のデータから恩恵を受けている研究はほとんどない。
そこで本研究では,カナダ一年次作物目録から得られたラベルを豊かに含む,カナダ作物のテンポラリパッチベースデータセットを提案する。
データセットには、4つの作物生産年(2017年-2020年)と5ヶ月(6月から10月)で収集された10の作物クラスによる手作業による高解像度(10m/ピクセル、640x640m)の地理参照画像が78,536個含まれている。
各インスタンスには12のスペクトルバンド、RGBイメージ、追加の植生指標バンドが含まれている。
各カテゴリは、少なくとも4,800枚の画像を含む。
さらに、ベンチマークとして、同じ場所から単一の画像(resnet, densenet, efficientnet)または一連の画像(lrcn, 3d-cnn)を使用して、ユーザがクロップクラスを予測できるモデルとソースコードを提供する。
この進化したデータセットは、土地被覆の正確かつ連続的なモニタリングを提供することで、複雑な農業地域の理解を加速できる堅牢な農業環境モデルの作成を促進することを期待する。 Monitoring land cover using remote sensing is vital for studying environmental changes and ensuring global food security through crop yield forecasting. Specifically, multitemporal remote sensing imagery provides relevant information about the dynamics of a scene, which has proven to lead to better land cover classification results. Nevertheless, few studies have benefited from high spatial and temporal resolution data due to the difficulty of accessing reliable, fine-grained and high-quality annotated samples to support their hypotheses. Therefore, we introduce a temporal patch-based dataset of Canadian croplands, enriched with labels retrieved from the Canadian Annual Crop Inventory. The dataset contains 78,536 manually verified high-resolution (10 m/pixel, 640 x 640 m) geo-referenced images from 10 crop classes collected over four crop production years (2017-2020) and five months (June-October). Each instance contains 12 spectral bands, an RGB image, and additional vegetation index bands. Individually, each category contains at least 4,800 images. Moreover, as a benchmark, we provide models and source code that allow a user to predict the crop class using a single image (ResNet, DenseNet, EfficientNet) or a sequence of images (LRCN, 3D-CNN) from the same location. In perspective, we expect this evolving dataset to propel the creation of robust agro-environmental models that can accelerate the comprehension of complex agricultural regions by providing accurate and continuous monitoring of land cover. | 翻訳日:2023-06-07 00:20:44 公開日:2023-06-04 |
# 人工知能を用いた交通予測:最近の進歩と今後の展望 Traffic Prediction using Artificial Intelligence: Review of Recent Advances and Emerging Opportunities ( http://arxiv.org/abs/2305.19591v2 ) ライセンス: Link先を確認 | Maryam Shaygan, Collin Meese, Wanxin Li, Xiaolong Zhao, Mark Nejad | (参考訳) トラヒック予測は、世界的な重要な問題を表す交通渋滞を軽減する上で重要な役割を担っており、旅行時間の増加や燃料消費量の増加などの悪影響をもたらす。
交通システムへの新興技術の統合は、交通予測を大幅に改善する機会を与え、新たな研究課題をもたらす。
トラヒック予測におけるオープンリサーチの課題を理解するための基礎を築くため,本調査は,トラヒック予測手法の包括的概要を提供することを目的としている。
具体的には,人工知能(ai)ベースのトラヒック予測手法における最近の進歩と新たな研究機会に注目し,多変量トラヒック時系列モデリングに着目したトラヒック予測の最近の成功と可能性について述べる。
まず、文献で使用されるさまざまなデータタイプとリソースのリストと説明を提供する。
次に、トラフィック予測コンテキストにおける必須データ前処理方法を分類し、その後、予測方法とアプリケーションを要約する。
最後に,トラヒック予測における主要な研究課題を提示し,今後の研究の方向性について考察する。 Traffic prediction plays a crucial role in alleviating traffic congestion which represents a critical problem globally, resulting in negative consequences such as lost hours of additional travel time and increased fuel consumption. Integrating emerging technologies into transportation systems provides opportunities for improving traffic prediction significantly and brings about new research problems. In order to lay the foundation for understanding the open research challenges in traffic prediction, this survey aims to provide a comprehensive overview of traffic prediction methodologies. Specifically, we focus on the recent advances and emerging research opportunities in Artificial Intelligence (AI)-based traffic prediction methods, due to their recent success and potential in traffic prediction, with an emphasis on multivariate traffic time series modeling. We first provide a list and explanation of the various data types and resources used in the literature. Next, the essential data preprocessing methods within the traffic prediction context are categorized, and the prediction methods and applications are subsequently summarized. Lastly, we present primary research challenges in traffic prediction and discuss some directions for future research. | 翻訳日:2023-06-07 00:19:02 公開日:2023-06-04 |
# Extract and Attend: ニューラルネットワーク翻訳におけるエンティティ翻訳の改善 Extract and Attend: Improving Entity Translation in Neural Machine Translation ( http://arxiv.org/abs/2306.02242v1 ) ライセンス: Link先を確認 | Zixin Zeng, Rui Wang, Yichong Leng, Junliang Guo, Xu Tan, Tao Qin, Tie-yan Liu | (参考訳) ニューラルネットワーク翻訳(NMT)は近年大きな進歩を遂げているが、エンティティのトレーニングインスタンスが不足しているため、エンティティ(人/組織名、場所など)の不正確な翻訳に悩まされている。
人間は翻訳中に未知の実体に遭遇すると、まず辞書で調べ、それから他の部分の翻訳と共にエンティティ翻訳を整理して、スムーズな目標文を形成する。
そこで本研究では,NMTにおけるエンティティ翻訳の抽出手法を提案する。この手法は,まず辞書からソースエンティティの翻訳候補を抽出し,次にNMTモデルに参画し,対象文を生成する。
具体的には、まずソース文中のエンティティを検出し、次に辞書で検索してエンティティを翻訳することで翻訳候補を抽出する。
そして、抽出された候補を、自己注意により目標文を生成する際に、デコーダが参加するデコーダ入力のプレフィックスとして付加する。
En-Zh と En-Ru で行った実験により,提案手法はエンティティの翻訳精度と全体的な翻訳品質の向上に有効であり,エンティティエラー率を最大35%,BLEU を 0.85 ,COMET を最大 13.8 で向上させることができた。 While Neural Machine Translation(NMT) has achieved great progress in recent years, it still suffers from inaccurate translation of entities (e.g., person/organization name, location), due to the lack of entity training instances. When we humans encounter an unknown entity during translation, we usually first look up in a dictionary and then organize the entity translation together with the translations of other parts to form a smooth target sentence. Inspired by this translation process, we propose an Extract-and-Attend approach to enhance entity translation in NMT, where the translation candidates of source entities are first extracted from a dictionary and then attended to by the NMT model to generate the target sentence. Specifically, the translation candidates are extracted by first detecting the entities in a source sentence and then translating the entities through looking up in a dictionary. Then, the extracted candidates are added as a prefix of the decoder input to be attended to by the decoder when generating the target sentence through self-attention. Experiments conducted on En-Zh and En-Ru demonstrate that the proposed method is effective on improving both the translation accuracy of entities and the overall translation quality, with up to 35% reduction on entity error rate and 0.85 gain on BLEU and 13.8 gain on COMET. | 翻訳日:2023-06-06 19:17:28 公開日:2023-06-04 |
# ProTeCt: 階層的一貫性のためのプロンプトチューニング ProTeCt: Prompt Tuning for Hierarchical Consistency ( http://arxiv.org/abs/2306.02240v1 ) ライセンス: Link先を確認 | Tz-Ying Wu, Chih-Hui Ho, Nuno Vasconcelos | (参考訳) クリップのような大規模なビジュアル言語モデルは一般化表現を学習し、有望なゼロショット性能を示している。
プロンプトチューニングに基づく少数ショット適応手法も,ダウンストリームデータセットのパフォーマンスをさらに向上させることが示されている。
しかし、これらのモデルは階層的に一貫性がない。
しばしば、葉のレベル(元のクラスラベル)の推測が正しい場合でも、粗い分類学的階級レベルで誤ったラベルを推測する。
オープンセットの分類や特にオープングレードの分類のサポートを考えると、これは問題であり、実践者は様々なレベルの粒度でラベル集合を定義する。
この問題に対処するために,モデル予測の階層的一貫性を校正するための高速チューニング手法を提案する。
階層的一貫性の指標のセットである階層的一貫性精度(HCA)と平均木切り精度(MTA)は、まず、開粒度設定におけるモデル性能のベンチマークを行うために提案される。
ProTeCt(Prompt Tuning for Hierarchical Consistency)と呼ばれるプロンプトチューニング手法が提案され、可能なすべてのラベル集合の粒度を分類する。
その結果,ProTeCtと既存のプロンプトチューニング手法を組み合わせることで,葉レベルでの本来の分類性能を劣化させることなく,開粒度分類性能を大幅に向上させることができることがわかった。 Large visual-language models, like CLIP, learn generalized representations and have shown promising zero-shot performance. Few-shot adaptation methods, based on prompt tuning, have also been shown to further improve performance on downstream datasets. However, these models are not hierarchically consistent. Frequently, they infer incorrect labels at coarser taxonomic class levels, even when the inference at the leaf level (original class labels) is correct. This is problematic, given their support for open set classification and, in particular, open-grained classification, where practitioners define label sets at various levels of granularity. To address this problem, we propose a prompt tuning technique to calibrate the hierarchical consistency of model predictions. A set of metrics of hierarchical consistency, the Hierarchical Consistent Accuracy (HCA) and the Mean Treecut Accuracy (MTA), are first proposed to benchmark model performance in the open-granularity setting. A prompt tuning technique, denoted as Prompt Tuning for Hierarchical Consistency (ProTeCt), is then proposed to calibrate classification across all possible label set granularities. Results show that ProTeCt can be combined with existing prompt tuning methods to significantly improve open-granularity classification performance without degradation of the original classification performance at the leaf level. | 翻訳日:2023-06-06 19:17:02 公開日:2023-06-04 |
# マルチオブジェクトテキスト対画像生成のための検出器ガイダンス Detector Guidance for Multi-Object Text-to-Image Generation ( http://arxiv.org/abs/2306.02236v1 ) ライセンス: Link先を確認 | Luping Liu and Zijian Zhang and Yi Ren and Rongjie Huang and Xiang Yin and Zhou Zhao | (参考訳) 拡散モデルはテキスト・画像生成において顕著な性能を示した。
テキストエンコーダとクロスアテンションブロックを使用して、テキスト情報をピクセルレベルで画像に注入する。
しかし、複数のオブジェクトを含むテキストで画像を生成する能力はまだ制限されている。
以前の研究は、CLIPテキストエンコーダにおける情報混合の問題を特定し、T5テキストエンコーダを導入するか、アライメントを支援するために強力な事前知識を組み込む。
また,画像側とクロスアテンションブロックで混合問題が発生することがわかった。
ノイズの多い画像は異なるオブジェクトを同一視し、クロスアテンションブロックはピクセルレベルで情報を注入し、グローバルなオブジェクト理解の漏洩とオブジェクト混合を引き起こす。
本稿では,遅延オブジェクト検出モデルを統合して,生成プロセス中に異なるオブジェクトを分離する検出誘導(DG)を提案する。
DGはまず、クロスアテンションマップ(CAM)上で潜時オブジェクト検出を行い、オブジェクト情報を取得する。
この情報に基づいて、DGは競合するプロンプトをマスクし、以下のCAMを操作することで関連するプロンプトを強化する。
我々は,COCO,CC,および新しいマルチ関連オブジェクトベンチマークであるMROに対する安定拡散を用いたDGの有効性を評価する。
人間の評価は、DGが対立する概念の融合を防ぎ、各オブジェクトが人間の関与や追加の反復なしに独自の領域を持っていることを確実にする8-22\%の利点を提供することを示した。
我々の実装は \url{https://github.com/luping-liu/Detector-Guidance} で利用可能です。 Diffusion models have demonstrated impressive performance in text-to-image generation. They utilize a text encoder and cross-attention blocks to infuse textual information into images at a pixel level. However, their capability to generate images with text containing multiple objects is still restricted. Previous works identify the problem of information mixing in the CLIP text encoder and introduce the T5 text encoder or incorporate strong prior knowledge to assist with the alignment. We find that mixing problems also occur on the image side and in the cross-attention blocks. The noisy images can cause different objects to appear similar, and the cross-attention blocks inject information at a pixel level, leading to leakage of global object understanding and resulting in object mixing. In this paper, we introduce Detector Guidance (DG), which integrates a latent object detection model to separate different objects during the generation process. DG first performs latent object detection on cross-attention maps (CAMs) to obtain object information. Based on this information, DG then masks conflicting prompts and enhances related prompts by manipulating the following CAMs. We evaluate the effectiveness of DG using Stable Diffusion on COCO, CC, and a novel multi-related object benchmark, MRO. Human evaluations demonstrate that DG provides an 8-22\% advantage in preventing the amalgamation of conflicting concepts and ensuring that each object possesses its unique region without any human involvement and additional iterations. Our implementation is available at \url{https://github.com/luping-liu/Detector-Guidance}. | 翻訳日:2023-06-06 19:16:41 公開日:2023-06-04 |
# 一般非線形混合下における干渉からの線形因果表現の学習 Learning Linear Causal Representations from Interventions under General Nonlinear Mixing ( http://arxiv.org/abs/2306.02235v1 ) ライセンス: Link先を確認 | Simon Buchholz, Goutham Rajendran, Elan Rosenfeld, Bryon Aragam, Bernhard Sch\"olkopf, Pradeep Ravikumar | (参考訳) 一般環境での未知の潜伏的介入から因果表現を学習する問題について検討し, 潜伏分布はガウス的だが混合関数は完全に一般である。
単一ノードの干渉が未知である場合、例えば介入対象にアクセスできることなく、強い識別可能性を示す。
これは、線形写像やペアの対実データのようなより弱いクラスに焦点を当てた先行研究を一般化する。
これは、ディープニューラルネットワーク埋め込みに対する非ペア型介入による因果識別可能性の最初の例でもある。
この証明は、非線形密度変換後のデータ分布に存在する高次元幾何学的構造を注意深く解明することに依存している。
最後に,実際の潜在変数を識別し,様々なタスクにおけるその性能を評価するためのコントラストアルゴリズムを提案する。 We study the problem of learning causal representations from unknown, latent interventions in a general setting, where the latent distribution is Gaussian but the mixing function is completely general. We prove strong identifiability results given unknown single-node interventions, i.e., without having access to the intervention targets. This generalizes prior works which have focused on weaker classes, such as linear maps or paired counterfactual data. This is also the first instance of causal identifiability from non-paired interventions for deep neural network embeddings. Our proof relies on carefully uncovering the high-dimensional geometric structure present in the data distribution after a non-linear density transformation, which we capture by analyzing quadratic forms of precision matrices of the latent distributions. Finally, we propose a contrastive algorithm to identify the latent variables in practice and evaluate its performance on various tasks. | 翻訳日:2023-06-06 19:16:17 公開日:2023-06-04 |
# アドバンテージ誘導型ポリシーアライメントを用いた微調整言語モデル Fine-Tuning Language Models with Advantage-Induced Policy Alignment ( http://arxiv.org/abs/2306.02231v1 ) ライセンス: Link先を確認 | Banghua Zhu, Hiteshi Sharma, Felipe Vieira Frujeri, Shi Dong, Chenguang Zhu, Michael I. Jordan, Jiantao Jiao | (参考訳) 人間からのフィードバックからの強化学習(RLHF)は、大きな言語モデル(LLM)を人間の好みに合わせるための信頼性の高いアプローチとして現れている。
多くのrlhf技術の中で、近位政策最適化(proximal policy optimization, ppo)は最も広く使われている手法である。
しかし、その人気にもかかわらず、PPOはモード崩壊、不安定、サンプル効率の低下に悩まされる。
提案手法は,提案手法の利点を活かした2乗誤差損失関数を応用した,Advantage-induced Policy Alignment (APA) と呼ばれる新しいアルゴリズムによって緩和可能であることを示す。
我々は,APAが言語タスクにおいて,個別の報酬モデルを用いて評価を行う場合,PPOをはるかに上回っていることを示す。
さらに、PPOと比較して、APAはモデルの初期ポリシーからの逸脱をより安定した制御形態を提供し、決定論的出力に崩壊することなく、モデルの性能を向上させる。
実験結果に加えて,損失関数の設計を支援する理論的正当性も提供する。 Reinforcement learning from human feedback (RLHF) has emerged as a reliable approach to aligning large language models (LLMs) to human preferences. Among the plethora of RLHF techniques, proximal policy optimization (PPO) is of the most widely used methods. Despite its popularity, however, PPO may suffer from mode collapse, instability, and poor sample efficiency. We show that these issues can be alleviated by a novel algorithm that we refer to as Advantage-Induced Policy Alignment (APA), which leverages a squared error loss function based on the estimated advantages. We demonstrate empirically that APA consistently outperforms PPO in language tasks by a large margin, when a separate reward model is employed as the evaluator. In addition, compared with PPO, APA offers a more stable form of control over the deviation from the model's initial policy, ensuring that the model improves its performance without collapsing to deterministic output. In addition to empirical results, we also provide a theoretical justification supporting the design of our loss function. | 翻訳日:2023-06-06 19:16:03 公開日:2023-06-04 |
# 光子数パリティ作用素の固有状態によって符号化されたフォトニック制御量子ビットを用いたハイブリッド制御型zゲートの簡易実現 Simple realization of a hybrid controlled-controlled-Z gate with photonic control qubits encoded via eigenstates of the photon-number parity operator ( http://arxiv.org/abs/2306.02229v1 ) ライセンス: Link先を確認 | Qi-Ping Su, Liang Bin, Yu Zhang, and Chui-Ping Yang | (参考訳) 超伝導(SC)ターゲット量子ビットを同時に制御する2つのフォトニック量子ビットを持つハイブリッド制御制御Z(CCZ)ゲートを,SC量子カート(4レベル量子システム)に結合した2つのマイクロ波キャビティを用いて,簡便に実現する方法を提案する。
この提案では、各制御量子ビットは光子数パリティ演算子の2つの任意の直交固有状態(それぞれ固有値1と-1)で符号化されるフォトニック量子ビットである。
2つの任意の符号化状態は様々な量子状態を取ることができるため、この提案は2つの制御フォトニック量子ビットが様々な符号化を持つハイブリッドCCZゲートを実現するために適用することができる。
基本的な操作が必要なため、ゲート実現は非常に単純である。
ゲート操作中は、ququartの高エネルギー中間レベルは占有されず、したがって、これらのレベルからのデコヒーレンスが大幅に抑制される。
さらに、このゲートを用いてSC量子ビットと2つのフォトニック量子ビットのハイブリッドグリーンベルガー・ホルン・ザイリンガー(GHZ)絡み合った状態を生成する方法について論じる。
一例として,キャットスピンハイブリッドGHZ状態の高忠実度生成が,電流回路QED技術で実現可能であることを示す。
この提案は、物質量子ビットと2つのフォトニック量子ビットの様々なハイブリッドGHZ状態、例えば4レベルの天然または人工の原子に結合した2つのマイクロ波または光学キャビティを調製するために適用することができる非常に一般的なものである。 We propose a simple method to realize a hybrid controlled-controlled-Z (CCZ) gate with two photonic qubits simultaneously controlling a superconducting (SC) target qubit, by employing two microwave cavities coupled to a SC ququart (a four-level quantum system). In this proposal, each control qubit is a photonic qubit, which is encoded by two arbitrary orthogonal eigenstates (with eigenvalues 1 and -1, respectively) of the photon-number parity operator. Since the two arbitrary encoding states can take various quantum states, this proposal can be applied to realize the hybrid CCZ gate, for which the two control photonic qubits can have various encodings. The gate realization is quite simple because only a basic operation is needed. During the gate operation, the higher energy intermediate levels of the ququart are not occupied, and, thus, decoherence from these levels is greatly suppressed. We further discuss how to apply this gate to generate a hybrid Greenberger-Horne-Zeilinger (GHZ) entangled state of a SC qubit and two photonic qubits, which takes a general form. As an example, our numerical simulation demonstrates that high-fidelity generation of a cat-cat-spin hybrid GHZ state is feasible within current circuit QED technology. This proposal is quite general, which can be applied to realize the hybrid CCZ gate as well as to prepare various hybrid GHZ states of a matter qubit and two photonic qubits in other physical systems, such as two microwave or optical cavities coupled to a four-level natural or artificial atom. | 翻訳日:2023-06-06 19:15:46 公開日:2023-06-04 |
# 光子数パリティ作用素の固有状態を介して符号化されたフォトニック量子ビットを有するマルチターゲット量子ビット制御位相ゲートの一段階実装 One-step implementation of a multi-target-qubit controlled-phase gate with photonic qubits encoded via eigenstates of the photon-number parity operator ( http://arxiv.org/abs/2306.02227v1 ) ライセンス: Link先を確認 | Qi-Ping Su, Liang Bin, Yu Zhang, and Chui-Ping Yang | (参考訳) 近年、マイクロ波フィールドと光子を用いた量子状態工学と量子情報処理が注目されている。
さらに、マルチキュービットゲートは量子情報処理において重要な役割を果たす。
本研究では、光子数パリティ作用素の2つの任意の直交固有状態(それぞれ固有値 1 と -1 を持つ)を介してフォトニック量子ビットを符号化する。
そこで本研究では,n個のマイクロ波キャビティを1つの超伝導フラックスクトリットに結合し,n個のフォトニック量子ビットを同時に制御するマルチターゲット量子ビット制御位相ゲートを実現するための単一ステップ法を提案する。
本提案手法は, 様々なエンコーディングを持つフォトニックキュービットを用いた非ハイブリッドマルチターゲットキュービット制御相ゲートの実装だけでなく, 異なるエンコーディングを持つフォトニックキュービットを用いたハイブリッドマルチターゲットキュービット制御相ゲートの実現にも有効である。
ゲート実現には1ステップのみの操作が必要となる。
ゲート動作時間は、ターゲットキュービット数とともに増加しない。
操作中はクトリットが基底状態にあるため、クトリットからのデコヒーレンスが大幅に抑制される。
そこで,本稿では,このゲートを一般化したマルチキャビティグリーンバーガー・ホーン・サイレンジャー(ghz)絡み合った状態を生成する方法を示す。
具体的エンコーディングにより、複数のキャビティの非ヒブリドおよびハイブリッドGHZ絡み合った状態の調製についてさらに議論する。
本稿では,3キャビティスピンコヒーレントハイブリッドGHZ状態を生成する回路QED実験の実現可能性について数値解析を行った。
この提案は、複数のマイクロ波または光学キャビティを3段階の天然または人工の原子に結合するなど、幅広い物理システムで同じタスクを達成するために拡張することができる。 In recent years, quantum state engineering and quantum information processing using microwave fields and photons have received increasing attention. In addition, multiqubit gates play an important role in quantum information processing. In this work, we propose to encode a photonic qubit via two arbitrary orthogonal eigenstates (with eigenvalues 1 and -1, respectively) of the photon-number parity operator. With such encoding, we then present a single-step method to realize a multi-target-qubit controlled-phase gate with one photonic qubit simultaneously controlling n-1 target photonic qubits, by employing n microwave cavities coupled to one superconducting flux qutrit. This proposal can be applied not only to implement nonhybrid multi-target-qubit controlled-phase gates using photonic qubits with various encodings, but also to realize hybrid multi-target-qubit controlled-phase gates using photonic qubits with different encodings. The gate realization requires only a single-step operation. The gate operation time does not increase with the number of target qubits. Because the qutrit remains in the ground state during the entire operation, decoherence from the qutrit is greatly suppressed. As an application, we show how to apply this gate to generate a multicavity Greenberger-Horne-Zeilinger (GHZ) entangled state with general expression. Depending on the specific encodings, we further discuss the preparation of several nonhybrid and hybrid GHZ entangled states of multiple cavities. We numerically investigate the circuit-QED experimental feasibility of creating a three-cavity spin-coherent hybrid GHZ state. This proposal can be extended to accomplish the same tasks in a wide range of physical systems, such as multiple microwave or optical cavities coupled to a three-level natural or artificial atom. | 翻訳日:2023-06-06 19:15:14 公開日:2023-06-04 |
# オンライン意思決定のための自動GPT:ベンチマークと追加の意見 Auto-GPT for Online Decision Making: Benchmarks and Additional Opinions ( http://arxiv.org/abs/2306.02224v1 ) ライセンス: Link先を確認 | Hui Yang, Sifu Yue, Yunzhong He | (参考訳) Auto-GPTは、意思決定タスクに大規模言語モデル(LLM)を適用する際の最近の進歩を活用する自律エージェントである。
オートGPTのスタイパードエージェントへの関心は高まっているが、現実の意思決定タスクの解決におけるオートGPTの有効性と柔軟性については疑問が残る。
実世界のエンゲージメントの制限とベンチマークの欠如は、これらの不確実性に寄与する。
本稿では,実世界のシナリオをシミュレートする意思決定タスクにおけるオートGPTスタイルエージェントの総合的ベンチマークを行う。
我々の目標は、この問題に対する深い洞察を得て、GPTベースのエージェントの適応性を理解することである。
GPT-4, GPT-3.5, Claude, Vicunaなどの一般的なLCMの性能を自動GPT方式の意思決定タスクで比較する。
さらに,教師付き/模倣ベースの学習者を自動gpt方式に組み込む,簡単かつ効果的な手法である追加オピニオンアルゴリズムを導入する。
このアプローチにより,基礎LLMの微調整を必要とせず,軽量な教師あり学習が可能となる。
本稿では,WebShop や ALFWorld などのオンライン意思決定ベンチマークにおいて,追加オピニオンアルゴリズムが性能を大幅に向上させることを示す。 Auto-GPT is an autonomous agent that leverages recent advancements in adapting Large Language Models (LLMs) for decision-making tasks. While there has been a growing interest in Auto-GPT stypled agents, questions remain regarding the effectiveness and flexibility of Auto-GPT in solving real-world decision-making tasks. Its limited capability for real-world engagement and the absence of benchmarks contribute to these uncertainties. In this paper, we present a comprehensive benchmark study of Auto-GPT styled agents in decision-making tasks that simulate real-world scenarios. Our aim is to gain deeper insights into this problem and understand the adaptability of GPT-based agents. We compare the performance of popular LLMs such as GPT-4, GPT-3.5, Claude, and Vicuna in Auto-GPT styled decision-making tasks. Furthermore, we introduce the Additional Opinions algorithm, an easy and effective method that incorporates supervised/imitation-based learners into the Auto-GPT scheme. This approach enables lightweight supervised learning without requiring fine-tuning of the foundational LLMs. We demonstrate through careful baseline comparisons and ablation studies that the Additional Opinions algorithm significantly enhances performance in online decision-making benchmarks, including WebShop and ALFWorld. | 翻訳日:2023-06-06 19:14:41 公開日:2023-06-04 |
# 定型PCA:2段階確率最適化のための次元化 Prescriptive PCA: Dimensionality Reduction for Two-stage Stochastic Optimization ( http://arxiv.org/abs/2306.02223v1 ) ライセンス: Link先を確認 | Long He, Ho-Yin Mak | (参考訳) 本稿では,高次元データの低次元表現を学習する上流次元縮小タスクと,その表現によってパラメータ化された確率的プログラムを解く下流最適化タスクとの整合性を検討する。
この場合、標準次元減少法(例えば主成分分析)は、表現に保持される情報の量を最大化することを目的としており、下流最適化問題におけるそのような情報の重要性を一般的に反映していない。
この問題に対処するため,最適化フェーズにおける準最適度を最小化する規範的次元削減フレームワークを開発した。
下流確率最適化問題に期待値の目的がある場合、半定値のプログラム緩和を許容する分散ロバスト最適化問題を解くことにより、規範的次元削減を行うことができることを示す。
倉庫輸送問題と車両再配置問題に基づく計算実験により,本手法は実データおよび合成データを用いて主成分分析を著しく上回ることを示した。 In this paper, we consider the alignment between an upstream dimensionality reduction task of learning a low-dimensional representation of a set of high-dimensional data and a downstream optimization task of solving a stochastic program parameterized by said representation. In this case, standard dimensionality reduction methods (e.g., principal component analysis) may not perform well, as they aim to maximize the amount of information retained in the representation and do not generally reflect the importance of such information in the downstream optimization problem. To address this problem, we develop a prescriptive dimensionality reduction framework that aims to minimize the degree of suboptimality in the optimization phase. For the case where the downstream stochastic optimization problem has an expected value objective, we show that prescriptive dimensionality reduction can be performed via solving a distributionally-robust optimization problem, which admits a semidefinite programming relaxation. Computational experiments based on a warehouse transshipment problem and a vehicle repositioning problem show that our approach significantly outperforms principal component analysis with real and synthetic data sets. | 翻訳日:2023-06-06 19:14:21 公開日:2023-06-04 |
# ATEM:科学アーカイブにおける新たなトピック検出のためのトピック進化モデル ATEM: A Topic Evolution Model for the Detection of Emerging Topics in Scientific Archives ( http://arxiv.org/abs/2306.02221v1 ) ライセンス: Link先を確認 | Hamed Rahimi, Hubert Naacke, Camelia Constantin, Bernd Amann | (参考訳) 本稿では,学術資料のトピック進化を研究する新しいフレームワークであるATEMについて述べる。
ATEMは、動的トピックモデリングと動的グラフ埋め込み技術に基づいており、科学コーパス内の文書の内容と引用のダイナミクスを探索する。
ATEMは、トピッククラスタにおける引用リンクのダイナミクスに基づいた、新たな学際的な研究トピックの発見のための、コンテキストの出現という新しい概念を探求する。
実験の結果,ATEMは500万以上のコンピュータサイエンス論文のDBLPアーカイブ内の学際的トピックを効率的に検出できることがわかった。 This paper presents ATEM, a novel framework for studying topic evolution in scientific archives. ATEM is based on dynamic topic modeling and dynamic graph embedding techniques that explore the dynamics of content and citations of documents within a scientific corpus. ATEM explores a new notion of contextual emergence for the discovery of emerging interdisciplinary research topics based on the dynamics of citation links in topic clusters. Our experiments show that ATEM can efficiently detect emerging cross-disciplinary topics within the DBLP archive of over five million computer science articles. | 翻訳日:2023-06-06 19:14:02 公開日:2023-06-04 |
# オンラインコミュニティにまたがる情報経路の予測 Predicting Information Pathways Across Online Communities ( http://arxiv.org/abs/2306.02259v1 ) ライセンス: Link先を確認 | Yiqiao Jin, Yeon-Chang Lee, Kartik Sharma, Meng Ye, Karan Sikka, Ajay Divakaran, Srijan Kumar | (参考訳) コミュニティレベルの情報経路予測(CLIPP)の課題は、オンラインコミュニティにおけるコンテンツの伝達経路を予測することである。
CLIPPのソリューションの成功は、より多くの聴衆に貴重な情報の配布を促進し、誤情報の拡散を防ぐことで、重要なものとなる。
コミュニティ間の関係や影響が不明であり、情報の拡散はマルチモーダルであり、新しいコンテンツや新しいコミュニティが時間とともに現れるので、clippの解決は自明ではない。
本研究では,大規模なマルチモーダルデータセットを収集し,Reddit上のオンラインYouTubeビデオの拡散を調べることでCLIPPに対処する。
我々はこれらのデータセットを分析し、コミュニティ影響グラフ(CIG)を構築し、CIGを組み込んだ新しい動的グラフフレームワークINPAC(Information Pathway Across Online Communities)を開発した。
ウォームスタートシナリオとコールドスタートシナリオの両方の実験結果は、inpacがclipの7つのベースラインを上回っていることを示している。 The problem of community-level information pathway prediction (CLIPP) aims at predicting the transmission trajectory of content across online communities. A successful solution to CLIPP holds significance as it facilitates the distribution of valuable information to a larger audience and prevents the proliferation of misinformation. Notably, solving CLIPP is non-trivial as inter-community relationships and influence are unknown, information spread is multi-modal, and new content and new communities appear over time. In this work, we address CLIPP by collecting large-scale, multi-modal datasets to examine the diffusion of online YouTube videos on Reddit. We analyze these datasets to construct community influence graphs (CIGs) and develop a novel dynamic graph framework, INPAC (Information Pathway Across Online Communities), which incorporates CIGs to capture the temporal variability and multi-modal nature of video propagation across communities. Experimental results in both warm-start and cold-start scenarios show that INPAC outperforms seven baselines in CLIPP. | 翻訳日:2023-06-06 19:08:14 公開日:2023-06-04 |
# カウンター・コモンセンスコンテキストによる物理推論の探索 Probing Physical Reasoning with Counter-Commonsense Context ( http://arxiv.org/abs/2306.02258v1 ) ライセンス: Link先を確認 | Kazushi Kondo, Saku Sugawara, Akiko Aizawa | (参考訳) 本研究では,ccons(counter-commonsense context size comparison)データセットを作成し,コンテクストサイズ比較タスクに物理的なコモンセンスがどのように影響するかを検討する。
このデータセットは、キュレートされた名詞リストとテンプレートから生成されたさまざまなコンテキスト下でオブジェクト間のサイズ関係を予測する言語モデルの性能をテストする。
いくつかのマスキング言語モデルと生成モデルの能力を測定する。
その結果, 大規模言語モデルでは, 「in'」や「into'」といった前置詞を用いて, 大きさ関係の推測を行うことができたが, 動詞の使用に失敗し, それまでの身体的常識による誤った判断を下すことができた。 In this study, we create a CConS (Counter-commonsense Contextual Size comparison) dataset to investigate how physical commonsense affects the contextualized size comparison task; the proposed dataset consists of both contexts that fit physical commonsense and those that do not. This dataset tests the ability of language models to predict the size relationship between objects under various contexts generated from our curated noun list and templates. We measure the ability of several masked language models and generative models. The results show that while large language models can use prepositions such as ``in'' and ``into'' in the provided context to infer size relationships, they fail to use verbs and thus make incorrect judgments led by their prior physical commonsense. | 翻訳日:2023-06-06 19:07:55 公開日:2023-06-04 |
# AIから学ぶ: 教師としての知識を取り入れたDNNモデルを用いた対話型学習法 Learning from AI: An Interactive Learning Method Using a DNN Model Incorporating Expert Knowledge as a Teacher ( http://arxiv.org/abs/2306.02257v1 ) ライセンス: Link先を確認 | Kohei Hattori, Tsubasa Hirakawa, Takayoshi Yamashita, Hironobu Fujiyoshi | (参考訳) 視覚的説明は、深層学習による判断の根拠を可視化するためのアプローチであり、注意マップを可視化することにより、ある入力に対する判断の根拠を視覚的に解釈することができる。
誤った意思決定基盤を出力する深層学習モデルについて,説明力と認識精度を向上する手法として,アテンションマップを介して専門家の知識をモデルに組み込む手法を提案する。
本研究では,専門家の知識を取り入れたディープラーニングモデルに基づいて,学習者が「AIから学習する」方法を提案する。
アテンションブランチネットワーク(ABN)は、専門家が修正したアテンションマップを微調整したもので、教師として準備されている。
微調整されたABNとアテンションマップの対話的編集ツールを用いて、アテンションマップを編集し、推論結果を変更することで学習する。
注意マップを繰り返し編集し、正しい認識結果が出力されるように推論することにより、学習者は、ABNに埋め込まれた専門家の判断の根拠を得ることができる。
被験者による評価実験の結果,提案手法を用いた学習は従来の方法よりも効率的であることが判明した。 Visual explanation is an approach for visualizing the grounds of judgment by deep learning, and it is possible to visually interpret the grounds of a judgment for a certain input by visualizing an attention map. As for deep-learning models that output erroneous decision-making grounds, a method that incorporates expert human knowledge in the model via an attention map in a manner that improves explanatory power and recognition accuracy is proposed. In this study, based on a deep-learning model that incorporates the knowledge of experts, a method by which a learner "learns from AI" the grounds for its decisions is proposed. An "attention branch network" (ABN), which has been fine-tuned with attention maps modified by experts, is prepared as a teacher. By using an interactive editing tool for the fine-tuned ABN and attention maps, the learner learns by editing the attention maps and changing the inference results. By repeatedly editing the attention maps and making inferences so that the correct recognition results are output, the learner can acquire the grounds for the expert's judgments embedded in the ABN. The results of an evaluation experiment with subjects show that learning using the proposed method is more efficient than the conventional method. | 翻訳日:2023-06-06 19:07:41 公開日:2023-06-04 |
# Polyglot-Ko: オープンソースの大規模韓国語モデル A Technical Report for Polyglot-Ko: Open-Source Large-Scale Korean Language Models ( http://arxiv.org/abs/2306.02254v1 ) ライセンス: Link先を確認 | Hyunwoong Ko, Kichang Yang, Minho Ryu, Taekyoon Choi, Seungmu Yang, jiwung Hyun, Sungho Park | (参考訳) Polyglotは多言語モデルの非英語のパフォーマンス向上を目的とした先駆的なプロジェクトである。
mBERT (Devlin et al., 2019)、XGLM (Lin et al., 2022)、BLOOM (Scao et al., 2022) のような様々な多言語モデルが利用可能であるにもかかわらず、研究者や開発者は現在の多言語モデル非英語機能に不満があるため、それぞれの言語でモノリンガルモデルを構築することに頼ることが多い。
このギャップに対処するため、非英語言語の性能向上を提供する先進多言語言語モデルの開発を目指している。
本稿では,本論文で紹介する多言語韓国語モデルについて紹介する。
TUNiBと共同で、研究旅行のために厳格にキュレートされた韓国の1.2TBのデータを収集しました。
我々は,多言語モデルに導入する前に,韓国語モデルの開発を優先する決定をした。
この選択は、複数の要因によって動機づけられた: まず、韓国モデルは、既存の多言語モデルのパフォーマンス比較を促進し、最後に、韓国企業や研究者の特定のニーズに対応する。
本稿では,多言語言語モデルにおける非英語言語のパフォーマンスギャップに対処するためのいくつかのステップを提案する。 Polyglot is a pioneering project aimed at enhancing the non-English language performance of multilingual language models. Despite the availability of various multilingual models such as mBERT (Devlin et al., 2019), XGLM (Lin et al., 2022), and BLOOM (Scao et al., 2022), researchers and developers often resort to building monolingual models in their respective languages due to the dissatisfaction with the current multilingual models non-English language capabilities. Addressing this gap, we seek to develop advanced multilingual language models that offer improved performance in non-English languages. In this paper, we introduce the Polyglot Korean models, which represent a specific focus rather than being multilingual in nature. In collaboration with TUNiB, our team collected 1.2TB of Korean data meticulously curated for our research journey. We made a deliberate decision to prioritize the development of Korean models before venturing into multilingual models. This choice was motivated by multiple factors: firstly, the Korean models facilitated performance comparisons with existing multilingual models; and finally, they catered to the specific needs of Korean companies and researchers. This paper presents our work in developing the Polyglot Korean models, which propose some steps towards addressing the non-English language performance gap in multilingual language models. | 翻訳日:2023-06-06 19:07:20 公開日:2023-06-04 |
# MoviePuzzle:マルチモーダル順序学習による視覚的ナラティブ推論 MoviePuzzle: Visual Narrative Reasoning through Multimodal Order Learning ( http://arxiv.org/abs/2306.02252v1 ) ライセンス: Link先を確認 | Jianghui Wang, Yuxuan Wang, Dongyan Zhao, Zilong Zheng | (参考訳) 視覚的物語的推論と全体論的映画理解をターゲットとした新しい挑戦であるMoviePuzzleを紹介する。
ビデオ理解の領域で注目すべき進歩にもかかわらず、ほとんどの先行作品は、長い形式のビデオに存在する総合的なビデオ理解と生来のビジュアルナラティブ構造に対処するためのタスクやモデルの提供に失敗している。
そこで本研究では,映像対話情報の存在下で映画セグメントの撮影,フレーム,クリップ層を再分割することにより,映像モデルの時間的特徴学習と構造学習を増幅するmoviepuzzleタスクを行った。
まず,映画を階層層に分割し,ランダムに順序を並べ替えることで,movienetに基づく精巧なデータセットを構築する。
映画理解の先行技術を用いて映画パズルをベンチマークすると同時に,映画再注文の基盤構造と視覚的意味的順序を考慮した階層的コントラスト映画クラスタリング(hcmc)モデルを考案する。
具体的には、ペアワイズで対照的な学習アプローチを通じて、各層の正しい順序を予測するためにモデルを訓練する。
これにより、映画の視覚的物語構造を解読し、ビデオデータに潜む障害を処理するためのネックが装備される。
実験により,本手法は,既存の<MoviePuzzle>ベンチマークよりも高い性能を示し,その有効性を裏付ける。 We introduce MoviePuzzle, a novel challenge that targets visual narrative reasoning and holistic movie understanding. Despite the notable progress that has been witnessed in the realm of video understanding, most prior works fail to present tasks and models to address holistic video understanding and the innate visual narrative structures existing in long-form videos. To tackle this quandary, we put forth MoviePuzzle task that amplifies the temporal feature learning and structure learning of video models by reshuffling the shot, frame, and clip layers of movie segments in the presence of video-dialogue information. We start by establishing a carefully refined dataset based on MovieNet by dissecting movies into hierarchical layers and randomly permuting the orders. Besides benchmarking the MoviePuzzle with prior arts on movie understanding, we devise a Hierarchical Contrastive Movie Clustering (HCMC) model that considers the underlying structure and visual semantic orders for movie reordering. Specifically, through a pairwise and contrastive learning approach, we train models to predict the correct order of each layer. This equips them with the knack for deciphering the visual narrative structure of movies and handling the disorder lurking in video data. Experiments show that our approach outperforms existing state-of-the-art methods on the \MoviePuzzle benchmark, underscoring its efficacy. | 翻訳日:2023-06-06 19:06:53 公開日:2023-06-04 |
# 大言語モデル拡張ナラティブ駆動レコメンデーション Large Language Model Augmented Narrative Driven Recommendations ( http://arxiv.org/abs/2306.02250v1 ) ライセンス: Link先を確認 | Sheshera Mysore, Andrew McCallum, Hamed Zamani | (参考訳) ナラティブ・ドリブン・レコメンデーション(ndr)は、ユーザーが自分の好みと状況の冗長な記述でレコメンデーションを募集する情報アクセス問題を提示している。
これらの要求は、検索とレコメンデーションシステムのための自然言語ベースの会話インターフェースの台頭と共にますます重要になっている。
しかし、NDRはモデルのための豊富なトレーニングデータがなく、現在のプラットフォームは一般的にこれらの要求をサポートしない。
幸いなことに、古典的なユーザとイテムのインタラクションデータセットには、リッチなテキストデータ(レビューなど、ユーザの好みやコンテキストをしばしば記述する)が含まれており、これはNDRモデルのトレーニングのブートストラップに使用される。
本研究では,大規模言語モデル(LLM)を用いてデータ拡張を行い,NDRモデルのトレーニングを行う。
我々は,合成クエリとユーザ-itemインタラクションデータに基づくNDR検索モデルを用いて,ユーザ-itemインタラクションからの合成ナラティブクエリのオーサリングにLLMを使用する。
提案手法は,他の検索ベースラインやllmベースラインを上回ってナラティブ駆動のレコメンデーションを行う小パラメータ検索モデルを学習するための効果的な戦略であることを示す。 Narrative-driven recommendation (NDR) presents an information access problem where users solicit recommendations with verbose descriptions of their preferences and context, for example, travelers soliciting recommendations for points of interest while describing their likes/dislikes and travel circumstances. These requests are increasingly important with the rise of natural language-based conversational interfaces for search and recommendation systems. However, NDR lacks abundant training data for models, and current platforms commonly do not support these requests. Fortunately, classical user-item interaction datasets contain rich textual data, e.g., reviews, which often describe user preferences and context - this may be used to bootstrap training for NDR models. In this work, we explore using large language models (LLMs) for data augmentation to train NDR models. We use LLMs for authoring synthetic narrative queries from user-item interactions with few-shot prompting and train retrieval models for NDR on synthetic queries and user-item interaction data. Our experiments demonstrate that this is an effective strategy for training small-parameter retrieval models that outperform other retrieval and LLM baselines for narrative-driven recommendation. | 翻訳日:2023-06-06 19:06:28 公開日:2023-06-04 |
# ケーラー媒質中における駆動パラメトリック発振器の量子力学 Quantum dynamics of a driven parametric oscillator in a Kerr medium ( http://arxiv.org/abs/2306.02249v1 ) ライセンス: Link先を確認 | E. Bolandhemmat and F. Kheirandish | (参考訳) 本稿では,まず,質量と周波数の時間に依存したパラメトリック発振器の解析を行う。
進化演算子は、一定の質量と時間依存周波数を持つ別のパラメトリック発振器の進化演算子から得られ、その後に時間変換 $t\rightarrow\int_0^t dt'\,1/m(t')$ が得られる。
次に, 振動子の運動に伴う時間依存力の影響下で, 単位質量と時間依存周波数を持つパラメトリック発振器の量子力学について検討する。
時間依存発振器の量子力学は、解析的および数値的観点から2つの主系で解析される。
(i)small kerrパラメータ$\chi$、および
(ii)小さな閉じ込めパラメータ$k$。
次に、生成した状態の特性と統計特性を調べるために、自己相関関数、マンデル$q$パラメータ、フシミ$q$-関数を計算する。 In this paper, we first analyze a parametric oscillator with both mass and frequency time-dependent. We show that the evolution operator can be obtained from the evolution operator of another parametric oscillator with a constant mass and time-dependent frequency followed by a time transformation $t\rightarrow\int_0^t dt'\,1/m(t')$. Then we proceed by investigating the quantum dynamics of a parametric oscillator with unit mass and time-dependent frequency in a Kerr medium under the influence of a time-dependent force along the motion of the oscillator. The quantum dynamics of the time-dependent oscillator is analyzed from both analytical and numerical points of view in two main regimes: (i) small Kerr parameter $\chi$, and (ii) small confinement parameter $k$. In the following, to investigate the characteristics and statistical properties of the generated states, we calculate the autocorrelation function, the Mandel $Q$ parameter, and the Husimi $Q$-function. | 翻訳日:2023-06-06 19:06:05 公開日:2023-06-04 |
# Sen2Pro:事前訓練された言語モデルからの文埋め込みの確率論的視点 Sen2Pro: A Probabilistic Perspective to Sentence Embedding from Pre-trained Language Model ( http://arxiv.org/abs/2306.02247v1 ) ライセンス: Link先を確認 | Lingfeng Shen, Haiyun Jiang, Lemao Liu, Shuming Shi | (参考訳) 文埋め込みは自然言語処理における最も基本的なタスクの1つであり、様々なタスクにおいて重要な役割を果たす。
最近の文埋め込みのブレークスルーは、事前訓練された言語モデル(PLM)によって達成されている。
その成功にもかかわらず、点推定を表す埋め込みベクトル(Sen2Vec)は、タスクに依存しない方法で自然に不確実性を表現しない。
本稿では,plmsからの確率的文埋め込み(sen2pro)に関する効率的な枠組みを提案し,文表現におけるモデル不確かさとデータ不確実性(すなわち,1つの性質)の両方を反映した文の確率密度分布として表現する。
提案フレームワークは,PLMを再学習することなく,プラグイン・アンド・プレイ方式で動作し,実装が容易であり,一般にPLM上に適用される。
Sen2Vecに対するSen2Proの優位性は理論的に検証され、異なるNLPタスクで実際に説明されている。 Sentence embedding is one of the most fundamental tasks in Natural Language Processing and plays an important role in various tasks. The recent breakthrough in sentence embedding is achieved by pre-trained language models (PLMs). Despite its success, an embedded vector (Sen2Vec) representing a point estimate does not naturally express uncertainty in a taskagnostic way. This paper thereby proposes an efficient framework on probabilistic sentence embedding (Sen2Pro) from PLMs, and it represents a sentence as a probability density distribution in an embedding space to reflect both model uncertainty and data uncertainty (i.e., many-to-one nature) in the sentence representation. The proposed framework performs in a plug-and-play way without retraining PLMs anymore, and it is easy to implement and generally applied on top of any PLM. The superiority of Sen2Pro over Sen2Vec has been theoretically verified and practically illustrated on different NLP tasks. | 翻訳日:2023-06-06 19:05:51 公開日:2023-06-04 |
# sam3d: segment anythingモデルによるゼロショット3dオブジェクト検出 SAM3D: Zero-Shot 3D Object Detection via Segment Anything Model ( http://arxiv.org/abs/2306.02245v1 ) ライセンス: Link先を確認 | Dingyuan Zhang, Dingkang Liang, Hongcheng Yang, Zhikang Zou, Xiaoqing Ye, Zhe Liu, Xiang Bai | (参考訳) 大規模な言語モデルの開発により、chatgptのような多くの目立った言語システムが成長し、多くのタスクで驚くべき成功を収めた。
視覚タスクにおける基礎モデルの能力を解き放つため、画像分割のための視覚基盤モデルであるsegment anything model(sam)が最近提案され、多くの下流2dタスクにおいて強いゼロショット能力を示す。
しかし、samが3dビジョンタスクに適応できるか、特に3dオブジェクト検出についてはまだ検討されていない。
このインスピレーションにより,本論文ではSAMのゼロショット能力を3次元物体検出に適用することを検討する。
大規模Waymoオープンデータセット上でオブジェクトを検出し,有望な結果を得るためのSAMを用いたBEV処理パイプラインを提案する。
初期の試みとして,視覚基盤モデルを用いた3次元物体検出への一歩を踏み出し,そのパワーを3次元視覚タスクに解き放つ機会を提案する。
コードはhttps://github.com/dyzhang09/sam3dでリリースされる。 With the development of large language models, many remarkable linguistic systems like ChatGPT have thrived and achieved astonishing success on many tasks, showing the incredible power of foundation models. In the spirit of unleashing the capability of foundation models on vision tasks, the Segment Anything Model (SAM), a vision foundation model for image segmentation, has been proposed recently and presents strong zero-shot ability on many downstream 2D tasks. However, whether SAM can be adapted to 3D vision tasks has yet to be explored, especially 3D object detection. With this inspiration, we explore adapting the zero-shot ability of SAM to 3D object detection in this paper. We propose a SAM-powered BEV processing pipeline to detect objects and get promising results on the large-scale Waymo open dataset. As an early attempt, our method takes a step toward 3D object detection with vision foundation models and presents the opportunity to unleash their power on 3D vision tasks. The code is released at https://github.com/DYZhang09/SAM3D. | 翻訳日:2023-06-06 19:05:35 公開日:2023-06-04 |
# 検索エンハンスド・ビジュアルプロンプト学習によるマイトショット分類 Retrieval-Enhanced Visual Prompt Learning for Few-shot Classification ( http://arxiv.org/abs/2306.02243v1 ) ライセンス: Link先を確認 | Jintao Rong, Hao Chen, Tianxiao Chen, Linlin Ou, Xinyi Yu, Yifan Liu | (参考訳) プロンプト学習は、CLIPのような大規模な視覚言語モデルを下流タスクに適用するための一般的なアプローチとなっている。
通常、プロンプト学習は固定されたプロンプトトークンまたは入力条件トークンに依存し、完全な管理下で少量のデータに適合する。
このパラダイムは一定範囲の未発見のクラスに一般化することができるが、細粒度分類や衛星画像のセグメンテーションなど、ドメインのギャップが増加すると苦労する可能性がある。
この制限に対処するため,下流タスクから知識表現をキャッシュする検索機構を導入するRetrieval-enhanced Prompt Learning (RePrompt)を提案する。
まず,トレーニング例や外部例から検索データベースを構築する。
次に,この検索エンハンスド機構を,簡単なプロンプト学習ベースラインの様々な段階に統合する。
トレーニングセットで同様のサンプルを参照することで、拡張されたモデルは、わずかなサンプルで新しいタスクに適応できる。
15のビジョンデータセットに対する広範な実験では、数ショット設定による11のダウンストリームタスクと4つのドメイン一般化ベンチマークが、RePromptが大幅なパフォーマンス向上を実現していることを実証しています。
提案手法は,ドメインギャップが大きくなると,素早い学習によって直面する課題に対して,有望な解決策を提供する。
コードとモデルは利用可能になる。 Prompt learning has become a popular approach for adapting large vision-language models, such as CLIP, to downstream tasks. Typically, prompt learning relies on a fixed prompt token or an input-conditional token to fit a small amount of data under full supervision. While this paradigm can generalize to a certain range of unseen classes, it may struggle when domain gap increases, such as in fine-grained classification and satellite image segmentation. To address this limitation, we propose Retrieval-enhanced Prompt learning (RePrompt), which introduces retrieval mechanisms to cache the knowledge representations from downstream tasks. we first construct a retrieval database from training examples, or from external examples when available. We then integrate this retrieval-enhanced mechanism into various stages of a simple prompt learning baseline. By referencing similar samples in the training set, the enhanced model is better able to adapt to new tasks with few samples. Our extensive experiments over 15 vision datasets, including 11 downstream tasks with few-shot setting and 4 domain generalization benchmarks, demonstrate that RePrompt achieves considerably improved performance. Our proposed approach provides a promising solution to the challenges faced by prompt learning when domain gap increases. The code and models will be available. | 翻訳日:2023-06-06 19:05:17 公開日:2023-06-04 |
# ギャップ濃縮固有モードにおける励起子-偏光子凝縮の理論 Theory of exciton-polariton condensation in gap-confined eigenmodes ( http://arxiv.org/abs/2306.02281v1 ) ライセンス: Link先を確認 | Davide Nigro ad Dario Gerace | (参考訳) エクシトン・ポラリトン(Exciton- polariton)は、半導体におけるボゾン様の初等励起であり、最近、連続体における位相的に保護されたポラリトン境界状態の大きい占有度が、偏光子凝縮の定義と相容れない、適切に設計されたフォトニック格子 [Nature {\bf 605}, 447 (2022)] において示されている。
しかし、非平衡グロス=ピタエフスキイの定式化に基づくそのような凝縮機構の完全な理論的記述はいまだに欠けている。
従来の半導体マイクロキャビティにおける偏光子凝縮がよく知られており,その多モード一般化について報告し,放射特性や凝縮しきい値を含むパターン付きフォトニック格子の最近の実験結果を完全に解釈できることを示した。
さらに、これらの系における偏光子凝縮は、実際には、偏光子固有状態の負の質量閉じ込め(例えば、平面の周期パターンに由来するフォトニックギャップ)と偏光子損失の間の相互作用の結果であることが示された。
偏光子凝縮はギャップ閉じ込めされた明るいモードでも起こり得ること、つまり、qw励起子とダークフォトニックモードの結合は、人口の閾値が低いマクロな占有を達成するために必ずしも必要ではないことを証明できる。 Exciton-polaritons are bosonic-like elementary excitations in semiconductors, which have been recently shown to display large occupancy of topologically protected polariton bound states in the continuum in suitably engineered photonic lattices [Nature {\bf 605}, 447 (2022)], compatible with the definition of polariton condensation. However, a full theoretical description of such condensation mechanism that is based on a non equilibrium Gross-Pitaevskii formulation is still missing. Given that the latter is well known to account for polariton condensation in conventional semiconductor microcavities, here we report on its multi-mode generalization, showing that it allows to fully interpret the recent experimental findings in patterned photonic lattices, including emission characteristics and condensation thresholds. Beyond that, it is shown that the polariton condensation in these systems is actually the result of an interplay between negative mass confinement of polariton eigenstates (e.g., due to the photonic gap originated from the periodic pattern in plane) and polariton losses. We are then able to show that polariton condensation can also occur in gap-confined bright modes, i.e., coupling of QW excitons to a dark photonic mode is not necessarily required to achieve a macroscopic occupation with low population threshold. | 翻訳日:2023-06-06 18:58:05 公開日:2023-06-04 |
# EfficientSRFace: 高精度顔検出のための高分解能ネットワーク EfficientSRFace: An Efficient Network with Super-Resolution Enhancement for Accurate Face Detection ( http://arxiv.org/abs/2306.02277v1 ) ライセンス: Link先を確認 | Guangtao Wang, Jun Li, Jie Xie, Jianhua Xu and Bo Yang | (参考訳) 顔検出では、密集した顔予測タスクにおいて、人間の集団の多数の小さな顔のような低解像度の顔が一般的である。
通常は視覚の手がかりが限られており、他の小さな物体と区別しにくいため、正確な顔検出には大きな課題がある。
深層畳み込みニューラルネットワークは最近、顔検出の研究を著しく推進しているが、現在の深層顔検出装置は、低解像度の顔をほとんど考慮せず、膨大な低解像度の顔が存在する現実世界のシナリオに対して脆弱である。
そのため、通常は低分解能顔検出のための劣化性能を達成する。
この問題を解決するために,モデルの特徴表現能力を向上する特徴レベル超解像再構成ネットワークを導入することにより,効率的なSRFaceと呼ばれる検出器を開発した。
このモジュールはトレーニングプロセスにおいて補助的な役割を担い、推論時間を増やすことなく推論中に取り除くことができる。
fddbやより広い顔などの公開ベンチマークデータセットに関する広範囲な実験により、組み込み画像スーパーレゾリューションモジュールは、少数の追加パラメータと計算オーバーヘッドを犠牲にして検出精度を大幅に向上できると同時に、モデルが最先端の手法と比較して競合性能を達成するのに役立つことが示されている。 In face detection, low-resolution faces, such as numerous small faces of a human group in a crowded scene, are common in dense face prediction tasks. They usually contain limited visual clues and make small faces less distinguishable from the other small objects, which poses great challenge to accurate face detection. Although deep convolutional neural network has significantly promoted the research on face detection recently, current deep face detectors rarely take into account low-resolution faces and are still vulnerable to the real-world scenarios where massive amount of low-resolution faces exist. Consequently, they usually achieve degraded performance for low-resolution face detection. In order to alleviate this problem, we develop an efficient detector termed EfficientSRFace by introducing a feature-level super-resolution reconstruction network for enhancing the feature representation capability of the model. This module plays an auxiliary role in the training process, and can be removed during the inference without increasing the inference time. Extensive experiments on public benchmarking datasets, such as FDDB and WIDER Face, show that the embedded image super-resolution module can significantly improve the detection accuracy at the cost of a small amount of additional parameters and computational overhead, while helping our model achieve competitive performance compared with the state-of-the-arts methods. | 翻訳日:2023-06-06 18:57:36 公開日:2023-06-04 |
# USD:デカップリングされたオブジェクトとセグメンテーションモデルを利用した未知の感度検出器 USD: Unknown Sensitive Detector Empowered by Decoupled Objectness and Segment Anything Model ( http://arxiv.org/abs/2306.02275v1 ) ライセンス: Link先を確認 | Yulin He, Wei Chen, Yusong Tan, Siqi Wang | (参考訳) open world object detection (owod)は、未知の物体を検知できるオブジェクト検出を可能にする、新しくて挑戦的なコンピュータビジョンタスクである。
既存の手法では、通常、オブジェクト度を追加のオブジェクト度ブランチで推定するが、オブジェクト度と分類境界の学習における競合を無視する。
この問題に対処するために、我々は2つの境界の学習を適切なデコーダ層に分割する、単純で効果的な学習戦略であるDecoupled Objectness Learning (DOL)を提案する。
さらに、未知のオブジェクトを包括的に検出するには大量のアノテーションが必要ですが、未知のオブジェクトのラベル付けは困難かつ高価です。
そこで本研究では,近年のLarge Vision Model (LVM) ,特にSegment Anything Model (SAM) を活用することで,未知の物体の検出を促進することを提案する。
それにもかかわらず、SAMの出力結果には背景やフラグメントを含むノイズが含まれているため、擬似ラベルとソフトウェイト戦略を用いてノイズの負の影響を軽減する補助的スーパービジョンフレームワーク(ASF)を導入する。
Pascal VOC や MS COCO など,一般的なベンチマークに関する大規模な実験は,我々のアプローチの有効性を実証している。
提案手法は,M-OWODBでは14.3\%,15.5\%,8.9\%,27.1\%,29.1\%,25.1\%の大幅な改善を実現している。 Open World Object Detection (OWOD) is a novel and challenging computer vision task that enables object detection with the ability to detect unknown objects. Existing methods typically estimate the object likelihood with an additional objectness branch, but ignore the conflict in learning objectness and classification boundaries, which oppose each other on the semantic manifold and training objective. To address this issue, we propose a simple yet effective learning strategy, namely Decoupled Objectness Learning (DOL), which divides the learning of these two boundaries into suitable decoder layers. Moreover, detecting unknown objects comprehensively requires a large amount of annotations, but labeling all unknown objects is both difficult and expensive. Therefore, we propose to take advantage of the recent Large Vision Model (LVM), specifically the Segment Anything Model (SAM), to enhance the detection of unknown objects. Nevertheless, the output results of SAM contain noise, including backgrounds and fragments, so we introduce an Auxiliary Supervision Framework (ASF) that uses a pseudo-labeling and a soft-weighting strategies to alleviate the negative impact of noise. Extensive experiments on popular benchmarks, including Pascal VOC and MS COCO, demonstrate the effectiveness of our approach. Our proposed Unknown Sensitive Detector (USD) outperforms the recent state-of-the-art methods in terms of Unknown Recall, achieving significant improvements of 14.3\%, 15.5\%, and 8.9\% on the M-OWODB, and 27.1\%, 29.1\%, and 25.1\% on the S-OWODB. | 翻訳日:2023-06-06 18:57:12 公開日:2023-06-04 |
# エンド・ツー・エンド・ジョイントターゲットと非ターゲット話者ASR End-to-End Joint Target and Non-Target Speakers ASR ( http://arxiv.org/abs/2306.02273v1 ) ライセンス: Link先を確認 | Ryo Masumura, Naoki Makishima, Taiga Yamane, Yoshihiko Yamazaki, Saki Mizuno, Mana Ihori, Mihiro Uchida, Keita Suzuki, Hiroshi Sato, Tomohiro Tanaka, Akihiko Takashima, Satoshi Suzuki, Takafumi Moriya, Nobukatsu Hojo, Atsushi Ando | (参考訳) 本稿では,複数話者重複音声から対象話者か非対象話者かを識別しながら,個々の話者の発話を音声認識できる自動音声認識(asr)システムを提案する。
ターゲット話者ASRシステムは、ターゲット話者の情報を登録することで、ターゲット話者の音声のみを転写する有望な方法である。
しかし、会話型ASRアプリケーションでは、対話的な情報を理解するためには、ターゲット話者の音声と非ターゲット話者の音声の両方を翻訳する必要があることが多い。
対象話者と非対象話者の両方を1つのASRモデルで自然に考察するために,自動回帰モデルに基づくマルチストーカーASRシステムを拡張して,対象話者の登録音声を利用する。
提案するASRは,ターゲット話者および非ターゲット話者を表すトークンとトークンの両方を再帰的に生成する。
提案手法の有効性を実証する実験を行った。 This paper proposes a novel automatic speech recognition (ASR) system that can transcribe individual speaker's speech while identifying whether they are target or non-target speakers from multi-talker overlapped speech. Target-speaker ASR systems are a promising way to only transcribe a target speaker's speech by enrolling the target speaker's information. However, in conversational ASR applications, transcribing both the target speaker's speech and non-target speakers' ones is often required to understand interactive information. To naturally consider both target and non-target speakers in a single ASR model, our idea is to extend autoregressive modeling-based multi-talker ASR systems to utilize the enrollment speech of the target speaker. Our proposed ASR is performed by recursively generating both textual tokens and tokens that represent target or non-target speakers. Our experiments demonstrate the effectiveness of our proposed method. | 翻訳日:2023-06-06 18:56:40 公開日:2023-06-04 |
# OWQ:大規模言語モデルにおける重み量子化のためのアクティベーション・アウトリーから学んだ教訓 OWQ: Lessons learned from activation outliers for weight quantization in large language models ( http://arxiv.org/abs/2306.02272v1 ) ライセンス: Link先を確認 | Changhun Lee, Jungyu Jin, Taesu Kim, Hyungjun Kim, Eunhyeok Park | (参考訳) 数十億のパラメータを持つ大規模言語モデル(LLM)は、タスク固有の微調整を必要とせずに、単純なプロンプトチューニングと少数ショット例を使用して、様々な言語タスクで印象的な結果を示す。
しかし、その巨大なサイズは推論にも複数のサーバグレードのGPUを必要とし、大きなコスト障壁を生み出します。
この制限に対処するため, 最小品質劣化の重みに対するポストトレーニング量子化法を提案する。
アクティベーション・アウトレイアは, アクティベーション・量子化において問題となることが知られているが, 理論解析により, アクティベーション・アウトレイアを考慮すれば, 重み量子化誤差に寄与する要因を同定できることが示唆された。
我々は,脆弱性のある重みを識別し,高い精度を付与する,outlier-aware weight quantization(owq)と呼ばれる革新的なptqスキームを提案する。
OWQが生成する3.01ビットモデルは,OPTQが生成する4ビットモデルに匹敵する品質を示した。 Large language models (LLMs) with hundreds of billions of parameters show impressive results across various language tasks using simple prompt tuning and few-shot examples, without the need for task-specific fine-tuning. However, their enormous size requires multiple server-grade GPUs even for inference, creating a significant cost barrier. To address this limitation, we introduce a novel post-training quantization method for weights with minimal quality degradation. While activation outliers are known to be problematic in activation quantization, our theoretical analysis suggests that we can identify factors contributing to weight quantization errors by considering activation outliers. We propose an innovative PTQ scheme called outlier-aware weight quantization (OWQ), which identifies vulnerable weights and allocates high-precision to them. Our extensive experiments demonstrate that the 3.01-bit models produced by OWQ exhibit comparable quality to the 4-bit models generated by OPTQ. | 翻訳日:2023-06-06 18:56:25 公開日:2023-06-04 |
# SubspaceNet:DoA推定のためのディープラーニング支援サブスペース手法 SubspaceNet: Deep Learning-Aided Subspace Methods for DoA Estimation ( http://arxiv.org/abs/2306.02271v1 ) ライセンス: Link先を確認 | Dor H. Shmuel, Julian P. Merkofer, Guy Revach, Ruud J. G. van Sloun, and Nir Shlezinger | (参考訳) 到着方向(doa)推定は配列処理の基本的なタスクである。
doa推定アルゴリズムの一般的なファミリーは部分空間法であり、測定値を異なる信号空間とノイズ部分空間に分割することで操作する。
多重信号分類 (music) やルート音楽 (root-music) といった部分空間法は、狭帯域の非コヒーレントソースや完全に調整された配列など、いくつかの制限的な仮定に依存している。
本研究では,観測を識別可能な部分空間に分割する方法を学ぶデータ駆動型doa推定器であるsubspacenetを提案する。
これは、専用のディープニューラルネットワークを利用して入力の実証的自己相関を学習し、Root-MUSIC法の一部としてトレーニングし、この特定のDoA推定器の固有の微分可能性を活用し、また、地上のトラス分解可能な自己相関行列を提供する必要をなくすことによって達成される。
トレーニングが完了すると、結果のSubspaceNetは、任意のサブスペースベースのDoA推定手法と組み合わせて適用可能な、普遍的なサロゲート共分散推定器として機能する。
SubspaceNetは、従来のサブスペース手法の解釈性と適合性を保ちながら、コヒーレントソース、広帯域信号、低いSNR、配列ミスマッチ、限られたスナップショットに対処する様々なDoA推定アルゴリズムを可能にする。 Direction of arrival (DoA) estimation is a fundamental task in array processing. A popular family of DoA estimation algorithms are subspace methods, which operate by dividing the measurements into distinct signal and noise subspaces. Subspace methods, such as Multiple Signal Classification (MUSIC) and Root-MUSIC, rely on several restrictive assumptions, including narrowband non-coherent sources and fully calibrated arrays, and their performance is considerably degraded when these do not hold. In this work we propose SubspaceNet; a data-driven DoA estimator which learns how to divide the observations into distinguishable subspaces. This is achieved by utilizing a dedicated deep neural network to learn the empirical autocorrelation of the input, by training it as part of the Root-MUSIC method, leveraging the inherent differentiability of this specific DoA estimator, while removing the need to provide a ground-truth decomposable autocorrelation matrix. Once trained, the resulting SubspaceNet serves as a universal surrogate covariance estimator that can be applied in combination with any subspace-based DoA estimation method, allowing its successful application in challenging setups. SubspaceNet is shown to enable various DoA estimation algorithms to cope with coherent sources, wideband signals, low SNR, array mismatches, and limited snapshots, while preserving the interpretability and the suitability of classic subspace methods. | 翻訳日:2023-06-06 18:56:02 公開日:2023-06-04 |
# エンドツーエンド半教師付き物体検出のためのクラス不均衡の再検討 Revisiting Class Imbalance for End-to-end Semi-Supervised Object Detection ( http://arxiv.org/abs/2306.02268v1 ) ライセンス: Link先を確認 | Purbayan Kar, Vishal Chudasama, Naoyuki Onoe, Pankaj Wasnik | (参考訳) 半教師付きオブジェクト検出(SSOD)は、擬似ラベルに基づくエンドツーエンド手法の開発で大きく進歩している。
しかし、これらの手法の多くは、クラス不均衡による課題に直面しており、擬似ラベルジェネレータの有効性を妨げている。
また、文献では低品質の擬似ラベルがssodのパフォーマンスを著しく制限していることが観察されている。
本稿では,低品質な擬似ラベルの根本原因と,ラベル生成品質を改善するための新しい学習メカニズムについて検討する。
高偽陰性かつ低精度に対処するために,提案ネットワークが最適境界ボックスをフィルタリングするのに役立つ適応しきい値設定機構を導入する。
さらに,ローカライゼーションに関する正確な情報を提供するためのjitter-baggingモジュールを導入することで,境界ボックスの洗練を支援する。
さらに、教師と学生ネットワークが予測した背景と前景のスコアを用いて2つの新たな損失を導入し、擬似ラベルのリコール率を即興化する。
さらに,教師ネットワークに対して,強弱な拡張データを与え,強固な擬似ラベルを生成し,小型で複雑な物体を検出することで厳格な監視を行う。
最後に、提案したネットワークはMS-COCOおよびPascal VOCデータセット上で最先端の手法より優れており、ベースラインネットワークはラベル付きデータよりもはるかに少ない(20%)で100%教師付き性能を達成することができる。 Semi-supervised object detection (SSOD) has made significant progress with the development of pseudo-label-based end-to-end methods. However, many of these methods face challenges due to class imbalance, which hinders the effectiveness of the pseudo-label generator. Furthermore, in the literature, it has been observed that low-quality pseudo-labels severely limit the performance of SSOD. In this paper, we examine the root causes of low-quality pseudo-labels and present novel learning mechanisms to improve the label generation quality. To cope with high false-negative and low precision rates, we introduce an adaptive thresholding mechanism that helps the proposed network to filter out optimal bounding boxes. We further introduce a Jitter-Bagging module to provide accurate information on localization to help refine the bounding boxes. Additionally, two new losses are introduced using the background and foreground scores predicted by the teacher and student networks to improvise the pseudo-label recall rate. Furthermore, our method applies strict supervision to the teacher network by feeding strong & weak augmented data to generate robust pseudo-labels so that it can detect small and complex objects. Finally, the extensive experiments show that the proposed network outperforms state-of-the-art methods on MS-COCO and Pascal VOC datasets and allows the baseline network to achieve 100% supervised performance with much less (i.e., 20%) labeled data. | 翻訳日:2023-06-06 18:55:32 公開日:2023-06-04 |
# ZX計算による算術回路の量子回路最適化 Quantum Circuit Optimization of Arithmetic circuits using ZX Calculus ( http://arxiv.org/abs/2306.02264v1 ) ライセンス: Link先を確認 | Aravind Joshi, Akshara Kairali, Renju Raju, Adithya Athreya, Reena Monica P, Sanjay Vishwakarma and Srinjoy Ganguly | (参考訳) 量子コンピューティングは、量子力学特性を利用して計算集約的な演算を古典コンピュータよりも高速に行う新興技術である。
量子アルゴリズムは、量子ゲートを必要とする量子回路の組み合わせとして設計されており、量子コンピューティングシステムで利用可能な量子ビットリソースの数が限られているため、これは課題である。
本研究は,ZX計算に基づくハードウェア資源と量子ビット数を削減し,量子演算アルゴリズムを最適化する手法を提案する。
フォールトトレランスを達成するために本来必要であった数に比べて、アシラビットやtゲートの数を大幅に削減できるフォールトトレラント量子乗算回路の最適化のために、zx計算の書き換え規則を利用した。
我々の研究は、グラフィカル書き換えツールを用いた算術回路最適化の第一歩であり、複雑な量子回路の最適化を前進させ、その新しい応用の可能性を確立するための道を開くものである。 Quantum computing is an emerging technology in which quantum mechanical properties are suitably utilized to perform certain compute-intensive operations faster than classical computers. Quantum algorithms are designed as a combination of quantum circuits that each require a large number of quantum gates, which is a challenge considering the limited number of qubit resources available in quantum computing systems. Our work proposes a technique to optimize quantum arithmetic algorithms by reducing the hardware resources and the number of qubits based on ZX calculus. We have utilised ZX calculus rewrite rules for the optimization of fault-tolerant quantum multiplier circuits where we are able to achieve a significant reduction in the number of ancilla bits and T-gates as compared to the originally required numbers to achieve fault-tolerance. Our work is the first step in the series of arithmetic circuit optimization using graphical rewrite tools and it paves the way for advancing the optimization of various complex quantum circuits and establishing the potential for new applications of the same. | 翻訳日:2023-06-06 18:55:07 公開日:2023-06-04 |
# MAVD: 深度情報を備えた初の大規模マンダリンオーディオ-ビジュアルデータセット MAVD: The First Open Large-Scale Mandarin Audio-Visual Dataset with Depth Information ( http://arxiv.org/abs/2306.02263v1 ) ライセンス: Link先を確認 | Jianrong Wang, Yuchen Huo, Li Liu, Tianyi Xu, Qi Li, Sen Li | (参考訳) 音声-視覚音声認識(AVSR)は、人間とコンピュータの相互作用の重要な部分として研究者から注目を集めている。
しかし、既存のマンダリンオーディオ視覚データセットは制限されており、深度情報がない。
この問題に対処するため、本研究では、64人の中国語話者が話す12,484発話からなる、新しい大規模マンダリンマルチモーダルコーパスであるmavdを確立した。
データセットがさまざまな実世界のシナリオをカバーすることを保証するため、原文のクリーニングとフィルタリングのためのパイプラインが開発され、バランスの取れた読み出し材料が作られた。
特に、microsoftの最新データ取得デバイスであるazure kinectは、データ取得中の従来のオーディオ信号やrgbイメージに加えて、深度情報をキャプチャするために使用される。
また,データセットの有効性を評価するためのベースライン実験も実施した。
データセットとコードはhttps://github.com/SpringHuo/MAVDでリリースされる。 Audio-visual speech recognition (AVSR) gains increasing attention from researchers as an important part of human-computer interaction. However, the existing available Mandarin audio-visual datasets are limited and lack the depth information. To address this issue, this work establishes the MAVD, a new large-scale Mandarin multimodal corpus comprising 12,484 utterances spoken by 64 native Chinese speakers. To ensure the dataset covers diverse real-world scenarios, a pipeline for cleaning and filtering the raw text material has been developed to create a well-balanced reading material. In particular, the latest data acquisition device of Microsoft, Azure Kinect is used to capture depth information in addition to the traditional audio signals and RGB images during data acquisition. We also provide a baseline experiment, which could be used to evaluate the effectiveness of the dataset. The dataset and code will be released at https://github.com/SpringHuo/MAVD. | 翻訳日:2023-06-06 18:54:48 公開日:2023-06-04 |
# 手術シーンからの手目変化のオンライン推定 Online estimation of the hand-eye transformation from surgical scenes ( http://arxiv.org/abs/2306.02261v1 ) ライセンス: Link先を確認 | Krittin Pachtrachai, Francisco Vasconcelos, and Danail Stoyanov | (参考訳) ハンドアイキャリブレーションアルゴリズムは成熟しており、効果的なカメラロボットリンクの正確な変換推定を提供するが、エラーやデジェネレーション構成を避けるために十分な範囲のキャリブレーションデータに依存する。
ロボット支援の最小侵襲手術における手目の問題を解決するとともに、新たな目的機能と共役するニューラルネットワーク法を用いて、校正手順を簡素化する。
本稿では,画像列と運動データから変換を推定し,キャリブレーション手順を大幅に単純化するニューラルネットワークベースのソリューションを提案する。
ネットワークは、長期記憶アーキテクチャを利用して、データから時間情報を抽出し、手目の問題を解決する。
目的関数は、運動制約の遠隔中心の線形結合、再射影誤差、およびその導関数から導出され、手眼変換の小さな変化を引き起こす。
この方法はda vinci siのデータで検証され、この推定された手目行列は、両方のテストデータセットにおいて、ロボット座標からカメラ座標へのエンドエフェクタを10〜20ピクセルの精度で再投影できることが示される。
キャリブレーション性能は、以前のニューラルネットワークベースのハンドアイ法よりも優れている。
提案するアルゴリズムは, 深層学習手法を用いて校正手順を簡略化し, 非静的手眼変換の仮定により性能を向上させる。 Hand-eye calibration algorithms are mature and provide accurate transformation estimations for an effective camera-robot link but rely on a sufficiently wide range of calibration data to avoid errors and degenerate configurations. To solve the hand-eye problem in robotic-assisted minimally invasive surgery and also simplify the calibration procedure by using neural network method cooporating with the new objective function. We present a neural network-based solution that estimates the transformation from a sequence of images and kinematic data which significantly simplifies the calibration procedure. The network utilises the long short-term memory architecture to extract temporal information from the data and solve the hand-eye problem. The objective function is derived from the linear combination of remote centre of motion constraint, the re-projection error and its derivative to induce a small change in the hand-eye transformation. The method is validated with the data from da Vinci Si and the result shows that the estimated hand-eye matrix is able to re-project the end-effector from the robot coordinate to the camera coordinate within 10 to 20 pixels of accuracy in both testing dataset. The calibration performance is also superior to the previous neural network-based hand-eye method. The proposed algorithm shows that the calibration procedure can be simplified by using deep learning techniques and the performance is improved by the assumption of non-static hand-eye transformations. | 翻訳日:2023-06-06 18:54:32 公開日:2023-06-04 |
# rPPG-MAE:リモート生理計測のためのマスクオートエンコーダを用いた自己教師型プレトレーニング rPPG-MAE: Self-supervised Pre-training with Masked Autoencoders for Remote Physiological Measurement ( http://arxiv.org/abs/2306.02301v1 ) ライセンス: Link先を確認 | Xin Liu, Yuting Zhang, Zitong Yu, Hao Lu, Huanjing Yue, Jingyu Yang | (参考訳) リモートフォトプレチモグラフィ(rppg)は、ヒトの生命徴候を知覚する重要な技術であり、多くの注目を集めている。
長い間、研究者は大量のラベル付きデータに依存する教師付き手法に力を入れてきた。
これらの方法は、大量のデータを必要とすることと、基礎的真理の生理学的信号を取得することの困難さによって制限される。
これらの課題に対処するため,コントラスト学習に基づく自己指導手法が提案されている。
しかし、彼らは生理的信号の自己相似性を無視し、ノイズに対処する能力に制限のあるサンプル間の対照的な学習に焦点を当てている。
本稿では,生理的信号の自己相似性を抽出するために,線形自己教師型再構成タスクを設計した。
さらに、運動と照明の干渉を減らすための特定のノイズ非感受性戦略を検討した。
提案するフレームワーク,すなわちrPPG-MAEは,挑戦的なVIPL-HRデータセットにおいても優れた性能を示す。
また,提案手法をPUREとUBFC-rPPGという2つの公開データセット上で評価した。
その結果,本手法は既存の自己管理手法に勝るだけでなく,最先端管理手法(SOTA)よりも優れていることがわかった。
1つの重要な観察は、データセットの品質がrppgの自己教師付き事前訓練のサイズよりも重要であるように見えることである。
ソースコードはhttps://github.com/linuxsino/rPPG-MAEで公開されている。 Remote photoplethysmography (rPPG) is an important technique for perceiving human vital signs, which has received extensive attention. For a long time, researchers have focused on supervised methods that rely on large amounts of labeled data. These methods are limited by the requirement for large amounts of data and the difficulty of acquiring ground truth physiological signals. To address these issues, several self-supervised methods based on contrastive learning have been proposed. However, they focus on the contrastive learning between samples, which neglect the inherent self-similar prior in physiological signals and seem to have a limited ability to cope with noisy. In this paper, a linear self-supervised reconstruction task was designed for extracting the inherent self-similar prior in physiological signals. Besides, a specific noise-insensitive strategy was explored for reducing the interference of motion and illumination. The proposed framework in this paper, namely rPPG-MAE, demonstrates excellent performance even on the challenging VIPL-HR dataset. We also evaluate the proposed method on two public datasets, namely PURE and UBFC-rPPG. The results show that our method not only outperforms existing self-supervised methods but also exceeds the state-of-the-art (SOTA) supervised methods. One important observation is that the quality of the dataset seems more important than the size in self-supervised pre-training of rPPG. The source code is released at https://github.com/linuxsino/rPPG-MAE. | 翻訳日:2023-06-06 18:49:21 公開日:2023-06-04 |
# ニューラルネットワークがカオス時系列を分類する方法 How neural networks learn to classify chaotic time series ( http://arxiv.org/abs/2306.02300v1 ) ライセンス: Link先を確認 | Alessandro Corbetta, Thomas Geert de Jong | (参考訳) ニューラルネットワークは、物理学から生物学まで、非線形力学系のモデル化、解析、制御にますます使われている。
普遍近似能力により、精度、計算速度、および/または制御能力の点で、最先端のモデル駆動手法を定期的に上回る。
一方、ニューラルネットワークは、非常に頻繁にブラックボックスとして扱われ、その説明可能性には、非常に多くのトレーニング可能なパラメータによって挑戦される。
本稿では,正規対カオス時系列の分類を訓練したニューラルネットワークの内部動作解析の際立った課題に挑戦する。
この設定は力学系においてよく研究されており、完全な形式解析を可能にする。
我々は,Boull\'{e} et al. (2021)によって最近導入されたLKCNN(Large Kernel Convolutional Neural Networks)と呼ばれるネットワーク群に注目した。
これらの非帰納的ネットワークは、この分類タスクにおいて他の確立されたアーキテクチャ(残差ネットワーク、浅いニューラルネットワーク、完全畳み込みネットワークなど)よりも優れていることが示されている。
さらに、リアプノフ指数の直接再構成に基づく「手動」分類法よりも優れている。
LKCNNは入力シーケンスの定性的特性を利用する。
特に,LKCNNモデルの性能評価において,入力周期性とアクティベーション周期の関係が重要であることを示す。
低い性能モデルでは、実際にランダムに訓練されていないモデルと類似の周期的アクティベーションが示される。
これは、精度の低い事前訓練されたモデルを特定するための非常に一般的な基準となる可能性がある。 Neural networks are increasingly employed to model, analyze and control non-linear dynamical systems ranging from physics to biology. Owing to their universal approximation capabilities, they regularly outperform state-of-the-art model-driven methods in terms of accuracy, computational speed, and/or control capabilities. On the other hand, neural networks are very often they are taken as black boxes whose explainability is challenged, among others, by huge amounts of trainable parameters. In this paper, we tackle the outstanding issue of analyzing the inner workings of neural networks trained to classify regular-versus-chaotic time series. This setting, well-studied in dynamical systems, enables thorough formal analyses. We focus specifically on a family of networks dubbed Large Kernel Convolutional Neural Networks (LKCNN), recently introduced by Boull\'{e} et al. (2021). These non-recursive networks have been shown to outperform other established architectures (e.g. residual networks, shallow neural networks and fully convolutional networks) at this classification task. Furthermore, they outperform ``manual'' classification approaches based on direct reconstruction of the Lyapunov exponent. We find that LKCNNs use qualitative properties of the input sequence. In particular, we show that the relation between input periodicity and activation periodicity is key for the performance of LKCNN models. Low performing models show, in fact, analogous periodic activations to random untrained models. This could give very general criteria for identifying, a priori, trained models that have poor accuracy. | 翻訳日:2023-06-06 18:49:00 公開日:2023-06-04 |
# 適応遺伝的アルゴリズムによるオンサイトジョブスケジューリング Onsite Job Scheduling by Adaptive Genetic Algorithm ( http://arxiv.org/abs/2306.02296v1 ) ライセンス: Link先を確認 | Avijit Basak, Subhas Acharya | (参考訳) 現場ジョブスケジューリングは、複数のデポを持つ車両ルーティング問題(VRP)の特殊版である。
この問題の目的は、限られた数の技術者によって異なる地理的な場所に属する顧客から要求される仕事を実行し、最小限の旅行とオーバータイムで技術者を雇うことである。
各ジョブは、顧客とのサービスレベルアグリーメントに従って、指定された期限内に完了することが期待される。
各技術者は基地から出発し、複数の顧客に奉仕し、出発地に戻ると仮定される。
技術者はスキルセット、各スキルの専門レベル、可用性スロットに基づいてジョブを割り当てる。
vrpには多くの文献があるが、現場でのジョブスケジューリングに関連する明確な作業は見当たらない。
本稿では,スケジューリング問題の解法として適応型遺伝的アルゴリズムを提案する。
また,多くの職種や技術者を対象に,旅行距離の最小化,残業期間の短縮,SLAに関する制約を満たすための最適化された旅行経路を見出した。 Onsite Job Scheduling is a specialized variant of Vehicle Routing Problem (VRP) with multiple depots. The objective of this problem is to execute jobs requested by customers, belonging to different geographic locations by a limited number of technicians, with minimum travel and overtime of technicians. Each job is expected to be completed within a specified time limit according to the service level agreement with customers. Each technician is assumed to start from a base location, serve several customers and return to the starting place. Technicians are allotted jobs based on their skill sets, expertise levels of each skill and availability slots. Although there are considerable number of literatures on VRP we do not see any explicit work related to Onsite Job Scheduling. In this paper we have proposed an Adaptive Genetic Algorithm to solve the scheduling problem. We found an optimized travel route for a substantial number of jobs and technicians, minimizing travel distance, overtime duration as well as meeting constraints related to SLA. | 翻訳日:2023-06-06 18:48:37 公開日:2023-06-04 |
# 大規模言語モデルにおける創造性と現実性のトレードオフの数学的抽象化 A Mathematical Abstraction for Balancing the Trade-off Between Creativity and Reality in Large Language Models ( http://arxiv.org/abs/2306.02295v1 ) ライセンス: Link先を確認 | Ritwik Sinha, Zhao Song, Tianyi Zhou | (参考訳) 大規模言語モデルは、人間指向のタスクや従来の自然言語処理タスクにおいて顕著な能力で人気を博している。
その効率的な機能化は、トランスフォーマーアーキテクチャの注意のメカニズムに起因しており、入力の特定の側面に集中することができる。
LLMは、散文、詩、芸術など、創造的なモデルを必要とする分野(例えばAdobe Firefly)でますます使われている。
LLMには先進的な言語生成能力があり、特徴的で捕食的なコンテンツを生成できる。
物語生成におけるLCMの利用は、従来の自然言語処理以上の領域での利用の柔軟性と可能性を示している。
異なる状況下では、llmは現実と一致する事実正しい回答を生成するだろう、例えば、質問応答システムやオンラインアシスタントなど。
このような状況では、llmが実際に信頼されるためには正しいことが重要です。
Bing Chatbotは、3つのアウトプットモードのうちの1つ(創造性、バランス、正確性)を選択する柔軟性を提供する。
それぞれのモードはクリエイティビティと事実の精度が異なる。
本研究では, ある損失に基づいて創造性と現実を記述する数学的抽象化を提供する。
これらの損失に基づいてトレーニングされたモデルは、モデルの創造性と現実の間のトレードオフをバランスさせる。 Large Language Models have become popular for their remarkable capabilities in human-oriented tasks and traditional natural language processing tasks. Its efficient functioning is attributed to the attention mechanism in the Transformer architecture, enabling it to concentrate on particular aspects of the input. LLMs are increasingly being used in domains such as generating prose, poetry or art, which require the model to be creative (e.g. Adobe firefly). LLMs possess advanced language generation abilities that enable them to generate distinctive and captivating content. This utilization of LLMs in generating narratives shows their flexibility and potential for use in domains that extend beyond conventional natural language processing duties. In different contexts, we may expect the LLM to generate factually correct answers, that match reality; e.g., question-answering systems or online assistants. In such situations, being correct is critical to LLMs being trusted in practice. The Bing Chatbot provides its users with the flexibility to select one of the three output modes: creative, balanced, and precise. Each mode emphasizes creativity and factual accuracy differently. In this work, we provide a mathematical abstraction to describe creativity and reality based on certain losses. A model trained on these losses balances the trade-off between the creativity and reality of the model. | 翻訳日:2023-06-06 18:48:21 公開日:2023-06-04 |
# 大規模言語モデルによるオンラインコミュニティのバイアスの顕在化 Exposing Bias in Online Communities through Large-Scale Language Models ( http://arxiv.org/abs/2306.02294v1 ) ライセンス: Link先を確認 | Celine Wald and Lukas Pfahler | (参考訳) 自然言語生成研究の進展は、言語モデルのサイズがますます大きくなってきています。
ウェブデータで事前学習された大規模言語モデルは、人間に響くテキストを生成することができるが、社会的バイアスを再現し、有害なステレオタイプの伝播にも寄与する。
この研究は、言語モデルにおけるバイアスの欠陥を利用して、6つの異なるオンラインコミュニティのバイアスを探索する。
コミュニティの視点を把握するため、6つのソーシャルメディアデータセットでgpt-neo 1.3bを微調整した。
得られたモデルのバイアスは、異なる人口動態を持つモデルに促し、これらの世代の感情と毒性値を比較することによって評価される。
これらの手法は、様々なモデルに対して、型と強度のバイアスが異なることを示す。
この作業は、トレーニングデータからバイアスがどれだけ簡単に吸収されるかを確認するだけでなく、異なるデータセットやコミュニティのバイアスを特定し比較するためのスケーラブルな方法も提示する。
さらに,本研究で得られた例は,バイアス研究における自動感情分析と毒性分類器の使用の限界を示すものである。 Progress in natural language generation research has been shaped by the ever-growing size of language models. While large language models pre-trained on web data can generate human-sounding text, they also reproduce social biases and contribute to the propagation of harmful stereotypes. This work utilises the flaw of bias in language models to explore the biases of six different online communities. In order to get an insight into the communities' viewpoints, we fine-tune GPT-Neo 1.3B with six social media datasets. The bias of the resulting models is evaluated by prompting the models with different demographics and comparing the sentiment and toxicity values of these generations. Together, these methods reveal that bias differs in type and intensity for the various models. This work not only affirms how easily bias is absorbed from training data but also presents a scalable method to identify and compare the bias of different datasets or communities. Additionally, the examples generated for this work demonstrate the limitations of using automated sentiment and toxicity classifiers in bias research. | 翻訳日:2023-06-06 18:47:49 公開日:2023-06-04 |
# pvuw2023vssトラックの3位解法:vspwにおける意味セグメンテーションのための大規模モデル 3rd Place Solution for PVUW2023 VSS Track: A Large Model for Semantic Segmentation on VSPW ( http://arxiv.org/abs/2306.02291v1 ) ライセンス: Link先を確認 | Shijie Chang, Zeqi Hao, Ben Kang, Xiaoqi Zhao, Jiawen Zhu, Zhenyu Chen, Lihe Zhang, Lu Zhang, Huchuan Lu | (参考訳) 本稿では,PVUW2023 VSSトラックの3位解を提案する。
セマンティックセグメンテーション(Semantic segmentation)は、コンピュータビジョンにおける多くの実世界応用の基本課題である。
映像意味セグメンテーションの問題に取り組むため,様々な画像レベルの視覚バックボーンとセグメンテーションヘッドを調査した。
実験の結果,InternImage-Hがバックボーン,Mask2formerがセグメンテーションヘッドが最高の性能を発揮することがわかった。
さらに,CascadePSPとSegment Anything Model (SAM)の2つのポストプレシューティング手法について検討する。
最終的に、VSPWテストセット1と最終テストセットの62.60\%と64.84\% mIoUをそれぞれ取得し、PVUW2023 VSSトラックの第3位を確保した。 In this paper, we introduce 3rd place solution for PVUW2023 VSS track. Semantic segmentation is a fundamental task in computer vision with numerous real-world applications. We have explored various image-level visual backbones and segmentation heads to tackle the problem of video semantic segmentation. Through our experimentation, we find that InternImage-H as the backbone and Mask2former as the segmentation head achieves the best performance. In addition, we explore two post-precessing methods: CascadePSP and Segment Anything Model (SAM). Ultimately, our approach obtains 62.60\% and 64.84\% mIoU on the VSPW test set1 and final test set, respectively, securing the third position in the PVUW2023 VSS track. | 翻訳日:2023-06-06 18:47:17 公開日:2023-06-04 |
# 機械的摂動を用いた多モード光ファイバによる単一光子形成 Shaping Single Photons through Multimode Optical Fibers using Mechanical Perturbations ( http://arxiv.org/abs/2306.02288v1 ) ライセンス: Link先を確認 | Ronen Shekel, Ohad Lib, Rodrigo Guti\'errez-Cuevas, S\'ebastien M. Popoff, Alexander Ling and Yaron Bromberg | (参考訳) 単一光子によって伝達される情報の容量は、高次元量子双対をその横形にエンコードすることで増大する。
このような高次元量子ディットを光ネットワークに輸送することは、既存のインフラ上で複数の空間モードの低損失伝送をサポートするマルチモード光ファイバーを用いて実現できる。
しかし、光子がマルチモードファイバーを伝播すると、モード混合とモード干渉により横方向の形状がスクランブル化してしまう。
これは通常、自由空間空間光変調器を用いて補正され、堅牢な全ファイバー動作を阻害する。
本研究では, ファイバーの機械的摂動を慎重に制御し, 単一光子の形状と絡み合った光子対間の空間的相関を制御するための全ファイバーアプローチを示す。
我々は、これらの摂動を最適化し、単一光子の空間分布や光子対の空間相関を1つの点に局在させ、最適化された位置における信号の桁違いの強度を高める。
同じアプローチを用いて、マルチモードファイバからシングルモードファイバへの光を結合する同様の拡張を示す。 The capacity of information delivered by single photons is boosted by encoding high-dimensional quantum dits in their transverse shape. Transporting such high-dimensional quantum dits in optical networks may be accomplished using multimode optical fibers, which support the low-loss transmission of multiple spatial modes over existing infrastructure. However, when photons propagate through a multimode fiber their transverse shape gets scrambled because of mode mixing and modal interference. This is usually corrected using free-space spatial light modulators, inhibiting a robust all-fiber operation. In this work, we demonstrate an all-fiber approach for controlling the shape of single photons and the spatial correlations between entangled photon pairs, using carefully controlled mechanical perturbations of the fiber. We optimize these perturbations to localize the spatial distribution of a single photon or the spatial correlations of photon pairs in a single spot, enhancing the signal in the optimized spot by over an order of magnitude. Using the same approach we show a similar enhancement for coupling light from a multimode fiber into a single-mode fiber. | 翻訳日:2023-06-06 18:46:44 公開日:2023-06-04 |
# 分離学習による混乱ノードの明確化 Clarify Confused Nodes Through Separated Learning ( http://arxiv.org/abs/2306.02285v1 ) ライセンス: Link先を確認 | Shengbo Gong, Jiajun Zhou, Qi Xuan | (参考訳) グラフニューラルネットワーク(gnns)は、グラフ指向タスクにおいて著しく進歩した。
しかし、実世界のグラフには不均一なノードの割合が必ず含まれており、古典的なGNNのホモフィリーな仮定に挑戦し、その性能を妨げている。
既存の研究の多くは、ヘテロフィラスノードとホモフィラスノードの共有重みを持つジェネリックモデルの設計を続けている。
高階メッセージやマルチチャネルアーキテクチャが組み込まれているにもかかわらず、これらの取り組みはしばしば不足している。
少数の研究は異なるノード群を個別に訓練しようとするが、不適切な分離基準と低い効率に苦しむ。
本稿ではまず,より信頼性の高いノード分離を容易にするため,近隣融合(NC)と呼ばれる新しいメトリクスを提案する。
nc値の異なるノード群は,グループ内精度と組込みの可視化において一定の差異を示す。
これらの方法では、ノードをNC値でグループ化し、グループ内での重み共有とメッセージパッシングを受け入れるNCGCN(Neighborhood Confusion-guided Graph Convolutional Network)が実現される。
NCGCNがノードを効果的に分離し、最新の手法と比較して大幅な性能向上をもたらすことを示す。 Graph neural networks (GNNs) have achieved remarkable advances in graph-oriented tasks. However, real-world graphs invariably contain a certain proportion of heterophilous nodes, challenging the homophily assumption of classical GNNs and hindering their performance. Most existing studies continue to design generic models with shared weights between heterophilous and homophilous nodes. Despite the incorporation of high-order message or multi-channel architectures, these efforts often fall short. A minority of studies attempt to train different node groups separately, but suffering from inappropriate separation metric and low efficiency. In this paper, we first propose a new metric, termed Neighborhood Confusion (NC), to facilitate a more reliable separation of nodes. We observe that node groups with different levels of NC values exhibit certain differences in intra-group accuracy and visualized embeddings. These pave a way for Neighborhood Confusion-guided Graph Convolutional Network (NCGCN), in which nodes are grouped by their NC values and accept intra-group weight sharing and message passing. Extensive experiments on both homophilous and heterophilous benchmarks demonstrate that NCGCN can effectively separate nodes and offers significant performance improvement compared to latest methods. | 翻訳日:2023-06-06 18:46:14 公開日:2023-06-04 |
# 一般決定論的サンプリングパターンからの行列補完 Matrix Completion from General Deterministic Sampling Patterns ( http://arxiv.org/abs/2306.02283v1 ) ライセンス: Link先を確認 | Hanbyul Lee, Rahul Mazumder, Qifan Song, Jean Honorio | (参考訳) 低ランク行列補完アルゴリズムの証明可能な保証に関する既存の研究のほとんどは、行列のエントリがランダムにサンプリングされるか、サンプリングパターンが特定の構造を持つという非現実的な仮定に依存している。
本研究では,任意の決定論的サンプリングスキームに適用可能な完全かつ近似的な低ランク行列完備問題に対する理論的保証を確立する。
そこで本研究では,そのエッジセットとしてエントリを観測したグラフを導入し,標準制約付き核ノルム最小化アルゴリズムの性能を含むグラフ特性について検討する。
理論的および実験的に観察グラフが良好に連結され、類似のノード次数を持つため、アルゴリズムが成功することを示す。
我々の結果は、Bhojanapalli と Jain [2014] と Burnwal と Vidyasagar [2020] による、観測グラフのノード次数が同じであると仮定された作品の拡張と見なすことができる。
特に、基礎となる行列が対称である場合、我々の理論は結果を大幅に改善する。 Most of the existing works on provable guarantees for low-rank matrix completion algorithms rely on some unrealistic assumptions such that matrix entries are sampled randomly or the sampling pattern has a specific structure. In this work, we establish theoretical guarantee for the exact and approximate low-rank matrix completion problems which can be applied to any deterministic sampling schemes. For this, we introduce a graph having observed entries as its edge set, and investigate its graph properties involving the performance of the standard constrained nuclear norm minimization algorithm. We theoretically and experimentally show that the algorithm can be successful as the observation graph is well-connected and has similar node degrees. Our result can be viewed as an extension of the works by Bhojanapalli and Jain [2014] and Burnwal and Vidyasagar [2020], in which the node degrees of the observation graph were assumed to be the same. In particular, our theory significantly improves their results when the underlying matrix is symmetric. | 翻訳日:2023-06-06 18:45:54 公開日:2023-06-04 |
# 概念共起による学術思想の探求と普及 Exploring and Verbalizing Academic Ideas by Concept Co-occurrence ( http://arxiv.org/abs/2306.02282v1 ) ライセンス: Link先を確認 | Yi Xu, Shuqian Sheng, Bo Xue, Luoyi Fu, Xinbing Wang, Chenghu Zhou | (参考訳) 研究者は通常、大量の文学を徹底的に理解した後だけ、新しいアイデアを思いつく。
この手続きの難しさは、学術出版物の数が指数関数的に増えているという事実によって悪化している。
本研究では,学術的アイデアの着想のための概念共起に基づく枠組みを考案し,研究支援システムに統合した。
我々の視点では、学術論文に共通する2つの概念の融合は、新しいアイデアの出現の重要な方法とみなすことができる。
20の分野やトピックからの概念の共起関係に従って進化する概念グラフを構築する。
次に,マスキング言語モデルに基づく時間的リンク予測手法を設計し,概念間の潜在的な接続を探索する。
また、新たに発見された接続を動詞化するために、事前学習した言語モデルを用いて、共起引用クインタプルと呼ばれる新しいデータ構造に基づくアイデアの記述を生成する。
提案システムは,自動計測と人間評価の両方を用いて評価する。
その結果,本システムには幅広い可能性があり,新たなアイデアの発見プロセスの迅速化を支援することができることがわかった。 Researchers usually come up with new ideas only after thoroughly comprehending vast quantities of literature. The difficulty of this procedure is exacerbated by the fact that the number of academic publications is growing exponentially. In this study, we devise a framework based on concept co-occurrence for academic idea inspiration, which has been integrated into a research assistant system. From our perspective, the fusion of two concepts that co-occur in an academic paper can be regarded as an important way of the emergence of a new idea. We construct evolving concept graphs according to the co-occurrence relationship of concepts from 20 disciplines or topics. Then we design a temporal link prediction method based on masked language model to explore potential connections between different concepts. To verbalize the newly discovered connections, we also utilize the pretrained language model to generate a description of an idea based on a new data structure called co-occurrence citation quintuple. We evaluate our proposed system using both automatic metrics and human assessment. The results demonstrate that our system has broad prospects and can assist researchers in expediting the process of discovering new ideas. | 翻訳日:2023-06-06 18:45:37 公開日:2023-06-04 |
# ニューラルネットワークをトレーニングするためのランダムフィードバックアライメントアルゴリズム: なぜアライメントするのか? Random Feedback Alignment Algorithms to train Neural Networks: Why do they Align? ( http://arxiv.org/abs/2306.02325v1 ) ライセンス: Link先を確認 | Dominique Chu, Florian Bacho | (参考訳) フィードバックアライメントアルゴリズムは、ニューラルネットワークをトレーニングするためのバックプロパゲーションの代替であり、勾配を計算するために必要とされる部分微分の一部はランダム項に置き換えられる。
これは基本的に、更新ルールを重量空間のランダムウォークに変換する。
驚くべきことに、学習は深層ニューラルネットワークのトレーニングを含むこれらのアルゴリズムで依然として機能する。
これは一般に、ランダムなウォーカーの更新と真の勾配(名前の由来である勾配アライメント)のアライメントが近似的な勾配降下を駆動しているためである。
しかし、このアライメントにつながるメカニズムは未だ不明である。
本稿では,数学的推論とシミュレーションを用いて勾配アライメントを解析する。
フィードバックアライメント更新規則は、損失関数の極値に対応する不動点を有することを観察する。
勾配アライメントはそれらの固定点に対する安定性基準であることを示す。
これはアルゴリズム性能に必要な基準に過ぎない。
実験では,勾配アライメントのレベルが高いとアルゴリズムの性能が低下し,勾配アライメントが常に勾配降下を駆動するとは限らないことを実証する。 Feedback alignment algorithms are an alternative to backpropagation to train neural networks, whereby some of the partial derivatives that are required to compute the gradient are replaced by random terms. This essentially transforms the update rule into a random walk in weight space. Surprisingly, learning still works with those algorithms, including training of deep neural networks. This is generally attributed to an alignment of the update of the random walker with the true gradient - the eponymous gradient alignment -- which drives an approximate gradient descend. The mechanism that leads to this alignment remains unclear, however. In this paper, we use mathematical reasoning and simulations to investigate gradient alignment. We observe that the feedback alignment update rule has fixed points, which correspond to extrema of the loss function. We show that gradient alignment is a stability criterion for those fixed points. It is only a necessary criterion for algorithm performance. Experimentally, we demonstrate that high levels of gradient alignment can lead to poor algorithm performance and that the alignment is not always driving the gradient descend. | 翻訳日:2023-06-06 18:37:54 公開日:2023-06-04 |
# 任意パラメータは大規模事前学習言語モデルに適応するのに十分である Arbitrary Few Parameters are Good Enough for Adapting Large-scale Pre-trained Language Models ( http://arxiv.org/abs/2306.02320v1 ) ライセンス: Link先を確認 | Yusheng Su, Chi-Min Chan, Jiali Cheng, Yujia Qin, Yankai Lin, Shengding Hu, Zonghan Yang, Ning Ding, Zhiyuan Liu, Maosong Sun | (参考訳) パラメータ効率チューニング(PET)法は、最小パラメータのみを訓練することで、非常に大きな事前学習言語モデル(PLM)を効果的に駆動することができる。
異なるPET法は異なる手動設計モジュールを利用する。
小型PLMでは、PET法には通常顕著な性能差がある。
それでも、PLMのスケールが数千億のパラメータまで大きくなると、すべてのPET法はほぼ同じ性能を達成し、フルパラメータの微調整法と同等の性能を発揮する。
したがって,モデルスケーリングはPET法における設計の違い(モジュール構造とトレーニング可能なパラメータの数)を軽減することができると仮定する。
この仮説を検討するために、任意のモジュール構造やトレーニング可能なパラメータの数に適合する、より柔軟なPET法、任意のPET法(APET)を導入する。
次に、11ドルのNLPタスクを5ドルのタイプと2ドルの代表的PLMで実験する。
本研究から,モデルスケーリング(1)は,任意のモジュール構造がチューニング手法の性能に与える影響を緩和し,(2)より少ないパラメータを最適化し,フルパラメータの微調整性能を実現する。
興味深いことに、全てのチューニング手法はPLMを動かすのにほぼ同じ数のトレーニング可能なパラメータを必要とする。
本稿では,この現象と,それらの背後にあるメカニズムを太くする最適化の観点から,上記の2つの知見をまとめて論じる。
これらの結論は、モデルスケーリングがチューニング方法に与える影響を実証するだけでなく、そのメカニズムを開示し、大規模PLM上でより効率的かつ効率的なチューニング手法を設計するのに役立つ。 Parameter-efficient tuning (PET) methods can effectively drive extremely large pre-trained language models (PLMs) by only training minimal parameters. Different PET methods utilize different manually designed modules. In a small PLM, there are usually noticeable performance differences among PET methods. Nevertheless, when a PLM's scale grows up to tens of billions of parameters, all PET methods achieve almost the same performance and even perform on par with the full-parameter fine-tuning method. Hence, we hypothesize that model scaling can mitigate the design differences (the module structures and the number of trainable parameters) among PET methods. To study this hypothesis, we introduce a more flexible PET method - arbitrary PET (APET) method - to be compatible with arbitrary module structures and any number of trainable parameters. Then, we experiment on $11$ NLP tasks of $5$ types and $2$ representative PLMs. From our investigations, we find that the model scaling (1) mitigates the effects of the arbitrary module structure on the performance of tuning methods, and (2) enables the tuning methods to optimize fewer parameters to achieve the full-parameter fine-tuning performance. Intriguingly, we also observe that all tuning methods require almost the same number of trainable parameters to drive PLMs. We discuss this phenomenon and the above two findings collectively from optimization perspectives to fathom the mechanisms behind them. These conclusions not only demonstrate the positive impact of model scaling on tuning methods but disclose its mechanisms, which help us design more effective and efficient tuning methods on larger-scale PLMs. | 翻訳日:2023-06-06 18:37:39 公開日:2023-06-04 |
# SpellMapper:n-gramマッピングに基づく候補検索によるASRカスタマイズのための非自己回帰型ニューラルネットワークスペルチェッカー SpellMapper: A non-autoregressive neural spellchecker for ASR customization with candidate retrieval based on n-gram mappings ( http://arxiv.org/abs/2306.02317v1 ) ライセンス: Link先を確認 | Alexandra Antonova, Evelina Bakhturina, Boris Ginsburg | (参考訳) 文脈的綴り補正モデルは、ユーザ語彙による自動音声認識(asr)品質を改善するための浅い融合の代替手段である。
大規模なユーザ語彙を扱うために、これらのモデルの多くは候補検索機構を含み、通常、ASR仮説の断片とユーザフレーズの最小編集距離に基づいている。
しかし、編集距離のアプローチは遅く、訓練不能であり、通常の文字のみに依存するため、リコールは少ない可能性がある。
提案します
1) 誤字n-gramマッピングに基づく候補検索のための新しいアルゴリズムは,wikipediaの上位10個の候補のみに対して最大90%のリコールを与える。
2)BERTアーキテクチャに基づく非自己回帰型ニューラルモデルでは,最初の転写文字と10の候補を1つの入力に結合する。
音声wikipediaによる実験では、ベースラインasrシステムと比較して21.4%の単語誤り率向上を示した。 Contextual spelling correction models are an alternative to shallow fusion to improve automatic speech recognition (ASR) quality given user vocabulary. To deal with large user vocabularies, most of these models include candidate retrieval mechanisms, usually based on minimum edit distance between fragments of ASR hypothesis and user phrases. However, the edit-distance approach is slow, non-trainable, and may have low recall as it relies only on common letters. We propose: 1) a novel algorithm for candidate retrieval, based on misspelled n-gram mappings, which gives up to 90% recall with just the top 10 candidates on Spoken Wikipedia; 2) a non-autoregressive neural model based on BERT architecture, where the initial transcript and ten candidates are combined into one input. The experiments on Spoken Wikipedia show 21.4% word error rate improvement compared to a baseline ASR system. | 翻訳日:2023-06-06 18:37:13 公開日:2023-06-04 |
# 拡散モデルの時空間動的量子化 Temporal Dynamic Quantization for Diffusion Models ( http://arxiv.org/abs/2306.02316v1 ) ライセンス: Link先を確認 | Junhyuk So, Jungwon Lee, Daehyun Ahn, Hyungjun Kim, Eunhyeok Park | (参考訳) 拡散モデルは、優れた生成性能と汎用性のため、視覚アプリケーションで人気を集めている。
しかし、モデルサイズと反復生成によって生じる高いストレージと計算要求は、モバイルデバイスでの使用を妨げている。
既存の量子化技術は、拡散モデルの時間的変動のユニークな性質のため、8ビットの精度でも性能を維持するのに苦労する。
本稿では、時間ステップ情報に基づいて量子化間隔を動的に調整し、出力品質を大幅に改善する新しい量子化手法を提案する。
従来の動的量子化手法とは異なり,本手法は推論時の計算オーバーヘッドがなく,後学習量子化(PTQ)と量子化対応トレーニング(QAT)の両方と互換性がある。
大規模な実験により,様々なデータセットにまたがる量子拡散モデルにより,出力品質が大幅に向上した。 The diffusion model has gained popularity in vision applications due to its remarkable generative performance and versatility. However, high storage and computation demands, resulting from the model size and iterative generation, hinder its use on mobile devices. Existing quantization techniques struggle to maintain performance even in 8-bit precision due to the diffusion model's unique property of temporal variation in activation. We introduce a novel quantization method that dynamically adjusts the quantization interval based on time step information, significantly improving output quality. Unlike conventional dynamic quantization techniques, our approach has no computational overhead during inference and is compatible with both post-training quantization (PTQ) and quantization-aware training (QAT). Our extensive experiments demonstrate substantial improvements in output quality with the quantized diffusion model across various datasets. | 翻訳日:2023-06-06 18:36:57 公開日:2023-06-04 |
# ラベル効率のよい意味セグメンテーションのための信頼できない擬似ラベルの使用 Using Unreliable Pseudo-Labels for Label-Efficient Semantic Segmentation ( http://arxiv.org/abs/2306.02314v1 ) ライセンス: Link先を確認 | Haochen Wang and Yuchao Wang and Yujun Shen and Junsong Fan and Yuxi Wang and Zhaoxiang Zhang | (参考訳) ラベル効率の高い意味セグメンテーションの要点は、大量のラベルなしまたは弱いラベル付きデータを活用するために高品質の擬似ラベルを生成することである。
一般的な方法は、各ピクセルの疑似接頭文字として高度に自信のある予測を選択することであるが、信頼できないため、ほとんどのピクセルが使用できないという問題を引き起こす。
しかし、各ピクセルはモデルトレーニングに重要であり、信頼できない、曖昧なピクセルでさえも重要であると我々は主張する。
直感的には、信頼できない予測はトップクラスの間で混乱するかもしれないが、残りのクラスに属さないピクセルには自信があるはずだ。
したがって、そのようなピクセルは、最もありそうもないカテゴリの負の鍵として説得的に扱うことができる。
そこで我々は,ラベルのないデータを十分に活用する効果的なパイプラインを開発した。
具体的には、予測のエントロピーを通じて信頼できない画素を分離し、信頼できない各ピクセルを負のキーからなるカテゴリワイドキューにプッシュし、すべての候補画素でモデルをトレーニングする。
トレーニングの進化を考慮して,信頼できないパーティションのしきい値を適応的に調整する。
様々なベンチマークとトレーニング設定の実験結果から、最先端の代替案に対するアプローチの優位性を示す。 The crux of label-efficient semantic segmentation is to produce high-quality pseudo-labels to leverage a large amount of unlabeled or weakly labeled data. A common practice is to select the highly confident predictions as the pseudo-ground-truths for each pixel, but it leads to a problem that most pixels may be left unused due to their unreliability. However, we argue that every pixel matters to the model training, even those unreliable and ambiguous pixels. Intuitively, an unreliable prediction may get confused among the top classes, however, it should be confident about the pixel not belonging to the remaining classes. Hence, such a pixel can be convincingly treated as a negative key to those most unlikely categories. Therefore, we develop an effective pipeline to make sufficient use of unlabeled data. Concretely, we separate reliable and unreliable pixels via the entropy of predictions, push each unreliable pixel to a category-wise queue that consists of negative keys, and manage to train the model with all candidate pixels. Considering the training evolution, we adaptively adjust the threshold for the reliable-unreliable partition. Experimental results on various benchmarks and training settings demonstrate the superiority of our approach over the state-of-the-art alternatives. | 翻訳日:2023-06-06 18:36:44 公開日:2023-06-04 |
# 高度領域におけるアンテホック解釈可能性の(不合理な)アレー : 透明性は必要だが説明可能性には不十分である (Un)reasonable Allure of Ante-hoc Interpretability for High-stakes Domains: Transparency Is Necessary but Insufficient for Explainability ( http://arxiv.org/abs/2306.02312v1 ) ライセンス: Link先を確認 | Kacper Sokol and Julia E. Vogt | (参考訳) アンテホック解釈性は、医療などの高度な領域において、説明可能な機械学習の聖杯となっているが、この概念は根源的であり、広く受け入れられた定義に欠け、デプロイメントコンテキストに依存している。
構造がドメイン固有の制約に従う予測モデルや、本質的に透明なモデルを指すこともある。
後者の概念は、この品質を判断するオブザーバーを仮定するが、前者は技術とドメインの専門知識を持っていると仮定し、ある場合にはそのようなモデルを知性に欠ける。
加えて、別の説明モデルを構築する方法を指す、望ましくないポスト・ホックな説明可能性との区別は、透明な予測者が十分に説明できる洞察を得るのにまだ(後)処理を必要とする場合を考えると曖昧である。
したがって、アンテホックな解釈可能性(ante-hoc interpretability)は、さまざまな暗黙的プロパティを含むオーバーロードされた概念であり、我々は、高スループットドメインをまたいだ安全なデプロイに必要なものをより理解するために、この論文で解き明かした。
この目的のために、私たちはモデルと説明者固有のデシデラタを概説し、観察されたアプリケーションとオーディエンスの観点から、その明確な実現をナビゲートできるようにします。 Ante-hoc interpretability has become the holy grail of explainable machine learning for high-stakes domains such as healthcare; however, this notion is elusive, lacks a widely-accepted definition and depends on the deployment context. It can refer to predictive models whose structure adheres to domain-specific constraints, or ones that are inherently transparent. The latter notion assumes observers who judge this quality, whereas the former presupposes them to have technical and domain expertise, in certain cases rendering such models unintelligible. Additionally, its distinction from the less desirable post-hoc explainability, which refers to methods that construct a separate explanatory model, is vague given that transparent predictors may still require (post-)processing to yield satisfactory explanatory insights. Ante-hoc interpretability is thus an overloaded concept that comprises a range of implicit properties, which we unpack in this paper to better understand what is needed for its safe deployment across high-stakes domains. To this end, we outline model- and explainer-specific desiderata that allow us to navigate its distinct realisations in view of the envisaged application and audience. | 翻訳日:2023-06-06 18:36:25 公開日:2023-06-04 |
# 時間Windowsを用いた車両経路問題の解法のためのルーレット-Wheel選択型PSOアルゴリズム Roulette-Wheel Selection-Based PSO Algorithm for Solving the Vehicle Routing Problem with Time Windows ( http://arxiv.org/abs/2306.02308v1 ) ライセンス: Link先を確認 | Gautam Siddharth Kashyap, Alexander E. I. Brownlee, Orchid Chetia Phukan, Karan Malik, Samar Wazir | (参考訳) 有名なVine Routing Problem with Time Windows (VRPTW) は、特定の場所のセットタイムウィンドウや車両容量などの制約を緩和しながら、複数の目的地間で商品を移動させることのコストを削減することを目的としている。
現実の世界におけるVRPTW問題の応用には、サプライチェーンマネジメント(SCM)やロジスティックディスパッチ(ロジスティックディスパッチ)がある。
したがって、VRPTW問題を解決するために、PSO(Particle Swarm Optimization)というメタヒューリスティックアルゴリズムが効果的に機能することが判明しているが、それらは早期収束を経験することができる。
本論文では,PSOの早期収束のリスクを低減するために,Roulette Wheel Method (RWPSO) を用いたPSO手法の新たな形式を活用したVRPTWの解決を行った。
RWPSOのSolomon VRPTWベンチマークデータセットを用いた計算実験は、RWPSOが文学の他の最先端アルゴリズムと競合していることを示している。
また,本論文の2つの最先端アルゴリズムとの比較により,提案アルゴリズムの競合性が示された。 The well-known Vehicle Routing Problem with Time Windows (VRPTW) aims to reduce the cost of moving goods between several destinations while accommodating constraints like set time windows for certain locations and vehicle capacity. Applications of the VRPTW problem in the real world include Supply Chain Management (SCM) and logistic dispatching, both of which are crucial to the economy and are expanding quickly as work habits change. Therefore, to solve the VRPTW problem, metaheuristic algorithms i.e. Particle Swarm Optimization (PSO) have been found to work effectively, however, they can experience premature convergence. To lower the risk of PSO's premature convergence, the authors have solved VRPTW in this paper utilising a novel form of the PSO methodology that uses the Roulette Wheel Method (RWPSO). Computing experiments using the Solomon VRPTW benchmark datasets on the RWPSO demonstrate that RWPSO is competitive with other state-of-the-art algorithms from the literature. Also, comparisons with two cutting-edge algorithms from the literature show how competitive the suggested algorithm is. | 翻訳日:2023-06-06 18:35:59 公開日:2023-06-04 |
# SWEETスポットの探索:低資源環境における適応推論の解析と改善 Finding the SWEET Spot: Analysis and Improvement of Adaptive Inference in Low Resource Settings ( http://arxiv.org/abs/2306.02307v1 ) ライセンス: Link先を確認 | Daniel Rotem, Michael Hassid, Jonathan Mamou, Roy Schwartz | (参考訳) 適応推論は推論コストを削減する単純な方法である。
この方法は、異なる能力の複数の分類器を維持し、その困難さに応じて各テストインスタンスにリソースを割り当てる。
本研究では,学習データに制限がある場合,適応推論の2つの主要なアプローチである早期実行とマルチモデルを比較した。
まず、同じアーキテクチャとサイズを持つモデルに対して、個々のマルチモデル分類器は、平均2.3%の早期指数よりも優れていることを観察する。
このギャップは、トレーニング中にモデルパラメータを共有するアーリーエクイット分類器が原因で、モデル重み付けの勾配更新が相反することを示している。
このギャップにもかかわらず、アーリーエクイットは、マルチモデルアプローチのオーバーヘッドのため、より優れた速度・精度のトレードオフを提供する。
これらの問題に対処するため,我々は,各分類器に独自のモデル重みのセットを割り当て,他の分類器では更新しない,初期出力の微調整手法であるs sweet (separating weights in early exit transformers)を提案する。
sweetのspeed-accuracy曲線を標準のearly-exitおよびmulti-modelベースラインと比較し、高速で両方のメソッドを上回り、遅い速度でearly-exitと比較した。
さらに、SWEETの個々の分類器は、Early-Exitを平均1.1%上回る。
SWEETは両方の手法の利点を享受し、NLPにおける推論コストをさらに削減する道を開く。 Adaptive inference is a simple method for reducing inference costs. The method works by maintaining multiple classifiers of different capacities, and allocating resources to each test instance according to its difficulty. In this work, we compare the two main approaches for adaptive inference, Early-Exit and Multi-Model, when training data is limited. First, we observe that for models with the same architecture and size, individual Multi-Model classifiers outperform their Early-Exit counterparts by an average of 2.3%. We show that this gap is caused by Early-Exit classifiers sharing model parameters during training, resulting in conflicting gradient updates of model weights. We find that despite this gap, Early-Exit still provides a better speed-accuracy trade-off due to the overhead of the Multi-Model approach. To address these issues, we propose SWEET (Separating Weights in Early Exit Transformers), an Early-Exit fine-tuning method that assigns each classifier its own set of unique model weights, not updated by other classifiers. We compare SWEET's speed-accuracy curve to standard Early-Exit and Multi-Model baselines and find that it outperforms both methods at fast speeds while maintaining comparable scores to Early-Exit at slow speeds. Moreover, SWEET individual classifiers outperform Early-Exit ones by 1.1% on average. SWEET enjoys the benefits of both methods, paving the way for further reduction of inference costs in NLP. | 翻訳日:2023-06-06 18:35:37 公開日:2023-06-04 |
# Cross-CBAM: シーンセグメンテーションのための軽量ネットワーク Cross-CBAM: A Lightweight network for Scene Segmentation ( http://arxiv.org/abs/2306.02306v1 ) ライセンス: Link先を確認 | Zhengbin Zhang, Zhenhao Xu, Xingsheng Gu, Juan Xiong | (参考訳) シーン解析は、リアルタイムセマンティクスセグメンテーションにとって大きな課題である。
従来のセマンティクスセグメンテーションネットワークは、セマンティクスの精度を飛躍的に向上させたが、推論速度の性能は満足できない。
一方、この進歩はかなり大きなネットワークと強力な計算資源で達成されている。
しかし、計算能力に制限のあるエッジコンピューティングデバイス上で非常に大きなモデルを実行することは困難であり、リアルタイムセマンティクスのセグメンテーションタスクにとって大きな課題となる。
本稿では,リアルタイムセマンティックセグメンテーションのための新しい軽量ネットワークであるCross-CBAMネットワークを提案する。
具体的には,可変フィールドオブビューおよびマルチスケール情報を得るために,空間ピラミッドプーリングモジュール(se-aspp)を提案する。
また,CCBAMモジュールにクロス多重操作を適用し,低レベルの詳細情報を高レベルなセマンティック情報に導出するクロス畳み込みブロック注意モジュール(CCBAM)を提案する。
以前の作業とは異なり、これらの作業は、バックボーンの望ましい情報に集中するために注意を払っています。
CCBAMはFPN構造における機能融合にクロスアテンションを用いる。
CityscapesデータセットとCamvidデータセットの大規模な実験は、セグメント化精度と推論速度の間の有望なトレードオフを達成し、提案したクロスCBAMモデルの有効性を示す。
Cityscapesのテストセットでは、73.4% mIoU、240.9FPS、77.2% mIoU、NVIDIA GTX 1080Tiで88.6FPSを達成した。 Scene parsing is a great challenge for real-time semantic segmentation. Although traditional semantic segmentation networks have made remarkable leap-forwards in semantic accuracy, the performance of inference speed is unsatisfactory. Meanwhile, this progress is achieved with fairly large networks and powerful computational resources. However, it is difficult to run extremely large models on edge computing devices with limited computing power, which poses a huge challenge to the real-time semantic segmentation tasks. In this paper, we present the Cross-CBAM network, a novel lightweight network for real-time semantic segmentation. Specifically, a Squeeze-and-Excitation Atrous Spatial Pyramid Pooling Module(SE-ASPP) is proposed to get variable field-of-view and multiscale information. And we propose a Cross Convolutional Block Attention Module(CCBAM), in which a cross-multiply operation is employed in the CCBAM module to make high-level semantic information guide low-level detail information. Different from previous work, these works use attention to focus on the desired information in the backbone. CCBAM uses cross-attention for feature fusion in the FPN structure. Extensive experiments on the Cityscapes dataset and Camvid dataset demonstrate the effectiveness of the proposed Cross-CBAM model by achieving a promising trade-off between segmentation accuracy and inference speed. On the Cityscapes test set, we achieve 73.4% mIoU with a speed of 240.9FPS and 77.2% mIoU with a speed of 88.6FPS on NVIDIA GTX 1080Ti. | 翻訳日:2023-06-06 18:35:09 公開日:2023-06-04 |
# 文字レベルの情報は常にdrsベースの意味解析を改善するか? Does Character-level Information Always Improve DRS-based Semantic Parsing? ( http://arxiv.org/abs/2306.02302v1 ) ライセンス: Link先を確認 | Tomoya Kurosawa and Hitomi Yanaka | (参考訳) 大規模言語モデルの時代でさえ、文字レベルの表現はニューラルモデルの性能を向上させることが示唆されている。
state-of-the-art neural semantic parser for discourse representation structuresでは、文字レベルの表現を使用して、4つの言語(英語、ドイツ語、オランダ語、イタリア語)のパフォーマンスを改善している。
しかし、文字レベルの情報がパーザのパフォーマンスを改善する方法と理由はまだ不明である。
本研究では,文字列の順序による性能変化の詳細な解析を行う。
実験では,文字レベル情報の性能をテストした結果,順序をシャッフルし,文字列をランダム化することで,f1スコアを比較する。
その結果,文字レベル情報の導入は,英語とドイツ語のパフォーマンスを向上させるものではないことがわかった。
さらに、オランダ語では、パーサーは正しい文字順に敏感ではないことがわかった。
それでも文字レベルの情報を使用すると性能改善が観察される。 Even in the era of massive language models, it has been suggested that character-level representations improve the performance of neural models. The state-of-the-art neural semantic parser for Discourse Representation Structures uses character-level representations, improving performance in the four languages (i.e., English, German, Dutch, and Italian) in the Parallel Meaning Bank dataset. However, how and why character-level information improves the parser's performance remains unclear. This study provides an in-depth analysis of performance changes by order of character sequences. In the experiments, we compare F1-scores by shuffling the order and randomizing character sequences after testing the performance of character-level information. Our results indicate that incorporating character-level information does not improve the performance in English and German. In addition, we find that the parser is not sensitive to correct character order in Dutch. Nevertheless, performance improvements are observed when using character-level information. | 翻訳日:2023-06-06 18:34:38 公開日:2023-06-04 |
# rssod-bench:光リモートセンシング画像における物体検出のための大規模ベンチマークデータセット RSSOD-Bench: A large-scale benchmark dataset for Salient Object Detection in Optical Remote Sensing Imagery ( http://arxiv.org/abs/2306.02351v1 ) ライセンス: Link先を確認 | Zhitong Xiong, Yanfeng Liu, Qi Wang, Xiao Xiang Zhu | (参考訳) 光学式リモートセンシング画像におけるSODのためのRSSOD-Benchデータセットについて述べる。
SODは深層学習による自然景観画像で成功しているが、SODにおけるリモートセンシング画像(RSSOD)の研究はまだ初期段階にある。
既存のrssodデータセットにはスケールやシーンのカテゴリの制限があり、現実のアプリケーションと不一致している。
これらの欠点に対処するため、米国内の4つの異なる都市の画像を含むRSSOD-Benchデータセットを構築した。
このデータセットは、建物、湖、川、高速道路、橋、航空機、船、運動場など、様々な有能な分野のアノテーションを提供する。
rssod-benchのサルエントオブジェクトは、大規模なバリエーション、バラバラな背景、異なる季節を示す。
既存のデータセットとは異なり、RSSOD-Benchはシーンカテゴリ間で均一な分散を提供する。
コンピュータビジョンとリモートセンシングコミュニティの両方から23種類の最先端アプローチをベンチマークする。
実験の結果,RSSODタスクにはさらなる研究努力が必要であることが示された。 We present the RSSOD-Bench dataset for salient object detection (SOD) in optical remote sensing imagery. While SOD has achieved success in natural scene images with deep learning, research in SOD for remote sensing imagery (RSSOD) is still in its early stages. Existing RSSOD datasets have limitations in terms of scale, and scene categories, which make them misaligned with real-world applications. To address these shortcomings, we construct the RSSOD-Bench dataset, which contains images from four different cities in the USA. The dataset provides annotations for various salient object categories, such as buildings, lakes, rivers, highways, bridges, aircraft, ships, athletic fields, and more. The salient objects in RSSOD-Bench exhibit large-scale variations, cluttered backgrounds, and different seasons. Unlike existing datasets, RSSOD-Bench offers uniform distribution across scene categories. We benchmark 23 different state-of-the-art approaches from both the computer vision and remote sensing communities. Experimental results demonstrate that more research efforts are required for the RSSOD task. | 翻訳日:2023-06-06 18:29:04 公開日:2023-06-04 |
# bgGLUE: ブルガリアの一般言語理解評価ベンチマーク bgGLUE: A Bulgarian General Language Understanding Evaluation Benchmark ( http://arxiv.org/abs/2306.02349v1 ) ライセンス: Link先を確認 | Momchil Hardalov, Pepa Atanasova, Todor Mihaylov, Galia Angelova, Kiril Simov, Petya Osenova, Ves Stoyanov, Ivan Koychev, Preslav Nakov, Dragomir Radev | (参考訳) ブルガリアの自然言語理解タスク(nlu)における言語モデル評価のためのベンチマークであるbgglue(bulgarian general language understanding evaluation)を提案する。
我々のベンチマークには、さまざまなNLP問題(自然言語推論、ファクトチェック、名前付きエンティティ認識、感情分析、質問応答など)と機械学習タスク(シーケンスラベリング、文書レベルの分類、回帰)をターゲットにしたNLUタスクが含まれています。
ブルガリア語のための事前学習言語モデルの最初の体系的評価を行い、ベンチマークの9つのタスクを比較して比較した。
評価結果はシーケンスラベリングタスクに強い性能を示すが、より複雑な推論を必要とするタスクには改善の余地がたくさんある。
私たちはbgglueを微調整と評価コードとともに公開するとともに、https://bgglue.github.io/の公開リーダボードも公開しています。 We present bgGLUE (Bulgarian General Language Understanding Evaluation), a benchmark for evaluating language models on Natural Language Understanding (NLU) tasks in Bulgarian. Our benchmark includes NLU tasks targeting a variety of NLP problems (e.g., natural language inference, fact-checking, named entity recognition, sentiment analysis, question answering, etc.) and machine learning tasks (sequence labeling, document-level classification, and regression). We run the first systematic evaluation of pre-trained language models for Bulgarian, comparing and contrasting results across the nine tasks in the benchmark. The evaluation results show strong performance on sequence labeling tasks, but there is a lot of room for improvement for tasks that require more complex reasoning. We make bgGLUE publicly available together with the fine-tuning and the evaluation code, as well as a public leaderboard at https://bgglue.github.io/, and we hope that it will enable further advancements in developing NLU models for Bulgarian. | 翻訳日:2023-06-06 18:28:49 公開日:2023-06-04 |
# モダリティシフトにおける点の活用:言語のみ表現とマルチモーダル表現の比較 Leverage Points in Modality Shifts: Comparing Language-only and Multimodal Word Representations ( http://arxiv.org/abs/2306.02348v1 ) ライセンス: Link先を確認 | Aleksey Tikhonov, Lisa Bylinina, Denis Paperno | (参考訳) マルチモーダル埋め込みは、テキストのみのモデルと比較して、言語の神経表現における意味情報を強化することを目的としている。
異なる埋め込みは下流タスクに異なる適用性や性能を示すが、視覚的モダリティに起因する体系的な表現の違いについてはほとんど知られていない。
本稿では、3つの視覚・言語モデル(CLIP, OpenCLIP, Multilingual CLIP)と3つのテキストのみのモデル(FastText)とコンテキスト表現(multilingual BERT, XLM-RoBERTa)の単語埋め込みを比較した。
これは、46のセマンティクスパラメータを含む言語表現に対する視覚的接地の影響に関する最初の大規模研究である。
学習データに視覚的モダリティを含ませることによって最も影響を受けやすい単語を特徴付ける意味的特徴と関係を同定する。
視覚的モダリティの効果は, 具体性に関連する意味的特徴とほとんど相関するが, 言語表現の感情関連意味的特性である原子価だけでなく, 特定の意味的クラスに対しても検出される。 Multimodal embeddings aim to enrich the semantic information in neural representations of language compared to text-only models. While different embeddings exhibit different applicability and performance on downstream tasks, little is known about the systematic representation differences attributed to the visual modality. Our paper compares word embeddings from three vision-and-language models (CLIP, OpenCLIP and Multilingual CLIP) and three text-only models, with static (FastText) as well as contextual representations (multilingual BERT; XLM-RoBERTa). This is the first large-scale study of the effect of visual grounding on language representations, including 46 semantic parameters. We identify meaning properties and relations that characterize words whose embeddings are most affected by the inclusion of visual modality in the training data; that is, points where visual grounding turns out most important. We find that the effect of visual modality correlates most with denotational semantic properties related to concreteness, but is also detected for several specific semantic classes, as well as for valence, a sentiment-related connotational property of linguistic expressions. | 翻訳日:2023-06-06 18:28:30 公開日:2023-06-04 |
# CDLT:細粒度視覚分類のための概念ドリフトと長期分布を用いたデータセット CDLT: A Dataset with Concept Drift and Long-Tailed Distribution for Fine-Grained Visual Categorization ( http://arxiv.org/abs/2306.02346v1 ) ライセンス: Link先を確認 | Shuo Ye and Yufeng Shi and Ruxin Wang and Yu Wang and Jiamiao Xu and Chuanwu Yang and Xinge You | (参考訳) データはコンピュータビジョンの発展の基盤であり、データセットの確立はきめ細かい視覚分類技術(FGVC)の進展に重要な役割を果たしている。
コンピュータビジョンで使用される既存のFGVCデータセットでは、各収集されたインスタンスは固定特性を持ち、異なるカテゴリの分布は比較的バランスが取れていると一般的に仮定される。
対照的に、実世界のシナリオでは、インスタンスの特性が時間とともに変化し、ロングテール分布を示す傾向があるという事実が明らかにされる。
したがって、収集されたデータセットは細粒度の分類器の最適化を誤解し、実際のアプリケーションでは不快なパフォーマンスをもたらす可能性がある。
実世界の状況から始まり,細粒度視覚分類の実際的な進展を促進するために,概念ドリフトとロングテール分布データセットを提案する。
具体的には、データセットは、異なる種で47ヶ月連続して、250のインスタンスの11195の画像を収集して収集される。
収集プロセスには、写真撮影のための数十人の群衆労働者とラベル付けのドメイン専門家が含まれる。
最先端のきめ細かい分類モデルを用いた大規模なベースライン実験は、データセットにコンセプトドリフトと長い尾の分布の問題を示し、将来の研究の注意を要する。 Data is the foundation for the development of computer vision, and the establishment of datasets plays an important role in advancing the techniques of fine-grained visual categorization~(FGVC). In the existing FGVC datasets used in computer vision, it is generally assumed that each collected instance has fixed characteristics and the distribution of different categories is relatively balanced. In contrast, the real world scenario reveals the fact that the characteristics of instances tend to vary with time and exhibit a long-tailed distribution. Hence, the collected datasets may mislead the optimization of the fine-grained classifiers, resulting in unpleasant performance in real applications. Starting from the real-world conditions and to promote the practical progress of fine-grained visual categorization, we present a Concept Drift and Long-Tailed Distribution dataset. Specifically, the dataset is collected by gathering 11195 images of 250 instances in different species for 47 consecutive months in their natural contexts. The collection process involves dozens of crowd workers for photographing and domain experts for labelling. Extensive baseline experiments using the state-of-the-art fine-grained classification models demonstrate the issues of concept drift and long-tailed distribution existed in the dataset, which require the attention of future researches. | 翻訳日:2023-06-06 18:28:07 公開日:2023-06-04 |
# Deep Optimal Transport:フォトリアリスティック画像復元のための実践的アルゴリズム Deep Optimal Transport: A Practical Algorithm for Photo-realistic Image Restoration ( http://arxiv.org/abs/2306.02342v1 ) ライセンス: Link先を確認 | Theo Adrai, Guy Ohayon, Tomer Michaeli and Michael Elad | (参考訳) 本稿では,事前学習したモデルの知覚的品質と平均二乗誤差(MSE)を制御し,一方を他方で比較する画像復元アルゴリズムを提案する。
モデルによって復元された画像数十枚を考慮すれば、新たな画像に対する知覚的品質および/またはMSEを大幅に向上させることができる。
我々のアプローチは、最小MSE予測器と完全知覚品質制約の下でMSEを最小化する予測器とのリンクという最近の理論的結果によって動機付けられている。
具体的には、その分布がソースデータと一致するように、前者の出力を最適に輸送することで、後者が得られることを示した。
そこで,MSEを最小化するために訓練された予測器の知覚品質を改善するため,実験的な手段と共分散を用いて閉形式で計算した変分オートエンコーダの潜時空間における線形変換による最適輸送を近似した。
理論を超えて、当初高い知覚品質を達成するために訓練されたモデルに同じ手順を適用することは、通常、知覚品質をさらに向上させる。
また,モデルを元の出力と補間することにより,知覚品質を犠牲にしてMSEを改善することができる。
本手法は任意の次元の一般コンテンツ画像に適用できる様々な劣化について述べる。 We propose an image restoration algorithm that can control the perceptual quality and/or the mean square error (MSE) of any pre-trained model, trading one over the other at test time. Our algorithm is few-shot: Given about a dozen images restored by the model, it can significantly improve the perceptual quality and/or the MSE of the model for newly restored images without further training. Our approach is motivated by a recent theoretical result that links between the minimum MSE (MMSE) predictor and the predictor that minimizes the MSE under a perfect perceptual quality constraint. Specifically, it has been shown that the latter can be obtained by optimally transporting the output of the former, such that its distribution matches the source data. Thus, to improve the perceptual quality of a predictor that was originally trained to minimize MSE, we approximate the optimal transport by a linear transformation in the latent space of a variational auto-encoder, which we compute in closed-form using empirical means and covariances. Going beyond the theory, we find that applying the same procedure on models that were initially trained to achieve high perceptual quality, typically improves their perceptual quality even further. And by interpolating the results with the original output of the model, we can improve their MSE on the expense of perceptual quality. We illustrate our method on a variety of degradations applied to general content images of arbitrary dimensions. | 翻訳日:2023-06-06 18:27:44 公開日:2023-06-04 |
# 連続学習のためのt-vfm類似性を用いたロバストな特徴学習 Towards Robust Feature Learning with t-vFM Similarity for Continual Learning ( http://arxiv.org/abs/2306.02335v1 ) ライセンス: Link先を確認 | Bilan Gao, YoungBin Kim | (参考訳) 特徴学習の観点から、標準的な教師付きコントラスト損失を用いて連続学習を開発した。
トレーニング中のデータ不均衡のため、よりよい表現を学ぶ上ではまだ課題があります。
本研究では,よりロバストな表現を学ぶために,教師付き対照損失におけるコサイン類似性の代わりに,異なる類似度メトリクスを使うことを提案する。
本手法を画像分類データセットseq-cifar-10で検証し,最近の連続学習ベースラインを上回った。 Continual learning has been developed using standard supervised contrastive loss from the perspective of feature learning. Due to the data imbalance during the training, there are still challenges in learning better representations. In this work, we suggest using a different similarity metric instead of cosine similarity in supervised contrastive loss in order to learn more robust representations. We validate the our method on one of the image classification datasets Seq-CIFAR-10 and the results outperform recent continual learning baselines. | 翻訳日:2023-06-06 18:27:19 公開日:2023-06-04 |
# 長文生成への挑戦 Long Text Generation Challenge ( http://arxiv.org/abs/2306.02334v1 ) ライセンス: Link先を確認 | Nikolay Mikhaylovskiy | (参考訳) 我々は,モデルに対して,約1000個のトークンを入力して,一貫した人間ライクな長文(ハリー・ポッター・ジェネラル・オーディエンス)の出力を求める,人間ライクな長文生成の共有タスクであるltg challengeを提案する。
本稿では,テキスト構造性に関する新しい統計指標,手袋自己相関パワー/指数法則,絶対パーセンテージ誤差比(gapelmaper)およびヒューマン評価プロトコルを提案する。
LTGが、サンプリングアプローチの調査、戦略の推進、自己回帰的かつ非自己回帰的テキスト生成アーキテクチャ、一貫性のある長文(40K+トークン)を生成するための障壁を突破する新たな道を開くことを願っている。 We propose a shared task of human-like long text generation, LTG Challenge, that asks models to output a consistent human-like long text (a Harry Potter generic audience fanfic in English), given a prompt of about 1000 tokens. We suggest a novel statistical metric of the text structuredness, GloVe Autocorrelations Power/ Exponential Law Mean Absolute Percentage Error Ratio (GAPELMAPER) and a human evaluation protocol. We hope that LTG can open new avenues for researchers to investigate sampling approaches, prompting strategies, autoregressive and non-autoregressive text generation architectures and break the barrier to generate consistent long (40K+ token) texts. | 翻訳日:2023-06-06 18:27:11 公開日:2023-06-04 |
# マルチCLIP:3次元シーンにおける質問応答タスクのためのコントラストビジョンランゲージ事前学習 Multi-CLIP: Contrastive Vision-Language Pre-training for Question Answering tasks in 3D Scenes ( http://arxiv.org/abs/2306.02329v1 ) ライセンス: Link先を確認 | Alexandros Delitzas, Maria Parelli, Nikolas Hars, Georgios Vlassis, Sotirios Anagnostidis, Gregor Bachmann, Thomas Hofmann | (参考訳) 2d画像から3dシーン理解に共通意味言語知識と視覚概念を適用するためのトレーニングモデルは、研究者が最近調査を始めたばかりの有望な方向です。
しかし,2次元蒸留知識が3次元質問応答などの下流3次元視覚言語タスクに有用な表現を提供できるかどうかはまだ検証されていない。
そこで,本稿では,モデルが3dシーンのクラウド表現を学習できる,新たな3d事前学習型視覚言語手法であるmulti-clipを提案する。
符号化された3次元シーン特徴と対応する2次元多視点画像とCLIP空間へのテキスト埋め込みとの一致をコントラスト的目的により最大化することにより、CLIPモデルの表現力を利用する。
本稿では,3次元視覚質問回答(3D-VQA)と3D Situated Question Answering(3D-SQA)の下流課題について検討する。
この目的のために,新しいマルチモーダルトランスフォーマーアーキテクチャを開発し,プリトレーニング手法がパフォーマンスに与える影響を実証する。
定量的および定性的な実験結果から,Multi-CLIPは3D-VQAと3D-SQAの下流タスクにおいて,最先端の作業よりも優れており,良好な3Dシーン特徴空間が得られることが示された。 Training models to apply common-sense linguistic knowledge and visual concepts from 2D images to 3D scene understanding is a promising direction that researchers have only recently started to explore. However, it still remains understudied whether 2D distilled knowledge can provide useful representations for downstream 3D vision-language tasks such as 3D question answering. In this paper, we propose a novel 3D pre-training Vision-Language method, namely Multi-CLIP, that enables a model to learn language-grounded and transferable 3D scene point cloud representations. We leverage the representational power of the CLIP model by maximizing the agreement between the encoded 3D scene features and the corresponding 2D multi-view image and text embeddings in the CLIP space via a contrastive objective. To validate our approach, we consider the challenging downstream tasks of 3D Visual Question Answering (3D-VQA) and 3D Situated Question Answering (3D-SQA). To this end, we develop novel multi-modal transformer-based architectures and we demonstrate how our pre-training method can benefit their performance. Quantitative and qualitative experimental results show that Multi-CLIP outperforms state-of-the-art works across the downstream tasks of 3D-VQA and 3D-SQA and leads to a well-structured 3D scene feature space. | 翻訳日:2023-06-06 18:26:55 公開日:2023-06-04 |
# 実験AIによるアーティストのエージェンシーと正当性 Agency and legibility for artists through Experiential AI ( http://arxiv.org/abs/2306.02327v1 ) ライセンス: Link先を確認 | Drew Hemment, Matjaz Vidmar, Daga Panas, Dave Murray-Rust, Vaishak Belle and Aylett Ruth | (参考訳) 体験AI(Experiential AI)は、AIを具体的で明示的なものにするという課題に対処する、新たな研究分野である。
中心となるテーマは、アーティスト、科学者、その他の学際的アクターが、情報的かつ魅力的な経験を通じて、AI、ML、インテリジェントなロボットの機能、それらの限界と結果を理解し、伝達する方法である。
それは、不透明なコンピュータコードと人間の理解を仲介する、芸術と有形体験のためのアプローチと方法論を提供し、AIシステムだけでなく、その価値と含意をより透明にし、従って説明責任を負う。
本稿では,ユーザ定義次元の創造的データ探索を目的とした経験的AIシステムの実証的ケーススタディについて報告する。
実験的なAIがアーティストの正当性とエージェンシーをどのように向上させるか、芸術が人間中心のXAIのツールボックスに追加可能な創造的戦略と方法を提供する方法について論じる。 Experiential AI is an emerging research field that addresses the challenge of making AI tangible and explicit, both to fuel cultural experiences for audiences, and to make AI systems more accessible to human understanding. The central theme is how artists, scientists and other interdisciplinary actors can come together to understand and communicate the functionality of AI, ML and intelligent robots, their limitations, and consequences, through informative and compelling experiences. It provides an approach and methodology for the arts and tangible experiences to mediate between impenetrable computer code and human understanding, making not just AI systems but also their values and implications more transparent, and therefore accountable. In this paper, we report on an empirical case study of an experiential AI system designed for creative data exploration of a user-defined dimension, to enable creators to gain more creative control over the AI process. We discuss how experiential AI can increase legibility and agency for artists, and how the arts can provide creative strategies and methods which can add to the toolbox for human-centred XAI. | 翻訳日:2023-06-06 18:26:27 公開日:2023-06-04 |
# クロスLKTCN:多変量時系列予測におけるクロス変数依存性を利用した現代的畳み込み Cross-LKTCN: Modern Convolution Utilizing Cross-Variable Dependency for Multivariate Time Series Forecasting Dependency for Multivariate Time Series Forecasting ( http://arxiv.org/abs/2306.02326v1 ) ライセンス: Link先を確認 | Donghao Luo, Xue Wang | (参考訳) 過去数年間、多変量時系列予測の急速な発展を目撃してきた。
正確な予測結果の鍵は、各時間ステップ(クロスタイム依存性)間の長期的な依存関係をキャプチャし、多変量時系列における各変数(クロス変数依存性)間の複雑な依存関係をモデル化することだ。
しかし、最近のメソッドは主にクロスタイムの依存性に焦点を当てているが、クロス変数の依存性を考慮することはめったにない。
このギャップを埋めるために、従来のテクニックである畳み込みが、最近時系列の予測において蒸気を失い、それぞれがクロスタイムとクロス変数の依存関係をキャプチャするニーズを満たすことを発見した。
そこで本研究では,時間列予測におけるクロスタイムとクロス変数依存性の両面をよりよく活用するために,Cross-LKTCNという現代的な純粋畳み込み構造を提案する。
具体的には、各クロスLKTCNブロックにおいて、大きな受容場を持つ深さワイドな大きなカーネル畳み込みがクロスタイム依存を捉えるために提案され、次に2つの連続したポイントワイドグループ畳み込みフィードフォワードネットワークがクロス変数依存を捉えるために提案される。
実世界のベンチマーク実験の結果、Cross-LKTCNは既存の畳み込みモデルやクロス変数手法と比較して最先端の予測性能を達成し、予測精度を著しく向上することが示された。 The past few years have witnessed the rapid development in multivariate time series forecasting. The key to accurate forecasting results is capturing the long-term dependency between each time step (cross-time dependency) and modeling the complex dependency between each variable (cross-variable dependency) in multivariate time series. However, recent methods mainly focus on the cross-time dependency but seldom consider the cross-variable dependency. To fill this gap, we find that convolution, a traditional technique but recently losing steam in time series forecasting, meets the needs of respectively capturing the cross-time and cross-variable dependency. Based on this finding, we propose a modern pure convolution structure, namely Cross-LKTCN, to better utilize both cross-time and cross-variable dependency for time series forecasting. Specifically in each Cross-LKTCN block, a depth-wise large kernel convolution with large receptive field is proposed to capture cross-time dependency, and then two successive point-wise group convolution feed forward networks are proposed to capture cross-variable dependency. Experimental results on real-world benchmarks show that Cross-LKTCN achieves state-of-the-art forecasting performance and improves the forecasting accuracy significantly compared with existing convolutional-based models and cross-variable methods. | 翻訳日:2023-06-06 18:26:06 公開日:2023-06-04 |
# 事前学習言語モデルのための常識的知識伝達 Commonsense Knowledge Transfer for Pre-trained Language Models ( http://arxiv.org/abs/2306.02388v1 ) ライセンス: Link先を確認 | Wangchunshu Zhou, Ronan Le Bras, Yejin Choi | (参考訳) 幅広いNLPベンチマークの基礎モデルとして機能するにもかかわらず、事前訓練された言語モデルは、テキストの表面パターンにより明確に現れる言語的および事実的知識の学習と比較して、自己スーパービジョンのみから暗黙のコモンセンス知識を取得する能力の限界を示した。
本稿では,ニューラルコモンセンス知識モデルに格納されたコモンセンス知識を汎用事前学習言語モデルに転送するフレームワークであるcommonsense knowledge transferを提案する。
まず、一般的なテキストを使用して、ニューラルネットワークのコモンセンス知識モデルからコモンセンス知識を抽出するクエリを作成し、その後、コモンセンスマスクインフィルディングとコモンセンス関係予測という2つの自己教師付き目標で言語モデルを洗練する。
実験結果から,本手法はコモンセンス推論を必要とする下流タスクにおけるモデルの性能を一貫して改善することを示す。
さらに, 数点設定では改善がより重要であることがわかった。
このことから,本手法は,コモンセンス知識をパラメータに注入することにより,広範囲の監視を伴わずに,下流タスクへの言語モデル導入を支援することが示唆された。 Despite serving as the foundation models for a wide range of NLP benchmarks, pre-trained language models have shown limited capabilities of acquiring implicit commonsense knowledge from self-supervision alone, compared to learning linguistic and factual knowledge that appear more explicitly in the surface patterns in text. In this work, we introduce commonsense knowledge transfer, a framework to transfer the commonsense knowledge stored in a neural commonsense knowledge model to a general-purpose pre-trained language model. It first exploits general texts to form queries for extracting commonsense knowledge from the neural commonsense knowledge model and then refines the language model with two self-supervised objectives: commonsense mask infilling and commonsense relation prediction, which align human language with the underlying commonsense knowledge. Empirical results show that our approach consistently improves the model's performance on downstream tasks that require commonsense reasoning. Moreover, we find that the improvement is more significant in the few-shot setting. This suggests that our approach helps language models better transfer to downstream tasks without extensive supervision by injecting commonsense knowledge into their parameters. | 翻訳日:2023-06-06 18:17:44 公開日:2023-06-04 |
# 線形ゲイン・損失システムにおける分布の乗算 Multiplication of distributions in a linear gain and loss system ( http://arxiv.org/abs/2306.02386v1 ) ライセンス: Link先を確認 | Fabio Bagarello | (参考訳) 我々は、利得損失系として見ることのできる結合振動子のモデルを考える。
システムを定量化する試みとして,分布間の乗算の新しい定義を提案し,ハミルトニアン $h$ の固有状態とその随伴 $h^\dagger$ の生物的正規性をチェックする際に,この定義が適用可能であることを確かめる。
ここで行った分析では、弱擬ボソニックなはしご作用素の役割が関係している。 We consider a model of coupled oscillators which can be seen as a gain and loss system. In the attempt to quantize the system we propose a new definition of multiplication between distributions, and we check that this definition can be adopted when checking the biorthonormality of the eigenstates of the Hamiltonian $H$ of the system, and of its adjoint $H^\dagger$. In the analysis carried out here, the role of {\em weak pseudo-bosonic} ladder operators is relevant. | 翻訳日:2023-06-06 18:17:24 公開日:2023-06-04 |
# 効率的なシンボリック通信符号の進化 Evolution of Efficient Symbolic Communication Codes ( http://arxiv.org/abs/2306.02383v1 ) ライセンス: Link先を確認 | Anton Kolonin | (参考訳) 本稿では,人間の自然言語構造を対人コミュニケーションコードの進化の産物とみなし,反エントロピー,圧縮係数,F1スコアといった,文化的・言語的指標の最大化を目標としている。
この調査は、教師なし言語学習の取り組みの一環として行われ、上述のメトリクスを最大化することで、"ground truth"言語構造に基づくf1スコアを最大化するハイパーパラメータの領域でメタラーニングを行う。
本稿では,ロシア語,中国語,英語の言語間単語レベルのセグメンテーショントークン化研究と,英語のサブワードセグメンテーションや形態素解析研究の予備結果について述べる。
単語レベルのセグメンテーションやトークン化を形成する言語構造は、これらの指標の全てによって駆動され、反エントロピーは英語とロシア語とより関係があり、一方圧縮係数は中国語に特有である。
英語語彙におけるサブワードのセグメンテーションや形態素解析の研究により、圧縮と圧縮係数の直接関係が明らかになったが、驚くべきことに、反エントロピーとの関係は逆数に変化した。 The paper explores how the human natural language structure can be seen as a product of evolution of inter-personal communication code, targeting maximisation of such culture-agnostic and cross-lingual metrics such as anti-entropy, compression factor and cross-split F1 score. The exploration is done as part of a larger unsupervised language learning effort, the attempt is made to perform meta-learning in a space of hyper-parameters maximising F1 score based on the "ground truth" language structure, by means of maximising the metrics mentioned above. The paper presents preliminary results of cross-lingual word-level segmentation tokenisation study for Russian, Chinese and English as well as subword segmentation or morphological parsing study for English. It is found that language structure form the word-level segmentation or tokenisation can be found as driven by all of these metrics, anti-entropy being more relevant to English and Russian while compression factor more specific for Chinese. The study for subword segmentation or morphological parsing on English lexicon has revealed straight connection between the compression been found to be associated with compression factor, while, surprising, the same connection with anti-entropy has turned to be the inverse. | 翻訳日:2023-06-06 18:17:14 公開日:2023-06-04 |
# Modular Transformer: 柔軟推論のためのModularized Layerにトランスフォーマーを圧縮する Modular Transformers: Compressing Transformers into Modularized Layers for Flexible Efficient Inference ( http://arxiv.org/abs/2306.02379v1 ) ライセンス: Link先を確認 | Wangchunshu Zhou, Ronan Le Bras, Yejin Choi | (参考訳) T5やBARTのような事前訓練されたトランスフォーマーモデルは、幅広いテキスト生成タスクで最先端の技術を進歩させた。
これらのモデルを小さなモデルに圧縮することは、実用上極めて重要である。
知識蒸留や量子化のような一般的なニューラルネットワーク圧縮技術は、圧縮比が固定された静的圧縮に限られる。
本稿では,フレキシブルシーケンスツーシーケンスモデル圧縮のためのモジュール化エンコーダ・デコーダフレームワークであるmodular transformersを提案する。
モジュラートランスフォーマーはモジュール交換と知識蒸留を通じて、元のモデルで2つ以上の連続した層と同じ機能を持つモジュール化された層を訓練する。
トレーニング後、モジュール化されたレイヤは、異なるパフォーマンス効率のトレードオフを満たすシーケンスからシーケンスへのモデルに柔軟に組み立てることができる。
実験結果から, 単一トレーニングフェーズ後, 組み立て戦略を変更すれば, モジュールトランスフォーマーは1.1xから6xまでのフレキシブル圧縮比を, 相対的な相対的な性能低下の少ない状態で達成できることがわかった。 Pre-trained Transformer models like T5 and BART have advanced the state of the art on a wide range of text generation tasks. Compressing these models into smaller ones has become critically important for practical use. Common neural network compression techniques such as knowledge distillation or quantization are limited to static compression where the compression ratio is fixed. In this paper, we introduce Modular Transformers, a modularized encoder-decoder framework for flexible sequence-to-sequence model compression. Modular Transformers train modularized layers that have the same function of two or more consecutive layers in the original model via module replacing and knowledge distillation. After training, the modularized layers can be flexibly assembled into sequence-to-sequence models that meet different performance-efficiency trade-offs. Experimental results show that after a single training phase, by simply varying the assembling strategy, Modular Transformers can achieve flexible compression ratios from 1.1x to 6x with little to moderate relative performance drop. | 翻訳日:2023-06-06 18:16:52 公開日:2023-06-04 |
# 「犬に眼鏡をかけろとおっしゃいますか?」CoDrawデータセットにおける教示明細書の内容 "Are you telling me to put glasses on the dog?'' Content-Grounded Annotation of Instruction Clarification Requests in the CoDraw Dataset ( http://arxiv.org/abs/2306.02377v1 ) ライセンス: Link先を確認 | Brielen Madureira and David Schlangen | (参考訳) 命令の明確化要求は通信問題を解決するメカニズムであり、命令追従相互作用において非常に機能する。
最近の研究は、CoDrawデータセットは自然発生のiCRの貴重な情報源であると主張している。
iCRがいつ作成されるべきかを識別する以外に、対話モデルは適切なフォームとコンテンツで生成できる必要がある。
本稿では,既存のicr識別子を基礎となる対話ゲームアイテムと可能なアクションに接する詳細情報を拡張したcodraw-icr(v2)を紹介する。
我々のアノテーションは対話エージェントの修復能力のモデル化と評価に役立てることができる。 Instruction Clarification Requests are a mechanism to solve communication problems, which is very functional in instruction-following interactions. Recent work has argued that the CoDraw dataset is a valuable source of naturally occurring iCRs. Beyond identifying when iCRs should be made, dialogue models should also be able to generate them with suitable form and content. In this work, we introduce CoDraw-iCR (v2), which extends the existing iCR identifiers fine-grained information grounded in the underlying dialogue game items and possible actions. Our annotation can serve to model and evaluate repair capabilities of dialogue agents. | 翻訳日:2023-06-06 18:16:37 公開日:2023-06-04 |
# グラフニューラルネットワークにおける深い注意:問題と対策 Towards Deep Attention in Graph Neural Networks: Problems and Remedies ( http://arxiv.org/abs/2306.02376v1 ) ライセンス: Link先を確認 | Soo Yong Lee, Fanchen Bu, Jaemin Yoo, Kijung Shin | (参考訳) グラフニューラルネットワーク(GNN)はグラフ構造化データの表現を学習し、その表現性は伝播のためのノード関係を推論することによってさらに向上することができる。
注意に基づくGNNは、その伝播の重みを操作するために隣り合う重要性を推測する。
その人気にもかかわらず、ディープグラフの注目とユニークな課題に関する議論は限られている。
本研究では,過剰な特徴量に対する脆弱性や滑らかな累積的注意など,深いグラフの注意に関連するいくつかの問題について検討する。
理論および実証分析により,様々な注意に基づくgnnがこれらの問題に苦しむことが示された。
AEROGNNはグラフの注目度を高めるために設計された新しいGNNアーキテクチャである。
AERO-GNNは、より実験的に示されたディープグラフアテンションの問題を確実に緩和する
(a)その適応的かつ円滑な注意機能及び
(b)深層(最大64)での高性能化。
12のノード分類ベンチマークのうち9つで、AERO-GNNはベースラインのGNNよりも優れており、ディープグラフの利点を強調している。
私たちのコードはhttps://github.com/syleeheal/AERO-GNNで公開されています。 Graph neural networks (GNNs) learn the representation of graph-structured data, and their expressiveness can be further enhanced by inferring node relations for propagation. Attention-based GNNs infer neighbor importance to manipulate the weight of its propagation. Despite their popularity, the discussion on deep graph attention and its unique challenges has been limited. In this work, we investigate some problematic phenomena related to deep graph attention, including vulnerability to over-smoothed features and smooth cumulative attention. Through theoretical and empirical analyses, we show that various attention-based GNNs suffer from these problems. Motivated by our findings, we propose AEROGNN, a novel GNN architecture designed for deep graph attention. AERO-GNN provably mitigates the proposed problems of deep graph attention, which is further empirically demonstrated with (a) its adaptive and less smooth attention functions and (b) higher performance at deep layers (up to 64). On 9 out of 12 node classification benchmarks, AERO-GNN outperforms the baseline GNNs, highlighting the advantages of deep graph attention. Our code is available at https://github.com/syleeheal/AERO-GNN. | 翻訳日:2023-06-06 18:16:23 公開日:2023-06-04 |
# GANによるドライバーの顔映像の同定:NDSデータにおけるヒューマンファクター含意の評価 GAN-based Deidentification of Drivers' Face Videos: An Assessment of Human Factors Implications in NDS Data ( http://arxiv.org/abs/2306.02374v1 ) ライセンス: Link先を確認 | Surendrabikram Thapa and Abhijit Sarkar | (参考訳) 本稿では,適切な倫理ガイドラインを遵守しつつ,運転者の顔映像を交通機関で共有する問題に対処する。
本稿は、まず、これらのデータ共有に関連するさまざまな問題の概要を述べ、次に、人工知能ベースの技術、特に顔スワップがドライバーの顔の識別にどのように使用できるかを示す枠組みを提案する。
オークリッジ国立研究所 (ornl) データセットを用いた広範囲な実験により, 眼球運動, 頭部運動, 口唇運動など, 人的要因研究に関連する必須属性の保存における顔スワッピングアルゴリズムの有効性を実証した。
この枠組みの有効性はバージニア工科大学で収集された様々な自然主義的運転研究データでも検証された。
提案手法により得られた結果は,様々な指標を用いて質的,定量的に評価された。
最後に,未確認映像をより大きな研究コミュニティと共有するための対策について検討する。 This paper addresses the problem of sharing drivers' face videos for transportation research while adhering to proper ethical guidelines. The paper first gives an overview of the multitude of problems associated with sharing such data and then proposes a framework on how artificial intelligence-based techniques, specifically face swapping, can be used for de-identifying drivers' faces. Through extensive experimentation with an Oak Ridge National Laboratory (ORNL) dataset, we demonstrate the effectiveness of face-swapping algorithms in preserving essential attributes related to human factors research, including eye movements, head movements, and mouth movements. The efficacy of the framework was also tested on various naturalistic driving study data collected at the Virginia Tech Transportation Institute. The results achieved through the proposed techniques were evaluated qualitatively and quantitatively using various metrics. Finally, we discuss possible measures for sharing the de-identified videos with the greater research community. | 翻訳日:2023-06-06 18:16:03 公開日:2023-06-04 |
# 有毒教師による無用知識蒸留の再検討 Revisiting Data-Free Knowledge Distillation with Poisoned Teachers ( http://arxiv.org/abs/2306.02368v1 ) ライセンス: Link先を確認 | Junyuan Hong, Yi Zeng, Shuyang Yu, Lingjuan Lyu, Ruoxi Jia, Jiayu Zhou | (参考訳) data-free knowledge distillation(kd)は、教師モデルのトレーニングに使用する元のトレーニングデータにアクセスせずに、事前訓練されたモデル(教師モデルとして知られる)からより小さなモデル(生徒モデルとして知られる)への知識の転送を支援する。
しかし、データフリーなKDで必要とされるOOD(synthetic or Out-of-distriion)データのセキュリティはほとんど不明であり、未調査である。
本研究では,データフリーkd w.r.t.非信頼事前学習モデルのセキュリティリスクを明らかにするために,最初の取り組みを行う。
次に,データフリーなKD手法のための最初のプラグイン防御手法であるアンチバックドア・データフリーKD(ABD)を提案する。
提案するABDの有効性を実証的に評価し,バニラKDとしての下流性能を維持しつつ,トランスファーバックドア知識の低下を図った。
データフリーKDのバックドアを警告し緩和するためのマイルストーンとして、この作業が期待されます。
コードはhttps://github.com/illidanlab/abdでリリースされる。 Data-free knowledge distillation (KD) helps transfer knowledge from a pre-trained model (known as the teacher model) to a smaller model (known as the student model) without access to the original training data used for training the teacher model. However, the security of the synthetic or out-of-distribution (OOD) data required in data-free KD is largely unknown and under-explored. In this work, we make the first effort to uncover the security risk of data-free KD w.r.t. untrusted pre-trained models. We then propose Anti-Backdoor Data-Free KD (ABD), the first plug-in defensive method for data-free KD methods to mitigate the chance of potential backdoors being transferred. We empirically evaluate the effectiveness of our proposed ABD in diminishing transferred backdoor knowledge while maintaining compatible downstream performances as the vanilla KD. We envision this work as a milestone for alarming and mitigating the potential backdoors in data-free KD. Codes are released at https://github.com/illidanlab/ABD. | 翻訳日:2023-06-06 18:15:47 公開日:2023-06-04 |
# 一般ゼロショット産業故障診断のための知識空間共有によるドメインシフトの対応 Addressing Domain Shift via Knowledge Space Sharing for Generalized Zero-Shot Industrial Fault Diagnosis ( http://arxiv.org/abs/2306.02359v1 ) ライセンス: Link先を確認 | Jiancheng Zhao, Jiaqi Yue, Liangjun Feng, Chunhui Zhao, and Jinliang Ding | (参考訳) 故障診断は産業安全の重要な側面であり,産業事故診断の監督は広く研究されてきた。
しかし、コストや安全性の懸念から、モデルトレーニングのすべてのカテゴリの障害サンプルを取得することは困難である。
その結果, 一般のゼロショット型産業断層診断は, 目に見えない断層と見えない断層の両方を診断することを目的として注目されている。
それにもかかわらず、トレーニングのための見当たらない障害データがないことは、見当たらない障害がしばしば見当たらない障害として識別される、挑戦的なドメインシフト問題(dsp)をもたらす。
本稿では,一般ゼロショット産業断層診断タスクにおいて,DSPに対処する知識空間共有(KSS)モデルを提案する。
KSSモデルは、生成機構(KSS-G)と識別機構(KSS-D)を含む。
kss-gは補助知識の指導のもと、見てきたサンプルから抽出した転送可能な属性特徴を再結合することにより、希少な欠陥のサンプルを生成する。
KSS-Dは、知識空間で見られるカテゴリをモデル化することによってDSPに対処することを目的として、生成されたサンプルの助けを借りて教師付き方法で訓練される。
KSS-Dは、異常な断層を目に見える断層と誤分類することを避け、観測された断層サンプルを特定する。
我々は,テネシー州-イーストマン法を基準とした一般化ゼロショット診断実験を行い,本手法が一般ゼロショット産業故障診断問題に対する最先端手法よりも優れていることを示す。 Fault diagnosis is a critical aspect of industrial safety, and supervised industrial fault diagnosis has been extensively researched. However, obtaining fault samples of all categories for model training can be challenging due to cost and safety concerns. As a result, the generalized zero-shot industrial fault diagnosis has gained attention as it aims to diagnose both seen and unseen faults. Nevertheless, the lack of unseen fault data for training poses a challenging domain shift problem (DSP), where unseen faults are often identified as seen faults. In this article, we propose a knowledge space sharing (KSS) model to address the DSP in the generalized zero-shot industrial fault diagnosis task. The KSS model includes a generation mechanism (KSS-G) and a discrimination mechanism (KSS-D). KSS-G generates samples for rare faults by recombining transferable attribute features extracted from seen samples under the guidance of auxiliary knowledge. KSS-D is trained in a supervised way with the help of generated samples, which aims to address the DSP by modeling seen categories in the knowledge space. KSS-D avoids misclassifying rare faults as seen faults and identifies seen fault samples. We conduct generalized zero-shot diagnosis experiments on the benchmark Tennessee-Eastman process, and our results show that our approach outperforms state-of-the-art methods for the generalized zero-shot industrial fault diagnosis problem. | 翻訳日:2023-06-06 18:15:32 公開日:2023-06-04 |
# マイクロ波コプレーナ導波管共振器アレイを用いた極端条件における回路量子力学 Characterizing Niobium Nitride Superconducting Microwave Coplanar Waveguide Resonator Array for Circuit Quantum Electrodynamics in Extreme Conditions ( http://arxiv.org/abs/2306.02356v1 ) ライセンス: Link先を確認 | Paniz Foshat, Paul Baity, Sergey Danilin, Valentino Seferai, Shima Poorgholam-Khanjari, Hua Feng, Oleg A. Mukhanov, Matthew Hutchings, Robert H. Hadfield, Muhammad Imran, Martin Weides, and Kaveh Delfanazari | (参考訳) 窒化ニオブ(nbn)の高臨界磁場と比較的高い臨界温度は、超伝導量子技術への応用に有望な材料候補となっている。
しかし、NbNベースのデバイスと回路は、2レベルシステム(TLS)欠陥のようなデコヒーレンスソースに敏感である。
本研究では,100nm厚のnbn超伝導マイクロ波コプレーナ導波路アレイをシリコンチップ上のコプレーナ導波路と容量的に結合した数値的,実験的に検討する。
我々は、共振器の内部品質係数(Qi)が、高出力状態においてQi ~ 1.07*10^6 から Qi ~ 1.36 *10^5 まで、温度 T = 100 mK で減少することが観察された。
本研究のデータは、共振器基板と界面におけるTLS相互作用を記述するTLS理論と一致している。
さらに,コプラナー導波路共振器の温度依存性内部品質係数と周波数調整を行い,NbNの準粒子密度を特徴付ける。
周波数シフトの主な原因は, 高温での動力学的インダクタンスの増加である。
最後に、面内磁場b||に応じて単一光子状態における共振器の共振周波数と内部品質係数を測定する。
我々は、Qi が光子数 <nph > = 1.8 at T = 100 mK において、B|| = 240 mT まで 10^4 以上であることを確認した。
その結果、耐障害性量子コンピューティングや超感度量子センシングに必要な強磁場下での回路量子電磁力学(cqed)のための堅牢なマイクロ波超伝導回路の実現への道が開けるかもしれない。 The high critical magnetic field and relatively high critical temperature of niobium nitride (NbN) make it a promising material candidate for applications in superconducting quantum technology. However, NbN-based devices and circuits are sensitive to decoherence sources such as two-level system (TLS) defects. Here, we numerically and experimentally investigate NbN superconducting microwave coplanar waveguide resonator arrays, with a 100 nm thickness, capacitively coupled to a common coplanar waveguide on a silicon chip. We observe that the resonators' internal quality factor (Qi) decreases from Qi ~ 1.07*10^6 in a high power regime (< nph > = 27000) to Qi ~ 1.36 *10^5 in single photon regime at temperature T = 100 mK. Data from this study is consistent with the TLS theory, which describes the TLS interactions in resonator substrates and interfaces. Moreover, we study the temperature dependence internal quality factor and frequency tuning of the coplanar waveguide resonators to characterise the quasiparticle density of NbN. We observe that the increase in kinetic inductance at higher temperatures is the main reason for the frequency shift. Finally, we measure the resonators' resonance frequency and internal quality factor at single photon regime in response to in-plane magnetic fields B||. We verify that Qi stays well above 10^4 up to B|| = 240 mT in the photon number < nph > = 1.8 at T = 100 mK. Our results may pave the way for realising robust microwave superconducting circuits for circuit quantum electrodynamics (cQED) at high magnetic fields necessary for fault-tolerant quantum computing, and ultrasensitive quantum sensing. | 翻訳日:2023-06-06 18:15:08 公開日:2023-06-04 |
# トレーニングデータ品質測定のためのトポロジカルアプローチ A Topological Approach to Measuring Training Data Quality ( http://arxiv.org/abs/2306.02411v1 ) ライセンス: Link先を確認 | \'Alvaro Torras-Casas, Eduardo Paluzo-Hidalgo, Rocio Gonzalez-Diaz | (参考訳) データ品質は、人工知能モデルのトレーニング、一般化、パフォーマンスの成功に不可欠である。
さらに、人工知能における主要なアプローチは、データ不足であることも知られている。
本稿では,より高速なトレーニングに向けて,小規模のトレーニングデータセットの利用を提案する。
具体的には,永続モジュール間のアモルファスに基づく新しいトポロジカル手法を提案する。
このようにして、選択されたトレーニングデータセットがパフォーマンス低下につながる理由を説明することができる。 Data quality is crucial for the successful training, generalization and performance of artificial intelligence models. Furthermore, it is known that the leading approaches in artificial intelligence are notoriously data-hungry. In this paper, we propose the use of small training datasets towards faster training. Specifically, we provide a novel topological method based on morphisms between persistence modules to measure the training data quality with respect to the complete dataset. This way, we can provide an explanation of why the chosen training dataset will lead to poor performance. | 翻訳日:2023-06-06 18:08:45 公開日:2023-06-04 |
# ツール強化型計算集約型数学推論の評価と改善 Evaluating and Improving Tool-Augmented Computation-Intensive Math Reasoning ( http://arxiv.org/abs/2306.02408v1 ) ライセンス: Link先を確認 | Beichen Zhang, Kun Zhou, Xilin Wei, Wayne Xin Zhao, Jing Sha, Shijin Wang, Ji-Rong Wen | (参考訳) CoT)とツール拡張は、複雑な数学関連のタスクにおいてステップバイステップの推論を行うために、大規模言語モデルの改善のための効果的なプラクティスとして、近年検証されている。
しかしながら、ほとんどの既存の数学推論データセットは、中間推論ステップを評価するのに、ツールの呼び出しやアノテーションのミスをほとんど必要とせず、ツールの操作や推論の実行においてLLMの能力を十分に評価し分析できないかもしれない。
この問題に対処するため,中間段階に定式化アノテーションを付加した4,886個の計算集約代数問題からなる中国語データセットである「textbf{CARP}」を構築した。
CARPでは、CoTプロンプトで4つのLCMをテストし、ソリューションの初期段階で間違いを犯しがちであることを発見し、間違った答えを導きます。
この知見に基づいて,ツールインタフェースを用いた推論手順を考察できる新しい手法,すなわち \textbf{deli} を提案する。
DELIでは、まず、抽出した例に基づいてステップバイステップの解を初期化し、ツール操作や自然言語推論の観点から、生成した解の中間ステップを検証・洗練する2つの検討手順を反復し、収束した解を得るか、最大回転に達するまで行う。
CARPと他の6つのデータセットの実験結果から、提案したDELIは競争ベースラインよりも優れており、既存のCoTメソッドの性能をさらに向上させることができる。
我々のデータとコードは \url{https://github.com/RUCAIBox/CARP} で利用可能です。 Chain-of-thought prompting~(CoT) and tool augmentation have been validated in recent work as effective practices for improving large language models~(LLMs) to perform step-by-step reasoning on complex math-related tasks. However, most existing math reasoning datasets may be not able to fully evaluate and analyze the ability of LLMs in manipulating tools and performing reasoning, as they may only require very few invocations of tools or miss annotations for evaluating intermediate reasoning steps. To address the issue, we construct \textbf{CARP}, a new Chinese dataset consisting of 4,886 computation-intensive algebra problems with formulated annotations on intermediate steps. In CARP, we test four LLMs with CoT prompting, and find that they are all prone to make mistakes at the early steps of the solution, leading to wrong answers. Based on this finding, we propose a new approach that can deliberate the reasoning steps with tool interfaces, namely \textbf{DELI}. In DELI, we first initialize a step-by-step solution based on retrieved exemplars, then iterate two deliberation procedures that check and refine the intermediate steps of the generated solution, from the perspectives of tool manipulation and natural language reasoning, until obtaining converged solutions or reaching the maximum turn. Experimental results on CARP and six other datasets show that the proposed DELI mostly outperforms competitive baselines, and can further boost the performance of existing CoT methods. Our data and code are available in \url{https://github.com/RUCAIBox/CARP}. | 翻訳日:2023-06-06 18:08:39 公開日:2023-06-04 |
# 分散カメラネットワークを用いたヘテロスケスティック地空間追跡 Heteroskedastic Geospatial Tracking with Distributed Camera Networks ( http://arxiv.org/abs/2306.02407v1 ) ライセンス: Link先を確認 | Colin Samplawski, Shiwei Fang, Ziqi Wang, Deepak Ganesan, Mani Srivastava, Benjamin M. Marlin | (参考訳) 近年,視覚物体追跡が著しい進歩を遂げている。
しかし、この研究の大部分は、単一のカメラのイメージプレーン内の物体を追跡し、予測された物体の位置に関する不確実性を無視している。
本研究では,分散カメラネットワークのデータを用いた地理空間物体追跡問題に焦点をあてる。
目的は、原画像データの集中化を禁止した通信制約を尊重しながら、オブジェクトの位置に関する不確実性とともに、地理空間座標におけるオブジェクトの軌跡を予測することである。
本稿では,4台のカメラのネットワークから得られた高精度な地中物体位置と映像データを含む,新しい物体空間追跡データセットを提案する。
本稿では、新しいバックボーンモデルを含むこの課題に対処するためのモデリングフレームワークを提案し、不確実性校正と微分可能なトラッカーによる微調整がパフォーマンスに与える影響について検討する。 Visual object tracking has seen significant progress in recent years. However, the vast majority of this work focuses on tracking objects within the image plane of a single camera and ignores the uncertainty associated with predicted object locations. In this work, we focus on the geospatial object tracking problem using data from a distributed camera network. The goal is to predict an object's track in geospatial coordinates along with uncertainty over the object's location while respecting communication constraints that prohibit centralizing raw image data. We present a novel single-object geospatial tracking data set that includes high-accuracy ground truth object locations and video data from a network of four cameras. We present a modeling framework for addressing this task including a novel backbone model and explore how uncertainty calibration and fine-tuning through a differentiable tracker affect performance. | 翻訳日:2023-06-06 18:08:10 公開日:2023-06-04 |
# 音声の自己教師付き離散表現に関する情報理論解析 An Information-Theoretic Analysis of Self-supervised Discrete Representations of Speech ( http://arxiv.org/abs/2306.02405v1 ) ライセンス: Link先を確認 | Badr M. Abdullah, Mohammed Maqsood Shaik, Bernd M\"obius, Dietrich Klakow | (参考訳) 音声に対する自己教師あり表現学習は、しばしば音響入力を離散単位に変換する量子化ステップを伴う。
しかし、これらの離散単位と音素などの抽象音素カテゴリーの関係をどう特徴付けるかは、まだ不明である。
本稿では,各音声カテゴリーを離散単位上の分布として表現する情報理論的枠組みを提案する。
次に,この枠組みを2つの異なる自己教師モデル(wav2vec 2.0とxlsr)に適用し,ケーススタディとしてアメリカ英語音声を用いた。
本研究は,音韻分布のエントロピーが下層の音声の変動を反映していることを示す。
本研究は1対1の直接対応の欠如を裏付けるものであるが、音声カテゴリーと離散単位の間の興味深く、間接的な関係を見出す。 Self-supervised representation learning for speech often involves a quantization step that transforms the acoustic input into discrete units. However, it remains unclear how to characterize the relationship between these discrete units and abstract phonetic categories such as phonemes. In this paper, we develop an information-theoretic framework whereby we represent each phonetic category as a distribution over discrete units. We then apply our framework to two different self-supervised models (namely wav2vec 2.0 and XLSR) and use American English speech as a case study. Our study demonstrates that the entropy of phonetic distributions reflects the variability of the underlying speech sounds, with phonetically similar sounds exhibiting similar distributions. While our study confirms the lack of direct, one-to-one correspondence, we find an intriguing, indirect relationship between phonetic categories and discrete units. | 翻訳日:2023-06-06 18:07:55 公開日:2023-06-04 |
# 知覚カルマンフィルタ:完全な知覚品質制約下でのオンライン状態推定 Perceptual Kalman Filters: Online State Estimation under a Perfect Perceptual-Quality Constraint ( http://arxiv.org/abs/2306.02400v1 ) ライセンス: Link先を確認 | Dror Freirich and Tomer Michaeli and Ron Meir | (参考訳) 多くの実践的な設定は、破損または欠落したデータから時間信号の復元を要求する。
古典的な例としては、デコード、トラッキング、信号強調、デノージングなどがある。
再建された信号は最終的に人間によって認識されるため、人間の知覚を喜ばせる再建が望まれる。
数学的には、復元された信号の分布が自然信号と同じである場合、完全な知覚品質が達成される。
そこで本研究では,完全知覚品質制約下での最適因果フィルタリングの問題について検討する。
具体的には,線形雑音変換によって観測されるガウスマルコフ信号の解析を行う。
知覚的制約がない場合、カルマンフィルタはこの設定においてmseの意味で最適であることが知られている。
ここでは,完全な知覚品質制約(すなわち時間的整合性の要件)を加えることで,フィルタが過去の決定に適合するために,観測者が明らかにした新たな情報を「意識的に」無視しなければならない,基本的なジレンマが生じることを示す。
これはしばしば、MSE(静的な設定で遭遇する以外)を大幅に増加させるコストがかかる。
我々の分析はカルマンフィルタの古典的な革新プロセスを超えており、未利用情報プロセスという新しい概念を導入している。
このツールを用いて,知覚フィルタの再帰的公式を示し,映像再構成問題に対する完全知覚品質推定の質的効果を示す。 Many practical settings call for the reconstruction of temporal signals from corrupted or missing data. Classic examples include decoding, tracking, signal enhancement and denoising. Since the reconstructed signals are ultimately viewed by humans, it is desirable to achieve reconstructions that are pleasing to human perception. Mathematically, perfect perceptual-quality is achieved when the distribution of restored signals is the same as that of natural signals, a requirement which has been heavily researched in static estimation settings (i.e. when a whole signal is processed at once). Here, we study the problem of optimal causal filtering under a perfect perceptual-quality constraint, which is a task of fundamentally different nature. Specifically, we analyze a Gaussian Markov signal observed through a linear noisy transformation. In the absence of perceptual constraints, the Kalman filter is known to be optimal in the MSE sense for this setting. Here, we show that adding the perfect perceptual quality constraint (i.e. the requirement of temporal consistency), introduces a fundamental dilemma whereby the filter may have to "knowingly" ignore new information revealed by the observations in order to conform to its past decisions. This often comes at the cost of a significant increase in the MSE (beyond that encountered in static settings). Our analysis goes beyond the classic innovation process of the Kalman filter, and introduces the novel concept of an unutilized information process. Using this tool, we present a recursive formula for perceptual filters, and demonstrate the qualitative effects of perfect perceptual-quality estimation on a video reconstruction problem. | 翻訳日:2023-06-06 18:07:40 公開日:2023-06-04 |
# リプシッツ動的リスク対策によるリスク感受性強化学習のためのレグレト境界 Regret Bounds for Risk-sensitive Reinforcement Learning with Lipschitz Dynamic Risk Measures ( http://arxiv.org/abs/2306.02399v1 ) ライセンス: Link先を確認 | Hao Liang, Zhi-quan Luo | (参考訳) リスクセンシティブを捉えるために動的リスク対策を組み込んだ有限エピソジックマルコフ決定過程について検討する。
そこで,本稿では,スペクトルリスク測度,最適化された確実性等価性,歪みリスク測度などを推定する,広範囲のリスク尺度である \emph{lipschitz} 動的リスク測度に適用する2つのモデルに基づくアルゴリズムを提案する。
我々は上界と下界の両方を後悔する。
特に、私たちの上限は、リスク感受性とサンプルの複雑さのトレードオフを反映しつつ、アクションの数とエピソード数に最適な依存を示す。
さらに,理論結果を数値実験により検証する。 We study finite episodic Markov decision processes incorporating dynamic risk measures to capture risk sensitivity. To this end, we present two model-based algorithms applied to \emph{Lipschitz} dynamic risk measures, a wide range of risk measures that subsumes spectral risk measure, optimized certainty equivalent, distortion risk measures among others. We establish both regret upper bounds and lower bounds. Notably, our upper bounds demonstrate optimal dependencies on the number of actions and episodes, while reflecting the inherent trade-off between risk sensitivity and sample complexity. Additionally, we substantiate our theoretical results through numerical experiments. | 翻訳日:2023-06-06 18:07:15 公開日:2023-06-04 |
# ブラインド超解像品質評価のためのスケールガイドハイパーネットワーク Scale Guided Hypernetwork for Blind Super-Resolution Image Quality Assessment ( http://arxiv.org/abs/2306.02398v1 ) ライセンス: Link先を確認 | Jun Fu | (参考訳) 画像超解像(SR)アルゴリズムの出現により、超解像の品質を盲目的に評価する方法が緊急課題となっている。
しかし、既存のブラインドsr画像品質評価(iqa)指標は、超解像度画像の視覚特性のみに焦点を当て、利用可能なスケール情報を無視している。
本稿では,尺度因子がSR画像の主観的品質スコアに統計的に有意な影響を与えていることを明らかにする。
そこで我々は、SR画像の品質をスケール適応的に評価するスケールガイド型ハイパーネットワークフレームワークを提案する。
具体的には、ブラインドSR IQA手順は、コンテンツ知覚、評価規則生成、品質予測の3段階に分けられる。
コンテンツ認識後、ハイパーネットワークはSR画像のスケール係数に基づいて品質予測に使用される評価ルールを生成する。
提案するスケールガイド型ハイパーネットワークフレームワークを既存の盲点IQAメトリクスに適用し,実験結果から,提案フレームワークはこれらのIQAメトリクスの性能向上だけでなく,一般化能力の向上も図っている。
ソースコードはhttps://github.com/JunFu 1995/SGHで入手できる。 With the emergence of image super-resolution (SR) algorithm, how to blindly evaluate the quality of super-resolution images has become an urgent task. However, existing blind SR image quality assessment (IQA) metrics merely focus on visual characteristics of super-resolution images, ignoring the available scale information. In this paper, we reveal that the scale factor has a statistically significant impact on subjective quality scores of SR images, indicating that the scale information can be used to guide the task of blind SR IQA. Motivated by this, we propose a scale guided hypernetwork framework that evaluates SR image quality in a scale-adaptive manner. Specifically, the blind SR IQA procedure is divided into three stages, i.e., content perception, evaluation rule generation, and quality prediction. After content perception, a hypernetwork generates the evaluation rule used in quality prediction based on the scale factor of the SR image. We apply the proposed scale guided hypernetwork framework to existing representative blind IQA metrics, and experimental results show that the proposed framework not only boosts the performance of these IQA metrics but also enhances their generalization abilities. Source code will be available at https://github.com/JunFu1995/SGH. | 翻訳日:2023-06-06 18:07:04 公開日:2023-06-04 |
# 適応的特徴グリッドを備えたNICE-SLAM NICE-SLAM with Adaptive Feature Grids ( http://arxiv.org/abs/2306.02395v1 ) ライセンス: Link先を確認 | Ganlin Zhang, Deheng Zhang, Feichi Lu, Anqi Li | (参考訳) NICE-SLAMは、ニューラルな暗黙表現と階層的なグリッドベースのシーン表現の利点を組み合わせた高密度視覚SLAMシステムである。
しかし、階層的なグリッド機能は密に格納されており、フレームワークを大きなシーンに適応させる際のメモリ爆発の問題を引き起こす。
本稿では,Voxel Hashing のアイデアを NICE-SLAM フレームワークに組み込んだスパースSLAM システムである NICE-SLAM を提案する。
スペース全体の機能グリッドを初期化する代わりに、表面付近のvoxel機能は適応的に追加され、最適化される。
実験により、NICE-SLAMアルゴリズムと比較して、我々の手法はメモリをはるかに少なくし、同じデータセット上で同等の再構成品質を達成することが示された。
実装はhttps://github.com/zhangganlin/NICE-SLAM-with-Adaptive-Feature-Gridsで公開しています。 NICE-SLAM is a dense visual SLAM system that combines the advantages of neural implicit representations and hierarchical grid-based scene representation. However, the hierarchical grid features are densely stored, leading to memory explosion problems when adapting the framework to large scenes. In our project, we present sparse NICE-SLAM, a sparse SLAM system incorporating the idea of Voxel Hashing into NICE-SLAM framework. Instead of initializing feature grids in the whole space, voxel features near the surface are adaptively added and optimized. Experiments demonstrated that compared to NICE-SLAM algorithm, our approach takes much less memory and achieves comparable reconstruction quality on the same datasets. Our implementation is available at https://github.com/zhangganlin/NICE-SLAM-with-Adaptive-Feature-Grids. | 翻訳日:2023-06-06 18:06:42 公開日:2023-06-04 |
# 複合現実感におけるロボット制御 Accessible Robot Control in Mixed Reality ( http://arxiv.org/abs/2306.02393v1 ) ライセンス: Link先を確認 | Ganlin Zhang, Deheng Zhang, Longteng Duan, Guo Han | (参考訳) hololens 2 によるボストン・ダイナミクスのスポットロボットの制御法を提案する。
この方法は、主に身体障害者向けに設計されており、ユーザーは手を使うことなくロボットの動きやロボットアームを制御できる。
ホロレン2の視線追跡および頭部運動追跡技術は、制御コマンドの送信に利用される。
ロボットの動きは視線に沿って動き、ロボットアームはユーザーの頭部のポーズを模倣する。
実験では,joystickによる従来の制御手法と比較し,時間効率とユーザエクスペリエンスの両面で比較した。
デモはプロジェクトのWebページにある。 https://zhangganlin.github.io/Holo-Spot-Page/index.html A novel method to control the Spot robot of Boston Dynamics by Hololens 2 is proposed. This method is mainly designed for people with physical disabilities, users can control the robot's movement and robot arm without using their hands. The eye gaze tracking and head motion tracking technologies of Hololens 2 are utilized for sending control commands. The movement of the robot would follow the eye gaze and the robot arm would mimic the pose of the user's head. Through our experiment, our method is comparable with the traditional control method by joystick in both time efficiency and user experience. Demo can be found on our project webpage: https://zhangganlin.github.io/Holo-Spot-Page/index.html | 翻訳日:2023-06-06 18:06:29 公開日:2023-06-04 |
# 不完全ビューを用いた高速連続マルチビュークラスタリング Fast Continual Multi-View Clustering with Incomplete Views ( http://arxiv.org/abs/2306.02389v1 ) ライセンス: Link先を確認 | Xinhang Wan, Bin Xiao, Xinwang Liu, Jiyuan Liu, Weixuan Liang, En Zhu | (参考訳) マルチビュークラスタリング(MVC)は、ビューをまたいだ一貫性のある補完的な情報を利用する能力のため、広く注目を集めている。
本稿では,不完全連続データ問題(ICDP)と呼ばれるMVCの課題に焦点を当てる。
特に、既存のアルゴリズムでは、ビューが事前に利用可能であると仮定し、ビューのデータ観測が時間とともに蓄積されるシナリオを見落としている。
プライバシの考慮やメモリ制限のため、これらの状況では以前のビューは保存できない。
対処するためにいくつかの作品が提案されているが、すべて不完全なビューに対処できない。
MVCにおけるこのような不完全連続データ問題(ICDP)は、連続データを含む不完全情報が、ビュー間の一貫性と相補的な知識を抽出することの難しさを増すため、解決が難しい。
Incomplete Views (FCMVC-IV) を用いたFast Continual Multi-View Clusteringを提案する。
具体的には、コンセンサス係数行列を維持し、すべてのデータ行列を格納し、再計算するのではなく、入ってくる不完全なビューで知識を更新する。
ビューが不完全であることを考えると、新たに収集されたビューは、まだ現れていないサンプルを含んでおり、2つの指標行列と回転行列が、異なる次元の行列にマッチするように開発されている。
さらに, 3段階反復アルゴリズムを設計し, 線形複雑性の問題を解き, 収束を証明した。
様々なデータセットに関する総合的な実験は、FCMVC-IVの優位性を示している。 Multi-view clustering (MVC) has gained broad attention owing to its capacity to exploit consistent and complementary information across views. This paper focuses on a challenging issue in MVC called the incomplete continual data problem (ICDP). In specific, most existing algorithms assume that views are available in advance and overlook the scenarios where data observations of views are accumulated over time. Due to privacy considerations or memory limitations, previous views cannot be stored in these situations. Some works are proposed to handle it, but all fail to address incomplete views. Such an incomplete continual data problem (ICDP) in MVC is tough to solve since incomplete information with continual data increases the difficulty of extracting consistent and complementary knowledge among views. We propose Fast Continual Multi-View Clustering with Incomplete Views (FCMVC-IV) to address it. Specifically, it maintains a consensus coefficient matrix and updates knowledge with the incoming incomplete view rather than storing and recomputing all the data matrices. Considering that the views are incomplete, the newly collected view might contain samples that have yet to appear; two indicator matrices and a rotation matrix are developed to match matrices with different dimensions. Besides, we design a three-step iterative algorithm to solve the resultant problem in linear complexity with proven convergence. Comprehensive experiments on various datasets show the superiority of FCMVC-IV. | 翻訳日:2023-06-06 18:06:20 公開日:2023-06-04 |
# レジリエントな制約付き学習 Resilient Constrained Learning ( http://arxiv.org/abs/2306.02426v1 ) ライセンス: Link先を確認 | Ignacio Hounie, Alejandro Ribeiro, Luiz F. O. Chamon | (参考訳) 機械学習ソリューションをデプロイする際には、公正性、堅牢性、安全性など、正確性を超えた複数の要件を満たす必要がある。
これらの要件は、トレーニング中にペナルティを使用して、あるいはラグランジュ双対性に基づく制約付き最適化メソッドを使用して、暗黙のうちに課される。
いずれにせよ、要求の特定は妥協の存在とデータに関する事前知識の制限によって妨げられる。
さらに、パフォーマンスへの影響は、実際に学習問題を解決することでのみ評価されることが多い。
本稿では,学習課題を同時に解決しながら要求に適応する制約付き学習手法を提案する。
そのために、リラックスから得られるパフォーマンスゲインと、その緩和のユーザ定義コストとのバランスをとることで、そのタスクにどの程度影響するかを考えることによって、学習制約を緩和する。
我々はこの手法を、その操作を変更することで破壊に適応する生態システムを記述する用語に因んで、レジリエントな制約付き学習と呼ぶ。
このバランスが達成できる条件を示し,それを計算するための実用的なアルゴリズムを導入し,近似と一般化の保証を導出する。
本稿では,多重ポテンシャル不変性を含む画像分類課題とヘテロジニアス連関学習におけるレジリエント学習手法の利点を示す。 When deploying machine learning solutions, they must satisfy multiple requirements beyond accuracy, such as fairness, robustness, or safety. These requirements are imposed during training either implicitly, using penalties, or explicitly, using constrained optimization methods based on Lagrangian duality. Either way, specifying requirements is hindered by the presence of compromises and limited prior knowledge about the data. Furthermore, their impact on performance can often only be evaluated by actually solving the learning problem. This paper presents a constrained learning approach that adapts the requirements while simultaneously solving the learning task. To do so, it relaxes the learning constraints in a way that contemplates how much they affect the task at hand by balancing the performance gains obtained from the relaxation against a user-defined cost of that relaxation. We call this approach resilient constrained learning after the term used to describe ecological systems that adapt to disruptions by modifying their operation. We show conditions under which this balance can be achieved and introduce a practical algorithm to compute it, for which we derive approximation and generalization guarantees. We showcase the advantages of this resilient learning method in image classification tasks involving multiple potential invariances and in heterogeneous federated learning. | 翻訳日:2023-06-06 17:59:26 公開日:2023-06-04 |
# 物体検出器を記述した衛生手法の正当性チェック Sanity Checks for Saliency Methods Explaining Object Detectors ( http://arxiv.org/abs/2306.02424v1 ) ライセンス: Link先を確認 | Deepan Chakravarthi Padmanabhan, Paul G. Pl\"oger, Octavio Arriaga, Matias Valdenegro-Toro | (参考訳) 塩分法はしばしばディープニューラルネットワークベースのモデルを説明するために用いられる。
adebayoらによる分類モデルの給与評価に関する研究は、ある説明方法がモデルとデータランダム化テストに失敗することを示している。
しかし, 対象物検出装置の様々な状態に対するテストの拡張において, モデルの説明能力は, 説明法よりもモデル自体に依存していることを示す。
我々は、オブジェクト検出のための正当性チェックを行い、COCOで訓練された高速R-CNN、SSD、EfficientDet-D0とともに、ガイドバックプロパゲーション、統合グラディエントおよびそれらのスムースグレートバージョンを用いて、オブジェクト分類とバウンディングボックス決定の両方について、サラリティ説明を評価するための新しい定性基準を定義する。
さらに, モデルパラメータやデータラベルに対する説明法の感度は, クラスごとの健全性チェックを行うために, クラスごとに異なる。
EfficientDet-D0はサリエンシ法とは無関係に最も解釈可能な手法であり, 健全性チェックをほとんど問題なく通過する。 Saliency methods are frequently used to explain Deep Neural Network-based models. Adebayo et al.'s work on evaluating saliency methods for classification models illustrate certain explanation methods fail the model and data randomization tests. However, on extending the tests for various state of the art object detectors we illustrate that the ability to explain a model is more dependent on the model itself than the explanation method. We perform sanity checks for object detection and define new qualitative criteria to evaluate the saliency explanations, both for object classification and bounding box decisions, using Guided Backpropagation, Integrated Gradients, and their Smoothgrad versions, together with Faster R-CNN, SSD, and EfficientDet-D0, trained on COCO. In addition, the sensitivity of the explanation method to model parameters and data labels varies class-wise motivating to perform the sanity checks for each class. We find that EfficientDet-D0 is the most interpretable method independent of the saliency method, which passes the sanity checks with little problems. | 翻訳日:2023-06-06 17:59:05 公開日:2023-06-04 |
# Polyak-{\L}ojasiewicz条件下での2レベル最適化のための一般化置換法 A Generalized Alternating Method for Bilevel Optimization under the Polyak-{\L}ojasiewicz Condition ( http://arxiv.org/abs/2306.02422v1 ) ライセンス: Link先を確認 | Quan Xiao, Songtao Lu, Tianyi Chen | (参考訳) ハイパーパラメータ最適化、メタラーニング、強化学習といった新しい機械学習分野への応用により、最近、バイレベル最適化への関心が高まっている。
近年の研究では,単純交互(簡易)勾配に基づくアルゴリズムが,強凸低レベル目標を持つ2レベル問題に対して,単段勾配降下 (gd) の収束率を同一にできることを示した。
しかし、この結果がこの基本的な設定を超えた双レベル問題に一般化できるかどうかは不明である。
本稿では,ポリアック-{\L}ojasiewicz (PL) 条件を満たす非凸な低レベル目的を持つ二値オプティミゼーション(GALET)のための一般化アルテネートmEthodを提案する。
まず,既存の計量を一般化した二値問題を考えるための定常計量を導入する。
次に、galet は、滑らかな非凸問題に対する gd の反復複雑性と一致する $\tilde{\cal o}(\epsilon^{-1})$ の反復内で、考慮された問題に対して $\epsilon$-stationary metric を達成する。 Bilevel optimization has recently regained interest owing to its applications in emerging machine learning fields such as hyperparameter optimization, meta-learning, and reinforcement learning. Recent results have shown that simple alternating (implicit) gradient-based algorithms can achieve the same convergence rate of single-level gradient descent (GD) for bilevel problems with a strongly convex lower-level objective. However, it remains unclear whether this result can be generalized to bilevel problems beyond this basic setting. In this paper, we propose a Generalized ALternating mEthod for bilevel opTimization (GALET) with a nonconvex lower-level objective that satisfies the Polyak-{\L}ojasiewicz (PL) condition. We first introduce a stationary metric for the considered bilevel problems, which generalizes the existing metric. We then establish that GALET achieves an $\epsilon$-stationary metric for the considered problem within $\tilde{\cal O}(\epsilon^{-1})$ iterations, which matches the iteration complexity of GD for smooth nonconvex problems. | 翻訳日:2023-06-06 17:58:44 公開日:2023-06-04 |
# auto-validate by-history: 繰り返しデータパイプラインを検証するための自動プログラムデータ品質制約 Auto-Validate by-History: Auto-Program Data Quality Constraints to Validate Recurring Data Pipelines ( http://arxiv.org/abs/2306.02421v1 ) ライセンス: Link先を確認 | Dezhan Tu, Yeye He, Weiwei Cui, Song Ge, Haidong Zhang, Han Shi, Dongmei Zhang, Surajit Chaudhuri | (参考訳) データパイプラインは、機械学習(ML)やビジネスインテリジェンス(BI)アプリケーションを動かすために、現代の企業で広く利用されている。
重要な点として、これらのパイプラインは、MLモデルを定期的に再トレーニングできるようにデータを更新し、BIダッシュボードを頻繁にリフレッシュするために、プロダクション環境でのemph{recurring}(例:日毎または時間毎)である。
しかし、データ品質(dq)の問題はしばしば上流のスキーマとデータドリフトによって繰り返しパイプラインに潜り込む。
現代の企業は何千ものパイプラインを運用しているため、今日のデータエンジニアは、dataopsやmlopsのプラクティスの一部として、dq問題の監視と解決に多大な労力を費やさなければならない。
大規模なパイプライン操作を管理するための人的コストが高いことから、可能な限りemph{automate}を適用できることが不可欠です。
本研究では,繰り返しパイプラインのdq問題を自動的に検出し,履歴実行から豊富な統計情報を活用するavh(auto-validate-by-history)を提案する。
我々はこれを最適化問題として定式化し、証明可能な精度保証付き定数係数近似アルゴリズムを開発した。
Microsoftの2000のプロダクションデータパイプラインを使用した大規模な評価は、AVHの有効性と効率を実証している。 Data pipelines are widely employed in modern enterprises to power a variety of Machine-Learning (ML) and Business-Intelligence (BI) applications. Crucially, these pipelines are \emph{recurring} (e.g., daily or hourly) in production settings to keep data updated so that ML models can be re-trained regularly, and BI dashboards refreshed frequently. However, data quality (DQ) issues can often creep into recurring pipelines because of upstream schema and data drift over time. As modern enterprises operate thousands of recurring pipelines, today data engineers have to spend substantial efforts to \emph{manually} monitor and resolve DQ issues, as part of their DataOps and MLOps practices. Given the high human cost of managing large-scale pipeline operations, it is imperative that we can \emph{automate} as much as possible. In this work, we propose Auto-Validate-by-History (AVH) that can automatically detect DQ issues in recurring pipelines, leveraging rich statistics from historical executions. We formalize this as an optimization problem, and develop constant-factor approximation algorithms with provable precision guarantees. Extensive evaluations using 2000 production data pipelines at Microsoft demonstrate the effectiveness and efficiency of AVH. | 翻訳日:2023-06-06 17:58:22 公開日:2023-06-04 |
# 近似正則化によるブロック座標の複雑度とワッサーシュタインCP辞書学習への応用 Complexity of Block Coordinate Descent with Proximal Regularization and Applications to Wasserstein CP-dictionary Learning ( http://arxiv.org/abs/2306.02420v1 ) ライセンス: Link先を確認 | Dohyun Kwon, Hanbaek Lyu | (参考訳) 一般非凸対象を広く応用可能な制約下で最小化する古典的な手法である近位正規化法(bcd-pr)を用いたガウス・セイデル型ブロック座標降下法を考える。
理論的には、このアルゴリズムの最悪の場合の複雑性を確立する。
すなわち、ブロックワイド制約を持つ一般の非凸な滑らかな目的に対して、古典的BCD-PRアルゴリズムはO(1/epsilon)反復のエプシロン定常点に収束することを示す。
穏やかな条件下では、この結果はアルゴリズムが各ステップで不正確に実行されたとしても保たれる。
応用として,与えられたd-次元の関節確率分布を適切に近似できる基本確率分布の集合を求める,'Wasserstein CP-Dictionary Learning'の証明可能かつ効率的なアルゴリズムを提案する。
我々のアルゴリズムは双対空間で動作するBCD-PRのバージョンであり、原始問題はエントロピー的にも確率的にも正規化される。 We consider the block coordinate descent methods of Gauss-Seidel type with proximal regularization (BCD-PR), which is a classical method of minimizing general nonconvex objectives under constraints that has a wide range of practical applications. We theoretically establish the worst-case complexity bound for this algorithm. Namely, we show that for general nonconvex smooth objectives with block-wise constraints, the classical BCD-PR algorithm converges to an epsilon-stationary point within O(1/epsilon) iterations. Under a mild condition, this result still holds even if the algorithm is executed inexactly in each step. As an application, we propose a provable and efficient algorithm for `Wasserstein CP-dictionary learning', which seeks a set of elementary probability distributions that can well-approximate a given set of d-dimensional joint probability distributions. Our algorithm is a version of BCD-PR that operates in the dual space, where the primal problem is regularized both entropically and proximally. | 翻訳日:2023-06-06 17:57:43 公開日:2023-06-04 |
# 悪い習慣:RLにおける政策立案と外軌道一般化 Bad Habits: Policy Confounding and Out-of-Trajectory Generalization in RL ( http://arxiv.org/abs/2306.02419v1 ) ライセンス: Link先を確認 | Miguel Suau, Matthijs T. J. Spaan, Frans A. Oliehoek | (参考訳) 強化学習エージェントは、特定のポリシーに従う場合にのみ有効な習慣を発達させることがある。
エージェントが異なるアクションを試す最初の調査フェーズの後、最終的には特定のポリシーに向かって収束する。
これが起こると、状態行動軌道の分布はより狭くなり、エージェントは同じ遷移を何度も経験し始める。
この時点では、急激な相関が生じる可能性がある。
エージェントはこれらの相関を拾い上げ、エージェントの軌道分布を超えて一般化しない状態表現を学ぶことができる。
本稿では,この現象の数学的特徴を,政策の共起と表現し,その現象が実際にいつ,どのように起こるのかを一連の例を通して示す。 Reinforcement learning agents may sometimes develop habits that are effective only when specific policies are followed. After an initial exploration phase in which agents try out different actions, they eventually converge toward a particular policy. When this occurs, the distribution of state-action trajectories becomes narrower, and agents start experiencing the same transitions again and again. At this point, spurious correlations may arise. Agents may then pick up on these correlations and learn state representations that do not generalize beyond the agent's trajectory distribution. In this paper, we provide a mathematical characterization of this phenomenon, which we refer to as policy confounding, and show, through a series of examples, when and how it occurs in practice. | 翻訳日:2023-06-06 17:56:56 公開日:2023-06-04 |
# ContraBAR:Contrastive Bayes-Adaptive Deep RL ContraBAR: Contrastive Bayes-Adaptive Deep RL ( http://arxiv.org/abs/2306.02418v1 ) ライセンス: Link先を確認 | Era Choshen, Aviv Tamar | (参考訳) meta reinforcement learning (meta rl) では、エージェントは、既知のタスク分布からサンプリングされた未知のタスクに直面する際の最適なポリシーであるベイズ最適ポリシーを求める。
以前のアプローチでは、変分推論法を用いてタスクパラメーター上の信念を推論することでこの問題に対処した。
コントラスト予測符号化(CPC)など,近年のRLにおけるコントラスト学習手法の成功により,ベイズ最適行動学習にコントラスト学習手法が利用できるかを検討した。
まず、CPCで学習した表現がベイズ最適性に十分であることを示す。
そこで本研究では,変分信念推論の代わりにCPCを用いた単純なメタRLアルゴリズムを提案する。
本手法は,ステートベース観測領域における最先端技術と同等の性能を実現し,画像ベース観測領域での学習を可能にするため,将来の観測再構成の計算量を回避する。
ドメインランダム化のための画像拡張と組み合わせて、オンラインとオフラインの両方のメタRL設定でシームレスに使用できる。 In meta reinforcement learning (meta RL), an agent seeks a Bayes-optimal policy -- the optimal policy when facing an unknown task that is sampled from some known task distribution. Previous approaches tackled this problem by inferring a belief over task parameters, using variational inference methods. Motivated by recent successes of contrastive learning approaches in RL, such as contrastive predictive coding (CPC), we investigate whether contrastive methods can be used for learning Bayes-optimal behavior. We begin by proving that representations learned by CPC are indeed sufficient for Bayes optimality. Based on this observation, we propose a simple meta RL algorithm that uses CPC in lieu of variational belief inference. Our method, ContraBAR, achieves comparable performance to state-of-the-art in domains with state-based observation and circumvents the computational toll of future observation reconstruction, enabling learning in domains with image-based observations. It can also be combined with image augmentations for domain randomization and used seamlessly in both online and offline meta RL settings. | 翻訳日:2023-06-06 17:56:33 公開日:2023-06-04 |
# 医療従事者としての訓練 : 文脈事前学習によるユニバーサル医療画像分割 Training Like a Medical Resident: Universal Medical Image Segmentation via Context Prior Learning ( http://arxiv.org/abs/2306.02416v1 ) ライセンス: Link先を確認 | Yunhe Gao, Zhuowei Li, Di Liu, Mu Zhou, Shaoting Zhang, Dimitris N. Meta | (参考訳) 臨床ワークフローの主要な焦点は疾患の分析と診断であり、特定の臨床目的にモダリティとアノテーションが強く結びついている医療画像データセットに繋がる。
現在、タスク固有のセグメンテーションモデルの構築は直感的だが制限的なアプローチであり、広範な画像コホートから得られる洞察を欠いている。
医療従事者の研修に触発されて,医療用画像セグメンテーションを探究し,臨床対象,身体領域,画像モダリティの多種多様な医療用画像ソースから学ぶことを目標とした。
このパラダイムに従って,提案する普遍パラダイムにおけるデータ,モダリティ,アノテーションの多様性に関連する課題に対処する,コンテキスト優先学習アプローチであるhermesを提案する。
7つの多様なデータセットのコレクションにおいて、従来のタスク固有のトレーニングパラダイムよりも普遍的なパラダイムの魅力を実証する。
さまざまなタスク間でシナジーを活用することで、Hermesは優れたパフォーマンスとモデルのスケーラビリティを示している。
2つの追加データセットに関する詳細な調査から,hermesの強力なトランスファラーニング能力,インクリメンタル学習,さまざまな下流タスクへの一般化が明らかになった。
コードはhttps://github.com/yhygao/universal-medical-image-segmentation。 A major enduring focus of clinical workflows is disease analytics and diagnosis, leading to medical imaging datasets where the modalities and annotations are strongly tied to specific clinical objectives. To date, building task-specific segmentation models is intuitive yet a restrictive approach, lacking insights gained from widespread imaging cohorts. Inspired by the training of medical residents, we explore universal medical image segmentation, whose goal is to learn from diverse medical imaging sources covering a range of clinical targets, body regions, and image modalities. Following this paradigm, we propose Hermes, a context prior learning approach that addresses the challenges related to the heterogeneity on data, modality, and annotations in the proposed universal paradigm. In a collection of seven diverse datasets, we demonstrate the appealing merits of the universal paradigm over the traditional task-specific training paradigm. By leveraging the synergy among various tasks, Hermes shows superior performance and model scalability. Our in-depth investigation on two additional datasets reveals Hermes' strong capabilities for transfer learning, incremental learning, and generalization to different downstream tasks. The code is available: https://github.com/yhygao/universal-medical-image-segmentation. | 翻訳日:2023-06-06 17:56:13 公開日:2023-06-04 |
# トップダウン処理:トップダウンネットワークはバックプロパゲーションと注意を組み合わせる Top-Down Processing: Top-Down Network Combines Back-Propagation with Attention ( http://arxiv.org/abs/2306.02415v1 ) ライセンス: Link先を確認 | Roy Abel, Shimon Ullman | (参考訳) 初期のニューラルネットワークモデルは、入力信号から高レベル表現へのボトムアップ処理にのみ依存していた。
最近のモデルでは、トップダウンネットワークも反対方向に進んでいる。
ディープラーニングモデルにおけるトップダウン処理は、学習と注意を向ける2つの主要な役割を果たす。
これら2つの役割は、異なるメカニズムを通じて現在のモデルで達成される。
トップダウンの注意は、しばしば、ネットワークの高レベルから低レベルまで情報を伝達する追加ユニットでモデルのアーキテクチャを拡張することで実装されるが、学習は通常、バックプロパゲーションのような外部学習アルゴリズムによって行われる。
現在の研究では、単一統一機構を用いて上記の2つの関数の統合を示すが、これは無関係であるように見える。
本稿では,標準ボトムアップネットワークを対称なトップダウンネットワークと統合し,各ネットワークが相互に誘導し,影響を及ぼせるような,新しい対称ボトムアップトップダウンネットワーク構造を提案する。
同じトップダウンネットワークは、バックプロパゲーションフィードバック信号による学習と、ボトムアップネットワークを誘導して選択したタスクを実行することで、トップダウン注意のための学習の両方に使用されている。
本手法は, 標準マルチタスク学習ベンチマークにおいて, 競合性能が得られることを示す。
しかし、タスク固有のパラメータなしで、標準のシングルタスクアーキテクチャとオプティマイザに依存しています。
さらに、学習アルゴリズムは、脳内の学習の生物学的モデリングで生じる神経科学の問題に新しい方法で対処します。 Early neural network models relied exclusively on bottom-up processing going from the input signals to higher-level representations. Many recent models also incorporate top-down networks going in the opposite direction. Top-down processing in deep learning models plays two primary roles: learning and directing attention. These two roles are accomplished in current models through distinct mechanisms. While top-down attention is often implemented by extending the model's architecture with additional units that propagate information from high to low levels of the network, learning is typically accomplished by an external learning algorithm such as back-propagation. In the current work, we present an integration of the two functions above, which appear unrelated, using a single unified mechanism. We propose a novel symmetric bottom-up top-down network structure that can integrate standard bottom-up networks with a symmetric top-down counterpart, allowing each network to guide and influence the other. The same top-down network is being used for both learning, via back-propagating feedback signals, and at the same time also for top-down attention, by guiding the bottom-up network to perform a selected task. We show that our method achieves competitive performance on a standard multi-task learning benchmark. Yet, we rely on standard single-task architectures and optimizers, without any task-specific parameters. Additionally, our learning algorithm addresses in a new way some neuroscience issues that arise in biological modeling of learning in the brain. | 翻訳日:2023-06-06 17:55:53 公開日:2023-06-04 |
# ホームロボットにおける連続学習の評価 Evaluating Continual Learning on a Home Robot ( http://arxiv.org/abs/2306.02413v1 ) ライセンス: Link先を確認 | Sam Powers, Abhinav Gupta, Chris Paxton | (参考訳) 家庭環境のロボットは、データが利用可能になると、新しいスキルを継続的に学習し、できるだけ小さな実世界データを使用しながら、時間とともにより有能になる必要がある。
しかし、従来のロボット学習のアプローチは、この目標と矛盾する大量のiidデータを想定することが多い。
対照的に、CLEARやSANEのような連続的な学習手法は、自律的なエージェントが非idサンプルのストリームから学ぶことを可能にする。
本研究では,実際の低コストホームロボットにおいて,連続的な学習手法をどのように適用することができるかを示し,特にタスク・イド・フリー・セッティングにおいて,極めて少数の実例が存在する場合について考察する。
具体的には,スキルのライブラリを継続的に学習する手法であるSANERと,それをサポートするバックボーンとしてABIP(Attention-Based Interaction Policies)を提案する。
低コストのホームロボットで4つの連続的なキッチンタスクを学習し、1つのタスクにほんの数回のデモしか使っていない。 Robots in home environments need to be able to learn new skills continuously as data becomes available, becoming ever more capable over time while using as little real-world data as possible. However, traditional robot learning approaches typically assume large amounts of iid data, which is inconsistent with this goal. In contrast, continual learning methods like CLEAR and SANE allow autonomous agents to learn off of a stream of non-iid samples; they, however, have not previously been demonstrated on real robotics platforms. In this work, we show how continual learning methods can be adapted for use on a real, low-cost home robot, and in particular look at the case where we have extremely small numbers of examples, in a task-id-free setting. Specifically, we propose SANER, a method for continuously learning a library of skills, and ABIP (Attention-Based Interaction Policies) as the backbone to support it. We learn four sequential kitchen tasks on a low-cost home robot, using only a handful of demonstrations per task. | 翻訳日:2023-06-06 17:55:31 公開日:2023-06-04 |
# マルチ予測:効率的なニューラルネットワーク検索のためのショット予測器 Multi-Predict: Few Shot Predictors For Efficient Neural Architecture Search ( http://arxiv.org/abs/2306.02459v1 ) ライセンス: Link先を確認 | Yash Akhauri, Mohamed S. Abdelfattah | (参考訳) ニューラルネットワーク(nn)のトポロジを高い精度と低いレイテンシで最適化するために,ハードウェア対応ニューラルネットワーク検索(nas)法が数多く開発されている。
近年,NASにおいて,ハードウェア(HW)デバイス遅延の高精度なモデリングと高効率化を実現し,遅延予測と精度の両面で大きな成功を収めている。
しかし、新しいnas検索スペースやnnタスク毎に新しい精度予測器をトレーニングし、新しいhwデバイス毎に新しいレイテンシ予測器を付加的にトレーニングする必要がある。
本論文では,NASのコスト削減のために,マルチタスク,マルチ検索空間,および精度と遅延予測器のマルチHW適応を実現する方法を検討する。
複数のタスクやNAS検索空間上でサンプル効率の予測を行うゼロコストプロキシに基づく新しい検索空間独立NN符号化を導入し、複数のシナリオにおいて桁違いの精度でレイテンシと精度予測器のエンドツーエンドのサンプル効率を改善する。
例えば、当社のnnエンコーディングは、85hw以下の測定値において、nasbench-201からfbnet(および逆)へのレイテンシ予測器のマルチ検索空間転送を可能にします。
また,精度予測器の総サンプル効率を1桁以上向上させた。
最後に,28個のNAS探索空間とタスクに対して,マルチ検索空間とマルチタスクの精度予測の有効性を示す。 Many hardware-aware neural architecture search (NAS) methods have been developed to optimize the topology of neural networks (NN) with the joint objectives of higher accuracy and lower latency. Recently, both accuracy and latency predictors have been used in NAS with great success, achieving high sample efficiency and accurate modeling of hardware (HW) device latency respectively. However, a new accuracy predictor needs to be trained for every new NAS search space or NN task, and a new latency predictor needs to be additionally trained for every new HW device. In this paper, we explore methods to enable multi-task, multi-search-space, and multi-HW adaptation of accuracy and latency predictors to reduce the cost of NAS. We introduce a novel search-space independent NN encoding based on zero-cost proxies that achieves sample-efficient prediction on multiple tasks and NAS search spaces, improving the end-to-end sample efficiency of latency and accuracy predictors by over an order of magnitude in multiple scenarios. For example, our NN encoding enables multi-search-space transfer of latency predictors from NASBench-201 to FBNet (and vice-versa) in under 85 HW measurements, a 400$\times$ improvement in sample efficiency compared to a recent meta-learning approach. Our method also improves the total sample efficiency of accuracy predictors by over an order of magnitude. Finally, we demonstrate the effectiveness of our method for multi-search-space and multi-task accuracy prediction on 28 NAS search spaces and tasks. | 翻訳日:2023-06-06 17:49:55 公開日:2023-06-04 |
# オンライン言語学習のための適応的・パーソナライズされたエクササイズ生成 Adaptive and Personalized Exercise Generation for Online Language Learning ( http://arxiv.org/abs/2306.02457v1 ) ライセンス: Link先を確認 | Peng Cui, Mrinmaya Sachan | (参考訳) 適応学習は、個別の学習ニーズに対応するためにカスタマイズされた教育活動(例えば演習)を提供することを目的としている。
しかし、このような活動のマニュアル構築と提供は、面倒なプロセスである。
そこで本稿では,オンライン言語学習のための適応的でパーソナライズされたエクササイズ生成タスクについて検討する。
この目的のために,学習履歴から各学生の進化する知識状態を推定する知識追跡モデルと,現在推定されている知識状態と所望の特性(ドメイン知識と難易度)のインストラクター要件に基づいて,運動文を生成する制御されたテキスト生成モデルを組み合わせる。
我々は,duolingoによる実世界の学習者インタラクションデータに基づくモデルを訓練し,評価し,学生国家が指導するlmsが優れたエクササイズを生成できることを実証する。
次に,様々なシミュレーションを用いた教育応用におけるモデル活用の可能性について考察する。
これらのシミュレーションにより,本モデルは学習者の個性に適応でき,学習順序をパーソナライズすることで学習効率を向上できることが示された。 Adaptive learning aims to provide customized educational activities (e.g., exercises) to address individual learning needs. However, manual construction and delivery of such activities is a laborious process. Thus, in this paper, we study a novel task of adaptive and personalized exercise generation for online language learning. To this end, we combine a knowledge tracing model that estimates each student's evolving knowledge states from their learning history and a controlled text generation model that generates exercise sentences based on the student's current estimated knowledge state and instructor requirements of desired properties (e.g., domain knowledge and difficulty). We train and evaluate our model on real-world learner interaction data from Duolingo and demonstrate that LMs guided by student states can generate superior exercises. Then, we discuss the potential use of our model in educational applications using various simulations. These simulations show that our model can adapt to students' individual abilities and can facilitate their learning efficiency by personalizing learning sequences. | 翻訳日:2023-06-06 17:49:28 公開日:2023-06-04 |
# SALE:Deep Reinforcement Learningのためのステートアクション表現学習 For SALE: State-Action Representation Learning for Deep Reinforcement Learning ( http://arxiv.org/abs/2306.02451v1 ) ライセンス: Link先を確認 | Scott Fujimoto, Wei-Di Chang, Edward J. Smith, Shixiang Shane Gu, Doina Precup, David Meger | (参考訳) 強化学習(RL)の分野では、表現学習は複雑な画像に基づくタスクのための証明済みのツールであるが、物理制御問題などの低レベル状態の環境では見過ごされがちである。
本稿では,状態と動作の相互作用をモデル化し,低レベル状態からの効果的な表現学習を可能にする,埋め込み学習の新しいアプローチであるSALEを紹介する。
我々はこれらの埋め込みの設計空間を広く研究し、重要な設計上の考察を強調した。
我々は、SALEとRLのチェックポイントをTD3に組み込んでTD7アルゴリズムを作り、既存の連続制御アルゴリズムを著しく上回っている。
openai gymベンチマークタスクでは、td7は平均パフォーマンスが276.7%、td3が3kと5mのタイムステップで50.7%向上し、オンラインとオフラインの両方で動作します。 In the field of reinforcement learning (RL), representation learning is a proven tool for complex image-based tasks, but is often overlooked for environments with low-level states, such as physical control problems. This paper introduces SALE, a novel approach for learning embeddings that model the nuanced interaction between state and action, enabling effective representation learning from low-level states. We extensively study the design space of these embeddings and highlight important design considerations. We integrate SALE and an adaptation of checkpoints for RL into TD3 to form the TD7 algorithm, which significantly outperforms existing continuous control algorithms. On OpenAI gym benchmark tasks, TD7 has an average performance gain of 276.7% and 50.7% over TD3 at 300k and 5M time steps, respectively, and works in both the online and offline settings. | 翻訳日:2023-06-06 17:49:09 公開日:2023-06-04 |
# シンプルさの力:なぜ単純な線形モデルは複雑な機械学習技術を上回るのか -- 乳がん診断の事例 The Power Of Simplicity: Why Simple Linear Models Outperform Complex Machine Learning Techniques -- Case Of Breast Cancer Diagnosis ( http://arxiv.org/abs/2306.02449v1 ) ライセンス: Link先を確認 | Muhammad Arbab Arshad, Sakib Shahriar, Khizar Anjum | (参考訳) 本稿では,乳がん診断における単純な線形モデルと複雑な機械学習手法の有効性について検討し,医療領域における解釈可能性と計算効率の重要性を強調した。
我々はロジスティック回帰(lr)、決定木(dt)、サポートベクターマシン(svm)に焦点を当て、uci機械学習リポジトリデータセットを使用してパフォーマンスを最適化する。
その結果、より単純な線形モデルであるlrは、97.28%、標準偏差1.62%、計算時間は35.56ms、より複雑なdtおよびsvm技術よりも優れており、dtは93.73%、svmは96.44%であった。
LRの優れた性能は、その単純さと解釈可能性に起因しており、入力特徴と結果の関係を明確に理解することができる。
これは、意思決定に解釈性が不可欠である医療分野において特に有用である。
さらに、LRの計算効率は、スケーラビリティと実世界の応用性の観点から利点がある。
本研究は, 乳がん診断の文脈における単純さの力を強調し, LRのような単純な線形モデルの方が, 複雑なモデルよりも効果的で, 解釈可能で, 計算的に効率的であることが示唆された。 This research paper investigates the effectiveness of simple linear models versus complex machine learning techniques in breast cancer diagnosis, emphasizing the importance of interpretability and computational efficiency in the medical domain. We focus on Logistic Regression (LR), Decision Trees (DT), and Support Vector Machines (SVM) and optimize their performance using the UCI Machine Learning Repository dataset. Our findings demonstrate that the simpler linear model, LR, outperforms the more complex DT and SVM techniques, with a test score mean of 97.28%, a standard deviation of 1.62%, and a computation time of 35.56 ms. In comparison, DT achieved a test score mean of 93.73%, and SVM had a test score mean of 96.44%. The superior performance of LR can be attributed to its simplicity and interpretability, which provide a clear understanding of the relationship between input features and the outcome. This is particularly valuable in the medical domain, where interpretability is crucial for decision-making. Moreover, the computational efficiency of LR offers advantages in terms of scalability and real-world applicability. The results of this study highlight the power of simplicity in the context of breast cancer diagnosis and suggest that simpler linear models like LR can be more effective, interpretable, and computationally efficient than their complex counterparts, making them a more suitable choice for medical applications. | 翻訳日:2023-06-06 17:48:52 公開日:2023-06-04 |
# 識別型ニューラルネットワーク分類器の能動推論に基づく最適化 Active Inference-Based Optimization of Discriminative Neural Network Classifiers ( http://arxiv.org/abs/2306.02447v1 ) ライセンス: Link先を確認 | Faezeh Fallah | (参考訳) 識別型ニューラルネットワーク分類器の教師付き最適化によく用いられる目的関数(ロス)は、分布ベースまたはメートル法ベースである。
分布に基づく損失は、不均衡なクラスサンプル分布の支配的なクラスに対する一般化や分類バイアスを損なう可能性がある。
計量に基づく損失は、ネットワークモデルを任意の分布から独立させ、一般化を改善する可能性がある。
しかし、それらは依然として支配的なクラスに対して偏りがあり、参照(根拠の真理)と予測されたラベルの両方にクラスが存在しない場合、不一致に苦しむ可能性がある。
本稿では,トレーニングサンプルのクラスサンプル分布の不均衡に対処できるだけでなく,トレーニングサンプルの参照ラベルの誤りに対処する機構も提供する新しい最適化手法を提案する。
これは、トレーニングサンプルの事前確率と現在推定されている後方から候補分類ラベルを見つけるための新しいアルゴリズムと、最適化のための新しい目的関数を提案することで達成された。
このアルゴリズムは、最適化されたケリー基準を最適ベッティングのために多重クラス分類問題にキャストした結果である。
提案する目的関数は, 有望なアクティブ推論の期待自由エネルギーであり, 候補ラベル, 元の参照ラベル, およびトレーニングサンプルの事前値を, 分布ベースのまま組み込むことができた。
事前の最適化は、参照ラベルの誤りに対処するだけでなく、ニューラルネットワークの注意を重要だがマイノリティな前景のクラスに集中させることで、支配的なクラスに対する分類バイアスを減らすことを可能にした。 Commonly used objective functions (losses) for a supervised optimization of discriminative neural network classifiers were either distribution-based or metric-based. The distribution-based losses could compromise the generalization or cause classification biases towards the dominant classes of an imbalanced class-sample distribution. The metric-based losses could make the network model independent of any distribution and thus improve its generalization. However, they could still be biased towards the dominant classes and could suffer from discrepancies when a class was absent in both the reference (ground truth) and the predicted labels. In this paper, we proposed a novel optimization process which not only tackled the unbalancedness of the class-sample distribution of the training samples but also provided a mechanism to tackle errors in the reference labels of the training samples. This was achieved by proposing a novel algorithm to find candidate classification labels of the training samples from their prior probabilities and the currently estimated posteriors on the network and a novel objective function for the optimizations. The algorithm was the result of casting the generalized Kelly criterion for optimal betting into a multiclass classification problem. The proposed objective function was the expected free energy of a prospective active inference and could incorporate the candidate labels, the original reference labels, and the priors of the training samples while still being distribution-based. The incorporation of the priors into the optimization not only helped to tackle errors in the reference labels but also allowed to reduce classification biases towards the dominant classes by focusing the attention of the neural network on important but minority foreground classes. | 翻訳日:2023-06-06 17:48:27 公開日:2023-06-04 |
# estisr: 実シーンに効率的なシーンテキスト画像スーパーレゾリューションを適用する ESTISR: Adapting Efficient Scene Text Image Super-resolution for Real-Scenes ( http://arxiv.org/abs/2306.02443v1 ) ライセンス: Link先を確認 | Minghao Fu, Xin Man, Yihan Xu, Jie Shao | (参考訳) シーンテキスト画像の超解像(STISR)は、シーンテキストの正確な認識において著しく改善されているが、従来の手法では、効率に注意を払うのではなく、パフォーマンスの最適化に過度に重点を置いている。
そこで本研究では,資源限定配置プラットフォームのための高効率テキスト画像スーパーレゾリューション(ESTISR)ネットワークを提案する。
ESTISRの機能は主にCNNベースの特徴抽出器と低解像度画像の復号に使用される効率的な自己認識機構の2つの重要なコンポーネントに依存している。
特徴抽出器として資源制限条件に適した再パラメータ化逆残余ブロックを設計した。
一方,カーネルベースのアプローチに基づいて,新しい自己着脱機構softmax shrinkingを提案した。
このイノベーティブなテクニックは線形複雑性を提供し、同時に自然に低レベルの特徴を自己着脱構造に組み込む。
TextZoomの大規模な実験により、ESTISRは高い画像復元品質を維持し、低解像度画像のSTR精度を改善していることが示された。
さらに、ESTISRは、実際の実行時間とピークメモリ消費の点で、現在の手法を一貫して上回り、性能と効率のトレードオフを良くしている。 While scene text image super-resolution (STISR) has yielded remarkable improvements in accurately recognizing scene text, prior methodologies have placed excessive emphasis on optimizing performance, rather than paying due attention to efficiency - a crucial factor in ensuring deployment of the STISR-STR pipeline. In this work, we propose a novel Efficient Scene Text Image Super-resolution (ESTISR) Network for resource-limited deployment platform. ESTISR's functionality primarily depends on two critical components: a CNN-based feature extractor and an efficient self-attention mechanism used for decoding low-resolution images. We designed a re-parameterized inverted residual block specifically suited for resource-limited circumstances as the feature extractor. Meanwhile, we proposed a novel self-attention mechanism, softmax shrinking, based on a kernel-based approach. This innovative technique offers linear complexity while also naturally incorporating discriminating low-level features into the self-attention structure. Extensive experiments on TextZoom show that ESTISR retains a high image restoration quality and improved STR accuracy of low-resolution images. Furthermore, ESTISR consistently outperforms current methods in terms of actual running time and peak memory consumption, while achieving a better trade-off between performance and efficiency. | 翻訳日:2023-06-06 17:48:02 公開日:2023-06-04 |
# 模倣学習におけるデータ品質 Data Quality in Imitation Learning ( http://arxiv.org/abs/2306.02437v1 ) ライセンス: Link先を確認 | Suneel Belkhale, Yuchen Cui, Dorsa Sadigh | (参考訳) 教師付き学習では、インターネット規模のデータを取り込みうる、より強力で表現力のあるモデルによって、データ品質とキュレーションに関する疑問が近年隠されている。
しかし、ロボット工学のオフライン学習では、インターネットスケールのデータが不足しているため、高品質なデータセットが不可欠である。
これは、エキスパートデモを使ったロボット学習のためのサンプル効率的なパラダイムである模倣学習(il)において特に当てはまる。
ILを通じて学んだポリシーは、アクション予測におけるエラーを複雑にするため、テスト時に状態分布のシフトに悩まされる。
分散シフトに対処する新しいアルゴリズムを設計する代わりに、データセットの評価とキュレーションの新しい方法を開発するという別の視点がある。
異なるデータセット間で同じilアルゴリズムが実質的に異なるパフォーマンスを持つという証拠が増えている。
これは、データキュレーションにさらに活用できる「データ品質」のメトリクスを定義するための形式主義を要求する。
本研究では,分散シフトのレンズを通して模倣学習のためのデータ品質を定式化するための第一歩を踏み出す。
データセットの品質を形作る2つの基本特性を提案する。
一 行動の相違:ある州における専門家と学習方針のミスマッチ
二 遷移多様性(transition diversity): ある状態及び動作のシステムに存在する雑音。
模倣学習におけるこれらの2つの重要な特性の組合せ効果を理論的に検討し,様々なデータソースで学習したモデルを経験的に解析した。
状態の多様性が必ずしも有益であるとは限らないことを示し、行動の多様性と遷移の多様性が実際にどのように作用するかを示す。 In supervised learning, the question of data quality and curation has been over-shadowed in recent years by increasingly more powerful and expressive models that can ingest internet-scale data. However, in offline learning for robotics, we simply lack internet scale data, and so high quality datasets are a necessity. This is especially true in imitation learning (IL), a sample efficient paradigm for robot learning using expert demonstrations. Policies learned through IL suffer from state distribution shift at test time due to compounding errors in action prediction, which leads to unseen states that the policy cannot recover from. Instead of designing new algorithms to address distribution shift, an alternative perspective is to develop new ways of assessing and curating datasets. There is growing evidence that the same IL algorithms can have substantially different performance across different datasets. This calls for a formalism for defining metrics of "data quality" that can further be leveraged for data curation. In this work, we take the first step toward formalizing data quality for imitation learning through the lens of distribution shift: a high quality dataset encourages the policy to stay in distribution at test time. We propose two fundamental properties that shape the quality of a dataset: i) action divergence: the mismatch between the expert and learned policy at certain states; and ii) transition diversity: the noise present in the system for a given state and action. We investigate the combined effect of these two key properties in imitation learning theoretically, and we empirically analyze models trained on a variety of different data sources. We show that state diversity is not always beneficial, and we demonstrate how action divergence and transition diversity interact in practice. | 翻訳日:2023-06-06 17:47:43 公開日:2023-06-04 |
# エアアグリゲーションによるフェデレーション学習のためのリーマン低ランクモデル圧縮 Riemannian Low-Rank Model Compression for Federated Learning with Over-the-Air Aggregation ( http://arxiv.org/abs/2306.02433v1 ) ライセンス: Link先を確認 | Ye Xue, Vincent Lau | (参考訳) 低ランクモデル圧縮は、機械学習モデルを訓練する際の計算負荷を減らすために広く使われている技法である。
しかし、既存の手法は、通常化された核ノルムのペナルティを使ってモデル重量の低ランクな制約を緩和することにしばしば依存しており、これは実際は決定が難しい適切なハイパーパラメータを必要とする。
さらに、既存の圧縮技術は、分散IoT(Internet-of-Things)シナリオのためのフェデレーション学習(FL)システムにおいて、効率の良いオーバー・ザ・エア(OTA)アグリゲーションに直接適用できない。
本稿では,低ランク制約を緩和しないFLにおける低ランクモデル圧縮のための新しい多様体最適化式を提案する。
我々の最適化は低ランク多様体上で直接行われ、モデルが完全に低ランクであることを保証する。
また、OTAアグリゲーションをサポートする最適化定式化において、コンセンサスペナルティを導入する。
最適化の定式化に基づき、トレーニング性能を犠牲にすることなく、低ランク局所モデルのOTA効率的な集約を可能にするプリコーダを用いた交互リーマン最適化アルゴリズムを提案する。
さらに,キーシステムパラメータの観点から収束解析を行い,実世界のデータセットを用いて大規模実験を行い,提案するリーマン型低ランクモデル圧縮スキームの有効性を示す。 Low-rank model compression is a widely used technique for reducing the computational load when training machine learning models. However, existing methods often rely on relaxing the low-rank constraint of the model weights using a regularized nuclear norm penalty, which requires an appropriate hyperparameter that can be difficult to determine in practice. Furthermore, existing compression techniques are not directly applicable to efficient over-the-air (OTA) aggregation in federated learning (FL) systems for distributed Internet-of-Things (IoT) scenarios. In this paper, we propose a novel manifold optimization formulation for low-rank model compression in FL that does not relax the low-rank constraint. Our optimization is conducted directly over the low-rank manifold, guaranteeing that the model is exactly low-rank. We also introduce a consensus penalty in the optimization formulation to support OTA aggregation. Based on our optimization formulation, we propose an alternating Riemannian optimization algorithm with a precoder that enables efficient OTA aggregation of low-rank local models without sacrificing training performance. Additionally, we provide convergence analysis in terms of key system parameters and conduct extensive experiments with real-world datasets to demonstrate the effectiveness of our proposed Riemannian low-rank model compression scheme compared to various state-of-the-art baselines. | 翻訳日:2023-06-06 17:47:17 公開日:2023-06-04 |
# マルチエージェント強化学習のための分布値関数の統一化フレームワーク A Unified Framework for Factorizing Distributional Value Functions for Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2306.02430v1 ) ライセンス: Link先を確認 | Wei-Fang Sun, Cheng-Kuang Lee, Simon See, and Chun-Yi Lee | (参考訳) 完全協調型マルチエージェント強化学習(MARL)環境では、各エージェントの部分的観測可能性や、他のエージェントの継続的な変化による環境の確率が高い。
上記の問題に対処するため,分散RLと値関数の分解を統合化するための統合フレームワークDFACを提案した。
このフレームワークは期待値関数分解法を一般化し、戻り分布の分解を可能にする。
DFACを検証するために,我々はまず,確率的報酬を伴う単純な行列ゲームの価値関数を分解する能力を示す。
そして、StarCraft Multi-Agent ChallengeのすべてのSuper Hardマップと6つの自設計のUltra Hardマップで実験を行い、DFACが多くのベースラインより優れていることを示す。 In fully cooperative multi-agent reinforcement learning (MARL) settings, environments are highly stochastic due to the partial observability of each agent and the continuously changing policies of other agents. To address the above issues, we proposed a unified framework, called DFAC, for integrating distributional RL with value function factorization methods. This framework generalizes expected value function factorization methods to enable the factorization of return distributions. To validate DFAC, we first demonstrate its ability to factorize the value functions of a simple matrix game with stochastic rewards. Then, we perform experiments on all Super Hard maps of the StarCraft Multi-Agent Challenge and six self-designed Ultra Hard maps, showing that DFAC is able to outperform a number of baselines. | 翻訳日:2023-06-06 17:46:56 公開日:2023-06-04 |
# OpenAIs GPT3でバイアスを探るインターネット Taught by the Internet, Exploring Bias in OpenAIs GPT3 ( http://arxiv.org/abs/2306.02428v1 ) ライセンス: Link先を確認 | Ali Ayaz, Aditya Nawalgaria, Ruilian Yin | (参考訳) 本研究は,自然言語処理モデルにおけるバイアスに関する現在の文献と,そもそもバイアスに取り組むことが重要である理由を含めて,バイアスの問題を軽減するために提案された手法について考察する。
さらに、これらの技術は、過去の版にまたがる大きさの新型モデルに照らしてさらに分析される。
これらの目的を達成するため,本論文の著者らは,現在利用可能な最大のNLPモデルであるOpenAIによるGPT3の研究を行った。
BERTs 34000万とは対照的に、1750億のパラメータを持つGPT3は、NLPモデルの共通の落とし穴をテストするのに最適なモデルである。
GPT3を用いたアプリケーショントラッキングシステムの開発を通じてテストが行われた。
実現可能性と時間的制約のために、テストは、すべてまたは複数のタイプのバイアスではなく、主にジェンダーバイアスに焦点を当てた。
最後に、現在の緩和技術が検討され、その機能度を測定するためにテストされる。 This research delves into the current literature on bias in Natural Language Processing Models and the techniques proposed to mitigate the problem of bias, including why it is important to tackle bias in the first place. Additionally, these techniques are further analysed in the light of newly developed models that tower in size over past editions. To achieve those aims, the authors of this paper conducted their research on GPT3 by OpenAI, the largest NLP model available to consumers today. With 175 billion parameters in contrast to BERTs 340 million, GPT3 is the perfect model to test the common pitfalls of NLP models. Tests were conducted through the development of an Applicant Tracking System using GPT3. For the sake of feasibility and time constraints, the tests primarily focused on gender bias, rather than all or multiple types of bias. Finally, current mitigation techniques are considered and tested to measure their degree of functionality. | 翻訳日:2023-06-06 17:46:41 公開日:2023-06-04 |
# オブジェクト中心関係抽象化による系統的視覚的推論 Systematic Visual Reasoning through Object-Centric Relational Abstraction ( http://arxiv.org/abs/2306.02500v1 ) ライセンス: Link先を確認 | Taylor W. Webb, Shanka Subhra Mondal, Jonathan D. Cohen | (参考訳) 人間の視覚的推論は、少数の例から抽象パターンを識別し、これらのパターンを体系的に新しい入力に一般化する能力によって特徴づけられる。
この能力は、オブジェクトとリレーションの両方の観点から複雑な視覚入力を表現する能力に大きく依存します。
近年のコンピュータビジョンの研究で、オブジェクト中心の表現を抽出する能力を持つモデルが導入され、マルチオブジェクトの視覚入力を処理できるようになったが、人間の推論による体系的な一般化には及ばなかった。
他のモデルでは、学習された抽象ルールの体系的一般化を達成するために、関係抽象のための帰納的バイアスを用いるが、一般にオブジェクト指向の入力の存在を仮定している。
オブジェクト中心関係抽象化(ocra:object-centric relational abstraction)は、オブジェクトと抽象関係の両方の明示的な表現を抽出し、複雑なビジュアルディスプレイを含むタスクにおいて強力な体系的な一般化を実現するモデルである。 Human visual reasoning is characterized by an ability to identify abstract patterns from only a small number of examples, and to systematically generalize those patterns to novel inputs. This capacity depends in large part on our ability to represent complex visual inputs in terms of both objects and relations. Recent work in computer vision has introduced models with the capacity to extract object-centric representations, leading to the ability to process multi-object visual inputs, but falling short of the systematic generalization displayed by human reasoning. Other recent models have employed inductive biases for relational abstraction to achieve systematic generalization of learned abstract rules, but have generally assumed the presence of object-focused inputs. Here, we combine these two approaches, introducing Object-Centric Relational Abstraction (OCRA), a model that extracts explicit representations of both objects and abstract relations, and achieves strong systematic generalization in tasks involving complex visual displays. | 翻訳日:2023-06-06 17:38:45 公開日:2023-06-04 |
# MIMOにインスパイアされたDPPMAP推論を用いた帯域制約付きマルチソースデータの学習 Learning on Bandwidth Constrained Multi-Source Data with MIMO-inspired DPP MAP Inference ( http://arxiv.org/abs/2306.02497v1 ) ライセンス: Link先を確認 | Xiwen Chen, Huayu Li, Rahul Amin, Abolfazl Razi | (参考訳) 本稿では,通信帯域に制限のあるマルチソースデータ分散化を実現するために,DPP推論の分散バージョンを提案する。
DPPは、選択されたサブセット内の要素の反発を強制することで、データの多様性を改善する一般的な確率論的アプローチである。
DPPにおけるMAP(Maximum A Posteriori)推論は、DPPによって定量化された最も多様性の高いサブセットを特定することを目的としている。
しかし、このアプローチは、すべてのデータサンプルが1つの時点で利用可能であるという仮定で制限されており、データサンプルがソース間で分散され、それらの間の通信が帯域制限されているトラフィックデータセットのような現実世界のアプリケーションへの適用を妨げている。
マルチ入力多重出力(MIMO)通信システムで使用される技術に着想を得て,分散ソース間でMAP推論を行う手法を提案する。
特に,多様性を最大化する分散サンプル選択問題の下位境界をMIMOシステムにおける電力配分問題として扱うことができることを示す。
選択されたサンプルの行列保存スパース表現を用いて、DPPによって処理されるローカルソースでサンプルプリコーディングを行う。
本手法はソース間の生のデータ交換を必要とせず,mimoシステムにおけるcsiメッセージに類似した,軽量な多様性測定を行うための帯域制限型フィードバックチャネルである。
実験により,本手法は,ランダム選択,無フィードバックで個々のdpp,非i.i.d設定でsvdベースのフィードバックを用いたdppなど,ベースライン手法よりも優れることが示された。
具体的には、CIFAR-10、CIFAR-100、StanfordCars、GTSRBデータセットの潜在表現において、1対6のログ差の多様性向上を達成する。 This paper proposes a distributed version of Determinant Point Processing (DPP) inference to enhance multi-source data diversification under limited communication bandwidth. DPP is a popular probabilistic approach that improves data diversity by enforcing the repulsion of elements in the selected subsets. The well-studied Maximum A Posteriori (MAP) inference in DPP aims to identify the subset with the highest diversity quantified by DPP. However, this approach is limited by the presumption that all data samples are available at one point, which hinders its applicability to real-world applications such as traffic datasets where data samples are distributed across sources and communication between them is band-limited. Inspired by the techniques used in Multiple-Input Multiple-Output (MIMO) communication systems, we propose a strategy for performing MAP inference among distributed sources. Specifically, we show that a lower bound of the diversity-maximized distributed sample selection problem can be treated as a power allocation problem in MIMO systems. A determinant-preserved sparse representation of selected samples is used to perform sample precoding in local sources to be processed by DPP. Our method does not require raw data exchange among sources, but rather a band-limited feedback channel to send lightweight diversity measures, analogous to the CSI message in MIMO systems, from the center to data sources. The experiments show that our scalable approach can outperform baseline methods, including random selection, uninformed individual DPP with no feedback, and DPP with SVD-based feedback, in both i.i.d and non-i.i.d setups. Specifically, it achieves 1 to 6 log-difference diversity gain in the latent representation of CIFAR-10, CIFAR-100, StanfordCars, and GTSRB datasets. | 翻訳日:2023-06-06 17:38:27 公開日:2023-06-04 |
# Hawk: クラウドネイティブシステムにおけるDevOps駆動の透明性と説明責任 Hawk: DevOps-driven Transparency and Accountability in Cloud Native Systems ( http://arxiv.org/abs/2306.02496v1 ) ライセンス: Link先を確認 | Elias Gr\"unewald, Jannis Kiesel, Siar-Remzi Akbayin, Frank Pallas | (参考訳) 透明性は、GDPRやCCPAのような現代のプライバシー規制の最も重要な原則の1つである。
このような規制フレームワークに準拠するには、データコントローラは、個人データの収集、処理、保存、転送に関する正確な情報を提供する必要がある。
そのためには、それぞれの事実と詳細をコンパイルし、常に最新に保つ必要がある。
従来の静的なシステム環境では、このインベントリ(各システムコンポーネントの処理目的や保存期間などの詳細を含む)は手動で行うことができる。
しかし、現在のアジャイル、DevOps駆動、クラウドネイティブな情報システムエンジニアリングの状況では、このような手作業はもはや適していないため、データコントローラが規制コンプライアンスを達成するのがますます難しくなっている。
DevOpsプラクティスにスムーズに統合された、常に最新の透明性情報の適切な収集とメンテナンスを可能にするために、我々は、プライバシ関連の透明性と実行時の説明責任に関して最も関係のあるDevOpsライフサイクルの特定のフェーズに明示的に適合した、一連の新しいアプローチを提案する:リリース、運用、監視。
これらの各フェーズについて,パーソナルデータ処理の詳細を決定する上で生じる具体的な課題について検討し,個別のアプローチを開発し,クラウドネイティブシステムで容易に適用可能な概念実装の実証を行う。
また、これらのコンポーネントを相互に統合して、設計要素と実行要素からなる透明性情報を確立する方法も示す。
さらに,実験結果から合理的なオーバーヘッドが示された。
このベースで、データコントローラは、実際のエンジニアリングプラクティスに従って、規制の透明性義務を満たすことができる。 Transparency is one of the most important principles of modern privacy regulations, such as the GDPR or CCPA. To be compliant with such regulatory frameworks, data controllers must provide data subjects with precise information about the collection, processing, storage, and transfer of personal data. To do so, respective facts and details must be compiled and always kept up to date. In traditional, rather static system environments, this inventory (including details such as the purposes of processing or the storage duration for each system component) could be done manually. In current circumstances of agile, DevOps-driven, and cloud-native information systems engineering, however, such manual practices do not suit anymore, making it increasingly hard for data controllers to achieve regulatory compliance. To allow for proper collection and maintenance of always up-to-date transparency information smoothly integrating into DevOps practices, we herein propose a set of novel approaches explicitly tailored to specific phases of the DevOps lifecycle most relevant in matters of privacy-related transparency and accountability at runtime: Release, Operation, and Monitoring. For each of these phases, we examine the specific challenges arising in determining the details of personal data processing, develop a distinct approach and provide respective proof of concept implementations that can easily be applied in cloud native systems. We also demonstrate how these components can be integrated with each other to establish transparency information comprising design- and runtime-elements. Furthermore, our experimental evaluation indicates reasonable overheads. On this basis, data controllers can fulfill their regulatory transparency obligations in line with actual engineering practices. | 翻訳日:2023-06-06 17:37:56 公開日:2023-06-04 |
# radling: 効率的なx線レポート理解に向けて RadLing: Towards Efficient Radiology Report Understanding ( http://arxiv.org/abs/2306.02492v1 ) ライセンス: Link先を確認 | Rikhiya Ghosh, Sanjeev Kumar Karn, Manuela Daniela Danu, Larisa Micu, Ramya Vunikili and Oladimeji Farri | (参考訳) 放射線医学領域のほとんどの自然言語タスクは、生物医学コーパスで事前訓練された言語モデルを使用する。
放射線学に特化して訓練された事前訓練された言語モデルはほとんどなく、低いデータ設定でトレーニングされたまま、微調整タスクで同等の結果を生み出すものも少なくない。
我々は,Electra-Small (Clark et al., 2020) アーキテクチャを用いた連続事前学習型言語モデルであるRadLingについて,500K以上の放射線学レポートを用いて訓練し,最新の成果と競合し,放射線学領域の微調整処理を行う。
本研究の主な貢献は,事前学習中にトークンを動的にマスキングして知識を注入する,分類学知識支援事前学習タスクである知識認識マスキングである。
また,一般トークン化語彙をラジオロジー領域に適用するための知識ベース支援語彙拡張も導入した。 Most natural language tasks in the radiology domain use language models pre-trained on biomedical corpus. There are few pretrained language models trained specifically for radiology, and fewer still that have been trained in a low data setting and gone on to produce comparable results in fine-tuning tasks. We present RadLing, a continuously pretrained language model using Electra-small (Clark et al., 2020) architecture, trained using over 500K radiology reports, that can compete with state-of-the-art results for fine tuning tasks in radiology domain. Our main contribution in this paper is knowledge-aware masking which is a taxonomic knowledge-assisted pretraining task that dynamically masks tokens to inject knowledge during pretraining. In addition, we also introduce an knowledge base-aided vocabulary extension to adapt the general tokenization vocabulary to radiology domain. | 翻訳日:2023-06-06 17:37:30 公開日:2023-06-04 |
# 社会的善の擁護 - 個人属性プライバシ保護のための敵攻撃の活用 Adversary for Social Good: Leveraging Adversarial Attacks to Protect Personal Attribute Privacy ( http://arxiv.org/abs/2306.02488v1 ) ライセンス: Link先を確認 | Xiaoting Li, Lingwei Chen, Dinghao Wu | (参考訳) ソーシャルメディアは、何十億という人々がこうしたインタラクティブな環境に関わり、コンテンツの制作と共有を便利に行える世界を大きく変えた。
その中でも、テキストデータ(例えば、つぶやき、ブログなど)は基本的な重要な社会活動を維持し、ユーザー指向情報の豊富な情報源を生成する。
認証情報のような明示的なユーザデータは、あらゆる方法で著しく保護されているが、推論攻撃による個人属性(例えば、年齢、性別、位置)の開示は、特に強力な自然言語処理(NLP)技術が、暗黙のテキストデータからの属性推論を自動化するために効果的にデプロイされている場合、何らかの回避が困難である。
これはユーザーの属性のプライバシーを危険にさらす。
この課題に対処するため,本論文では,機械学習の固有の脆弱性を敵意攻撃に活用し,adv4sgと呼ばれる,新たなテキスト空間敵意攻撃をデザインする。
言い換えれば、NLPベースの属性推論攻撃に対して、ソーシャルメディアのテキストデータに対して、個人属性のプライバシを敵攻撃の定式化問題として保護するという問題を提起した。
より具体的には、Adv4SGは与えられた制約の下で単語摂動の連続を進行し、探索された属性を正しく識別できない。
従来と異なり,ソーシャルメディアの特質を考慮したAdv4SGを推進し,ブラックボックス設定下でのテキストデータに対する属性難読化を高速化する費用対効果機構を導入する。
実世界のソーシャルメディアデータセットに関する広範囲な実験により,提案手法は,異なる属性設定よりも少ない計算コストで推論精度を効果的に低下させることが証明された。 Social media has drastically reshaped the world that allows billions of people to engage in such interactive environments to conveniently create and share content with the public. Among them, text data (e.g., tweets, blogs) maintains the basic yet important social activities and generates a rich source of user-oriented information. While those explicit sensitive user data like credentials has been significantly protected by all means, personal private attribute (e.g., age, gender, location) disclosure due to inference attacks is somehow challenging to avoid, especially when powerful natural language processing (NLP) techniques have been effectively deployed to automate attribute inferences from implicit text data. This puts users' attribute privacy at risk. To address this challenge, in this paper, we leverage the inherent vulnerability of machine learning to adversarial attacks, and design a novel text-space Adversarial attack for Social Good, called Adv4SG. In other words, we cast the problem of protecting personal attribute privacy as an adversarial attack formulation problem over the social media text data to defend against NLP-based attribute inference attacks. More specifically, Adv4SG proceeds with a sequence of word perturbations under given constraints such that the probed attribute cannot be identified correctly. Different from the prior works, we advance Adv4SG by considering social media property, and introducing cost-effective mechanisms to expedite attribute obfuscation over text data under the black-box setting. Extensive experiments on real-world social media datasets have demonstrated that our method can effectively degrade the inference accuracy with less computational cost over different attribute settings, which substantially helps mitigate the impacts of inference attacks and thus achieve high performance in user attribute privacy protection. | 翻訳日:2023-06-06 17:37:13 公開日:2023-06-04 |
# 議論論文:リアルタイムディープフェイクの脅威 Discussion Paper: The Threat of Real Time Deepfakes ( http://arxiv.org/abs/2306.02487v1 ) ライセンス: Link先を確認 | Guy Frankovits and Yisroel Mirsky | (参考訳) 生成的ディープラーニングモデルは、現実的なオーディオとビデオを作成することができる。
この技術は個人の顔や声を識別するために使われてきた。
これらの「ディープフェイク」は誤情報の拡散、詐欺、詐欺、罪のない人を脅迫するために使われている。
この技術は進歩を続けており、今日では攻撃者はリアルタイムでディープフェイクを生成できる。
この新たな能力は、攻撃者が社会工学的攻撃に先立ってこの技術を活用し始めると、社会に重大な脅威をもたらす。
本稿では,この新たな脅威の意義を議論し,これらの攻撃を防止する上での課題を特定し,より強固な防御を研究するためのより良い方向性を提案する。 Generative deep learning models are able to create realistic audio and video. This technology has been used to impersonate the faces and voices of individuals. These ``deepfakes'' are being used to spread misinformation, enable scams, perform fraud, and blackmail the innocent. The technology continues to advance and today attackers have the ability to generate deepfakes in real-time. This new capability poses a significant threat to society as attackers begin to exploit the technology in advances social engineering attacks. In this paper, we discuss the implications of this emerging threat, identify the challenges with preventing these attacks and suggest a better direction for researching stronger defences. | 翻訳日:2023-06-06 17:36:41 公開日:2023-06-04 |
# QEYSSat 2.0 -- カナダにおける衛星ベースの量子通信ミッションに関する白書 QEYSSat 2.0 -- White Paper on Satellite-based Quantum Communication Missions in Canada ( http://arxiv.org/abs/2306.02481v1 ) ライセンス: Link先を確認 | Thomas Jennewein, Christoph Simon, Andre Fougeres, Francois Babin, Faezeh Kimiaee Asadi, Katanya B. Kuntz, Mathieu Maisonneuve, Brian Moffat, Kimia Mohammadi, Denis Panneton | (参考訳) 2021年6月から2022年3月までに行われたQEYSSat 2.0研究で開発された白紙について述べる。
研究の目的は、衛星によって実現されるカナダ全体の量子ネットワークのための技術ロードマップを確立することであった。
量子通信技術の現状を調査し、主要なアプリケーションとアーキテクチャを特定し、技術的準備のレベルと技術のボトルネックをレビューし、将来のミッションシナリオを特定します。
我々は,カナダ政府,産業,学界の利害関係者が参加し,アプリケーションや技術ロードマップに対するインプットや洞察を集めた1日間のワークショップの成果を報告する。
また、2024-2025年に打ち上げられる予定のQuantum EncrYption and Science Satellite(QEYSSat)ミッションの概要と、その今後の成果について述べる。
この研究の主な成果の1つは、カナダ全体の量子インターネットの主要要素の開発が、カナダ全体のエンタングルメント分布とテレポーテーションを含む、最も高いレベルの影響をもたらすことである。
我々は、このビジョンに向けた重要なステップとして、カナダ横断の長距離量子テレポーテーションを可能にする将来のミッション(「QEYSSat 2.0」)を提示し、分析する。 We present the white paper developed during the QEYSSat 2.0 study, which was undertaken between June 2021 and March 2022. The study objective was to establish a technology road-map for a Canada-wide quantum network enabled by satellites. We survey the state-of-art in quantum communication technologies, identify the main applications and architectures, review the technical readiness levels and technology bottlenecks and identify a future mission scenario. We report the findings of a dedicated one-day workshop that included Canadian stakeholders from government, industry and academia to gather inputs and insights for the applications and technical road-map. We also provide an overview of the Quantum EncrYption and Science Satellite (QEYSSat) mission expected to launch in 2024-2025 and its anticipated outcomes. One of the main outcomes of this study is that developing the main elements for a Canada-wide quantum internet will have the highest level of impact, which includes Canada-wide entanglement distribution and teleportation. We present and analyze a possible future mission ('QEYSSat 2.0') that would enable a long range quantum teleportation across Canada as an important step towards this vision. | 翻訳日:2023-06-06 17:36:30 公開日:2023-06-04 |
# 近位埋め込みを用いた感染効果推定 Contagion Effect Estimation Using Proximal Embeddings ( http://arxiv.org/abs/2306.02479v1 ) ライセンス: Link先を確認 | Zahra Fatemi, Elena Zheleva | (参考訳) 感染効果とは、ソーシャルネットワークにおける個人の結果に対する仲間の行動の因果的影響を指す。
観察研究における感染効果を推定するための顕著な手法は、計測されていない共同設立者がいないと仮定することが多いが、同胞ネットワークのノードは、類似した属性を持つピアと結びつきがあり、互いに影響を与えずに同じように振る舞う傾向にある。
遅延ホモフィリーを説明する一つの方法は、観測されていない共同設立者のプロキシを検討することである。
しかし,高次元プロキシの存在下では,本論文で示すように,プロキシに基づく手法は,感染効果の偏りを著しく減少させる可能性がある。
本稿では,多変量オートエンコーダ (vaes) と逆ネットワーク (adversarial network) を統合し, 異なる治療群に対する高次元プロキシのバランスのとれた低次元表現を生成し, 監視されていないネットワークコンビナートの存在下での感染効果を識別するフレームワーク proximal embeddeds (proemb) を提案する。
本手法は,最先端手法と比較して,観測ネットワークデータにおける伝染効果推定の精度が有意に向上することを示す。 Contagion effect refers to the causal effect of peers' behavior on the outcome of an individual in social networks. While prominent methods for estimating contagion effects in observational studies often assume that there are no unmeasured confounders, contagion can be confounded due to latent homophily: nodes in a homophilous network tend to have ties to peers with similar attributes and can behave similarly without influencing one another. One way to account for latent homophily is by considering proxies for the unobserved confounders. However, in the presence of high-dimensional proxies, proxy-based methods can lead to substantially biased estimation of contagion effects, as we demonstrate in this paper. To tackle this issue, we introduce the novel Proximal Embeddings (ProEmb), a framework which integrates Variational Autoencoders (VAEs) and adversarial networks to generate balanced low-dimensional representations of high-dimensional proxies for different treatment groups and identifies contagion effects in the presence of unobserved network confounders. We empirically show that our method significantly increases the accuracy of contagion effect estimation in observational network data compared to state-of-the-art methods. | 翻訳日:2023-06-06 17:36:09 公開日:2023-06-04 |
# コードネームデュエットを用いた言語間プラグマティック推論のモデル化 Modeling Cross-Cultural Pragmatic Inference with Codenames Duet ( http://arxiv.org/abs/2306.02475v1 ) ライセンス: Link先を確認 | Omar Shaikh, Caleb Ziems, William Held, Aryan J. Pariani, Fred Morstatter, Diyi Yang | (参考訳) 実用的な参照は効率的な対人コミュニケーションを可能にする。
それまでの作業では、単純なリファレンスゲームを使用して実用的推論のモデルをテストする。
しかし、実際には、話者の社会文化的背景は実践的な仮定を形作る。
例えば、NLPの読者は、NLPが"Neuro-Luistic Programming"ではなく、"Natural Language Processing"であると考えている。
本研究は,簡単な単語参照ゲームにおいて,社会文化的実践的推論を運用する文化規範データセットを紹介する。
cultural codesはマルチターンのコラボレーティブな2人プレイゲームcodenames duetに基づいている。
我々のデータセットは794のゲームと7,703のターンで構成され、153のユニークなプレイヤーに分散している。
ゲームプレイと並行して、プレイヤーの個性、価値、人口統計に関する情報を収集する。
コミュニケーション理論と実践理論を用いて,社会文化的先行とゲームコンテキストの協調モデルを用いて,各プレイヤーの行動を予測する。
実験の結果,背景特性の計算は手がかり付与と推測の両方に関わるタスクのモデル性能を著しく向上させ,社会文化的優先がゲームプレイ決定において重要な役割を果たすことが示された。 Pragmatic reference enables efficient interpersonal communication. Prior work uses simple reference games to test models of pragmatic reasoning, often with unidentified speakers and listeners. In practice, however, speakers' sociocultural background shapes their pragmatic assumptions. For example, readers of this paper assume NLP refers to "Natural Language Processing," and not "Neuro-linguistic Programming." This work introduces the Cultural Codes dataset, which operationalizes sociocultural pragmatic inference in a simple word reference game. Cultural Codes is based on the multi-turn collaborative two-player game, Codenames Duet. Our dataset consists of 794 games with 7,703 turns, distributed across 153 unique players. Alongside gameplay, we collect information about players' personalities, values, and demographics. Utilizing theories of communication and pragmatics, we predict each player's actions via joint modeling of their sociocultural priors and the game context. Our experiments show that accounting for background characteristics significantly improves model performance for tasks related to both clue giving and guessing, indicating that sociocultural priors play a vital role in gameplay decisions. | 翻訳日:2023-06-06 17:35:45 公開日:2023-06-04 |
# スマートグリッドシステムにおける異常検出手法の検討 Anomaly Detection Techniques in Smart Grid Systems: A Review ( http://arxiv.org/abs/2306.02473v1 ) ライセンス: Link先を確認 | Shampa Banik and Sohag Kumar Saha and Trapa Banik and S M Mostaq Hossain | (参考訳) スマートグリッドデータは、サイバーセキュリティ、障害検出、電気盗難など、多数の分野における異常検出のために評価することができる。
奇妙な異常な行動は、消費者特有の消費パターン、グリッドインフラの故障、停電、外部のサイバー攻撃、エネルギー不正など、様々な理由で引き起こされた可能性がある。
近年,スマートグリッドの異常検出は研究者の関心を惹きつけ,多くのハイインパクト分野に広く応用されている。
スマートグリッドにおける最も重要な課題の1つは、複数の形の異常行動に対する効率的な異常検出の実装である。
本稿では,スマートグリッドの文脈における異常検出の最近の進歩について,スコーピングによる研究のレビューを行う。
これまでの研究課題の深い理解と検査のために,さまざまな側面から研究を分類した。
最後に,本論文のギャップを分析し,スマートグリッドシステムにおける異常検出に関する今後の研究の方向性について述べる。 Smart grid data can be evaluated for anomaly detection in numerous fields, including cyber-security, fault detection, electricity theft, etc. The strange anomalous behaviors may have been caused by various reasons, including peculiar consumption patterns of the consumers, malfunctioning grid infrastructures, outages, external cyber-attacks, or energy fraud. Recently, anomaly detection of the smart grid has attracted a large amount of interest from researchers, and it is widely applied in a number of high-impact fields. One of the most significant challenges within the smart grid is the implementation of efficient anomaly detection for multiple forms of aberrant behaviors. In this paper, we provide a scoping review of research from the recent advancements in anomaly detection in the context of smart grids. We categorize our study from numerous aspects for deep understanding and inspection of the research challenges so far. Finally, after analyzing the gap in the reviewed paper, the direction for future research on anomaly detection in smart-grid systems has been provided briefly. | 翻訳日:2023-06-06 17:35:27 公開日:2023-06-04 |
# 市民科学データを用いたディープラーニングによる昆虫のリアルタイム識別 Deep learning powered real-time identification of insects using citizen science data ( http://arxiv.org/abs/2306.02507v1 ) ライセンス: Link先を確認 | Shivani Chiranjeevi, Mojdeh Sadaati, Zi K Deng, Jayanth Koushik, Talukder Z Jubery, Daren Mueller, Matthew E O Neal, Nirav Merchant, Aarti Singh, Asheesh K Singh, Soumik Sarkar, Arti Singh, Baskar Ganapathysubramanian | (参考訳) 昆虫害は世界の農業生産性と品質に大きな影響を及ぼす。
効果的な管理には、害虫や害虫を含む全昆虫群集を特定し、統合害虫管理戦略を策定・実施することが含まれる。
実際の環境下での昆虫の自動識別は、類似した外観の種、種内相違と種間類似性、いくつかのライフサイクルステージ、カモフラージュ、多様な画像条件、昆虫の向きの変化など、いくつかの課題を示す。
これらの課題に対処するために、ディープラーニングモデルであるInsectNetが提案されている。
InsectNetには5つの重要な機能がある。
a) 市民科学により収集された昆虫画像の大規模データセットの活用
b) 大規模モデルのラベルなし自己指導型学習
c) サンプルサイズが小さい種の予測精度を向上させること。
(d)モデル信頼性の向上、及び
(e)合理化されたmlopsによるアクセスの民主化。
このアプローチは、受粉者(例えば、蝶、ミツバチ)、寄生虫(例えば、ワニやハエ)、捕食者(例えば、カブトムシ、マンティス、トンボ)、害のある害虫(例えば、ヒメガメ、カブトムシ、バッタ、ステントガメ)を含む2500以上の昆虫の正確な識別(>96%の精度)を可能にする。
insectnetは侵入種を識別し、きめ細かな昆虫種を識別し、困難な状況下で効果的に働く。
また、不確実な場合には予測を控え、シームレスな人間の介入を促進し、実用的で信頼できるツールになる。
insectnetは市民科学のデータ収集、特に早期発見が重要である侵入種についてガイドすることができる。
同様のアプローチは、病気の検出のような他の農業上の課題を変革し、特に市民科学の努力を通じて、データ収集の重要性を強調します。
. Insect-pests significantly impact global agricultural productivity and quality. Effective management involves identifying the full insect community, including beneficial insects and harmful pests, to develop and implement integrated pest management strategies. Automated identification of insects under real-world conditions presents several challenges, including differentiating similar-looking species, intra-species dissimilarity and inter-species similarity, several life cycle stages, camouflage, diverse imaging conditions, and variability in insect orientation. A deep-learning model, InsectNet, is proposed to address these challenges. InsectNet is endowed with five key features: (a) utilization of a large dataset of insect images collected through citizen science; (b) label-free self-supervised learning for large models; (c) improving prediction accuracy for species with a small sample size; (d) enhancing model trustworthiness; and (e) democratizing access through streamlined MLOps. This approach allows accurate identification (>96% accuracy) of over 2500 insect species, including pollinator (e.g., butterflies, bees), parasitoid (e.g., some wasps and flies), predator species (e.g., lady beetles, mantises, dragonflies) and harmful pest species (e.g., armyworms, cutworms, grasshoppers, stink bugs). InsectNet can identify invasive species, provide fine-grained insect species identification, and work effectively in challenging backgrounds. It also can abstain from making predictions when uncertain, facilitating seamless human intervention and making it a practical and trustworthy tool. InsectNet can guide citizen science data collection, especially for invasive species where early detection is crucial. Similar approaches may transform other agricultural challenges like disease detection and underscore the importance of data collection, particularly through citizen science efforts.. | 翻訳日:2023-06-06 17:26:58 公開日:2023-06-04 |
# 単一スナップショットからのグラフ拡散履歴の再構成 Reconstructing Graph Diffusion History from a Single Snapshot ( http://arxiv.org/abs/2306.00488v2 ) ライセンス: Link先を確認 | Ruizhong Qiu, Dingsu Wang, Lei Ying, H. Vincent Poor, Yifang Zhang, Hanghang Tong | (参考訳) グラフ上の拡散は、多くのハイインパクト応用でユビキタスである。
これらの応用において、完全な拡散履歴は、動的パターンの同定、予防行動の反映、介入効果の予測において重要な役割を果たす。
その重要性にもかかわらず、完全な拡散履歴はほとんど存在せず、不適切さ、爆発的な探索空間、訓練データの不足などにより、再構築が極めて困難である。
現在まで、拡散履歴復元のための方法はほとんど存在しない。
これらは極大推定(MLE)の定式化のみに基づいており、真の拡散パラメータを知る必要がある。
本稿では,単一のスナップショットから拡散履歴を再構築する(dash)という,より難しい問題について検討する。
まず、MLEの定式化の基本的な限界を明らかにする理論解析から始める。
証明します
(a)拡散パラメータの推定誤差は、拡散パラメータ推定のNP硬度により避けられず、
b)mleの定式化は拡散パラメータの推定誤差に敏感である。
本論文はmle定式化の固有の限界を克服するために, 拡散パラメータの推定誤差に対して確実に安定なヒストリの後方分布のバリ中心を求める, 新たなバリ中心定式法を提案する。
さらに,metropolis-hastings markov chain monte carlo method (m--h mcmc) による後進ヒット時間を推定し,教師なしグラフニューラルネットワークを用いてm--h mcmcの収束を加速する最適提案を学習することにより,最適な提案を伴う拡散ヒット時間(ditto)という効率的な解法を開発した。
提案手法の有効性を示すために広範な実験を行った。 Diffusion on graphs is ubiquitous with numerous high-impact applications. In these applications, complete diffusion histories play an essential role in terms of identifying dynamical patterns, reflecting on precaution actions, and forecasting intervention effects. Despite their importance, complete diffusion histories are rarely available and are highly challenging to reconstruct due to ill-posedness, explosive search space, and scarcity of training data. To date, few methods exist for diffusion history reconstruction. They are exclusively based on the maximum likelihood estimation (MLE) formulation and require to know true diffusion parameters. In this paper, we study an even harder problem, namely reconstructing Diffusion history from A single SnapsHot} (DASH), where we seek to reconstruct the history from only the final snapshot without knowing true diffusion parameters. We start with theoretical analyses that reveal a fundamental limitation of the MLE formulation. We prove: (a) estimation error of diffusion parameters is unavoidable due to NP-hardness of diffusion parameter estimation, and (b) the MLE formulation is sensitive to estimation error of diffusion parameters. To overcome the inherent limitation of the MLE formulation, we propose a novel barycenter formulation: finding the barycenter of the posterior distribution of histories, which is provably stable against the estimation error of diffusion parameters. We further develop an effective solver named DIffusion hiTting Times with Optimal proposal (DITTO) by reducing the problem to estimating posterior expected hitting times via the Metropolis--Hastings Markov chain Monte Carlo method (M--H MCMC) and employing an unsupervised graph neural network to learn an optimal proposal to accelerate the convergence of M--H MCMC. We conduct extensive experiments to demonstrate the efficacy of the proposed method. | 翻訳日:2023-06-06 11:23:33 公開日:2023-06-04 |
# 直接学習に基づくディープスパイクニューラルネットワーク Direct Learning-Based Deep Spiking Neural Networks: A Review ( http://arxiv.org/abs/2305.19725v3 ) ライセンス: Link先を確認 | Yufei Guo, Xuhui Huang, Zhe Ma | (参考訳) スパイクニューラルネットワーク(SNN)は、二分スパイク情報伝達機構、豊かな空間的時間的ダイナミクス、イベント駆動特性を備えた有望な脳インスピレーション型計算モデルである。
しかし、その複雑な不連続スパイク機構は、深いSNNの最適化に困難をもたらす。
シュロゲート勾配法は、最適化の難しさを大幅に軽減し、深層SNNを直接訓練する大きな可能性を秘めているため、近年、様々な直接学習に基づく深層SNN作品が提案され、達成されている。
本稿では,これらの直接学習に基づく深層SNN研究を,主に精度向上手法,効率改善方法,時間的ダイナミクス利用方法に分類した包括的調査を行う。
さらに,これらの分類をより細かい粒度に分割し,整理し,導入する。
最後に、今後の研究で直面するであろう課題とトレンドが予想される。 The spiking neural network (SNN), as a promising brain-inspired computational model with binary spike information transmission mechanism, rich spatially-temporal dynamics, and event-driven characteristics, has received extensive attention. However, its intricately discontinuous spike mechanism brings difficulty to the optimization of the deep SNN. Since the surrogate gradient method can greatly mitigate the optimization difficulty and shows great potential in directly training deep SNNs, a variety of direct learning-based deep SNN works have been proposed and achieved satisfying progress in recent years. In this paper, we present a comprehensive survey of these direct learning-based deep SNN works, mainly categorized into accuracy improvement methods, efficiency improvement methods, and temporal dynamics utilization methods. In addition, we also divide these categorizations into finer granularities further to better organize and introduce them. Finally, the challenges and trends that may be faced in future research are prospected. | 翻訳日:2023-06-06 11:22:51 公開日:2023-06-04 |
# PaintSeg: ペイントによるトレーニング不要のセグメンテーション PaintSeg: Training-free Segmentation via Painting ( http://arxiv.org/abs/2305.19406v3 ) ライセンス: Link先を確認 | Xiang Li, Chung-Ching Lin, Yinpeng Chen, Zicheng Liu, Jinglu Wang, Bhiksha Raj | (参考訳) トレーニングなしでオブジェクトをセグメント化するための新しい教師なし手法であるPaintSegを紹介した。
本稿では,原画像と被写体領域が塗装された塗装画像とのコントラストを,市販の合成モデルを用いて生成する,対向型マスク付きコントラスト絵画(AMCP)プロセスを提案する。
塗装工程では、前者が前景をマスクし、背景を充填し、後者が前景の欠片を回収しながら背景をマスクし、塗りつぶしと外装を交互に行う。
i-step や o-step とも呼ばれる塗りつぶしや塗り外しは、監視や訓練なしに徐々に対象のセグメンテーションマスクを地上の真理に向かって前進させることを可能にする。
paintsegは、粗いマスク、ボックス、スクリブル、ポイントなど、さまざまなプロンプトで動作するように構成できる。
実験の結果,paintsegは粗いマスクプロンプト,ボックスプロンプト,ポイントプロンプトのセグメンテーションタスクにおいて既存のアプローチよりも優れており,教師なしセグメンテーションに適したトレーニングフリーなソリューションを提供する。 The paper introduces PaintSeg, a new unsupervised method for segmenting objects without any training. We propose an adversarial masked contrastive painting (AMCP) process, which creates a contrast between the original image and a painted image in which a masked area is painted using off-the-shelf generative models. During the painting process, inpainting and outpainting are alternated, with the former masking the foreground and filling in the background, and the latter masking the background while recovering the missing part of the foreground object. Inpainting and outpainting, also referred to as I-step and O-step, allow our method to gradually advance the target segmentation mask toward the ground truth without supervision or training. PaintSeg can be configured to work with a variety of prompts, e.g. coarse masks, boxes, scribbles, and points. Our experimental results demonstrate that PaintSeg outperforms existing approaches in coarse mask-prompt, box-prompt, and point-prompt segmentation tasks, providing a training-free solution suitable for unsupervised segmentation. | 翻訳日:2023-06-06 11:22:35 公開日:2023-06-04 |
# テキスト誘導拡散モデルの興味ある特性 Intriguing Properties of Text-guided Diffusion Models ( http://arxiv.org/abs/2306.00974v2 ) ライセンス: Link先を確認 | Qihao Liu, Adam Kortylewski, Yutong Bai, Song Bai, and Alan Yuille | (参考訳) テキスト誘導拡散モデル(TDM)は広く応用されているが、予期せず失敗することがある。
よくある失敗は
(i)自然に見えるテキストは、間違った内容の画像を生成させるか、または
(ii)同じテキストプロンプトで条件付けされているにもかかわらず、非常に異なる、あるいは無関係な出力を生成する潜在変数の異なるランダムなサンプル。
本研究では,TDMの障害モードについて,より詳細に研究し,理解することを目的とする。
これを実現するために,画像分類器を代理損失関数として利用するTDMに対する敵対攻撃であるSAGEを提案し,画像生成における予期せぬ動作や故障事例を自動的に発見するために,TDMの離散的なプロンプト空間と高次元潜在空間を探索する。
我々は,sageが分類器ではなく拡散モデルの障害事例を見出すために,いくつかの技術的貢献を行い,人間の研究で検証する。
本研究は,これまでに体系的に研究されていないtdmの4つの興味をそそる性質を明らかにした。(1)入力テキストのセマンティクスを捉えない画像を生成する,様々な自然テキストプロンプトを見つける。
これらの障害を根本原因に基づいた10の異なるタイプに分類する。
2) テキストプロンプトから独立して歪んだ画像につながる潜伏空間(外れ値ではない)のサンプルを見つけ, 潜伏空間の一部が十分に構造化されていないことを示唆した。
3)テキストプロンプトと無関係な自然画像に繋がる潜在サンプルを見つけ、潜在空間とプロンプト空間の間の潜在的な不一致を示唆する。
(4) 入力プロンプトに1つの逆数トークンを埋め込むことで、CLIPスコアに最小限の影響を与えながら、さまざまな特定のターゲットオブジェクトを生成することができる。
これは言語表現の脆弱さを示し、潜在的な安全性の懸念を提起する。 Text-guided diffusion models (TDMs) are widely applied but can fail unexpectedly. Common failures include: (i) natural-looking text prompts generating images with the wrong content, or (ii) different random samples of the latent variables that generate vastly different, and even unrelated, outputs despite being conditioned on the same text prompt. In this work, we aim to study and understand the failure modes of TDMs in more detail. To achieve this, we propose SAGE, an adversarial attack on TDMs that uses image classifiers as surrogate loss functions, to search over the discrete prompt space and the high-dimensional latent space of TDMs to automatically discover unexpected behaviors and failure cases in the image generation. We make several technical contributions to ensure that SAGE finds failure cases of the diffusion model, rather than the classifier, and verify this in a human study. Our study reveals four intriguing properties of TDMs that have not been systematically studied before: (1) We find a variety of natural text prompts producing images that fail to capture the semantics of input texts. We categorize these failures into ten distinct types based on the underlying causes. (2) We find samples in the latent space (which are not outliers) that lead to distorted images independent of the text prompt, suggesting that parts of the latent space are not well-structured. (3) We also find latent samples that lead to natural-looking images which are unrelated to the text prompt, implying a potential misalignment between the latent and prompt spaces. (4) By appending a single adversarial token embedding to an input prompt we can generate a variety of specified target objects, while only minimally affecting the CLIP score. This demonstrates the fragility of language representations and raises potential safety concerns. | 翻訳日:2023-06-06 11:11:15 公開日:2023-06-04 |