このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20230526となっている論文です。

PDF登録状況(公開日: 20230526)

TitleAuthorsAbstract論文公表日・翻訳日
# ニューラルテストoracle生成のより現実的な評価に向けて

Towards More Realistic Evaluation for Neural Test Oracle Generation ( http://arxiv.org/abs/2305.17047v1 )

ライセンス: Link先を確認
Zhongxin Liu, Kui Liu, Xin Xia, Xiaohu Yang(参考訳) 効果的なユニットテストは、ソフトウェア品質の保護と改善に役立ちますが、書き込みとメンテナンスにかなりの時間と労力が必要です。 ユニットテストは、テストプレフィックスとテストオラクルで構成される。 テストオラクル、特に機能的なオラクルの合成は、よく知られた課題である。 近年の研究では、ニューラルモデルを利用してテストオラクル、すなわちニューラルテストオラクル生成(NTOG)を生成し、有望な結果を得た。 しかし, 系統検査の結果, 既存のNTOGの評価手法には不適切な設定があることがわかった。 これらの設定は、既存のNTOGアプローチのパフォーマンスの理解を誤解させる可能性がある。 私たちはそれらを要約する。 1)バグ修正プログラムバージョンからテストプレフィックスを生成する。 2)非現実的な指標による評価,及び 3) 直接的なベースラインの欠如。 本稿では,これらの設定がNTOG手法の性能評価と理解に与える影響について検討する。 私たちはそれを見つけ 1) バグ修正プログラムバージョンから非現実的にテストプレフィックスを生成すると、最先端のNTOGアプローチTOGAで見つかったバグの数が61.8%膨らむ。 2)FPR(False Positive Rate)は現実的な評価基準ではなく、TOGAの精度は0.38%に過ぎず、 3) 単純なベースラインであるNoExceptionは、単に例外が起こらないことを期待しており、TOGAによって見つかったバグの61%を精度の2倍に見つけることができる。 さらに,既存の評価手法に新たなランク付け手順を導入し,NTOG手法のコスト効率をよりよく評価するためのFound@Kという評価指標を提案する。 そこで本研究では,TOGAのコスト効率を大幅に向上させるとともに,このランキングステップをインスタンス化するための新しい非教師付きランキング手法を提案する。 最終的に,NTOG のより現実的な評価手法 TEval+ を提案し,NTOG の実践的利用を促進するために,親指の7つのルールを要約した。

Effective unit tests can help guard and improve software quality but require a substantial amount of time and effort to write and maintain. A unit test consists of a test prefix and a test oracle. Synthesizing test oracles, especially functional oracles, is a well-known challenging problem. Recent studies proposed to leverage neural models to generate test oracles, i.e., neural test oracle generation (NTOG), and obtained promising results. However, after a systematic inspection, we find there are some inappropriate settings in existing evaluation methods for NTOG. These settings could mislead the understanding of existing NTOG approaches' performance. We summarize them as 1) generating test prefixes from bug-fixed program versions, 2) evaluating with an unrealistic metric, and 3) lacking a straightforward baseline. In this paper, we first investigate the impacts of these settings on evaluating and understanding the performance of NTOG approaches. We find that 1) unrealistically generating test prefixes from bug-fixed program versions inflates the number of bugs found by the state-of-the-art NTOG approach TOGA by 61.8%, 2) FPR (False Positive Rate) is not a realistic evaluation metric and the Precision of TOGA is only 0.38%, and 3) a straightforward baseline NoException, which simply expects no exception should be raised, can find 61% of the bugs found by TOGA with twice the Precision. Furthermore, we introduce an additional ranking step to existing evaluation methods and propose an evaluation metric named Found@K to better measure the cost-effectiveness of NTOG approaches. We propose a novel unsupervised ranking method to instantiate this ranking step, significantly improving the cost-effectiveness of TOGA. Eventually, we propose a more realistic evaluation method TEval+ for NTOG and summarize seven rules of thumb to boost NTOG approaches into their practical usages.
翻訳日:2023-10-24 05:26:58 公開日:2023-05-26
# トランザクション生成機の水平スケーリング

Horizontal Scaling of Transaction-Creating Machines ( http://arxiv.org/abs/2305.17039v1 )

ライセンス: Link先を確認
Ole Delzer, Ingo Weber, Richard Hobeck, Stefan Schulte(参考訳) ブロックチェーン技術は、ここ数年でITでもっとも人気のあるトレンドの1つになっている。 その人気の高まりと、ますます多くのユースケースの発見は、スケーラビリティを改善する方法に関する疑問を提起している。 研究者はトランザクションのオンチェーン処理をスケールする方法を模索しているが、トランザクションのオフチェーン生成のスケーラビリティはまだ調査されていない。 これは、短時間で大量のトランザクションを送信したい組織や、高ボリューム製品の製造者などの継続的な組織に関係している。 特にethereumのようなブロックチェーン実装では、トランザクションにいわゆるnonces(シーケンス番号)を含める必要があるため、トランザクション生成を水平にスケーリングすることは簡単ではない。 本稿では,Ethereumにおけるトランザクション生成の水平スケーリングに関する4つのアプローチを提案する。 実験により,スケーラビリティとレイテンシの観点から異なるアプローチの性能を検証し,トランザクション生成を水平方向にスケール可能な4つのアプローチのうちの2つを見出した。

Blockchain technology has become one of the most popular trends in IT over the last few years. Its increasing popularity and the discovery of ever more use cases raises the question of how to improve scalability. While researchers are exploring ways to scale the on-chain processing of transactions, the scalability of the off-chain creation of transactions has not been investigated yet. This is relevant for organizations wishing to send a high volume of transactions in a short time frame, or continuously, e.g., manufacturers of high-volume products. Especially for blockchain implementations such as Ethereum, which require transactions to include so-called nonces (essentially a sequence number), horizontally scaling transaction creation is non-trivial. In this paper, we propose four different approaches for horizontal scaling of transaction creation in Ethereum. Our experimental evaluation examines the performance of the different approaches in terms of scalability and latency and finds two of the four proposed approaches feasible to scale transaction creation horizontally.
翻訳日:2023-10-24 05:26:30 公開日:2023-05-26
# データオーナによる人分析のメリット駆動設計

Data Owner Benefit-Driven Design of People Analytics ( http://arxiv.org/abs/2305.16881v1 )

ライセンス: Link先を確認
Patrik Zander, Valentin Zieglmeier(参考訳) ますますデジタル化された職場では、従業員データの高度な分析の可能性が高まっている。 これにより、従業員の行動分析ツールである人分析(PA)の関連性が高まる。 このような可能性にもかかわらず、PAの使用の成功は従業員の懸念によって妨げられている。 特にGDPRまたは同等の法律が適用されるヨーロッパでは、データがPAで処理される前に、従業員の同意が必要である。 そのため、PAは従業員がデータを共有する意思のある場合にのみ、関連する洞察を提供することができる。 これを達成するための潜在的方法の1つは、アピール戦略の利用である。 paの設計において、使用可能なコア戦略は、従業員が自身のデータを共有することと引き換えに与えられる自動フィードバックなど、データオーナのメリットを含むことだ。 本稿では, アピール戦略としてのメリットを考察し, PAにメリットを取り入れるための4つの設計原則を考案する。 次に、分析とメリットの模範的なセットを説明し、私たちの原則がどのように実践されるかを示します。 この模範的な実装に基づき、EUとイギリスの従業員間でのユーザスタディ(n = 46$)の結果を記述し、議論する。 本研究は、従業員がPAとデータを共有することへの同意を育むか妨げる要因について検討する。 そして、データ所有者の利点を紹介し、この同意決定に肯定的な影響を及ぼすことができるかどうかを分析する。 導入したデータオーナのメリットは,私たちの期待に反して,参加者がデータ共有に同意する動機付けには適していません。 それゆえ、参加者がどのように利益を判断するかを分析する。 参加者は一般的に、paを設計する際にデータ所有者の利益を含む価値を確認することで、それを持つことに感謝する。 しかし,導入したメリットのいくつかは参加者の共有判断に悪影響を及ぼし,概念化には潜在的なリスクについて慎重に検討する必要がある。

With increasingly digitalized workplaces, the potential for sophisticated analyses of employee data rises. This increases the relevance of people analytics (PA), which are tools for the behavioral analysis of employees. Despite this potential, the successful usage of PA is hindered by employee concerns. Especially in Europe, where the GDPR or equivalent laws apply, employee consent is required before data can be processed in PA. Therefore, PA can only provide relevant insights if employees are willing to share their data. One potential way of achieving this is the use of appeal strategies. In the design of PA, the core strategy that can be used is the inclusion of data owner benefits, such as automated feedback, that are given to employees in exchange for sharing their own data. In this paper, we examine benefits as an appeal strategy and develop four design principles for the inclusion of benefits in PA. Then, we describe an exemplary set of analyses and benefits, demonstrating how our principles may be put into practice. Based on this exemplary implementation, we describe and discuss the results of a user study ($n = 46$) among employees in the EU and UK. Our study investigates the factors that foster or hinder employees' consent to sharing their data with PA. Then, we introduce our data owner benefits and analyze whether they can positively influence this consent decision. Our introduced data owner benefits were, contrary to our expectations, not suited to motivate our participants to consent to sharing their data. We therefore analyze how participants judge the benefits. Participants generally appreciate having them, confirming the value of including data owner benefits when designing PA. Some of our introduced benefits negatively influenced participants' sharing decision, though, meaning that careful consideration of potential risks is required when conceptualizing them.
翻訳日:2023-10-24 05:26:16 公開日:2023-05-26
# 目標モデルから人間の価値を特定する:工業事例研究

Identifying human values from goal models: An industrial case study ( http://arxiv.org/abs/2305.16741v1 )

ライセンス: Link先を確認
Tahira Iqbal, Kuldar Taveter, Tarmo Strenze, Waqar Hussain, Omar Haggag, John Alphonsus Matthews, Anu Piirisild(参考訳) 人間の価値観は、個人や社会生活における人間の行動や行動を導く原則である。 要件エンジニアリングにおける人的価値の無視は、ソフトウェアの取り込みと継続的な使用に負の影響をもたらす。 ソフトウェアに人的価値を埋め込むことは明らかに難しいが、ステークホルダーの価値を早期に引き出すことは、開発システムにその価値を組み込む可能性を高める。 欧州連合(eu)のhorizon 2020プログラムの研究開発プロジェクトであるpharaonを用いて、プロジェクトの3つの大規模トライアルアプリケーションにおいて、機能的、品質的、感情的目標からなるモチベーション目標モデルとして表現されるステークホルダー要求を分析した。 Schwartz氏による人的価値の理論に従って,3つのアプリケーションの要件を表すモチベーション目標モデルから,10の人的価値のうち9を抽出することができた。 以上の結果から,主観的目標にステークホルダーの価値が組み込まれている傾向が顕著となり,その45%がセキュリティと自己指向の価値観カテゴリに属することが明らかとなった。 本研究は,要求工学における感情目標モデリングにおける先行研究を拡張し,感情目標と様々な利害関係者の役割を結びつけ,人間価値のシュワルツ理論に基づいてそれらの価値を同定する。

Human values are principles that guide human actions and behaviour in personal and social life. Ignoring human values during requirements engineering introduces a negative impact on software uptake and continued use. Embedding human values into software is admittedly challenging; however, early elicitation of stakeholder values increases the chances of their inclusion into the developed system. Using Pharaon, a research and innovation project of the European Union's Horizon 2020 program, as a case study we analysed stakeholder requirements expressed as motivational goal models consisting of functional, quality, and emotional goals in three large-scale trial applications of the project. We were able to elicit 9 of 10 human values according to the theory of human values by Schwartz from the motivational goal models that represent the requirements for the three applications. Our findings highlight the dominant trend of stakeholder values being embedded in emotional goals and show that almost 45% of the identified values belong to the value categories of Security and Self-direction. Our research extends prior work in emotional goal modelling in requirements engineering by linking emotional goals to various stakeholder roles and identifying their values based on the Schwartz theory of human values
翻訳日:2023-10-24 05:25:32 公開日:2023-05-26
# stack overflowポストの自動要約

Automated Summarization of Stack Overflow Posts ( http://arxiv.org/abs/2305.16680v1 )

ライセンス: Link先を確認
Bonan Kou, Muhao Chen, Tianyi Zhang(参考訳) ソフトウェア開発者はしばしば、プログラミングニーズを満たすためにStack Overflow (SO)を使う。 関連記事が多数あることを考えると、それらをナビゲートし、異なるソリューションを比較するのは面倒で時間がかかる。 近年,SOポストのナビゲーションを容易にするために,テキストを簡潔に要約する作業が提案されている。 しかし、これらの手法は、自然言語の曖昧さや洗練を扱うには不十分なテキスト要約のための情報検索手法やヒューリスティックスにのみ依存する。 本稿では,ASSORTと呼ばれる深層学習に基づくフレームワークについて述べる。 ASSORTには2つの補完学習手法、ASSORT_SとASSORT_{IS}が含まれており、SOポスト要約のためのラベル付きトレーニングデータの欠如に対処する。 ASSORT_Sは、新しいアンサンブル学習モデルをBERT埋め込みとドメイン固有の特徴で直接訓練し、SOポストのユニークな特徴を説明するように設計されている。 対照的に、ASSORT_{IS} は訓練データがない場合(ゼロショット学習)にドメインシフトの問題に対処しながら、事前訓練されたモデルを再利用するように設計されている。 ASSORT_S と ASSORT_{IS はいずれも F1 スコアでそれぞれ 13% と 7% の既成技術より優れていた。 また,ASSORT_S と ASSORT_S の選好差は小さく,ASSORT_S と ASSORT_S が生成する要約を最良基準よりも有意に好んだ。

Software developers often resort to Stack Overflow (SO) to fill their programming needs. Given the abundance of relevant posts, navigating them and comparing different solutions is tedious and time-consuming. Recent work has proposed to automatically summarize SO posts to concise text to facilitate the navigation of SO posts. However, these techniques rely only on information retrieval methods or heuristics for text summarization, which is insufficient to handle the ambiguity and sophistication of natural language. This paper presents a deep learning based framework called ASSORT for SO post summarization. ASSORT includes two complementary learning methods, ASSORT_S and ASSORT_{IS}, to address the lack of labeled training data for SO post summarization. ASSORT_S is designed to directly train a novel ensemble learning model with BERT embeddings and domainspecific features to account for the unique characteristics of SO posts. By contrast, ASSORT_{IS} is designed to reuse pre-trained models while addressing the domain shift challenge when no training data is present (i.e., zero-shot learning). Both ASSORT_S and ASSORT_{IS} outperform six existing techniques by at least 13% and 7% respectively in terms of the F1 score. Furthermore, a human study shows that participants significantly preferred summaries generated by ASSORT_S and ASSORT_{IS} over the best baseline, while the preference difference between ASSORT_S and ASSORT_{IS} was small.
翻訳日:2023-10-24 05:25:08 公開日:2023-05-26
# AIBugHunter: ソフトウェアの脆弱性を予測、分類、修復するための実践的なツール

AIBugHunter: A Practical Tool for Predicting, Classifying and Repairing Software Vulnerabilities ( http://arxiv.org/abs/2305.16615v1 )

ライセンス: Link先を確認
Michael Fu and Chakkrit Tantithamthavorn and Trung Le and Yuki Kume and Van Nguyen and Dinh Phung and John Grundy(参考訳) ソフトウェアの脆弱性を自動検出、ローカライズ、修復するためのmlベースのアプローチが数多く提案されている。 MLベースのメソッドは、プログラム分析ベースの脆弱性分析ツールよりも効果的だが、現代のIDEに統合されているものはほとんどなく、実践的な採用を妨げる。 AIBugHunterは、C/C++言語用の新しいMLベースのソフトウェア脆弱性分析ツールで、Visual Studio Codeに統合されている。 AIBugHunterは、ソフトウェア開発者がプログラミング中にリアルタイムの脆弱性の検出、説明、修復を行うのを助ける。 特に、aibughunterは開発者ソースコードをスキャンして、(1)脆弱性の特定、(2)脆弱性のタイプ特定、(3)脆弱性の深刻度の推定、(4)脆弱性修復を提案する。 本稿では,多目的最適化(moo)に基づく脆弱性分類手法と,aibughunterが脆弱性タイプを正確に識別し,重大度を推定するためのトランスフォーマーに基づく推定手法を提案する。 188k+c/c++関数からなる大規模データセットに関する実証実験により,提案手法が脆弱性分類と推定のための最先端のベースライン手法よりも正確であることが確認された。 さらに,AIBugHunterツールに対するソフトウェア実践者の認識を得て,AIBugHunterがセキュリティ面における開発者の生産性に与える影響を評価するために,調査研究やユーザスタディを含む質的な評価を行う。 調査の結果,AIBugHunterは,90%の参加者がAIBugHunterの採用を検討する上で有用であることがわかった。 最後に、私たちのユーザ調査は、AIBugHunterがソフトウェア開発中にサイバーセキュリティ問題に対処する際の開発者の生産性を高める可能性があることを示しています。

Many ML-based approaches have been proposed to automatically detect, localize, and repair software vulnerabilities. While ML-based methods are more effective than program analysis-based vulnerability analysis tools, few have been integrated into modern IDEs, hindering practical adoption. To bridge this critical gap, we propose AIBugHunter, a novel ML-based software vulnerability analysis tool for C/C++ languages that is integrated into Visual Studio Code. AIBugHunter helps software developers to achieve real-time vulnerability detection, explanation, and repairs during programming. In particular, AIBugHunter scans through developers' source code to (1) locate vulnerabilities, (2) identify vulnerability types, (3) estimate vulnerability severity, and (4) suggest vulnerability repairs. In this article, we propose a novel multi-objective optimization (MOO)-based vulnerability classification approach and a transformer-based estimation approach to help AIBugHunter accurately identify vulnerability types and estimate severity. Our empirical experiments on a large dataset consisting of 188K+ C/C++ functions confirm that our proposed approaches are more accurate than other state-of-the-art baseline methods for vulnerability classification and estimation. Furthermore, we conduct qualitative evaluations including a survey study and a user study to obtain software practitioners' perceptions of our AIBugHunter tool and assess the impact that AIBugHunter may have on developers' productivity in security aspects. Our survey study shows that our AIBugHunter is perceived as useful where 90% of the participants consider adopting our AIBugHunter. Last but not least, our user study shows that our AIBugHunter could possibly enhance developers' productivity in combating cybersecurity issues during software development.
翻訳日:2023-10-24 05:24:40 公開日:2023-05-26
# マスキング算術プログラムの正しさの自動検証

Automated Verification of Correctness for Masked Arithmetic Programs ( http://arxiv.org/abs/2305.16596v1 )

ライセンス: Link先を確認
Mingyang Liu and Fu Song and Taolue Chen(参考訳) マスキングは、暗号アルゴリズムを実装するためのパワーサイドチャネル攻撃に対して広く使われている効果的な対策である。 驚くべきことに、いくつかの形式的検証技術が基本的な問題、すなわち、マスクされたプログラムと元の(マスクされていない)暗号アルゴリズムが機能的等価であるかどうかに対処している。 本稿では,標数 2 のガロア体上のマスキング演算プログラムのこの問題について検討する。 我々は,ランダムテストとsmt解法によって支援される項書き換えに基づく自動アプローチを提案する。 全体的なアプローチは健全であり、実際に適合する特定の条件下で完了します。 このアプローチを新しいツールであるFISCHERとして実装し、様々なベンチマークで広範な実験を行う。 その結果,提案手法の有効性,効率性,スケーラビリティが確認された。 ほとんど全てのベンチマークは、項書き換えシステムだけで初めて証明できる。 特に、FISCHERはEUROCRYPT 2017で発表されたマスク実装の新たな欠陥を検出する。

Masking is a widely-used effective countermeasure against power side-channel attacks for implementing cryptographic algorithms. Surprisingly, few formal verification techniques have addressed a fundamental question, i.e., whether the masked program and the original (unmasked) cryptographic algorithm are functional equivalent. In this paper, we study this problem for masked arithmetic programs over Galois fields of characteristic 2. We propose an automated approach based on term rewriting, aided by random testing and SMT solving. The overall approach is sound, and complete under certain conditions which do meet in practice. We implement the approach as a new tool FISCHER and carry out extensive experiments on various benchmarks. The results confirm the effectiveness, efficiency and scalability of our approach. Almost all the benchmarks can be proved for the first time by the term rewriting system solely. In particular, FISCHER detects a new flaw in a masked implementation published in EUROCRYPT 2017.
翻訳日:2023-10-24 05:24:11 公開日:2023-05-26
# コミットメッセージに1800万のリンク:目的、進化、衰退

18 Million Links in Commit Messages: Purpose, Evolution, and Decay ( http://arxiv.org/abs/2305.16591v1 )

ライセンス: Link先を確認
Tao Xiao, Sebastian Baltes, Hideaki Hata, Christoph Treude, Raula Gaikovina Kula, Takashi Ishio, Kenichi Matsumoto(参考訳) コミットメッセージは、ソフトウェアのメンテナンスと進化のあらゆる面において、多様で価値のある種類の知識を含んでいる。 リンクはそのような知識の例です。 以前の"9.6 million links in source code comment"の研究では、リンクが減衰し、時代遅れになり、双方向のトレーサビリティが欠如していることが示されている。 23,110GitHubリポジトリのコミットから18,201,165のリンクを大規模に調査し、同じ運命を辿ったかどうかを調査した。 結果は、外部リソースを参照することが一般的であり、github.com以外の最も頻繁なドメインはStack OverflowとGoogle Codeの外部ドメインであることを示している。 同様に、リンクはコミットメッセージのソースコードコンテキストとして機能し、アクセス不能リンクは頻繁である。 繰り返しリンクを参照することはまれであるが(4%)、進化しがちなリンクの14%は時間とともに利用できなくなり、例えばチュートリアルや記事やソフトウェアホームページは時間とともに利用できなくなる。 さらに、異なるリンクの70%が崩壊に悩まされており、最も頻繁に発生するドメインはSubversionリポジトリと関連している。 コミット中のリンクはコード内のリンクと同じ運命を共有し、将来の作業への道を開くことを要約します。

Commit messages contain diverse and valuable types of knowledge in all aspects of software maintenance and evolution. Links are an example of such knowledge. Previous work on "9.6 million links in source code comments" showed that links are prone to decay, become outdated, and lack bidirectional traceability. We conducted a large-scale study of 18,201,165 links from commits in 23,110 GitHub repositories to investigate whether they suffer the same fate. Results show that referencing external resources is prevalent and that the most frequent domains other than github.com are the external domains of Stack Overflow and Google Code. Similarly, links serve as source code context to commit messages, with inaccessible links being frequent. Although repeatedly referencing links is rare (4%), 14% of links that are prone to evolve become unavailable over time; e.g., tutorials or articles and software homepages become unavailable over time. Furthermore, we find that 70% of the distinct links suffer from decay; the domains that occur the most frequently are related to Subversion repositories. We summarize that links in commits share the same fate as links in code, opening up avenues for future work.
翻訳日:2023-10-24 05:23:59 公開日:2023-05-26
# ソフトウェアアーキテクチャのためのドキュメンテーションに関する研究

A Study of Documentation for Software Architecture ( http://arxiv.org/abs/2305.17286v1 )

ライセンス: Link先を確認
Neil A. Ernst and Martin P. Robillard(参考訳) ドキュメンテーションはソフトウェアアーキテクチャの知識を広めるための重要なメカニズムである。 ソフトウェアプロジェクトチームは、構造化されていない物語から標準化された文書まで、ソフトウェアアーキテクチャを文書化するために非常に異なるフォーマットを採用できる。 私たちは、このドキュメンテーションフォーマットが、ソフトウェアプロジェクトに参加し、そのアーキテクチャを理解しようとする新参者にとってどれほど重要かを探った。 そこで本研究では,65名の被験者に対して,ランダムに割り当てられた文書形式であるナラティブ・エッセイと構造化文書を用いて,ソフトウェアアーキテクチャの理解に答えるよう求めた。 ベイジアン順序付きカテゴリー回帰を用いて回答品質に関連する要因を分析し,アーキテクチャ文書の形式とアーキテクチャ理解タスクの性能との間に有意な相関が認められなかった。 代わりに、システムのソースコードへの事前の露出は、答えの品質に関連する主要な要因であった。 また,活動の実施と作成を必要とする質問に対する回答は,質問への回答にシステムソースコードを使用することと統計的に有意な相関があったが,文書形式やシステムへの親密性は認められなかった。 ドキュメントフォーマットに関する主観的な感情は、同等だった: 多くの参加者は、構造化されたドキュメントのナビゲートが簡単で、コードを書くのに使えることに同意したが、この関係は統計的に重要ではなかった。 本研究の結果は, 限られた実験環境において, アーキテクチャ文書の形式が重要であるという仮説と矛盾するものである。 ソフトウェアアーキテクチャドキュメンテーションの効果的な利用に関連する重要な要素として、ソースコードへの事前の親しみと、要求されるアーキテクチャ情報の種類を挙げる。

Documentation is an important mechanism for disseminating software architecture knowledge. Software project teams can employ vastly different formats for documenting software architecture, from unstructured narratives to standardized documents. We explored to what extent this documentation format may matter to newcomers joining a software project and attempting to understand its architecture. We conducted a controlled questionnaire-based study wherein we asked 65 participants to answer software architecture understanding questions using one of two randomly-assigned documentation formats: narrative essays, and structured documents. We analyzed the factors associated with answer quality using a Bayesian ordered categorical regression and observed no significant association between the format of architecture documentation and performance on architecture understanding tasks. Instead, prior exposure to the source code of the system was the dominant factor associated with answer quality. We also observed that answers to questions that require applying and creating activities were statistically significantly associated with the use of the system's source code to answer the question, whereas the document format or level of familiarity with the system were not. Subjective sentiment about the documentation format was comparable: Although more participants agreed that the structured document was easier to navigate and use for writing code, this relation was not statistically significant. We conclude that, in the limited experimental context studied, our results contradict the hypothesis that the format of architectural documentation matters. We surface two more important factors related to effective use of software architecture documentation: prior familiarity with the source code, and the type of architectural information sought.
翻訳日:2023-10-24 05:15:40 公開日:2023-05-26
# 自動検証のための自動プログラムインスツルメンテーション(拡張技術報告)

Automatic Program Instrumentation for Automatic Verification (Extended Technical Report) ( http://arxiv.org/abs/2306.00004v1 )

ライセンス: Link先を確認
Jesper Amilon, Zafer Esen, Dilian Gurov, Christian Lidstr\"om, Philipp R\"ummer(参考訳) 帰納的検証とソフトウェアモデル検証では、バックエンドソルバが十分に強力でない場合や必要な理論が欠如している場合、特定の仕様言語構造を扱うことが問題となる。 この問題に対処する方法の1つは、検証のために、プログラムが問題のある構成物を使用しない同等のプログラムに変換し、代わりにその正しさを推論することである。 本稿では,既存の様々なアドホックアプローチを仮定し,明確な形式的正当性基準を持ち,自動的に適用でき,目撃者や反例を転送できる統一検証パラダイムとしての計測手法を提案する。 本稿では,配列上での定量化と集約処理を含むプログラムの自動検証について述べる。例えば,配列の各セグメントの要素の最大値や総和は,自動推論が困難であることが知られている。 配列アグリゲーション演算をモノイド準同型として定式化する。 本手法は,プログラムのアグリゲーションによる検証に適したMonoCeraツールに実装し,SV-COMPプログラムを含むサンプルプログラムで評価する。

In deductive verification and software model checking, dealing with certain specification language constructs can be problematic when the back-end solver is not sufficiently powerful or lacks the required theories. One way to deal with this is to transform, for verification purposes, the program to an equivalent one not using the problematic constructs, and to reason about its correctness instead. In this paper, we propose instrumentation as a unifying verification paradigm that subsumes various existing ad-hoc approaches, has a clear formal correctness criterion, can be applied automatically, and can transfer back witnesses and counterexamples. We illustrate our approach on the automated verification of programs that involve quantification and aggregation operations over arrays, such as the maximum value or sum of the elements in a given segment of the array, which are known to be difficult to reason about automatically. We formalise array aggregation operations as monoid homomorphisms. We implement our approach in the MonoCera tool, which is tailored to the verification of programs with aggregation, and evaluate it on example programs, including SV-COMP programs.
翻訳日:2023-10-24 04:56:37 公開日:2023-05-26
# MNIST手書きディジットにおける歪み画像のプルーニング

Pruning Distorted Images in MNIST Handwritten Digits ( http://arxiv.org/abs/2307.14343v1 )

ライセンス: Link先を確認
Amarnath R, Vinay Kumar V(参考訳) 手書き文字の認識は、主に書体の多様性とノイズの多い画像の存在のために難しい課題である。 このタスクのベンチマークとして一般的に使用される広く使用されているMNISTデータセットには、不規則な形状、不完全なストローク、トレーニングとテストの両方のデータセットの様々な歪がある。 したがって、これらの要因はデジタル認識の精度を低下させる。 この課題を克服するために,我々は2段階のディープラーニングアプローチを提案する。 第1段階では、トレーニングセット内の歪んだ数字を識別するシンプルなニューラルネットワークを作成します。 このモデルは、歪んだ不明瞭な画像を検出し、フィルタリングするのに役立つ。 第2段階では、これらの識別された画像をトレーニングデータセットから除外し、フィルタデータセットを使用してモデルを再トレーニングする。 このプロセスは、過フィッティングと過剰フィッティングの問題を緩和しながら、分類精度と信頼性レベルを改善することを目的としている。 実験の結果,提案手法の有効性が示され,テストデータセットの精度は99.5%以上となった。 この大幅な改善は、桁分類精度を高める方法の可能性を示している。 今後の課題として,本手法のスケーラビリティについて検討し,トレーニングデータのサイズを小さくすることで精度の向上を図る。

Recognizing handwritten digits is a challenging task primarily due to the diversity of writing styles and the presence of noisy images. The widely used MNIST dataset, which is commonly employed as a benchmark for this task, includes distorted digits with irregular shapes, incomplete strokes, and varying skew in both the training and testing datasets. Consequently, these factors contribute to reduced accuracy in digit recognition. To overcome this challenge, we propose a two-stage deep learning approach. In the first stage, we create a simple neural network to identify distorted digits within the training set. This model serves to detect and filter out such distorted and ambiguous images. In the second stage, we exclude these identified images from the training dataset and proceed to retrain the model using the filtered dataset. This process aims to improve the classification accuracy and confidence levels while mitigating issues of underfitting and overfitting. Our experimental results demonstrate the effectiveness of the proposed approach, achieving an accuracy rate of over 99.5% on the testing dataset. This significant improvement showcases the potential of our method in enhancing digit classification accuracy. In our future work, we intend to explore the scalability of this approach and investigate techniques to further enhance accuracy by reducing the size of the training data.
翻訳日:2023-10-23 16:09:38 公開日:2023-05-26
# AaKOS: アスペクト適応型知識ベースオピニオン要約

AaKOS: Aspect-adaptive Knowledge-based Opinion Summarization ( http://arxiv.org/abs/2306.05537v1 )

ライセンス: Link先を確認
Guan Wang, Weihua Li, Edmund M-K. Lai, Quan Bai(参考訳) インターネット上の情報の急速な成長は、様々な活動、製品、サービスに関する圧倒的な量の意見やコメントを生み出した。 これにより、ユーザが意思決定時に利用可能なすべての情報を処理するのが難しく、時間がかかります。 自然言語処理(NLP)タスクであるテキスト要約は、長い文書や複数の文書から短文や有能なコンテンツを生成することで、ユーザが関連情報を素早く検索するのを助けるために広く研究されている。 ChatGPTのような事前学習言語モデルの最近の進歩は、テキスト生成におけるLLM(Large Language Models)の可能性を示している。 しかし、LLMは大量のデータとリソースを必要とし、オフラインアプリケーションとして実装することは困難である。 さらに、既存のテキスト要約アプローチは、意見要約の様々な側面を捉えるのに必要な「適応的」な性質を欠いていることが多い。 本稿では,意見要約に必要な適応的性質を効果的に捉えた製品レビューのための,アスペクト適応型知識に基づく意見要約モデルを提案する。 モデルは、特定の製品に対するレビューのセットが与えられたアスペクト指向の要約を生成し、ユーザーが興味を持っている特定の側面について有用な情報を効率的に提供し、生成された要約がよりパーソナライズされ、情報的であることを保証します。 提案モデルを評価するために,実世界のデータセットを用いた広範な実験が行われている。 その結果,我々のモデルは最先端のアプローチよりも優れており,特定の側面に焦点を当てた要約を生成するのに適応的かつ効率的であることが判明した。

The rapid growth of information on the Internet has led to an overwhelming amount of opinions and comments on various activities, products, and services. This makes it difficult and time-consuming for users to process all the available information when making decisions. Text summarization, a Natural Language Processing (NLP) task, has been widely explored to help users quickly retrieve relevant information by generating short and salient content from long or multiple documents. Recent advances in pre-trained language models, such as ChatGPT, have demonstrated the potential of Large Language Models (LLMs) in text generation. However, LLMs require massive amounts of data and resources and are challenging to implement as offline applications. Furthermore, existing text summarization approaches often lack the ``adaptive" nature required to capture diverse aspects in opinion summarization, which is particularly detrimental to users with specific requirements or preferences. In this paper, we propose an Aspect-adaptive Knowledge-based Opinion Summarization model for product reviews, which effectively captures the adaptive nature required for opinion summarization. The model generates aspect-oriented summaries given a set of reviews for a particular product, efficiently providing users with useful information on specific aspects they are interested in, ensuring the generated summaries are more personalized and informative. Extensive experiments have been conducted using real-world datasets to evaluate the proposed model. The results demonstrate that our model outperforms state-of-the-art approaches and is adaptive and efficient in generating summaries that focus on particular aspects, enabling users to make well-informed decisions and catering to their diverse interests and preferences.
翻訳日:2023-06-18 13:10:11 公開日:2023-05-26
# deepseanet: efficientdetによる水中物体検出の改善

DeepSeaNet: Improving Underwater Object Detection using EfficientDet ( http://arxiv.org/abs/2306.06075v1 )

ライセンス: Link先を確認
Sanyam Jain(参考訳) 海洋生物や深海生物は、水生生物の安全を認識し監視することは困難である。 水が粒状粒子と不純物で塩分である場合、課題が増えている。 このような自然な逆境環境では、CNNのような従来のアプローチは失敗し始め、計算に費用がかかる。 このプロジェクトでは,Brackish-Datasetと呼ばれる既存の注釈付き水中データセット上に,EfficientDet, YOLOv5, YOLOv8, Detectron2など,さまざまなオブジェクト検出モデルを実装し,評価する。 このデータセットは、Limfjorden水中で捕獲された魚、カニ、ヒトデ、その他の水生動物の注釈画像からなる。 本研究の目的は,同一データセット上での新しいモデルの効率を検証し,その精度と推定時間に基づいて先行する結果と比較することである。 まず、同じデータセット上で、YOLOv3 (31.10%平均平均精度)、YOLOv4 (83.72% mAP)、YOLOv5 (97.6%)、YOLOv8 (98.20%)、EfficientDet (98.56% mAP)、Dectorron2 (95.20% mAP)の結果を比較します。 第2に、逆方向雑音の複雑な特徴融合を行うためのBiSkFPN機構(BiFPNネックとスキップ接続)を改良し、改良されたEfficientDetを摂動に頑健にする。 第3に,adversarial learning (98.04% map) による効率的なdet (98.63% map) とyolov5の精度への影響を分析した。 最後に、ブラックボックスモデルの説明可能性を促進するために、2つのモデルにクラスアクティベーションマップベース説明(cam)を提供します。 総じて、modified efficientdetは、88.54%のフィーチャマップを持つ他のモデルよりも、5倍のクロスバリデーションで高い精度を達成したことを示している。

Marine animals and deep underwater objects are difficult to recognize and monitor for safety of aquatic life. There is an increasing challenge when the water is saline with granular particles and impurities. In such natural adversarial environment, traditional approaches like CNN start to fail and are expensive to compute. This project involves implementing and evaluating various object detection models, including EfficientDet, YOLOv5, YOLOv8, and Detectron2, on an existing annotated underwater dataset, called the Brackish-Dataset. The dataset comprises annotated image sequences of fish, crabs, starfish, and other aquatic animals captured in Limfjorden water with limited visibility. The aim of this research project is to study the efficiency of newer models on the same dataset and contrast them with the previous results based on accuracy and inference time. Firstly, I compare the results of YOLOv3 (31.10% mean Average Precision (mAP)), YOLOv4 (83.72% mAP), YOLOv5 (97.6%), YOLOv8 (98.20%), EfficientDet (98.56% mAP) and Detectron2 (95.20% mAP) on the same dataset. Secondly, I provide a modified BiSkFPN mechanism (BiFPN neck with skip connections) to perform complex feature fusion in adversarial noise which makes modified EfficientDet robust to perturbations. Third, analyzed the effect on accuracy of EfficientDet (98.63% mAP) and YOLOv5 by adversarial learning (98.04% mAP). Last, I provide class activation map based explanations (CAM) for the two models to promote Explainability in black box models. Overall, the results indicate that modified EfficientDet achieved higher accuracy with five-fold cross validation than the other models with 88.54% IoU of feature maps.
翻訳日:2023-06-18 13:00:57 公開日:2023-05-26
# 深さと正規レンダリングによるカードラッグ係数のサロゲートモデリング

Surrogate Modeling of Car Drag Coefficient with Depth and Normal Renderings ( http://arxiv.org/abs/2306.06110v1 )

ライセンス: Link先を確認
Binyang Song, Chenyang Yuan, Frank Permenter, Nikos Arechiga, Faez Ahmed(参考訳) 生成型AIモデルは、自動車設計を変革する可能性を持つ3D形状の自動生成において、大きな進歩を遂げている。 エンジニアリングの設計と最適化では、エンジニアリングメトリクスの評価が重要です。 生成モデルの性能を意識し、高パフォーマンスな設計を可能にするためには、これらのメトリクスのサロゲートモデリングが必要である。 しかし、現在使われている3次元形状の表現は、膨大な計算資源を必要とするか、重要な情報損失に悩まされるかのいずれかであり、代理モデリングにおけるそれらの効果を損なう。 この問題に対処するため,我々は3次元形状の新しい2次元表現を提案する。 本研究では,この表現に基づくサロゲート・ドラッグモデルを開発し,その3次元車両の抗力予測の有効性を検証する。 計算流体力学(CFD)シミュレーションから計算したドラッグ係数によってラベル付けされた9,070個の高品質な3Dカーメッシュの多種多様なデータセットを構築し、モデルを訓練する。 実験により,車種別0.84以上のR^2$値のドラッグ係数を精度良く,効率的に評価できることを示した。 さらに,提案手法は車以外の多くの製品カテゴリに一般化することができる。 我々のモデルはディープニューラルネットワークを用いて実装されており、最近のAI画像生成ツール(安定化拡散など)と互換性があり、ドラッグ最適化カーデザインの自動生成に向けた重要なステップである。 データセットとコードをhttps://decode.mit.edu/projects/dragprediction/で公開しました。

Generative AI models have made significant progress in automating the creation of 3D shapes, which has the potential to transform car design. In engineering design and optimization, evaluating engineering metrics is crucial. To make generative models performance-aware and enable them to create high-performing designs, surrogate modeling of these metrics is necessary. However, the currently used representations of three-dimensional (3D) shapes either require extensive computational resources to learn or suffer from significant information loss, which impairs their effectiveness in surrogate modeling. To address this issue, we propose a new two-dimensional (2D) representation of 3D shapes. We develop a surrogate drag model based on this representation to verify its effectiveness in predicting 3D car drag. We construct a diverse dataset of 9,070 high-quality 3D car meshes labeled by drag coefficients computed from computational fluid dynamics (CFD) simulations to train our model. Our experiments demonstrate that our model can accurately and efficiently evaluate drag coefficients with an $R^2$ value above 0.84 for various car categories. Moreover, the proposed representation method can be generalized to many other product categories beyond cars. Our model is implemented using deep neural networks, making it compatible with recent AI image generation tools (such as Stable Diffusion) and a significant step towards the automatic generation of drag-optimized car designs. We have made the dataset and code publicly available at https://decode.mit.edu/projects/dragprediction/.
翻訳日:2023-06-18 12:51:54 公開日:2023-05-26
# 脆弱性パターンの量子化とステートメントレベル脆弱性のマッチングの学習

Learning to Quantize Vulnerability Patterns and Match to Locate Statement-Level Vulnerabilities ( http://arxiv.org/abs/2306.06109v1 )

ライセンス: Link先を確認
Michael Fu, Trung Le, Van Nguyen, Chakkrit Tantithamthavorn, Dinh Phung(参考訳) ディープラーニング(DL)モデルは、ソフトウェア脆弱性の特定において、ますます人気が高まっている。 以前の研究では、異なる脆弱性プログラムにまたがる脆弱性は、同様に脆弱なスコープを示し、教師付きトレーニングを通じてDLモデルによって学習できる識別可能な脆弱性パターンを暗黙的に形成することを発見した。 しかしながら、脆弱なスコープはプログラム内の様々な空間的場所やフォーマットにまだ現れており、脆弱なステートメントを正確に識別するモデルの課題を提起している。 この課題にもかかわらず、最先端の脆弱性検出アプローチは、脆弱なプログラムで発生する脆弱性パターンを悪用しない。 本稿では,脆弱性パターンをフル活用し,DLモデルの能力を解き放つために,事前に定義されたパターンに基づいて脆弱性を検出するプログラム解析ツールから着想を得た,新たな脆弱性マッチング手法を提案する。 具体的には、さまざまな脆弱性パターンを表す量子化されたベクトルからなる脆弱性コードブックが学習される。 推論中、コードブックは学習したすべてのパターンにマッチし、プログラム内の潜在的な脆弱性を予測できるように反復される。 提案手法は188,000以上のc/c++関数からなる実世界のデータセット上で広く評価された。 評価の結果,f1-scoreは94%(前者より6%高い),82%(前者より19%高い)の関数と文レベルの脆弱性識別を達成できた。 これらの大幅な強化は、脆弱性を特定するアプローチの有効性を強調します。 トレーニングコードと事前トレーニングされたモデルは、https://github.com/optimatch/optimatch.comで入手できる。

Deep learning (DL) models have become increasingly popular in identifying software vulnerabilities. Prior studies found that vulnerabilities across different vulnerable programs may exhibit similar vulnerable scopes, implicitly forming discernible vulnerability patterns that can be learned by DL models through supervised training. However, vulnerable scopes still manifest in various spatial locations and formats within a program, posing challenges for models to accurately identify vulnerable statements. Despite this challenge, state-of-the-art vulnerability detection approaches fail to exploit the vulnerability patterns that arise in vulnerable programs. To take full advantage of vulnerability patterns and unleash the ability of DL models, we propose a novel vulnerability-matching approach in this paper, drawing inspiration from program analysis tools that locate vulnerabilities based on pre-defined patterns. Specifically, a vulnerability codebook is learned, which consists of quantized vectors representing various vulnerability patterns. During inference, the codebook is iterated to match all learned patterns and predict the presence of potential vulnerabilities within a given program. Our approach was extensively evaluated on a real-world dataset comprising more than 188,000 C/C++ functions. The evaluation results show that our approach achieves an F1-score of 94% (6% higher than the previous best) and 82% (19% higher than the previous best) for function and statement-level vulnerability identification, respectively. These substantial enhancements highlight the effectiveness of our approach to identifying vulnerabilities. The training code and pre-trained models are available at https://github.com/optimatch/optimatch.
翻訳日:2023-06-18 12:51:32 公開日:2023-05-26
# ファイナル層インバージョンによる単一モデル帰属

Single-Model Attribution via Final-Layer Inversion ( http://arxiv.org/abs/2306.06210v1 )

ライセンス: Link先を確認
Mike Laszkiewicz, Jonas Ricker, Johannes Lederer, Asja Fischer(参考訳) 生成モデルに関する最近の画期的な発展は、実用的な単一モデル属性への関心を喚起している。 このような方法は、サンプルが特定のジェネレータによって生成されたかどうかを予測し、例えば知的財産の盗難を証明する。 しかし、以前の作品はクローズドワールドの設定に限られるか、生成モデルの望ましくない変更を必要とする。 最終層逆転と異常検出に基づくオープンワールド環境における単一モデル属性に対する新しいアプローチであるFLIPADを提案することで、これらの欠点に対処する。 得られた最終層インバージョンを凸ラッソ最適化問題に還元し,理論的に健全で計算効率がよいことを示す。 提案手法の有効性を実験的に検証し,既存手法よりも優れた結果を得た。

Recent groundbreaking developments on generative modeling have sparked interest in practical single-model attribution. Such methods predict whether a sample was generated by a specific generator or not, for instance, to prove intellectual property theft. However, previous works are either limited to the closed-world setting or require undesirable changes of the generative model. We address these shortcomings by proposing FLIPAD, a new approach for single-model attribution in the open-world setting based on final-layer inversion and anomaly detection. We show that the utilized final-layer inversion can be reduced to a convex lasso optimization problem, making our approach theoretically sound and computationally efficient. The theoretical findings are accompanied by an experimental study demonstrating the effectiveness of our approach, outperforming the existing methods.
翻訳日:2023-06-18 12:41:32 公開日:2023-05-26
# 機械学習を用いたChatGPT生成テキストからの人物生成テキストの識別

Distinguishing Human Generated Text From ChatGPT Generated Text Using Machine Learning ( http://arxiv.org/abs/2306.01761v1 )

ライセンス: Link先を確認
Niful Islam, Debopom Sutradhar, Humaira Noor, Jarin Tasnim Raya, Monowara Tabassum Maisha, Dewan Md Farid(参考訳) ChatGPTは対話型人工知能であり、大きな言語モデルファミリーの生成前訓練されたトランスフォーマーのメンバーである。 このテキスト生成モデルは教師付き学習と強化学習の両方によって微調整され、自然知性によって書かれたと思われる文書を作成できる。 この生成モデルには多くの利点があるが、いくつかの合理的な懸念もある。 本稿では,ChatGPTが提供したテキストを人間の文章から識別し,その分類過程における機械学習とディープラーニングのアルゴリズムの合計11点の比較分析を行う。 我々は、提案したモデルをKaggleデータセット上でテストし、そのうち5,204個のテキストが人間によって書かれ、ニュースやソーシャルメディアから収集された。 GPT-3.5で生成されたコーパスでは,提案アルゴリズムの精度は77%である。

ChatGPT is a conversational artificial intelligence that is a member of the generative pre-trained transformer of the large language model family. This text generative model was fine-tuned by both supervised learning and reinforcement learning so that it can produce text documents that seem to be written by natural intelligence. Although there are numerous advantages of this generative model, it comes with some reasonable concerns as well. This paper presents a machine learning-based solution that can identify the ChatGPT delivered text from the human written text along with the comparative analysis of a total of 11 machine learning and deep learning algorithms in the classification process. We have tested the proposed model on a Kaggle dataset consisting of 10,000 texts out of which 5,204 texts were written by humans and collected from news and social media. On the corpus generated by GPT-3.5, the proposed algorithm presents an accuracy of 77%.
翻訳日:2023-06-11 13:56:43 公開日:2023-05-26
# 共有感覚による共生人工知能による人間の能力向上

Enhancing Human Capabilities through Symbiotic Artificial Intelligence with Shared Sensory Experiences ( http://arxiv.org/abs/2305.19278v1 )

ライセンス: Link先を確認
Rui Hao, Dianbo Liu, Linmei Hu(参考訳) 人工知能と人工知能の融合は、長い間、SFとアカデミックの両方への関心の対象であった。 本稿では,共生人工知能と共有感覚体験(SAISSE)という,人間とAIのインタラクションにおける新しい概念を紹介する。 複数の感覚入力チャネルを統合し、人間の体験を処理することで、SAISSEは強力な人間とAIの結合を育み、AIシステムが個々のユーザーから学び、適応し、パーソナライズされたサポート、支援、強化を提供する。 さらに,AIシステムとユーザの両方の長期的な成長と開発のためのメモリストレージユニットの導入についても論じる。 ユーザのプライバシと倫理的ガイドラインに対処すると同時に、AI-ヒューマン共生の潜在的なバイアスや不平等についても検討し、これらの課題を緩和するための戦略を提案します。 本研究の目的は,SAISSEの概念の包括的理解と,共生型AIシステムを通じて個人ユーザを効果的に支援し,強化する可能性を提供することである。 本稿は,実験的あるいは理論的結果を提供するのではなく,AIと人間の相互作用に関連するトピックを科学的コミュニティ内で議論することを目的とする。

The merging of human intelligence and artificial intelligence has long been a subject of interest in both science fiction and academia. In this paper, we introduce a novel concept in Human-AI interaction called Symbiotic Artificial Intelligence with Shared Sensory Experiences (SAISSE), which aims to establish a mutually beneficial relationship between AI systems and human users through shared sensory experiences. By integrating multiple sensory input channels and processing human experiences, SAISSE fosters a strong human-AI bond, enabling AI systems to learn from and adapt to individual users, providing personalized support, assistance, and enhancement. Furthermore, we discuss the incorporation of memory storage units for long-term growth and development of both the AI system and its human user. As we address user privacy and ethical guidelines for responsible AI-human symbiosis, we also explore potential biases and inequalities in AI-human symbiosis and propose strategies to mitigate these challenges. Our research aims to provide a comprehensive understanding of the SAISSE concept and its potential to effectively support and enhance individual human users through symbiotic AI systems. This position article aims at discussing poteintial AI-human interaction related topics within the scientific community, rather than providing experimental or theoretical results.
翻訳日:2023-06-04 11:11:23 公開日:2023-05-26
# SQL-PaLM: テキストからSQLへの大規模言語モデル適応の改善

SQL-PaLM: Improved Large Language ModelAdaptation for Text-to-SQL ( http://arxiv.org/abs/2306.00739v1 )

ライセンス: Link先を確認
Ruoxi Sun, Sercan O Arik, Hootan Nakhost, Hanjun Dai, Rajarishi Sinha, Pengcheng Yin, Tomas Pfister(参考訳) 大きな言語モデル(LLM)の目覚ましい機能の1つは、データベース用の構造化クエリ言語(SQL)を含むコードの生成である。 自然言語テキストをSQLクエリに変換するタスクでは、テキストからSQLへの変換、LLMの適応は、使用する適応データ量に応じて、コンテキスト内学習と微調整設定の両方において最重要となる。 本稿では,PaLM-2 を利用した LLM ベースの Text-to-SQL モデル SQL-PaLM を提案する。 Few-shot SQL-PaLMは、Text-to-SQL用に設計された実行ベースの自己整合性プロンプトアプローチに基づいており、Spiderで77.3%の精度を実現している。 さらに、微調整SQL-PALMがさらに1%向上することを示した。 SQL-PaLMを現実のシナリオに適用する上で、他の課題であるSpiderの堅牢性をさらに評価し、SQL-PaLMの優れた一般化能力を実証する。 さらに,広範なケーススタディを通じて,llmベースのテキスト・ツー・sqlの知的能力と様々な成功可能性を示す。

One impressive emergent capability of large language models (LLMs) is generation of code, including Structured Query Language (SQL) for databases. For the task of converting natural language text to SQL queries, Text-to-SQL, adaptation of LLMs is of paramount importance, both in in-context learning and fine-tuning settings, depending on the amount of adaptation data used. In this paper, we propose an LLM-based Text-to-SQL model SQL-PaLM, leveraging on PaLM-2, that pushes the state-of-the-art in both settings. Few-shot SQL-PaLM is based on an execution-based self-consistency prompting approach designed for Text-to-SQL, and achieves 77.3% in test-suite accuracy on Spider, which to our best knowledge is the first to outperform previous state-of-the-art with fine-tuning by a significant margin, 4%. Furthermore, we demonstrate that the fine-tuned SQL-PALM outperforms it further by another 1%. Towards applying SQL-PaLM to real-world scenarios we further evaluate its robustness on other challenging variants of Spider and demonstrate the superior generalization capability of SQL-PaLM. In addition, via extensive case studies, we demonstrate the impressive intelligent capabilities and various success enablers of LLM-based Text-to-SQL.
翻訳日:2023-06-04 11:02:14 公開日:2023-05-26
# マルチモダリティデータを用いた大言語モデルによるアルツハイマー病診断の改善

Large language models improve Alzheimer's disease diagnosis using multi-modality data ( http://arxiv.org/abs/2305.19280v1 )

ライセンス: Link先を確認
Yingjie Feng, Jun Wang, Xianfeng Gu, Xiaoyin Xu, and Min Zhang(参考訳) アルツハイマー病(AD)などの難病の診断においては,画像診断が重要である。 患者情報、遺伝子データ、薬物情報、認知検査、記憶検査などの非画像データも、診断において非常に重要な役割を果たす。 エフェクト。 しかし、そのような情報をマイニングする人工知能モデルの能力によって制限されるため、既存のモデルのほとんどはマルチモーダル画像データのみを使用し、非画像データを完全に利用することはできない。 我々は、現在非常に人気のある訓練済みの大規模言語モデル(LLM)を使用して、非画像データを利用するモデルの能力を高め、ADNIデータセット上でSOTA結果を得た。

In diagnosing challenging conditions such as Alzheimer's disease (AD), imaging is an important reference. Non-imaging patient data such as patient information, genetic data, medication information, cognitive and memory tests also play a very important role in diagnosis. Effect. However, limited by the ability of artificial intelligence models to mine such information, most of the existing models only use multi-modal image data, and cannot make full use of non-image data. We use a currently very popular pre-trained large language model (LLM) to enhance the model's ability to utilize non-image data, and achieved SOTA results on the ADNI dataset.
翻訳日:2023-06-04 10:59:18 公開日:2023-05-26
# 計算力学におけるデータ駆動ゲーム

Data-Driven Games in Computational Mechanics ( http://arxiv.org/abs/2305.19279v1 )

ライセンス: Link先を確認
Kerstin Weinberg, Laurent Strainier, Sergio Conti, Michael Ortiz(参考訳) ストレスとひずみのプレイヤーが異なる目的を追求する固体力学のデータ駆動法を定式化するためにゲーム理論を用いる。 ストレスプレイヤの目的は、材料データセットとの相違を最小限に抑えることであり、ストレインプレイヤの目的は、互換性と平衡の観点から機械的状態の許容性を保証することである。 これまで提案してきた協調型データ駆動型ゲームとは異なり,非協力型データ駆動型ゲームはデータから有効な物質則を識別し,従来の変位境界値問題に還元し,実用的実装を容易にする。 しかし、教師付き機械学習法とは異なり、非協力的なデータ駆動型ゲームは教師なし、アンサッツフリー、パラメータフリーである。 特に、有効物質法則は、ニューラルネットワークのようなパラメータ化された関数のクラスへの回帰に関係なく、データから直接学習される。 データに対するデータ駆動型ソリューションの収束のための十分な条件を解明する分析を行う。 また,提案手法の適用範囲と汎用性を示す実装とアプリケーションの選択例を示す。

We resort to game theory in order to formulate Data-Driven methods for solid mechanics in which stress and strain players pursue different objectives. The objective of the stress player is to minimize the discrepancy to a material data set, whereas the objective of the strain player is to ensure the admissibility of the mechanical state, in the sense of compatibility and equilibrium. We show that, unlike the cooperative Data-Driven games proposed in the past, the new non-cooperative Data-Driven games identify an effective material law from the data and reduce to conventional displacement boundary-value problems, which facilitates their practical implementation. However, unlike supervised machine learning methods, the proposed non-cooperative Data-Driven games are unsupervised, ansatz-free and parameter-free. In particular, the effective material law is learned from the data directly, without recourse to regression to a parameterized class of functions such as neural networks. We present analysis that elucidates sufficient conditions for convergence of the Data-Driven solutions with respect to the data. We also present selected examples of implementation and application that demonstrate the range and versatility of the approach.
翻訳日:2023-06-04 10:59:07 公開日:2023-05-26
# 近位初期化による拡散モデルの効率的なメンバーシップ推論攻撃

An Efficient Membership Inference Attack for the Diffusion Model by Proximal Initialization ( http://arxiv.org/abs/2305.18355v1 )

ライセンス: Link先を確認
Fei Kong, Jinhao Duan, RuiPeng Ma, Hengtao Shen, Xiaofeng Zhu, Xiaoshuang Shi, Kaidi Xu(参考訳) 近年,拡散モデルが画像や音声などのタスク生成に多大な成功を収めている。 しかし、他の生成モデルと同様に、拡散モデルはプライバシーの問題を引き起こす。 本稿では,$t=0$で初期化される$\epsilon$で得られた基底軌道を利用して,メンバシップを推定する,効率的なクエリベースメンバシップ推論攻撃(mia),すなわち近位初期化攻撃(pia)を提案する。 実験結果から,提案手法は離散時間と連続時間の両方の拡散モデル上で,2つのクエリで競合性能を達成できることが示唆された。 さらに,従来の拡散モデルのプライバシに関する研究は,音声タスクを考慮せずに視覚タスクに焦点を合わせてきた。 そこで本研究では,音声生成タスクであるTTSタスクにおいて,MIAへの拡散モデルの堅牢性についても検討する。 我々の知る限り、この研究は、TSタスクにおけるMIAへの拡散モデルのロバスト性を研究する最初のものである。 実験の結果,Mel-spectrogram (image-like)出力のモデルはMIAに対して脆弱であり,オーディオ出力のモデルはMIAに対して比較的堅牢であることがわかった。 {Code は \url{https://github.com/kong13661/PIA}} で利用できる。

Recently, diffusion models have achieved remarkable success in generating tasks, including image and audio generation. However, like other generative models, diffusion models are prone to privacy issues. In this paper, we propose an efficient query-based membership inference attack (MIA), namely Proximal Initialization Attack (PIA), which utilizes groundtruth trajectory obtained by $\epsilon$ initialized in $t=0$ and predicted point to infer memberships. Experimental results indicate that the proposed method can achieve competitive performance with only two queries on both discrete-time and continuous-time diffusion models. Moreover, previous works on the privacy of diffusion models have focused on vision tasks without considering audio tasks. Therefore, we also explore the robustness of diffusion models to MIA in the text-to-speech (TTS) task, which is an audio generation task. To the best of our knowledge, this work is the first to study the robustness of diffusion models to MIA in the TTS task. Experimental results indicate that models with mel-spectrogram (image-like) output are vulnerable to MIA, while models with audio output are relatively robust to MIA. {Code is available at \url{https://github.com/kong13661/PIA}}.
翻訳日:2023-05-31 22:24:20 公開日:2023-05-26
# llmと抽象化と推論コーパス : 成功、失敗、およびオブジェクト指向表現の重要性

LLMs and the Abstraction and Reasoning Corpus: Successes, Failures, and the Importance of Object-based Representations ( http://arxiv.org/abs/2305.18354v1 )

ライセンス: Link先を確認
Yudong Xu, Wenhao Li, Pashootan Vaezipoor, Scott Sanner, Elias B. Khalil(参考訳) 大言語モデル(LLM)は単純な抽象的推論問題を解くことができるか? 本稿では,抽象・推論コーパス(ARC)におけるGPTの体系的解析を通じて,対象,目標状態,カウント,基本幾何学といった概念の「中核的な知識」を必要とする限定例から,抽象推論能力の代表的なベンチマークである。 GPT-4は、2次元の入力出力グリッドに対してテキストエンコーディングを使用する場合、最も簡単なARCタスクの13/50しか解決しない。 故障解析の結果,GPT-4のオブジェクトを識別する能力は,タスクのテキストエンコーディング内のオブジェクトを表すテキストのシーケンシャルな性質に大きく影響されていることが明らかとなった。 この仮説を検証するために、GPTに基づく推論よりも1次元(アレイのような)タスクで構成された新しいベンチマークである1D-ARCを設計し、実際は(2D)ARCよりも優れた性能を発揮する。 この問題を軽減するために,外部ツールによるオブジェクトベース表現を提案し,解決されたarcタスクのパフォーマンスと,より簡単な1d-arcでのほぼ完全なスコアをほぼ倍増させる。 最先端の GPT-4 は 1D-ARC や単純な ARC サブセットのような非言語領域で完全に「推論」できないが,オブジェクトベース表現の使用は推論能力を大幅に向上させることができる。 可視化、GPTログ、データはhttps://khalil-research.github.io/LLM4ARCで公開されている。

Can a Large Language Model (LLM) solve simple abstract reasoning problems? We explore this broad question through a systematic analysis of GPT on the Abstraction and Reasoning Corpus (ARC), a representative benchmark of abstract reasoning ability from limited examples in which solutions require some "core knowledge" of concepts such as objects, goal states, counting, and basic geometry. GPT-4 solves only 13/50 of the most straightforward ARC tasks when using textual encodings for their two-dimensional input-output grids. Our failure analysis reveals that GPT-4's capacity to identify objects and reason about them is significantly influenced by the sequential nature of the text that represents an object within a text encoding of a task. To test this hypothesis, we design a new benchmark, the 1D-ARC, which consists of one-dimensional (array-like) tasks that are more conducive to GPT-based reasoning, and where it indeed performs better than on the (2D) ARC. To alleviate this issue, we propose an object-based representation that is obtained through an external tool, resulting in nearly doubling the performance on solved ARC tasks and near-perfect scores on the easier 1D-ARC. Although the state-of-the-art GPT-4 is unable to "reason" perfectly within non-language domains such as the 1D-ARC or a simple ARC subset, our study reveals that the use of object-based representations can significantly improve its reasoning ability. Visualizations, GPT logs, and data are available at https://khalil-research.github.io/LLM4ARC.
翻訳日:2023-05-31 22:23:57 公開日:2023-05-26
# 前向きアルゴリズムで学習したネットワークにおける創発的表現

Emergent representations in networks trained with the Forward-Forward algorithm ( http://arxiv.org/abs/2305.18353v1 )

ライセンス: Link先を確認
Niccol\`o Tosato, Lorenzo Basile, Emanuele Ballarin, Giuseppe de Alteriis, Alberto Cazzaniga, Alessio Ansuini(参考訳) ニューラルネットワークのトレーニングに広く用いられているバックプロパゲーションアルゴリズムは、生物学的リアリズムの欠如をしばしば批判されている。 最近導入されたForward-Forwardアルゴリズムは、より生物学的に妥当な代替手段を見つけ、局所的な学習規則を使うためにバックプロパゲーション勾配を避けるために、従来のフォワードパスとバックプロパゲーションパスを2つのフォワードパスで置き換える。 本研究では,フォワードアルゴリズムで得られた内部表現を,極めて少ない数のアクティブユニット(高いスパーシティ)で構成した頑健なカテゴリ特異的アンサンブルに構成することを示す。 これは感覚処理中に皮質表現で観察されるものと著しく類似している。 標準的なバックプロパゲーションでトレーニングされたモデルには見られないが、バックプロパゲーションによって最適化されたネットワークでも、フォワードと同じトレーニング目標でsparsityが現れる。 これらの結果から, 後進パスを用いた場合においても, フォワードが提案する学習手順は, 大脳皮質のモデリング学習において, バックプロパゲーションよりも優れている可能性が示唆された。

The Backpropagation algorithm, widely used to train neural networks, has often been criticised for its lack of biological realism. In an attempt to find a more biologically plausible alternative, and avoid to back-propagate gradients in favour of using local learning rules, the recently introduced Forward-Forward algorithm replaces the traditional forward and backward passes of Backpropagation with two forward passes. In this work, we show that internal representations obtained with the Forward-Forward algorithm organize into robust, category-specific ensembles, composed by an extremely low number of active units (high sparsity). This is remarkably similar to what is observed in cortical representations during sensory processing. While not found in models trained with standard Backpropagation, sparsity emerges also in networks optimized by Backpropagation, on the same training objective of Forward-Forward. These results suggest that the learning procedure proposed by Forward-Forward may be superior to Backpropagation in modelling learning in the cortex, even when a backward pass is used.
翻訳日:2023-05-31 22:23:25 公開日:2023-05-26
# 多視点特徴選択のための多目的遺伝的アルゴリズム

Multi-Objective Genetic Algorithm for Multi-View Feature Selection ( http://arxiv.org/abs/2305.18352v1 )

ライセンス: Link先を確認
Vandad Imani, Carlos Sevilla-Salcedo, Vittorio Fortino, and Jussi Tohka(参考訳) マルチビューデータセットは、補完情報を提供することで予測モデルを強化するさまざまな形式のデータを提供する。 しかし、多視点データの利用は高次元データの増加につながるため、予測モデルに大きな課題が生じ、一般化の低さにつながる。 したがって、マルチビューデータセットからの適切な特徴選択は、貧弱な一般化に対処するだけでなく、モデルの解釈可能性を高めるために重要である。 従来の特徴選択法の成功にもかかわらず、それらはモダリティにまたがる本質的な情報の活用に限界があり、一般化性に欠け、特定の分類タスクに適合する。 本稿では,従来の特徴選択手法の制約を克服する新しい遺伝的アルゴリズム戦略を提案する。 提案手法はMulti-view multi-jective feature selection genetic algorithm (MMFS-GA) と呼ばれ、ビュー内の特徴の最適なサブセットと統合されたフレームワークによるビューを同時に選択する。 MMFS-GAフレームワークは、バイナリとマルチクラスの両方の分類タスクにおいて、多視点データセットにおける特徴選択の優れたパフォーマンスと解釈可能性を示す。 合成データと実データを含む3つのベンチマークデータセットの評価結果から,最良基準法よりも優れた結果が得られた。 この作業は、マルチビュー機能選択のための有望なソリューションを提供し、マルチビューデータセットのさらなる研究のための新たな可能性を開く。

Multi-view datasets offer diverse forms of data that can enhance prediction models by providing complementary information. However, the use of multi-view data leads to an increase in high-dimensional data, which poses significant challenges for the prediction models that can lead to poor generalization. Therefore, relevant feature selection from multi-view datasets is important as it not only addresses the poor generalization but also enhances the interpretability of the models. Despite the success of traditional feature selection methods, they have limitations in leveraging intrinsic information across modalities, lacking generalizability, and being tailored to specific classification tasks. We propose a novel genetic algorithm strategy to overcome these limitations of traditional feature selection methods for multi-view data. Our proposed approach, called the multi-view multi-objective feature selection genetic algorithm (MMFS-GA), simultaneously selects the optimal subset of features within a view and between views under a unified framework. The MMFS-GA framework demonstrates superior performance and interpretability for feature selection on multi-view datasets in both binary and multiclass classification tasks. The results of our evaluations on three benchmark datasets, including synthetic and real data, show improvement over the best baseline methods. This work provides a promising solution for multi-view feature selection and opens up new possibilities for further research in multi-view datasets.
翻訳日:2023-05-31 22:23:05 公開日:2023-05-26
# オープンワールド製品属性マイニングに向けて:軽監督アプローチ

Towards Open-World Product Attribute Mining: A Lightly-Supervised Approach ( http://arxiv.org/abs/2305.18350v1 )

ライセンス: Link先を確認
Liyan Xu, Chenwei Zhang, Xian Li, Jingbo Shang, Jinho D. Choi(参考訳) 本研究では,電子商取引製品における属性マイニングのための新たなタスクセットを提案し,人的介入を伴わずにオープンワールド属性を抽出する実践的なソリューションとして機能する。 我々の監督は、既存のリソースからブートストラップされた高品質なシード属性セットから来ており、既存のシードタイプの属性語彙を拡張し、新しい属性タイプを自動的に発見することを目的としています。 我々の設定をサポートするために新しいデータセットが作成され、限定的な監督に取り組むために、我々のアプローチであるAmacerが特に提案されている。 特に,新たな属性に対して直接の監視ができないことを考えると,新たな定式化では自己監督型ヒューリスティックおよび非教師なし潜在属性を活用できる。 実験の結果,提案手法は様々なベースラインを12f1で上回り,既存型の属性を最大12倍に拡大し,新たに39%の型から値を見出した。

We present a new task setting for attribute mining on e-commerce products, serving as a practical solution to extract open-world attributes without extensive human intervention. Our supervision comes from a high-quality seed attribute set bootstrapped from existing resources, and we aim to expand the attribute vocabulary of existing seed types, and also to discover any new attribute types automatically. A new dataset is created to support our setting, and our approach Amacer is proposed specifically to tackle the limited supervision. Especially, given that no direct supervision is available for those unseen new attributes, our novel formulation exploits self-supervised heuristic and unsupervised latent attributes, which attains implicit semantic signals as additional supervision by leveraging product context. Experiments suggest that our approach surpasses various baselines by 12 F1, expanding attributes of existing types significantly by up to 12 times, and discovering values from 39% new types.
翻訳日:2023-05-31 22:22:45 公開日:2023-05-26
# 注意:aiはデジタルシャドウ業界をどのように作り直すのか?

Attention Paper: How Generative AI Reshapes Digital Shadow Industry? ( http://arxiv.org/abs/2305.18346v1 )

ライセンス: Link先を確認
Qichao Wang, Huan Ma, Wentao Wei, Hangyu Li, Liang Chen, Peilin Zhao, Binwen Zhao, Bo Hu, Shu Zhang, Zibin Zheng, Bingzhe Wu(参考訳) デジタル経済の急速な発展により、さまざまな黒と影のインターネット産業が出現し、機械学習やディープラーニングといったさまざまな技術を用いたデジタルリスク管理(DRM)を通じて特定および管理できる潜在的なリスクが生じる。 DRMアーキテクチャの進化は、データ形式の変化によって引き起こされている。 しかし、ChatGPTやStable DiffusionのようなAIGC技術の開発により、黒と影の産業はデータをパーソナライズし、不正な活動のために現実的な画像や会話を生成する強力なツールを提供してきた。 これはDRMシステムがデータ生成の源泉からリスクを制御し、急速に変化するリスク環境に迅速に対応することが課題となる。 本稿では,黒毛産業の上流・中・下流からのAIGCの課題と機会を技術的に分析し,既存のリスク制御システムを改善するための今後の方向性を提案する。 本稿では、生成AI技術によって引き起こされる新しい黒と影の技法を探求し、次世代DRMシステムを構築するための洞察を提供する。

The rapid development of digital economy has led to the emergence of various black and shadow internet industries, which pose potential risks that can be identified and managed through digital risk management (DRM) that uses different techniques such as machine learning and deep learning. The evolution of DRM architecture has been driven by changes in data forms. However, the development of AI-generated content (AIGC) technology, such as ChatGPT and Stable Diffusion, has given black and shadow industries powerful tools to personalize data and generate realistic images and conversations for fraudulent activities. This poses a challenge for DRM systems to control risks from the source of data generation and to respond quickly to the fast-changing risk environment. This paper aims to provide a technical analysis of the challenges and opportunities of AIGC from upstream, midstream, and downstream paths of black/shadow industries and suggest future directions for improving existing risk control systems. The paper will explore the new black and shadow techniques triggered by generative AI technology and provide insights for building the next-generation DRM system.
翻訳日:2023-05-31 22:22:27 公開日:2023-05-26
# ビジュアルプログラミングのためのニューラルタスク合成

Neural Task Synthesis for Visual Programming ( http://arxiv.org/abs/2305.18342v1 )

ライセンス: Link先を確認
Victor-Alexandru P\u{a}durean, Georgios Tzannetos, Adish Singla(参考訳) 生成型ニューラルモデルは、学生向けの新しいコンテンツを合成することで、プログラミング教育の強化に大いに貢献する。 視覚的プログラミング領域のコンテキストにおいて、与えられた仕様のプログラミングタスクを自動的に生成できるニューラルモデルを設計することを模索する。 GPT-4のような大規模生成モデルの成功にもかかわらず、初期の結果は、これらのモデルが視覚プログラミングのタスクを合成し、論理的および空間的推論に苦しむのに効果がないことを示している。 本稿では,ニューラルシンボリックな手法であるNeurTaskSynを提案し,その解法コードと視覚的タスクの制約により,所望のプログラミング概念の形で与えられた仕様のプログラミングタスクを合成する。 neurtasksynには2つのコンポーネントがある。 第一のコンポーネントは模倣学習手順でトレーニングされ、第二のコンポーネントは強化学習手順によってトレーニングされ、これらのコードに対して視覚的なタスクを生成する基盤となるシンボリック実行エンジンをガイドする。 Intro to Programming with Karel course by CodeHS-dot-com, Intro to Programming with Karel course by CodeHS-dot-com, Intro to Programming by Code-dot-org, and the Intro to Programming with Karel course by CodeHS-dot-com。

Generative neural models hold great promise in enhancing programming education by synthesizing new content for students. We seek to design neural models that can automatically generate programming tasks for a given specification in the context of visual programming domains. Despite the recent successes of large generative models like GPT-4, our initial results show that these models are ineffective in synthesizing visual programming tasks and struggle with logical and spatial reasoning. We propose a novel neuro-symbolic technique, NeurTaskSyn, that can synthesize programming tasks for a specification given in the form of desired programming concepts exercised by its solution code and constraints on the visual task. NeurTaskSyn has two components: the first component is trained via imitation learning procedure to generate possible solution codes, and the second component is trained via reinforcement learning procedure to guide an underlying symbolic execution engine that generates visual tasks for these codes. We demonstrate the effectiveness of NeurTaskSyn through an extensive empirical evaluation and a qualitative study on reference tasks taken from the Hour of Code: Classic Maze challenge by Code-dot-org and the Intro to Programming with Karel course by CodeHS-dot-com.
翻訳日:2023-05-31 22:22:08 公開日:2023-05-26
# メモリ効率のよいスパイクニューラルネットワークのための漏れ・侵入・発火ニューロンの共有

Sharing Leaky-Integrate-and-Fire Neurons for Memory-Efficient Spiking Neural Networks ( http://arxiv.org/abs/2305.18360v1 )

ライセンス: Link先を確認
Youngeun Kim, Yuhang Li, Abhishek Moitra, Ruokai Yin, Priyadarshini Panda(参考訳) スパイキングニューラルネットワーク(SNN)は、そのバイナリと非同期計算によるエネルギー効率の高いニューラルネットワークとして注目を集めている。 しかし、その非線形活性化は、スパイクの時間的ダイナミクスを捉えるために、膜電圧を記憶するために追加のメモリを必要とする。 入力次元が大きくなるにつれて、LIFニューロンに必要なメモリコストは大幅に増大するが、LIFニューロンのメモリ削減技術はまだ検討されていない。 そこで本研究では,LIFニューロンを異なる層やチャネル間で共有する,シンプルで効果的なLIF-Netを提案する。 EfficientLIF-Netは、標準的なSNNと同等の精度を実現し、LIFニューロンの前方メモリ効率は ~4.3X、後方メモリ効率は ~21.9X になる。 CIFAR10, CIFAR100, TinyImageNet, ImageNet-100, N-Caltech101 など,様々なデータセットの実験を行った。 さらに,我々のアプローチは,時間的情報に大きく依存するヒューマンアクティビティ認識(har)データセットにもメリットがあることを示す。

Spiking Neural Networks (SNNs) have gained increasing attention as energy-efficient neural networks owing to their binary and asynchronous computation. However, their non-linear activation, that is Leaky-Integrate-and-Fire (LIF) neuron, requires additional memory to store a membrane voltage to capture the temporal dynamics of spikes. Although the required memory cost for LIF neurons significantly increases as the input dimension goes larger, a technique to reduce memory for LIF neurons has not been explored so far. To address this, we propose a simple and effective solution, EfficientLIF-Net, which shares the LIF neurons across different layers and channels. Our EfficientLIF-Net achieves comparable accuracy with the standard SNNs while bringing up to ~4.3X forward memory efficiency and ~21.9X backward memory efficiency for LIF neurons. We conduct experiments on various datasets including CIFAR10, CIFAR100, TinyImageNet, ImageNet-100, and N-Caltech101. Furthermore, we show that our approach also offers advantages on Human Activity Recognition (HAR) datasets, which heavily rely on temporal information.
翻訳日:2023-05-31 22:10:56 公開日:2023-05-26
# DeepSI: セマンティックインタラクションのための対話型ディープラーニング

DeepSI: Interactive Deep Learning for Semantic Interaction ( http://arxiv.org/abs/2305.18357v1 )

ライセンス: Link先を確認
Yali Bian, Chris North(参考訳) 本稿では,視覚分析アプリケーションにおける意味的相互作用を改善するための対話型深層学習手法を設計する。 意味的相互作用によって分析者の正確な意図を推測する能力は、基礎となるデータ表現の品質に依存する。 そこで我々は,深層学習を人間-ループ間対話型センスメイキングパイプラインに統合する,$\text{DeepSI}_{\text{finetune}}$フレームワークを提案する。 まず、ディープラーニングは生データから意味のある表現を抽出し、意味的相互作用推論を改善する。 第二に、意味的相互作用を利用して深層学習表現を微調整し、さらに意味的相互作用推論を改善する。 このヒューマンインタラクションとディープラーニング間のフィードバックループによって、ユーザとタスク固有の表現の効率的な学習が可能になる。 セマンティック・インタラクション・ループにディープラーニングを埋め込むことの利点を評価するために、$\text{DeepSI}_{\text{finetune}}$をインタラクティブ・ループの外で事前処理された機能抽出器として、最先端だが基本的なディープラーニングの利用と比較する。 人間中心の質的ケーススタディとアルゴリズム中心のシミュレーションに基づく定量的実験の2つの相補的な研究の結果、$\text{deepsi}_{\text{finetune}}$はより少ない相互作用でユーザーの複雑なメンタルモデルを正確に捉えている。

In this paper, we design novel interactive deep learning methods to improve semantic interactions in visual analytics applications. The ability of semantic interaction to infer analysts' precise intents during sensemaking is dependent on the quality of the underlying data representation. We propose the $\text{DeepSI}_{\text{finetune}}$ framework that integrates deep learning into the human-in-the-loop interactive sensemaking pipeline, with two important properties. First, deep learning extracts meaningful representations from raw data, which improves semantic interaction inference. Second, semantic interactions are exploited to fine-tune the deep learning representations, which then further improves semantic interaction inference. This feedback loop between human interaction and deep learning enables efficient learning of user- and task-specific representations. To evaluate the advantage of embedding the deep learning within the semantic interaction loop, we compare $\text{DeepSI}_{\text{finetune}}$ against a state-of-the-art but more basic use of deep learning as only a feature extractor pre-processed outside of the interactive loop. Results of two complementary studies, a human-centered qualitative case study and an algorithm-centered simulation-based quantitative experiment, show that $\text{DeepSI}_{\text{finetune}}$ more accurately captures users' complex mental models with fewer interactions.
翻訳日:2023-05-31 22:10:36 公開日:2023-05-26
# RT-kNNS Unbound: RT Coresを使って非制限近傍検索を高速化

RT-kNNS Unbound: Using RT Cores to Accelerate Unrestricted Neighbor Search ( http://arxiv.org/abs/2305.18356v1 )

ライセンス: Link先を確認
Vani Nagarajan, Durga Mandarapu, Milind Kulkarni(参考訳) ある点の k-Nearest Neighbors (kNNS) を識別する問題は、スタンドアローンアプリケーションとしても、より大きなアプリケーションではサブルーチンとしても非常に有用であることが証明されている。 機械学習やポイントクラウドなどの分野での広範な適用性を考えると、この問題を解決するためにGPUアクセラレーションを活用するための広範な研究が進められている。 近年の研究では、最近のGPUでRay Tracingコアを使用してkNNSを高速化することが、シェーダコアを使用した従来のアクセラレーションよりもはるかに効率的であることが示されている。 しかし、既存のkNNSのレイトレーシング問題への変換は、近隣の探索空間に制約を課している。 このため、RTコアのみを使用して固定半径kNNSを高速化できるため、ユーザーは検索半径を事前設定する必要があるため、隣人を見逃すことができる。 そこで本研究では,RTをアクセラレーションした最初の非有界近傍探索であるTrueKNNを提案する。 TrueKNNは反復的なアプローチを採用し、すべての点が隣人を見つけるまで、探索空間を漸進的に成長させます。 提案手法は既存手法よりも桁違いに高速であり,固定半径近傍探索の高速化にも有効であることを示す。

The problem of identifying the k-Nearest Neighbors (kNNS) of a point has proven to be very useful both as a standalone application and as a subroutine in larger applications. Given its far-reaching applicability in areas such as machine learning and point clouds, extensive research has gone into leveraging GPU acceleration to solve this problem. Recent work has shown that using Ray Tracing cores in recent GPUs to accelerate kNNS is much more efficient compared to traditional acceleration using shader cores. However, the existing translation of kNNS to a ray tracing problem imposes a constraint on the search space for neighbors. Due to this, we can only use RT cores to accelerate fixed-radius kNNS, which requires the user to set a search radius a priori and hence can miss neighbors. In this work, we propose TrueKNN, the first unbounded RT-accelerated neighbor search. TrueKNN adopts an iterative approach where we incrementally grow the search space until all points have found their k neighbors. We show that our approach is orders of magnitude faster than existing approaches and can even be used to accelerate fixed-radius neighbor searches.
翻訳日:2023-05-31 22:10:12 公開日:2023-05-26
# 実単語画像超解像のためのマルチパーセプション特徴からの学習

Learning from Multi-Perception Features for Real-Word Image Super-resolution ( http://arxiv.org/abs/2305.18547v1 )

ライセンス: Link先を確認
Axi Niu, Kang Zhang, Trung X. Pham, Pei Wang, Jinqiu Sun, In So Kweon, and Yanning Zhang(参考訳) 現在、実際の画像の超解像問題に対処するための2つの一般的なアプローチがある。 しかし、劣化推定に基づく手法は劣化を推定するのに不正確であり、現実のLR画像には適用できない。 一方、視覚に基づく手法は固定された単一知覚情報によって制限されることが多く、多様な知覚特性を扱う能力を妨げる。 この制限を克服するために,入力画像の複数の知覚的特徴を利用するMPF-Netという新しいSR手法を提案する。 提案手法では,マルチパーセプション特徴抽出 (MPFE) モジュールを組み込んで多様な知覚情報を抽出し,新たに設計されたクロスパーセプションブロック (CPB) を新たに設計し,この情報を組み合わせて効率的な超解像再構成を行う。 さらに,新たに生成されたHRとLR画像を正負のサンプルとして用いることで,モデルの学習能力を向上する対照的な正規化項(CR)を導入する。 実世界のsrデータセットに挑戦する実験結果から,本手法は質的および定量的に,既存の最先端手法を大きく上回っていることが示された。

Currently, there are two popular approaches for addressing real-world image super-resolution problems: degradation-estimation-based and blind-based methods. However, degradation-estimation-based methods may be inaccurate in estimating the degradation, making them less applicable to real-world LR images. On the other hand, blind-based methods are often limited by their fixed single perception information, which hinders their ability to handle diverse perceptual characteristics. To overcome this limitation, we propose a novel SR method called MPF-Net that leverages multiple perceptual features of input images. Our method incorporates a Multi-Perception Feature Extraction (MPFE) module to extract diverse perceptual information and a series of newly-designed Cross-Perception Blocks (CPB) to combine this information for effective super-resolution reconstruction. Additionally, we introduce a contrastive regularization term (CR) that improves the model's learning capability by using newly generated HR and LR images as positive and negative samples for ground truth HR. Experimental results on challenging real-world SR datasets demonstrate that our approach significantly outperforms existing state-of-the-art methods in both qualitative and quantitative measures.
翻訳日:2023-05-31 19:46:43 公開日:2023-05-26
# 協調学習に基づくエンド・ツー・エンドディープラーニングアルゴリズム

An Analytic End-to-End Deep Learning Algorithm based on Collaborative Learning ( http://arxiv.org/abs/2305.18594v1 )

ライセンス: Link先を確認
Sitan Li and Chien Chern Cheah(参考訳) ほとんどの制御応用において、システムの理論的解析は、安全で信頼性の高い操作を確実にし、さらなる発展のためにシステムをよりよく理解するために、安定性や収束を保証するために不可欠である。 しかし、現在のディープラーニング手法のほとんどは、経験的研究に重点を置いたブラックボックスアプローチである。 近年,非スムースreluアクティベーション関数に基づくエンド・ツー・エンドディープラーニングの収束解析が試みられ,制御タスクに対するおしゃべりに繋がる可能性がある。 本稿では, 完全連結ニューラルネットワーク(FNN)の終端深層学習におけるスムーズなアクティベーション機能を持つ収束解析について述べる。 したがって,提案手法は潜在的なおしゃべり問題を回避し,勾配消失問題も容易には生じない。 提案するEnd-to-Endアルゴリズムは,複数の2層完全接続ネットワークを同時に学習し,その強みをさらに組み合わせて精度を向上させる。 提案手法の性能を示すために,完全連結ネットワークとMNISTデータセットに基づく分類ケーススタディを行った。 次に,本アルゴリズムの回帰近似とオンライン更新能力を説明するために,ur5eロボットアームのオンライン運動制御タスクを行った。

In most control applications, theoretical analysis of the systems is crucial in ensuring stability or convergence, so as to ensure safe and reliable operations and also to gain a better understanding of the systems for further developments. However, most current deep learning methods are black-box approaches that are more focused on empirical studies. Recently, some results have been obtained for convergence analysis of end-to end deep learning based on non-smooth ReLU activation functions, which may result in chattering for control tasks. This paper presents a convergence analysis for end-to-end deep learning of fully connected neural networks (FNN) with smooth activation functions. The proposed method therefore avoids any potential chattering problem, and it also does not easily lead to gradient vanishing problems. The proposed End-to-End algorithm trains multiple two-layer fully connected networks concurrently and collaborative learning can be used to further combine their strengths to improve accuracy. A classification case study based on fully connected networks and MNIST dataset was done to demonstrate the performance of the proposed approach. Then an online kinematics control task of a UR5e robot arm was performed to illustrate the regression approximation and online updating ability of our algorithm.
翻訳日:2023-05-31 19:26:57 公開日:2023-05-26
# CONA:大規模言語モデルを用いたコミュニケーションのための新しいコンテキスト認識命令パラダイム

CONA: A novel CONtext-Aware instruction paradigm for communication using large language model ( http://arxiv.org/abs/2305.18620v1 )

ライセンス: Link先を確認
Nan Zhou, Xinghui Tao, Xi Chen(参考訳) 生成事前学習型トランスフォーマ(GPT)モデルを用いた,効果的な知識伝達のためのコンテキスト認識型命令パラダイムであるConAを紹介する。 conaは、大規模な言語モデル(llm)の機能を活用するように設計された柔軟なフレームワークで、dikw階層(データ、情報、知識、知恵)を取り入れて、プレゼンテーションコンテンツを自動的に指導し、最適化し、潜在的なオーディエンスの問い合わせを予測し、オーディエンスの知識レベルに適応したコンテキスト対応の回答を提供する。 CONAパラダイムのユニークな側面は、独立アドバイザリ機構と、DIKW階層に根ざした再帰的なフィードバックループの組み合わせにある。 このシナジーは、コンテキスト認識の内容を大幅に強化し、観客がアクセス可能で容易に理解できるようにする。 このパラダイムは、LLM時代の知識の普及とコミュニケーションのための新しい手法を探求する初期のパイオニアであり、日々の知識共有シナリオを効果的にサポートする。 我々は,GPT4を用いた様々な分野の教材とともに,様々なオーディエンスの役割について実験を行った。 定量的および定性的な結果から,提案するconaパラダイムは,従来のプロンプトエンジニアリングで導かれた出力と比較して優れた性能を得た。

We introduce CONA, a novel context-aware instruction paradigm for effective knowledge dissemination using generative pre-trained transformer (GPT) models. CONA is a flexible framework designed to leverage the capabilities of Large Language Models (LLMs) and incorporate DIKW (Data, Information, Knowledge, Wisdom) hierarchy to automatically instruct and optimise presentation content, anticipate potential audience inquiries, and provide context-aware answers that adaptive to the knowledge level of the audience group. The unique aspect of the CONA paradigm lies in its combination of an independent advisory mechanism and a recursive feedback loop rooted on the DIKW hierarchy. This synergy significantly enhances context-aware contents, ensuring they are accessible and easily comprehended by the audience. This paradigm is an early pioneer to explore new methods for knowledge dissemination and communication in the LLM era, offering effective support for everyday knowledge sharing scenarios. We conduct experiments on a range of audience roles, along with materials from various disciplines using GPT4. Both quantitative and qualitative results demonstrated that the proposed CONA paradigm achieved remarkable performance compared to the outputs guided by conventional prompt engineering.
翻訳日:2023-05-31 19:17:51 公開日:2023-05-26
# ディリクレ多重項に対する高速MLE計算

Fast MLE Computation for the Dirichlet Multinomial ( http://arxiv.org/abs/1405.0099v2 )

ライセンス: Link先を確認
Max Sklar(参考訳) 分類データの集合を考えると、ディリクレ分布のパラメータを見つけ、そのデータの可能性を最大化したい。 Newtonのメソッドは一般的にこの目的で使用されるが、現在の実装では各イテレーションでデータセット全体を読み込む必要がある。 本稿では,データセットを1回のパスで通過し,実行時間を大幅に短縮する修正を提案する。 さらに,提案アルゴリズムの性能を理論的および実証的に分析し,オープンソース実装を提供する。

Given a collection of categorical data, we want to find the parameters of a Dirichlet distribution which maximizes the likelihood of that data. Newton's method is typically used for this purpose but current implementations require reading through the entire dataset on each iteration. In this paper, we propose a modification which requires only a single pass through the dataset and substantially decreases running time. Furthermore we analyze both theoretically and empirically the performance of the proposed algorithm, and provide an open source implementation.
翻訳日:2023-05-31 05:33:00 公開日:2023-05-26
# 低層トロッタースズキ分解におけるグラフ最適化の展望

Graph Optimization Perspective for Low-Depth Trotter-Suzuki Decomposition ( http://arxiv.org/abs/2103.08602v4 )

ライセンス: Link先を確認
Albert T. Schmitz, Nicolas P.D. Sawaya, Sonika Johri, A. Y. Matsuura(参考訳) ハミルトンシミュレーションは、量子機械学習、量子線形代数法、物理学、物質科学、化学のモデリングといった、量子アルゴリズムとシミュレーションの広いクラスにおいて重要なモジュールである。 時間進化ユニタリを実現する最も顕著な方法の1つは、トロッター・鈴木分解である。 しかし、ハミルトニアン項が実装される順序が任意であるような無限小時間発展作用素の分解可能な大きなクラスが存在する。 量子誤差補正からアイデアを適応させることにより、標準クリフォード+RZゲートセットを仮定して、低深さトロッタースズキ分解を生成する新しい視点を導入する。 与えられたトロッタースズキ分解を、パウリフレームグラフ(PFG)とみなすグラフ上の制約された経路にマッピングする。 PFGの各ノードは、現在適用可能なハミルトン項の集合を表し、クリフォード演算は、あるノードから別のノードへの移動を表し、グラフ距離は、分解を実装するためのゲートコストを表す。 最適分解を求める問題は、旅行セールスマンと同じような問題を解決するのと同等である。 これはnp問題であるが、最も単純なヒューリスティックで欲深い探索を実証し、得られた2量子ビットのゲート数と回路深さを、自然にスケールする化学的、振動的、凝縮された物質の問題に見られるフェルミオンとボソニックの両方を含む、科学的に関連する幅広いハミルトニアンの、より標準的な方法と比較する。 調査したほぼすべてのケースにおいて、結果の深さと2量子ビットのゲート数は、標準メソッドが提供するものよりも1桁小さいことが分かりました。 また,本手法は並列化に有効であり,本手法が関心のある問題に対してスケーラブルであることを示す。

Hamiltonian simulation represents an important module in a large class of quantum algorithms and simulations such as quantum machine learning, quantum linear algebra methods, and modeling for physics, material science and chemistry. One of the most prominent methods for realizing the time-evolution unitary is via the Trotter-Suzuki decomposition. However, there is a large class of possible decompositions for the infinitesimal time-evolution operator as the order in which the Hamiltonian terms are implemented is arbitrary. We introduce a novel perspective for generating a low-depth Trotter-Suzuki decomposition assuming the standard Clifford+RZ gate set by adapting ideas from quantum error correction. We map a given Trotter-Suzuki decomposition to a constrained path on a graph which we deem the Pauli Frame Graph (PFG). Each node of the PFG represents the set of possible Hamiltonian terms currently available to be applied, Clifford operations represent a move from one node to another, and so the graph distance represents the gate cost of implementing the decomposition. The problem of finding the optimal decomposition is then equivalent to solving a problem similar to the traveling salesman. Though this is an NP-hard problem, we demonstrate the simplest heuristic, greedy search, and compare the resulting two-qubit gate count and circuit depth to more standard methods for a large class of scientifically relevant Hamiltonians, both fermionic and bosonic, found in chemical, vibrational and condensed matter problems which naturally scale. We find in nearly every case we study, the resulting depth and two-qubit gate counts are less than those provided by standard methods, by as much as an order of magnitude. We also find the method is efficient and amenable to parallelization, making the method scalable for problems of real interest.
翻訳日:2023-05-31 04:58:45 公開日:2023-05-26
# 個人化フェデレーション学習:統一フレームワークとユニバーサル最適化手法

Personalized Federated Learning: A Unified Framework and Universal Optimization Techniques ( http://arxiv.org/abs/2102.09743v4 )

ライセンス: Link先を確認
Filip Hanzely, Boxin Zhao, Mladen Kolar(参考訳) 個人化フェデレートラーニング(FL)の最適化面について検討する。 本稿では,多数の既存FL目標,特にローカルSGDのカスタマイズされた変種,および加速座標降下/加速SVRCDの変種に適用可能な汎用オプティマイザを提案する。 既存のパーソナライズされたflの目的の多くを特殊ケースとして回収できる汎用的パーソナライズド目標を考察することにより,文献中の幅広い強凸パーソナライズドflモデルに適用可能な包括的最適化理論を考案する。 通信と局所計算の観点から,本手法の実用性と最適性を示す。 注目すべきは、我々の一般的な最適化解法と理論は、特定のパーソナライズされたFL目的に対処するための最もよく知られた通信と計算の保証を回復することができることである。 その結果,提案手法は汎用最適化器として機能し,多くのインスタンスにおいてタスク固有の最適化器の設計を不要にすることができる。

We investigate the optimization aspects of personalized Federated Learning (FL). We propose general optimizers that can be applied to numerous existing personalized FL objectives, specifically a tailored variant of Local SGD and variants of accelerated coordinate descent/accelerated SVRCD. By examining a general personalized objective capable of recovering many existing personalized FL objectives as special cases, we develop a comprehensive optimization theory applicable to a wide range of strongly convex personalized FL models in the literature. We showcase the practicality and/or optimality of our methods in terms of communication and local computation. Remarkably, our general optimization solvers and theory can recover the best-known communication and computation guarantees for addressing specific personalized FL objectives. Consequently, our proposed methods can serve as universal optimizers, rendering the design of task-specific optimizers unnecessary in many instances.
翻訳日:2023-05-31 04:58:16 公開日:2023-05-26
# 光と物質の深い結合に基づく非摂動電磁非線形性、n光子反射体、フォック状態レーザー

Nonperturbative electromagnetic nonlinearities, n-photon reflectors, and Fock-state lasers based on deep-strong coupling of light and matter ( http://arxiv.org/abs/2111.07010v2 )

ライセンス: Link先を確認
Nicholas Rivera, Jamison Sloan, Ido Kaminer, Marin Soljacic(参考訳) 光と物質は、結合が素エネルギーよりも強い状態において相互作用することができる。 量子電磁力学のこの深部強結合(DSC)体制は、光と物質の物理学に関する多くの従来の仮定に挑戦することを約束する。 ここでは,光と物質との相互作用が自然に存在する材料の電磁非線形性を劇的に変化させることを示す。 DSC状態の励起は、臨界励起数まで線形エネルギースペクトルを持つ光子として作用し、その後システムは突然強無調和となり、非常に高次の効果的な強度依存性の非線形性として機能する。 この挙動はN-光子遮断($N \gg 1$)を可能にし、定性的に新しい種類の量子光源を可能にする。 例えば、この非線形性は、レーザーやメーザーに統合されると(コヒーレント状態ではなく)大きなフォック状態を生成する新しい種類の利得媒体の基礎を形成する。 このようなフォック状態は、原理的には、これまで実現されたどのものよりも桁違いに大きい光子数を持つことができ、非線形ゲインと線形損失の間の新しいタイプの平衡によって散逸から守られる。 ここでは、実験的な効果の実現への道について論じる。

Light and matter can now interact in a regime where their coupling is stronger than their bare energies. This deep-strong coupling (DSC) regime of quantum electrodynamics promises to challenge many conventional assumptions about the physics of light and matter. Here, we show how light and matter interactions in this regime give rise to electromagnetic nonlinearities dramatically different from those of naturally existing materials. Excitations in the DSC regime act as photons with a linear energy spectrum up to a critical excitation number, after which, the system suddenly becomes strongly anharmonic, thus acting as an effective intensity-dependent nonlinearity of an extremely high order. We show that this behavior allows for N-photon blockade (with $N \gg 1$), enabling qualitatively new kinds of quantum light sources. For example, this nonlinearity forms the basis for a new type of gain medium, which when integrated into a laser or maser, produces large Fock states (rather than coherent states). Such Fock states could in principle have photon numbers orders of magnitude larger than any realized previously, and would be protected from dissipation by a new type of equilibrium between nonlinear gain and linear loss. We discuss paths to experimental realization of the effects described here.
翻訳日:2023-05-31 04:49:48 公開日:2023-05-26
# 世界規模のAI倫理:AIガバナンスに関する200のガイドラインと勧告のレビュー

Worldwide AI Ethics: a review of 200 guidelines and recommendations for AI governance ( http://arxiv.org/abs/2206.11922v5 )

ライセンス: Link先を確認
Nicholas Kluge Corr\^ea, Camila Galv\~ao, James William Santos, Carolina Del Pino, Edson Pontes Pinto, Camila Barbosa, Diogo Massmann, Rodrigo Mambrini, Luiza Galv\~ao, Edmund Terem(参考訳) 過去10年間で、いくつかの組織が規範的な意味で標準化を意図した文書を作成し、最近のAI開発へのガイダンスを促進してきました。 しかしながら、これらの文書で提示されるアイデアの全スペクトルは、いくつかのメタ分析と批判的レビューを除いて、まだ分析されていない。 本研究は,過去の研究者による研究を拡大し,これらの文書の内容や性質をよりよく可視化するツールを構築し,様々な機関が推進する原則の一致性や類似性について理解し,今後の規制に関する議論を呼び起こそうとするものである。 また,本手法によって得られた結果を200文書のサンプルサイズに分析することで,研究の継続性を導くための予備的考察や質問も提示する。

In the last decade, several organizations have produced documents intended to standardize, in the normative sense, and promote guidance to our recent and rapid AI development. However, the full spectrum of ideas presented in these documents has not yet been analyzed, except for a few meta-analyses and critical reviews of the field. In this work, we seek to expand on the work done by past researchers and create a tool for better data visualization of the contents and nature of these documents, to understand whether there is consensus or similarity between the principles espoused by various institutions, which may inspire debates on future regulations. We also provide some preliminary thoughts and questions that could guide the continuity of the research through a critical analysis of the results acquired by our methodology into a sample size of 200 documents.
翻訳日:2023-05-31 04:10:26 公開日:2023-05-26
# 二部量子系における相関の速度制限

Speed limits on correlations in bipartite quantum systems ( http://arxiv.org/abs/2207.05645v2 )

ライセンス: Link先を確認
Vivek Pandey, Divyansh Shrimali, Brij Mohan, Siddhartha Das, and Arun Kumar Pati(参考訳) 量子速度制限は、量子システムが与えられた動的過程の下で初期状態から最終状態に進化する必要がある最小時間に制限される。 これは、量子技術の設計と制御に関連する、望ましい状態変換がどれだけ高速に行われるかに光を当てている。 本稿では,動的過程下で進化する量子系の絡み合い,ベル-CHSH相関,量子相互情報などの相関の速度制限を導出する。 我々の主な成果は、任意の次元の二部量子系とプロセスを保持する負性と呼ばれる絡み合いモノトンにおける速度制限である。 もう一つの絡み合ったモノトーンは、共起である。 速度制限の有効性を説明するために,様々な量子プロセスにおけるネガティビティ,コンカージェンス,ベル・チェシュ相関の速度制限を解析的および数値的に計算する。 実例では、我々が導いた速度制限のいくつかは実際に達成可能であり、したがってこれらの境界はタイトであると考えることができることを示すことができる。

Quantum speed limit is bound on the minimum time a quantum system requires to evolve from an initial state to final state under a given dynamical process. It sheds light on how fast a desired state transformation can take place which is pertinent for design and control of quantum technologies. In this paper, we derive speed limits on correlations such as entanglement, Bell-CHSH correlation, and quantum mutual information of quantum systems evolving under dynamical processes. Our main result is speed limit on an entanglement monotone called negativity which holds for arbitrary dimensional bipartite quantum systems and processes. Another entanglement monotone which we consider is the concurrence. To illustrate efficacy of our speed limits, we analytically and numerically compute the speed limits on the negativity, concurrence, and Bell-CHSH correlation for various quantum processes of practical interest. We are able to show that for practical examples we have considered, some of the speed limits we derived are actually attainable and hence these bounds can be considered to be tight.
翻訳日:2023-05-31 04:01:50 公開日:2023-05-26
# Tavis-Cummingsモデルにおける暗黒状態の崩壊

Collapse of dark states in Tavis-Cummings model ( http://arxiv.org/abs/2207.03175v5 )

ライセンス: Link先を確認
Vitaliy Afanasyev and Chen Ran and Yuri Ozhigov and You Jiangchuan(参考訳) 2つの2レベル原子からなる系の一重項状態は、この場合断熱定理が適用できないにもかかわらず、ハミルトニアンtcがゆっくりと変形するため、滑らかに変化する。 この場合、自由光子の放出の確率は小さいが、ハミルトニアンの変形の滑らかさには依存しない。 自発的放出の効果は、キャビティ内の仮想光子の交換によって、一重項状態においてさらに1対の原子を加えることで強化される。 同様の効果は、原子が2つの空洞の間を移動できる場合にも確立されたが、逆に原子の数が増加すると放出が減少する。 この純粋量子効果は原子一重項による実用的操作において考慮されなければならないが、その弱さはむしろ、暗黒状態の安定性と情報交換(量子暗号プロトコル)やnoデバイスのためのエネルギー蓄積器としての使用の見通しについて検証される。

The singlet state of a system of two two-level atoms changes smoothly, remaining dark, as the Hamiltonian TC is slowly deformed, despite the inapplicability of the adiabatic theorem to this case. In this case, there is a small probability of emission of free photons, which does not depend on the smoothness of the deformation of the Hamiltonian. The effect of spontaneous emission is enhanced by the addition of one more pair of atoms in the singlet state due to the exchange of virtual photons in the cavity. A similar effect was also established for the case when atoms can move between two cavities, but here, on the contrary, with an increase in the number of atoms, the emission decreases. This purely quantum effect must be taken into account in practical manipulations with atomic singlets; however, its weakness testifies, rather, to the stability of dark states and the prospects for their use in information exchange (quantum cryptographic protocols) and as an energy accumulator for nono-devices.
翻訳日:2023-05-31 04:01:08 公開日:2023-05-26
# ハイブリッドイジング古典アルゴリズムの解析のための共陽性フレームワーク

A Copositive Framework for Analysis of Hybrid Ising-Classical Algorithms ( http://arxiv.org/abs/2207.13630v2 )

ライセンス: Link先を確認
Robin Brown, David E. Bernal Neira, Davide Venturelli, Marco Pavone(参考訳) 近年、量子/量子にインスパイアされた技術は、イジングスピンハミルトニアンの基底状態のおよその探索が可能になった。 このような技術を活用して難しい最適化問題の解決を加速するという約束は、直接転写から既存の最適化アルゴリズムに根ざしたハイブリッド量子古典的アプローチまで、ソリューションプロセスの一部としてIsing問題を統合する方法の探求への関心を高めている。 量子コンピュータは、それらを完全に置き換えるのではなく、古典的コンピュータを強化するべきであると広く認識されているが、その相互作用の分析的特徴付けの導出に比較的注意が向けられている。 本稿では、Isingソルバを用いた混合二項二次プログラム(MBQP)の解法におけるハイブリッドアルゴリズムの形式解析について述べる。 本稿では,mbqpsの凸共陽性な再構成の正確性を示し,その変換結果が凸最適化の直接的解析を継承できることを示す。 本稿では,ハイブリッド量子古典的切削平面アルゴリズムを用いてこの問題を解決することを提案する。 凸切断平面アルゴリズムの既存の複雑性結果を用いて、このハイブリッドフレームワークの古典的な部分は多項式時間であることが保証されていると推定する。 これはnpハード問題に適用すると、解の複雑さはイジングソルバによって処理されるサブルーチンに移されることを示唆している。

Recent years have seen significant advances in quantum/quantum-inspired technologies capable of approximately searching for the ground state of Ising spin Hamiltonians. The promise of leveraging such technologies to accelerate the solution of difficult optimization problems has spurred an increased interest in exploring methods to integrate Ising problems as part of their solution process, with existing approaches ranging from direct transcription to hybrid quantum-classical approaches rooted in existing optimization algorithms. While it is widely acknowledged that quantum computers should augment classical computers, rather than replace them entirely, comparatively little attention has been directed toward deriving analytical characterizations of their interactions. In this paper, we present a formal analysis of hybrid algorithms in the context of solving mixed-binary quadratic programs (MBQP) via Ising solvers. We show the exactness of a convex copositive reformulation of MBQPs, allowing the resulting reformulation to inherit the straightforward analysis of convex optimization. We propose to solve this reformulation with a hybrid quantum-classical cutting-plane algorithm. Using existing complexity results for convex cutting-plane algorithms, we deduce that the classical portion of this hybrid framework is guaranteed to be polynomial time. This suggests that when applied to NP-hard problems, the complexity of the solution is shifted onto the subroutine handled by the Ising solver.
翻訳日:2023-05-31 03:50:35 公開日:2023-05-26
# 真実と真実のみ - データフロー変換と制約付きデコードによる忠実で制御可能な対話応答生成

The Whole Truth and Nothing But the Truth: Faithful and Controllable Dialogue Response Generation with Dataflow Transduction and Constrained Decoding ( http://arxiv.org/abs/2209.07800v2 )

ライセンス: Link先を確認
Hao Fang, Anusha Balakrishnan, Harsh Jhamtani, John Bufe, Jean Crawford, Jayant Krishnamurthy, Adam Pauls, Jason Eisner, Jacob Andreas, Dan Klein(参考訳) 現実世界の対話システムでは、生成したテキストは、精巧で所定のスタイルに固執しながら、真正で有益でなければならない。 これらの制約を同時に満たすことは、ニューラル言語モデリングとルールベース生成という2つの主要なパラダイムにおいて困難である。 両パラダイムの強みを組み合わせた対話応答生成のためのハイブリッドアーキテクチャについて述べる。 このアーキテクチャの最初のコンポーネントは、新しい形式的フレームワークであるdataflow transductionを使用して定義されたルールベースのコンテンツ選択モデルである。これは、宣言的ルールを使用して対話エージェントのアクションとその結果(データフローグラフとして表現される)を、コンテキスト的に受け入れられる応答の空間を表すコンテキストフリーな文法に変換する。 第2のコンポーネントは、これらの文法を使用してニューラルネットワークモデルの出力を制約する制約付き復号手順である。 本実験により, 本システムは, 流布性, 妥当性, 真理性の評価において, ルールベースおよび学習的アプローチの両方に優れることがわかった。

In a real-world dialogue system, generated text must be truthful and informative while remaining fluent and adhering to a prescribed style. Satisfying these constraints simultaneously is difficult for the two predominant paradigms in language generation: neural language modeling and rule-based generation. We describe a hybrid architecture for dialogue response generation that combines the strengths of both paradigms. The first component of this architecture is a rule-based content selection model defined using a new formal framework called dataflow transduction, which uses declarative rules to transduce a dialogue agent's actions and their results (represented as dataflow graphs) into context-free grammars representing the space of contextually acceptable responses. The second component is a constrained decoding procedure that uses these grammars to constrain the output of a neural language model, which selects fluent utterances. Our experiments show that this system outperforms both rule-based and learned approaches in human evaluations of fluency, relevance, and truthfulness.
翻訳日:2023-05-31 03:42:54 公開日:2023-05-26
# テンソルネットワーク状態の効率的な断熱処理

Efficient Adiabatic Preparation of Tensor Network States ( http://arxiv.org/abs/2209.01230v2 )

ライセンス: Link先を確認
Zhi-Yuan Wei, Daniel Malz, J. Ignacio Cirac(参考訳) 正規テンソルネットワーク状態を含む有限格子内の有限体親ハミルトニアンの特異な基底状態であるテンソルネットワーク状態および他の関連する非正規状態を作成するための、特定の断熱経路を提案し、研究する。 この経路は有限系のギャップを保証し、効率的な数値シミュレーションを可能にする。 一次元では, 相関長の異なる状態の族と, 1次元のAffleck-Kennedy-Lieb-Tasaki状態(AKLT)を数値的に検討し, 逐次的準備に基づいて, 断熱処理が標準法よりもはるかに高速であることを示す。 また, 本手法を六角格子上の2次元aklt状態に適用し, シーケンシャルな調製法が知られていない場合, 比較的大きな格子に対して非常に効率的に調製できることを示す。

We propose and study a specific adiabatic path to prepare those tensor network states that are unique ground states of few-body parent Hamiltonians in finite lattices, which include normal tensor network states, as well as other relevant nonnormal states. This path guarantees a gap for finite systems and allows for efficient numerical simulation. In one dimension, we numerically investigate the preparation of a family of states with varying correlation lengths and the one-dimensional Affleck-Kennedy-Lieb-Tasaki (AKLT) state and show that adiabatic preparation can be much faster than standard methods based on sequential preparation. We also apply the method to the two-dimensional AKLT state on the hexagonal lattice, for which no method based on sequential preparation is known, and show that it can be prepared very efficiently for relatively large lattices.
翻訳日:2023-05-31 03:41:52 公開日:2023-05-26
# 1次元時間独立schr\"odinger方程式の高精度解法:lagrangemesh mathematica package

Solving the One-Dimensional Time-Independent Schr\"odinger Equation with High Accuracy: The LagrangeMesh Mathematica Package ( http://arxiv.org/abs/2208.14340v2 )

ライセンス: Link先を確認
J.C. del Valle(参考訳) 1次元シュローディンガー方程式に付随するスペクトルを求めるために,ラグランジュメッシュ法(LMM)と境界状態に対する数値的実装について議論する。 LMMの背後にある理論の概要を概説した後、LagrangeMeshパッケージ(MathematicaにおけるLMMの数値的実装)を紹介した。 数行のコードを使用して、パッケージはスペクトルの素早いホームコンピュータ計算を可能にし、量子力学の大規模システムを研究するための実用的なツールを提供する。 パッケージの主な特性は (i)入力は基本的にポテンシャル関数であり、その間隔は定義されている。 (ii)計算と最終結果の精度は、利用者によって制御可能である。 例示として、いくつかの関連する量子システムの高精度スペクトルは、パッケージが提供するコマンドを使用することによって得られる。 実際、本作品は作業例に基づくユーザガイドと見なすことができる。

In order to find the spectrum associated with the one-dimensional Schr\"oodinger equation, we discuss the Lagrange Mesh method (LMM) and its numerical implementation for bound states. After presenting a general overview of the theory behind the LMM, we introduce the LagrangeMesh package: the numerical implementation of the LMM in Mathematica. Using few lines of code, the package enables a quick home-computer computation of the spectrum and provides a practical tool to study a large class of systems in quantum mechanics. The main properties of the package are (i) the input is basically the potential function and the interval on which is defined; and (ii) the accuracy in calculations and final results is controllable by the user. As illustration, a highly accurate spectrum of some relevant quantum systems is obtained by employing the commands that the package offers. In fact, the present work can be regarded as a user guide based on worked examples.
翻訳日:2023-05-31 03:41:23 公開日:2023-05-26
# 2つのランダム状態のサブシステムトレース距離

Subsystem Trace-Distances of Two Random States ( http://arxiv.org/abs/2210.03213v3 )

ライセンス: Link先を確認
Joaquim Telles de Miranda and Tobias Micklitz(参考訳) カオス量子システムにおける2状態識別について検討する。 2つの$N$-qubit純状態のうちの1つがランダムに選択されたと仮定すると、$N-N_B$ qubitsのサブセットを含む最適に選択された実験から選択された状態を特定する確率は、状態のトレース距離によって与えられる。 熱力学的極限$N\to\infty$では、ランダムな純状態に対する平均的なサブシステムトレース距離は、測定されていない量子ビットの分数$f=N_B/N$が増加するにつれて、単位値から0への急激な第1次遷移を$f=1/2$とする。 有限個の量子ビットに対して対応するクロスオーバーを解析的に計算し、局所保存法則の存在によってどのように影響を受けるかを調べ、多体カオスに対するモデルの正確な対角化に対する予測を検証した。

We study two-state discrimination in chaotic quantum systems. Assuming that one of two $N$-qubit pure states has been randomly selected, the probability to correctly identify the selected state from an optimally chosen experiment involving a subset of $N-N_B$ qubits is given by the trace-distance of the states, with $N_B$ qubits partially traced out. In the thermodynamic limit $N\to\infty$, the average subsystem trace-distance for random pure states makes a sharp, first order transition from unity to zero at $f=1/2$, as the fraction $f=N_B/N$ of unmeasured qubits is increased. We analytically calculate the corresponding crossover for finite numbers $N$ of qubits, study how it is affected by the presence of local conservation laws, and test our predictions against exact diagonalization of models for many-body chaos.
翻訳日:2023-05-31 03:22:51 公開日:2023-05-26
# ライン間の読書:AI支援プログラミングにおけるユーザ行動とコストのモデリング

Reading Between the Lines: Modeling User Behavior and Costs in AI-Assisted Programming ( http://arxiv.org/abs/2210.14306v3 )

ライセンス: Link先を確認
Hussein Mozannar, Gagan Bansal, Adam Fourney, Eric Horvitz(参考訳) CopilotやCodeWhispererのようなコード推奨システムは、コードの提案と自動補完によってプログラマの生産性を向上させる可能性がある。 しかし、その可能性を完全に認識するには、プログラマがこれらのシステムとどのように相互作用するかを理解し、その相互作用を改善する方法を見つけなければなりません。 GitHub Copilotは、何百万人ものプログラマが毎日使っているコード推奨システムです。 Copilotと対話する際の共通プログラマ活動の分類であるCUPSを開発した。 プログラミングタスクを完了し、CUPSでセッションを振り返ってラベル付けした21人のプログラマを対象に、CUPSはプログラマがコード推奨システムとどのように相互作用するかを理解し、非効率性と時間的コストを明らかにするのに役立ちます。 私たちの洞察は、プログラマがCopilotとどのように相互作用し、新しいインターフェース設計とメトリクスを動機付けるかを明らかにします。

Code-recommendation systems, such as Copilot and CodeWhisperer, have the potential to improve programmer productivity by suggesting and auto-completing code. However, to fully realize their potential, we must understand how programmers interact with these systems and identify ways to improve that interaction. To make progress, we studied GitHub Copilot, a code-recommendation system used by millions of programmers daily. We developed CUPS, a taxonomy of common programmer activities when interacting with Copilot. Our study of 21 programmers, who completed coding tasks and retrospectively labeled their sessions with CUPS, showed that CUPS can help us understand how programmers interact with code-recommendation systems, revealing inefficiencies and time costs. Our insights reveal how programmers interact with Copilot and motivate new interface designs and metrics.
翻訳日:2023-05-31 03:14:10 公開日:2023-05-26
# 量子畳み込みニューラルネットワークを用いた物体の量子相のモデル独立学習

Model-Independent Learning of Quantum Phases of Matter with Quantum Convolutional Neural Networks ( http://arxiv.org/abs/2211.11786v3 )

ライセンス: Link先を確認
Yu-Jie Liu, Adam Smith, Michael Knap, and Frank Pollmann(参考訳) 量子畳み込みニューラルネットワーク(QCNN)は、物質ギャップ量子相の分類器として導入されている。 本稿では,位相保存摂動下で変化する順序パラメータを検出するために,qcnnを訓練するためのモデル非依存プロトコルを提案する。 量子位相の定点波動関数でトレーニングシーケンスを開始し、システムの対称性を尊重する変換不変ノイズを加えて、短い長さスケールで固定点構造を隠蔽する。 本稿では、QCNNを1次元の時間反転対称性で保護された位相上で訓練し、自明で対称性を破り、対称性を保護した位相秩序を示す複数の時間反転対称性モデル上でテストする。 QCNNは3つのフェーズすべてを特定し、位相境界の位置を正確に予測する順序パラメータのセットを発見する。 提案プロトコルは,プログラム可能な量子プロセッサ上での量子位相分類器のハードウェア効率トレーニングへの道を開くものである。

Quantum convolutional neural networks (QCNNs) have been introduced as classifiers for gapped quantum phases of matter. Here, we propose a model-independent protocol for training QCNNs to discover order parameters that are unchanged under phase-preserving perturbations. We initiate the training sequence with the fixed-point wavefunctions of the quantum phase and then add translation-invariant noise that respects the symmetries of the system to mask the fixed-point structure on short length scales. We illustrate this approach by training the QCNN on phases protected by time-reversal symmetry in one dimension, and test it on several time-reversal symmetric models exhibiting trivial, symmetry-breaking, and symmetry-protected topological order. The QCNN discovers a set of order parameters that identifies all three phases and accurately predicts the location of the phase boundary. The proposed protocol paves the way towards hardware-efficient training of quantum phase classifiers on a programmable quantum processor.
翻訳日:2023-05-31 02:54:38 公開日:2023-05-26
# コントラスト型文表現学習における等方性,文脈化,学習ダイナミクスについて

On Isotropy, Contextualization and Learning Dynamics of Contrastive-based Sentence Representation Learning ( http://arxiv.org/abs/2212.09170v2 )

ライセンス: Link先を確認
Chenghao Xiao, Yang Long, Noura Al Moubayed(参考訳) 文表現学習(SRL)における対照的な学習目標を組み込むことにより,多くの文レベルNLPタスクにおいて大幅な改善が得られた。 しかし、なぜコントラスト学習が文レベルの意味論の学習に有効であるのかはよく分かっていない。 本稿では, 等方性, 文脈化, 学習ダイナミクスのレンズを通して, 対照的なsrlに着目し, 文表現学習法の将来設計を導くことを目的としている。 表現シフトの幾何学を通してその成功を解釈し、対照的な学習が等方性をもたらし、高いsentence内類似性をもたらすことを示す: 同じ文において、トークンは意味空間における同様の位置に収束する。 として形式化したものは意味的に意味のあるトークンに対して緩和され、機能的なトークンに対して拡張されます。 埋め込みスペースは、トレーニング中に起源に向かっており、より多くの領域がより適切に定義されています。 これらの結果は, 異なる学習温度, バッチサイズ, プール方式による学習ダイナミクスを観察することで要約した。

Incorporating contrastive learning objectives in sentence representation learning (SRL) has yielded significant improvements on many sentence-level NLP tasks. However, it is not well understood why contrastive learning works for learning sentence-level semantics. In this paper, we aim to help guide future designs of sentence representation learning methods by taking a closer look at contrastive SRL through the lens of isotropy, contextualization and learning dynamics. We interpret its successes through the geometry of the representation shifts and show that contrastive learning brings isotropy, and drives high intra-sentence similarity: when in the same sentence, tokens converge to similar positions in the semantic space. We also find that what we formalize as "spurious contextualization" is mitigated for semantically meaningful tokens, while augmented for functional ones. We find that the embedding space is directed towards the origin during training, with more areas now better defined. We ablate these findings by observing the learning dynamics with different training temperatures, batch sizes and pooling methods.
翻訳日:2023-05-31 02:47:37 公開日:2023-05-26
# MARCoによるテキストのデトックス化:エキスパートとアンチエキスパートによる制御可能な改訂

Detoxifying Text with MaRCo: Controllable Revision with Experts and Anti-Experts ( http://arxiv.org/abs/2212.10543v2 )

ライセンス: Link先を確認
Skyler Hallinan, Alisa Liu, Yejin Choi, Maarten Sap(参考訳) テキストの解毒は、攻撃的な意味を取り除くためにテキストを言い換えることで毒性の害を軽減する可能性があるが、微妙な毒性に対処するのは難しい。 本稿では,自動エンコーダ言語モデル(LM)を用いて,制御可能な生成法とテキスト書き直し法を組み合わせた解毒アルゴリズムMARCoを紹介する。 MaRCoは、非有毒なLM(専門家)と有毒なLM(反専門家)の下の可能性を利用して、マスクすべき候補単語を見つけ、置換する可能性がある。 我々は,いくつかの微妙な毒性とマイクロアグレスデータセットについて評価し,自動測定値の基準値を上回るだけでなく,MARCoの書き直しが2.1ドル\times$以上の人的評価で望ましいことを示す。 微妙な毒性の事例に適用性は特に有望であり、オンライン憎悪の高まりに対処するための道筋を示している。

Text detoxification has the potential to mitigate the harms of toxicity by rephrasing text to remove offensive meaning, but subtle toxicity remains challenging to tackle. We introduce MaRCo, a detoxification algorithm that combines controllable generation and text rewriting methods using a Product of Experts with autoencoder language models (LMs). MaRCo uses likelihoods under a non-toxic LM (expert) and a toxic LM (anti-expert) to find candidate words to mask and potentially replace. We evaluate our method on several subtle toxicity and microaggressions datasets, and show that it not only outperforms baselines on automatic metrics, but MaRCo's rewrites are preferred 2.1 $\times$ more in human evaluation. Its applicability to instances of subtle toxicity is especially promising, demonstrating a path forward for addressing increasingly elusive online hate.
翻訳日:2023-05-31 02:36:16 公開日:2023-05-26
# DOC:詳細なアウトライン制御による長いストーリーコヒーレンスの改善

DOC: Improving Long Story Coherence With Detailed Outline Control ( http://arxiv.org/abs/2212.10077v2 )

ライセンス: Link先を確認
Kevin Yang, Dan Klein, Nanyun Peng, Yuandong Tian(参考訳) 複数単語のストーリーを自動的に生成する際の長距離プロットコヒーレンスを改善するための詳細アウトライン制御(DOC)フレームワークを提案する。 DOCは2つの補完的なコンポーネントで構成されている。 詳細アウトラインは、より詳細で階層的に構造化されたアウトラインを作成し、クリエイティブな負担をメインのドラフト手順から計画段階に移行する。 詳細コントローラは、アウトラインの詳細に合わせてストーリーの節を制御することで、生成中もより詳細なアウトラインが尊重されるようにします。 自動生成ストーリーの人間による評価では、DOCはプロットコヒーレンス(22.5%の絶対ゲイン)、アウトライン関連(28.2%)、面白さ(20.7%)で強いRe3ベースライン(Yang et al., 2022)を大幅に上回る。 人間はまた、DOCは対話的な世代設定においてはるかに制御可能であると判断した。

We propose the Detailed Outline Control (DOC) framework for improving long-range plot coherence when automatically generating several-thousand-word-long stories. DOC consists of two complementary components: a detailed outliner and a detailed controller. The detailed outliner creates a more detailed, hierarchically structured outline, shifting creative burden from the main drafting procedure to the planning stage. The detailed controller ensures the more detailed outline is still respected during generation by controlling story passages to align with outline details. In human evaluations of automatically generated stories, DOC substantially outperforms a strong Re3 baseline (Yang et al., 2022) on plot coherence (22.5% absolute gain), outline relevance (28.2%), and interestingness (20.7%). Humans also judged DOC to be much more controllable in an interactive generation setting.
翻訳日:2023-05-31 02:35:25 公開日:2023-05-26
# InPars-v2:情報検索のための効率的なデータセット生成器としての大規模言語モデル

InPars-v2: Large Language Models as Efficient Dataset Generators for Information Retrieval ( http://arxiv.org/abs/2301.01820v4 )

ライセンス: Link先を確認
Vitor Jeronymo, Luiz Bonifacio, Hugo Abonizio, Marzieh Fadaee, Roberto Lotufo, Jakub Zavrel, Rodrigo Nogueira(参考訳) InParsは近年,情報検索タスクにおいて,大規模言語モデル(LLM)を効率的に利用する手法を導入している。 これらの合成クエリドキュメントペアは、レトリバーのトレーニングに使用することができる。 しかし、InParsや最近では、Promptagatorは、GPT-3やFLANといったプロプライエタリなLLMを使ってそのようなデータセットを生成する。 InPars-v2は、オープンソースのLLMと既存の強力なリランカを使用して、トレーニング用に合成クエリ-ドキュメントペアを選択するデータセットジェネレータである。 InPars-v2データに微調整されたmonoT5リランカを伴い、単純なBM25検索パイプラインがBEIRベンチマークで新しい最先端の結果を得る。 研究者がメソッドをさらに改善できるように、コード、合成データ、微調整されたモデルをオープンソースにしています。

Recently, InPars introduced a method to efficiently use large language models (LLMs) in information retrieval tasks: via few-shot examples, an LLM is induced to generate relevant queries for documents. These synthetic query-document pairs can then be used to train a retriever. However, InPars and, more recently, Promptagator, rely on proprietary LLMs such as GPT-3 and FLAN to generate such datasets. In this work we introduce InPars-v2, a dataset generator that uses open-source LLMs and existing powerful rerankers to select synthetic query-document pairs for training. A simple BM25 retrieval pipeline followed by a monoT5 reranker finetuned on InPars-v2 data achieves new state-of-the-art results on the BEIR benchmark. To allow researchers to further improve our method, we open source the code, synthetic data, and finetuned models: https://github.com/zetaalphavector/inPars/tree/master/tpu
翻訳日:2023-05-31 02:28:11 公開日:2023-05-26
# 文脈長探索によるブラックボックス言語モデル説明

Black-box language model explanation by context length probing ( http://arxiv.org/abs/2212.14815v3 )

ライセンス: Link先を確認
Ond\v{r}ej C\'ifka, Antoine Liutkus(参考訳) 大規模言語モデルの普及が進み、説明可能性の向上の必要性が浮き彫りになっている。 本稿では,文脈長の予測を利用可能な文脈長の関数として追跡し,異なる文脈に差分重要度スコアを割り当てることにより,因果言語モデルの新たな説明手法である文脈長探索を提案する。 この技術はモデルに依存しず、トークンレベルの確率の計算以上のモデル内部へのアクセスに依存しない。 学習済みの大規模言語モデルに文脈長探索を適用し、長距離依存の研究の可能性を含むいくつかの初期分析と洞察を提供する。 このメソッドのソースコードとインタラクティブなデモが提供されている。

The increasingly widespread adoption of large language models has highlighted the need for improving their explainability. We present context length probing, a novel explanation technique for causal language models, based on tracking the predictions of a model as a function of the length of available context, and allowing to assign differential importance scores to different contexts. The technique is model-agnostic and does not rely on access to model internals beyond computing token-level probabilities. We apply context length probing to large pre-trained language models and offer some initial analyses and insights, including the potential for studying long-range dependencies. The source code and an interactive demo of the method are available.
翻訳日:2023-05-31 02:27:28 公開日:2023-05-26
# エンティティ選択のための間接参照表現の解決

Resolving Indirect Referring Expressions for Entity Selection ( http://arxiv.org/abs/2212.10933v2 )

ライセンス: Link先を確認
Mohammad Javad Hosseini, Filip Radlinski, Silvia Pareti, Annie Louis(参考訳) 言語モデリングの最近の進歩は、新しい会話システムを可能にした。 特に、そのようなシステムを使用する場合、特定の選択肢の中から選択することが望ましい場合が多い。 我々は、自然表現を使ってエンティティを選択した場合、参照解決の問題に対処する。 例えば、"should we make a simnel cake or a pandan cake?"という選択をすると、ダイアログ参加者からの自然な応答は間接的に "let's make the green one" となる。 このような自然表現は参照分解のためにはほとんど研究されていない。 このような言語を堅牢に理解することは、対話、推薦、検索システムにおける自然性を改善する大きな可能性を秘めている。 AltEntities(Alternative Entities)は42Kのエンティティペアと式(ペア内の1つのエンティティを参照)からなる新しいパブリックデータセットで、曖昧性問題のためのモデルを開発する。 3つの領域にわたる間接参照表現からなるコーパスは、このタスクに言語モデルをどのように適用できるかの研究を初めて可能にする。 現実的な設定では82%-87%の精度を実現しています。

Recent advances in language modeling have enabled new conversational systems. In particular, it is often desirable for people to make choices among specified options when using such systems. We address this problem of reference resolution, when people use natural expressions to choose between the entities. For example, given the choice `Should we make a Simnel cake or a Pandan cake?' a natural response from a dialog participant may be indirect: `let's make the green one'. Such natural expressions have been little studied for reference resolution. We argue that robustly understanding such language has large potential for improving naturalness in dialog, recommendation, and search systems. We create AltEntities (Alternative Entities), a new public dataset of 42K entity pairs and expressions (referring to one entity in the pair), and develop models for the disambiguation problem. Consisting of indirect referring expressions across three domains, our corpus enables for the first time the study of how language models can be adapted to this task. We find they achieve 82%-87% accuracy in realistic settings, which while reasonable also invites further advances.
翻訳日:2023-05-31 02:25:42 公開日:2023-05-26
# SERENGETI:アフリカにおける多言語言語モデル

SERENGETI: Massively Multilingual Language Models for Africa ( http://arxiv.org/abs/2212.10785v2 )

ライセンス: Link先を確認
Ife Adebara, AbdelRahim Elmadany, Muhammad Abdul-Mageed, Alcides Alcoba Inciarte(参考訳) 多言語事前訓練言語モデル (mPLMs) は、事前訓練中に有益で一般化可能な言語情報を取得し、タスク固有の微調整の技術を進歩させた。 現在までに、2000言語中31言語のみが既存の言語モデルでカバーされている。 我々は、アフリカの517の言語と言語を対象とする多言語モデルであるserengetiの開発によって、この制限を改善する。 8つの自然言語理解タスクを20のデータセットで評価し、4-23のアフリカの言語をカバーする4 mplmと比較した。 SERENGETIは8タスクにわたって11のデータセットで他のモデルより優れており、平均F_1は82.27である。 また, ゼロショット環境下において, 言語系図と言語類似性の影響を調べることができるように, モデルからの誤りの分析も行う。 私たちは研究用のモデルを公開します。 関連スポンサーコンテンツ \footnote{\href{https://github.com/ubc-nlp/serengeti}{https://github.com/ubc-nlp/serengeti}}

Multilingual pretrained language models (mPLMs) acquire valuable, generalizable linguistic information during pretraining and have advanced the state of the art on task-specific finetuning. To date, only ~31 out of ~2,000 African languages are covered in existing language models. We ameliorate this limitation by developing SERENGETI, a massively multilingual language model that covers 517 African languages and language varieties. We evaluate our novel models on eight natural language understanding tasks across 20 datasets, comparing to 4 mPLMs that cover 4-23 African languages. SERENGETI outperforms other models on 11 datasets across the eights tasks, achieving 82.27 average F_1. We also perform analyses of errors from our models, which allows us to investigate the influence of language genealogy and linguistic similarity when the models are applied under zero-shot settings. We will publicly release our models for research.\footnote{\href{https://github.com/UBC-NLP/serengeti}{https://github.com/UBC-NLP/serengeti}}
翻訳日:2023-05-31 02:25:24 公開日:2023-05-26
# DiME:マトリックスベースのエントロピーの違いによる相互情報の最大化

DiME: Maximizing Mutual Information by a Difference of Matrix-Based Entropies ( http://arxiv.org/abs/2301.08164v2 )

ライセンス: Link先を確認
Oscar Skean, Jhoan Keider Hoyos Osorio, Austin J. Brockmeier, Luis Gonzalo Sanchez Giraldo(参考訳) 基礎となる分布を明示的に仮定することなく,データから推定可能な相互情報と同様の特性を持つ情報理論量を導入する。 この量は、最近提案された、正規化グラム行列の固有値を用いて、再生核ヒルベルト空間における非中心共分散作用素の固有値の推定を計算する行列ベースのエントロピーに基づいている。 行列に基づくエントロピー(dime)の差異は,確率変数間の相互情報の最大化に関する問題によく適合することを示す。 そのような問題に対する多くの手法は自明な解決につながるが、DMEは自然にそのような結果を罰する。 おもちゃのガウスデータセットにおける相互情報のベースライン推定値と比較した。 本稿では,相互情報の高いビュー間の共有表現をdimeが学習するためのマルチビュー表現学習問題として,潜在因子不等角化や多視点表現学習問題など,dimeのユースケースの例を示す。

We introduce an information-theoretic quantity with similar properties to mutual information that can be estimated from data without making explicit assumptions on the underlying distribution. This quantity is based on a recently proposed matrix-based entropy that uses the eigenvalues of a normalized Gram matrix to compute an estimate of the eigenvalues of an uncentered covariance operator in a reproducing kernel Hilbert space. We show that a difference of matrix-based entropies (DiME) is well suited for problems involving the maximization of mutual information between random variables. While many methods for such tasks can lead to trivial solutions, DiME naturally penalizes such outcomes. We compare DiME to several baseline estimators of mutual information on a toy Gaussian dataset. We provide examples of use cases for DiME, such as latent factor disentanglement and a multiview representation learning problem where DiME is used to learn a shared representation among views with high mutual information.
翻訳日:2023-05-31 02:17:25 公開日:2023-05-26
# 平均場制御に基づく多エージェント強化学習の非分解性グローバル状態存在下での近似

Mean-Field Control based Approximation of Multi-Agent Reinforcement Learning in Presence of a Non-decomposable Shared Global State ( http://arxiv.org/abs/2301.06889v2 )

ライセンス: Link先を確認
Washim Uddin Mondal, Vaneet Aggarwal, Satish V. Ukkusuri(参考訳) 平均場制御(MFC)は、大規模マルチエージェント強化学習(MARL)問題を解決する強力な近似ツールである。 しかしながら、mfcの成功は、すべてのエージェントのローカル状態とアクションが与えられると、エージェントの次の(ローカルな)状態が互いに条件付き独立に進化するという仮定に依存している。 ここでは,エージェントが独立に進化するローカル状態に加えて,共通グローバル状態を共有するMARL環境においても(個々のエージェントの状態遷移過程の相関を導入するため),MFCは良好な近似ツールとして適用可能であることを実証する。 グローバル状態は分解不能であると仮定されるが、エージェントの局所状態の集まりとして表現することはできない。 近似誤差を$\mathcal{O}(e)$, $e=\frac{1}{\sqrt{N}}\left[\sqrt{|\mathcal{X}|} +\sqrt{|\mathcal{U}|}\right]$と計算する。 エージェントの集団の大きさは $n$ と $|\mathcal{x}|, |\mathcal{u}|$ で表される。 近似誤差は、共有グローバルな状態空間のサイズに依存しないことが分かる。 さらに、特別の場合、報酬と状態遷移関数が集団の行動分布とは独立である場合、誤差を$e=\frac{\sqrt{|\mathcal{x}|}}{\sqrt{n}}$ に改善できることを示す。 最後に、mfc の問題を $\mathcal{o}(\epsilon^{-3})$ で解き、$\mathcal{o}(\max\{e,\epsilon\})$ の任意の $\epsilon>0$ に対して最適な marl ポリシーの誤差となるポリシーを得る自然なポリシー勾配に基づくアルゴリズムを考案する。

Mean Field Control (MFC) is a powerful approximation tool to solve large-scale Multi-Agent Reinforcement Learning (MARL) problems. However, the success of MFC relies on the presumption that given the local states and actions of all the agents, the next (local) states of the agents evolve conditionally independent of each other. Here we demonstrate that even in a MARL setting where agents share a common global state in addition to their local states evolving conditionally independently (thus introducing a correlation between the state transition processes of individual agents), the MFC can still be applied as a good approximation tool. The global state is assumed to be non-decomposable i.e., it cannot be expressed as a collection of local states of the agents. We compute the approximation error as $\mathcal{O}(e)$ where $e=\frac{1}{\sqrt{N}}\left[\sqrt{|\mathcal{X}|} +\sqrt{|\mathcal{U}|}\right]$. The size of the agent population is denoted by the term $N$, and $|\mathcal{X}|, |\mathcal{U}|$ respectively indicate the sizes of (local) state and action spaces of individual agents. The approximation error is found to be independent of the size of the shared global state space. We further demonstrate that in a special case if the reward and state transition functions are independent of the action distribution of the population, then the error can be improved to $e=\frac{\sqrt{|\mathcal{X}|}}{\sqrt{N}}$. Finally, we devise a Natural Policy Gradient based algorithm that solves the MFC problem with $\mathcal{O}(\epsilon^{-3})$ sample complexity and obtains a policy that is within $\mathcal{O}(\max\{e,\epsilon\})$ error of the optimal MARL policy for any $\epsilon>0$.
翻訳日:2023-05-31 02:16:11 公開日:2023-05-26
# モデルに基づく抽象解釈によるロバスト強化学習

Certifiably Robust Reinforcement Learning through Model-Based Abstract Interpretation ( http://arxiv.org/abs/2301.11374v2 )

ライセンス: Link先を確認
Chenxi Yang, Greg Anderson, Swarat Chaudhuri(参考訳) 本稿では,学習方針が証明可能な対向ロバスト性の機械チェック可能な証明書を付与する強化学習(rl)フレームワークを提案する。 我々のアプローチはCAROLと呼ばれ、環境のモデルを学ぶ。 各学習イテレーションでは、このモデルの現行バージョンと外部抽象インタプリタを使用して、証明可能な堅牢性のための識別可能な信号を構築する。 この信号は学習のガイドに使われ、それを構成するのに使用される抽象的な解釈は収束時に返される堅牢性証明書に繋がる。 我々は、CAROLの最悪の累積報酬を束縛する理論的解析を行う。 また,連続状態と動作空間を有する4つの MuJoCo 環境上で CAROL を実験的に評価した。 これらのタスクにおいて、CAROLは、最先端のロバストなRLアルゴリズムのポリシーと対照的なポリシーを学ぶ。 (i)認定性能を著しく向上させたこと、及び (ii)経験的敵意攻撃における同等のパフォーマンス。

We present a reinforcement learning (RL) framework in which the learned policy comes with a machine-checkable certificate of provable adversarial robustness. Our approach, called CAROL, learns a model of the environment. In each learning iteration, it uses the current version of this model and an external abstract interpreter to construct a differentiable signal for provable robustness. This signal is used to guide learning, and the abstract interpretation used to construct it directly leads to the robustness certificate returned at convergence. We give a theoretical analysis that bounds the worst-case accumulative reward of CAROL. We also experimentally evaluate CAROL on four MuJoCo environments with continuous state and action spaces. On these tasks, CAROL learns policies that, when contrasted with policies from the state-of-the-art robust RL algorithms, exhibit: (i) markedly enhanced certified performance lower bounds; and (ii) comparable performance under empirical adversarial attacks.
翻訳日:2023-05-31 02:08:42 公開日:2023-05-26
# ダブルコールバック・リーブラー最小化による潜在ガウス過程のスパース逆コレスキー近似

Variational sparse inverse Cholesky approximation for latent Gaussian processes via double Kullback-Leibler minimization ( http://arxiv.org/abs/2301.13303v2 )

ライセンス: Link先を確認
Jian Cao, Myeongjong Kang, Felix Jimenez, Huiyan Sang, Florian Schafer, Matthias Katzfuss(参考訳) 遅延ガウス過程に対するスケーラブルかつ正確な推定を実現するために,共分散行列がスパース逆コレスキー(SIC)因子を持つガウス分布の族に基づく変分近似を提案する。 後部のこの変動近似と、SIC制限されたKulback-Leibler-Optimal近似を併用する。 次に,特定のSIC順序付けと近接近傍の空間パターンに着目し,高精度な事前近似と後部近似を行う。 この設定のために、この変分近似は、反復当たりの多対数時間で確率的勾配降下によって計算できる。 提案手法であるdklgp(double-kullback-leibler-optimal gaussian-process approximation)は,同様の計算量での誘導点や平均場近似のような代替手法よりも,定常カーネルにおいてはるかに精度が高い場合がある。

To achieve scalable and accurate inference for latent Gaussian processes, we propose a variational approximation based on a family of Gaussian distributions whose covariance matrices have sparse inverse Cholesky (SIC) factors. We combine this variational approximation of the posterior with a similar and efficient SIC-restricted Kullback-Leibler-optimal approximation of the prior. We then focus on a particular SIC ordering and nearest-neighbor-based sparsity pattern resulting in highly accurate prior and posterior approximations. For this setting, our variational approximation can be computed via stochastic gradient descent in polylogarithmic time per iteration. We provide numerical comparisons showing that the proposed double-Kullback-Leibler-optimal Gaussian-process approximation (DKLGP) can sometimes be vastly more accurate for stationary kernels than alternative approaches such as inducing-point and mean-field approximations at similar computational complexity.
翻訳日:2023-05-31 01:58:03 公開日:2023-05-26
# 対数-ユークリッド幾何学における多元共分散推定

Multi-Fidelity Covariance Estimation in the Log-Euclidean Geometry ( http://arxiv.org/abs/2301.13749v2 )

ライセンス: Link先を確認
Aimee Maurais and Terrence Alsup and Benjamin Peherstorfer and Youssef Marzouk(参考訳) 対称正定値多様体の対数ユークリッド幾何学を利用する共分散行列の多値推定器を導入する。 estimatorは、以前のアプローチとは対照的に、異なるフィダリティと分散低減のためのコストの異なるデータソースの階層からサンプルを融合する。 新しい推定器は,シミュレーションやデータ収集が高価であるアプリケーションでは共分散推定が可能であり,その目的のために,固定予算を与えられた推定器の平均二乗誤差を最小限に抑える最適なサンプル割り当て方式を開発する。 保証された定性は、メトリック学習、データ同化、その他の下流タスクに不可欠である。 物理アプリケーション(熱伝導, 流体力学)のデータによるアプローチの評価は, ベンチマークと比較すると, 1桁以上の精度の計量学習と高速化を示す。

We introduce a multi-fidelity estimator of covariance matrices that employs the log-Euclidean geometry of the symmetric positive-definite manifold. The estimator fuses samples from a hierarchy of data sources of differing fidelities and costs for variance reduction while guaranteeing definiteness, in contrast with previous approaches. The new estimator makes covariance estimation tractable in applications where simulation or data collection is expensive; to that end, we develop an optimal sample allocation scheme that minimizes the mean-squared error of the estimator given a fixed budget. Guaranteed definiteness is crucial to metric learning, data assimilation, and other downstream tasks. Evaluations of our approach using data from physical applications (heat conduction, fluid dynamics) demonstrate more accurate metric learning and speedups of more than one order of magnitude compared to benchmarks.
翻訳日:2023-05-31 01:48:24 公開日:2023-05-26
# ニューラルネットワークの深さ縮退:初期化における完全連結reluネットワークの消失角

Depth Degeneracy in Neural Networks: Vanishing Angles in Fully Connected ReLU Networks on Initialization ( http://arxiv.org/abs/2302.09712v2 )

ライセンス: Link先を確認
Cameron Jakub and Mihai Nica(参考訳) 様々なタスクにおける顕著な性能にもかかわらず、ディープニューラルネットワークの多くの特性はまだ理論的に理解されていない。 ネットワークが深ければ深いほど、ネットワークは初期化時に一定の機能に近づきます。 本稿では,層数の関数としてのReLUニューラルネットワークに対する2つの入力間の角度の進化について検討する。 組合せ展開を用いることで、深さが増加するにつれてこの角度がゼロになる速度の正確な公式が見つかる。 これらの公式は無限幅制限の一般的な枠組みでは見えない微視的なゆらぎを捉え、質的に異なる予測をもたらす。 その結果をモンテカルロ実験で検証し,有限ネットワークの挙動を精度良く近似することを示した。 公式は、ReLU関数を通過した相関ガウスの混合モーメントの観点から与えられる。 また、これらの混合モーメントとベッセル数の間に驚くべき組合せ関係があり、これらのモーメントを明示的に評価することができる。

Despite remarkable performance on a variety of tasks, many properties of deep neural networks are not yet theoretically understood. One such mystery is the depth degeneracy phenomenon: the deeper you make your network, the closer your network is to a constant function on initialization. In this paper, we examine the evolution of the angle between two inputs to a ReLU neural network as a function of the number of layers. By using combinatorial expansions, we find precise formulas for how fast this angle goes to zero as depth increases. These formulas capture microscopic fluctuations that are not visible in the popular framework of infinite width limits, and leads to qualitatively different predictions. We validate our theoretical results with Monte Carlo experiments and show that our results accurately approximate finite network behaviour. The formulas are given in terms of the mixed moments of correlated Gaussians passed through the ReLU function. We also find a surprising combinatorial connection between these mixed moments and the Bessel numbers that allows us to explicitly evaluate these moments.
翻訳日:2023-05-31 01:26:50 公開日:2023-05-26
# SKED:スケッチガイド付きテキストベースの3D編集

SKED: Sketch-guided Text-based 3D Editing ( http://arxiv.org/abs/2303.10735v3 )

ライセンス: Link先を確認
Aryan Mikaeili, Or Perel, Mehdi Safaee, Daniel Cohen-Or, Ali Mahdavi-Amiri(参考訳) テキストから画像への拡散モデルは徐々にコンピュータグラフィックスに導入され、最近はオープンドメインでテキストから3Dパイプラインの開発が可能になった。 しかし、インタラクティブな編集のためには、単純なテキストインタフェースによるコンテンツの局所的な操作は困難である。 ユーザガイドによるスケッチをText-to-imageパイプラインに組み込むことで,より直感的なコントロールが可能になる。 それでも、最先端のText-to-3Dパイプラインは任意のレンダリングビューからの勾配を通じてNeRF(Neural Radiance Fields)の最適化に依存しているため、スケッチの条件付けは簡単ではない。 本稿では,NeRFで表される3次元形状を編集する技術であるSKEDを提案する。 本手法は,既存のニューラルフィールドを変化させるために,異なる視点からの2つのガイドスケッチを用いる。 編集された領域は、事前訓練された拡散モデルを通じてプロンプトセマンティクスを尊重する。 生成した出力が提供されるスケッチに確実に準拠するように,ベースインスタンスの密度と放射率を維持しつつ,所望の編集を生成する新しい損失関数を提案する。 提案手法の有効性を, 定性的, 定量的な実験によって実証する。

Text-to-image diffusion models are gradually introduced into computer graphics, recently enabling the development of Text-to-3D pipelines in an open domain. However, for interactive editing purposes, local manipulations of content through a simplistic textual interface can be arduous. Incorporating user guided sketches with Text-to-image pipelines offers users more intuitive control. Still, as state-of-the-art Text-to-3D pipelines rely on optimizing Neural Radiance Fields (NeRF) through gradients from arbitrary rendering views, conditioning on sketches is not straightforward. In this paper, we present SKED, a technique for editing 3D shapes represented by NeRFs. Our technique utilizes as few as two guiding sketches from different views to alter an existing neural field. The edited region respects the prompt semantics through a pre-trained diffusion model. To ensure the generated output adheres to the provided sketches, we propose novel loss functions to generate the desired edits while preserving the density and radiance of the base instance. We demonstrate the effectiveness of our proposed method through several qualitative and quantitative experiments.
翻訳日:2023-05-31 01:09:43 公開日:2023-05-26
# CB2: 共同自然言語インタラクション研究プラットフォーム

CB2: Collaborative Natural Language Interaction Research Platform ( http://arxiv.org/abs/2303.08127v2 )

ライセンス: Link先を確認
Jacob Sharf, Mustafa Omer Gul, Yoav Artzi(参考訳) CB2はタスク指向のシナリオで協調的な自然言語インタラクションを研究するマルチエージェントプラットフォームである。 3dゲーム環境、トレーニングされたモデルを人間エージェントに提供するように設計されたバックエンドサーバ、スケーラブルな研究を可能にするためのさまざまなツールやプロセスが含まれている。 我々は CB2 を https://cb2.ai にデプロイし、学習した命令に従うモデルでシステムデモを行う。

CB2 is a multi-agent platform to study collaborative natural language interaction in a grounded task-oriented scenario. It includes a 3D game environment, a backend server designed to serve trained models to human agents, and various tools and processes to enable scalable studies. We deploy CB2 at https://cb2.ai as a system demonstration with a learned instruction following model.
翻訳日:2023-05-31 01:07:56 公開日:2023-05-26
# 潜在指紋を用いた画像生成モデルの作成

Attributing Image Generative Models using Latent Fingerprints ( http://arxiv.org/abs/2304.09752v2 )

ライセンス: Link先を確認
Guangyu Nie, Changhoon Kim, Yezhou Yang, Yi Ren(参考訳) 生成モデルは、自然から取られたものと区別できないコンテンツの作成を可能にした。 このようなモデルのオープンソース開発は、悪意のある目的のために誤用されるリスクに関する懸念を引き起こした。 潜在的なリスク軽減戦略の1つは、指紋による生成モデルの解析である。 現在のフィンガープリント法は、このトレードオフを改善するための設計原則を欠きながら、ロバストな帰属精度と生成品質の間に大きなトレードオフを示す。 本稿では,指紋としての潜在意味寸法の使用について検討し,指紋の寸法,強度,キャパシティなどの設計変数が精度と品質のトレードオフに与える影響について検討する。 従来の sota と比較して,本手法は最小計算を必要とせず,大規模モデルにも適用可能である。 提案手法の有効性を示すために,StyleGAN2と潜在拡散モデルを用いた。

Generative models have enabled the creation of contents that are indistinguishable from those taken from nature. Open-source development of such models raised concerns about the risks of their misuse for malicious purposes. One potential risk mitigation strategy is to attribute generative models via fingerprinting. Current fingerprinting methods exhibit a significant tradeoff between robust attribution accuracy and generation quality while lacking design principles to improve this tradeoff. This paper investigates the use of latent semantic dimensions as fingerprints, from where we can analyze the effects of design variables, including the choice of fingerprinting dimensions, strength, and capacity, on the accuracy-quality tradeoff. Compared with previous SOTA, our method requires minimum computation and is more applicable to large-scale models. We use StyleGAN2 and the latent diffusion model to demonstrate the efficacy of our method.
翻訳日:2023-05-31 00:49:47 公開日:2023-05-26
# グラフニューラルネットワークはノード分類に役立つか--ノード識別性に関するホモフィリー原理の検討

When Do Graph Neural Networks Help with Node Classification: Investigating the Homophily Principle on Node Distinguishability ( http://arxiv.org/abs/2304.14274v2 )

ライセンス: Link先を確認
Sitao Luan, Chenqing Hua, Minkai Xu, Qincheng Lu, Jiaqi Zhu, Xiao-Wen Chang, Jie Fu, Jure Leskovec, Doina Precup(参考訳) ホモフィリ原理、すなわち、同じラベルを持つノードが接続される可能性が高いことは、ノードベースのノード分類タスクにおけるニューラルネットワークよりもグラフニューラルネットワーク(GNN)のパフォーマンス上の優位性の主要な理由であると信じられている。 最近の研究は、ホモフィリーがなくても、同じクラスのノードが類似した近隣パターンを共有する限り、GNNの利点は依然として存在することを示唆している。 しかし、この議論はクラス内ノード区別可能性(ND)のみを考慮し、クラス間NDを無視し、ホモフィリーの不完全な理解を提供する。 本論では,ND の理想的状況はクラス間 ND よりもクラス内 ND が小さいことである,と論じる。 この概念を定式化するために,ホモフィア (csbm-h) の文脈的確率的ブロックモデルを提案し,確率ベイズ誤差 (pbe) と負の一般化ジェフリーズ分岐 (jeffreys divergence) という2つの指標を定義し,nd を定量化する。 結果を可視化し、詳細な分析を行う。 実験により,gnnの優越性は,ホモフィリーレベルに関わらずクラス内およびクラス間ndの両方と密接に関連していることを確認し,非線形かつ特徴ベースであるホモフィリー以外の新しい性能指標を提案する。 実験によれば、合成データとベンチマークデータの両方におけるgnnの利点とデメリットを明らかにする上で、既存のホモフィリメトリックよりもかなり効果的である。

Homophily principle, i.e. nodes with the same labels are more likely to be connected, has been believed to be the main reason for the performance superiority of Graph Neural Networks (GNNs) over node-based Neural Networks on Node Classification tasks. Recent research suggests that, even in the absence of homophily, the advantage of GNNs still exists as long as nodes from the same class share similar neighborhood patterns. However, this argument only considers intra-class Node Distinguishability (ND) and neglects inter-class ND, which provides incomplete understanding of homophily. In this paper, we first demonstrate the aforementioned insufficiency with examples and argue that an ideal situation for ND is to have smaller intra-class ND than inter-class ND. To formulate this idea, we propose Contextual Stochastic Block Model for Homophily (CSBM-H) and define two metrics, Probabilistic Bayes Error (PBE) and negative generalized Jeffreys divergence, to quantify ND, through which we can find how intra- and inter-class ND influence ND together. We visualize the results and give detailed analysis. Through experiments, we verified that the superiority of GNNs is indeed closely related to both intra- and inter-class ND regardless of homophily levels, based on which we propose a new performance metric beyond homophily, which is non-linear and feature-based. Experiments indicate it significantly more effective than the existing homophily metrics on revealing the advantage and disadvantage of GNNs on both synthetic and benchmark real-world datasets.
翻訳日:2023-05-31 00:40:08 公開日:2023-05-26
# 1335言語における概念化の言語間比較

A Crosslingual Investigation of Conceptualization in 1335 Languages ( http://arxiv.org/abs/2305.08475v2 )

ライセンス: Link先を確認
Yihong Liu, Haotian Ye, Leonie Weissweiler, Philipp Wicke, Renhao Pei, Robert Zangenfeind, Hinrich Sch\"utze(参考訳) 例えば、英語とは対照的に、スワヒリ語は『belly』と『womb』の1つの概念を持っている。 1,335言語間の概念化におけるこれらの違いを並列コーパスにおける概念の整合によって検討する。 そこで,本稿では,ソース言語の概念と対象言語文字列の集合との双方向指向アライメントグラフを作成する手法であるconceptionizerを提案する。 1つの概念(`bird')に対する全言語にわたる詳細な言語分析と32のスワデシュ概念に対する金標準データの評価において、概念化器はアライメント精度が良いことを示す。 2つの実験により,NLPにおける概念化の研究の可能性を示す。 1) 概念の言語間安定性を言語間の1-1対応度として定義し, 具体性が安定性を予測することを示す。 2) 83概念に対する概念化パターンを用いて各言語を表現し, それらの表現について類似度尺度を定義する。 2つの言語の概念的類似性の結果として得られる尺度は、標準的な系譜学、類型学、表面類似性の尺度と相補的である。 6つの言語ファミリーのうち4つでは、54%から87%の精度で概念的類似性に基づいて言語を正しい家族に割り当てることができる。

Languages differ in how they divide up the world into concepts and words; e.g., in contrast to English, Swahili has a single concept for `belly' and `womb'. We investigate these differences in conceptualization across 1,335 languages by aligning concepts in a parallel corpus. To this end, we propose Conceptualizer, a method that creates a bipartite directed alignment graph between source language concepts and sets of target language strings. In a detailed linguistic analysis across all languages for one concept (`bird') and an evaluation on gold standard data for 32 Swadesh concepts, we show that Conceptualizer has good alignment accuracy. We demonstrate the potential of research on conceptualization in NLP with two experiments. (1) We define crosslingual stability of a concept as the degree to which it has 1-1 correspondences across languages, and show that concreteness predicts stability. (2) We represent each language by its conceptualization pattern for 83 concepts, and define a similarity measure on these representations. The resulting measure for the conceptual similarity of two languages is complementary to standard genealogical, typological, and surface similarity measures. For four out of six language families, we can assign languages to their correct family based on conceptual similarity with accuracy between 54% and 87%.
翻訳日:2023-05-31 00:09:54 公開日:2023-05-26
# タックスフリー」3DMM条件付き顔生成

'Tax-free' 3DMM Conditional Face Generation ( http://arxiv.org/abs/2305.13460v2 )

ライセンス: Link先を確認
Yiwen Huang, Zhiqiu Yu, Xinjie Yi, Yue Wang, James Tompkin(参考訳) しかし,DiscoFaceGAN や 3D-FM GAN といった以前の作品では,非条件のスタイルGAN に比べてFID の差が顕著であり,制御性に対して支払う品質税が存在することが示唆されている。 本稿では,品質と制御性は共存できないという仮定に挑戦する。 従来の問題を特定するため、3DMM条件付き顔生成の問題を数学的に定式化する。 そして,提案した枠組みの下で,この問題に対する簡単な解決策を考案する。 これにより、3DMM条件付き顔GANと非条件型GANとの間の品質税を効果的に除去する新しいモデルが得られる。

3DMM conditioned face generation has gained traction due to its well-defined controllability; however, the trade-off is lower sample quality: Previous works such as DiscoFaceGAN and 3D-FM GAN show a significant FID gap compared to the unconditional StyleGAN, suggesting that there is a quality tax to pay for controllability. In this paper, we challenge the assumption that quality and controllability cannot coexist. To pinpoint the previous issues, we mathematically formalize the problem of 3DMM conditioned face generation. Then, we devise simple solutions to the problem under our proposed framework. This results in a new model that effectively removes the quality tax between 3DMM conditioned face GANs and the unconditional StyleGAN.
翻訳日:2023-05-30 23:52:13 公開日:2023-05-26
# 論理的制約付き部分可観測・マルチエージェントマルコフ決定過程の最適制御

Optimal Control of Logically Constrained Partially Observable and Multi-Agent Markov Decision Processes ( http://arxiv.org/abs/2305.14736v2 )

ライセンス: Link先を確認
Krishna C. Kalagarla, Dhruva Kartik, Dongming Shen, Rahul Jain, Ashutosh Nayyar and Pierluigi Nuzzo(参考訳) 自律システムはしばしば、例えば安全性、運用性、規制要件から生じる論理的制約を持っている。 このような制約は時間論理の仕様を使って表現できる。 システム状態は部分的に観測可能であることが多い。 さらに、共通の目的を持つが、異なる情報構造と制約を持つ複数のエージェントのチームを含むことができる。 本稿ではまず,有限線形時間論理制約を持つ部分観測可能マルコフ決定過程(POMDP)に対する最適制御理論を提案する。 時相論理制約を満たす確率が十分に高いことを保証しつつ、累積報酬を最大化する政策合成のための構造化手法を提供する。 我々のアプローチは、近似的な報酬の最適性と制約満足度を保証する。 次に,情報非対称性を持つ論理的制約付きマルチエージェント設定のための最適制御フレームワークを設計する。 いくつかのケーススタディに実装することで,本手法の有効性を示す。

Autonomous systems often have logical constraints arising, for example, from safety, operational, or regulatory requirements. Such constraints can be expressed using temporal logic specifications. The system state is often partially observable. Moreover, it could encompass a team of multiple agents with a common objective but disparate information structures and constraints. In this paper, we first introduce an optimal control theory for partially observable Markov decision processes (POMDPs) with finite linear temporal logic constraints. We provide a structured methodology for synthesizing policies that maximize a cumulative reward while ensuring that the probability of satisfying a temporal logic constraint is sufficiently high. Our approach comes with guarantees on approximate reward optimality and constraint satisfaction. We then build on this approach to design an optimal control framework for logically constrained multi-agent settings with information asymmetry. We illustrate the effectiveness of our approach by implementing it on several case studies.
翻訳日:2023-05-30 23:42:51 公開日:2023-05-26
# 大規模言語モデルにおける異種価値評価

Heterogeneous Value Evaluation for Large Language Models ( http://arxiv.org/abs/2305.17147v1 )

ライセンス: Link先を確認
Zhaowei Zhang, Nian Liu, Siyuan Qi, Ceyao Zhang, Ziqi Rong, Yaodong Yang, Shuguang Cui(参考訳) 大規模言語モデル(llm)の創発的な能力は、それらの価値を人間のものと一致させることを重要にしている。 現在の方法論は、通常、均質な人間の価値とアライメントを試み、人間の検証を必要とするが、望ましい側面とアライメントの深さについてコンセンサスを欠いている。 本稿では,(1)個人バイアスを最小化するために自動化され,(2)多様な目標値に対する評価を可能とし,異種エージェントを育成する,異種価値システムによる自動アライメント評価手法であるa2ehvを提案する。 当社のアプローチは,目標値を満たす行動を実行するエージェントの能力を表す,価値合理性の概念を軸にしている。 価値合理性の定量化は、価値空間を4つのカテゴリに分割し、エージェントの行動から社会的嗜好を評価する社会的価値指向フレームワークによって促進される。 我々は8つの主要なLCMの値合理性を評価し、大きなモデルは強い個人値と比較して中性値の整合性が高いことを観察した。 これらのLCMの挙動を調べることにより、不均一な値体系における値アライメントのより深い理解に寄与する。

The emergent capabilities of Large Language Models (LLMs) have made it crucial to align their values with those of humans. Current methodologies typically attempt alignment with a homogeneous human value and requires human verification, yet lack consensus on the desired aspect and depth of alignment and resulting human biases. In this paper, we propose A2EHV, an Automated Alignment Evaluation with a Heterogeneous Value system that (1) is automated to minimize individual human biases, and (2) allows assessments against various target values to foster heterogeneous agents. Our approach pivots on the concept of value rationality, which represents the ability for agents to execute behaviors that satisfy a target value the most. The quantification of value rationality is facilitated by the Social Value Orientation framework from social psychology, which partitions the value space into four categories to assess social preferences from agents' behaviors. We evaluate the value rationality of eight mainstream LLMs and observe that large models are more inclined to align neutral values compared to those with strong personal values. By examining the behavior of these LLMs, we contribute to a deeper understanding of value alignment within a heterogeneous value system.
翻訳日:2023-05-30 23:35:24 公開日:2023-05-26
# ベクトル値ランダム特徴を用いた学習のための誤差境界

Error Bounds for Learning with Vector-Valued Random Features ( http://arxiv.org/abs/2305.17170v1 )

ライセンス: Link先を確認
Samuel Lanthaler, Nicholas H. Nelsen(参考訳) 本稿では,ベクトル値ランダム特徴を用いた学習の包括的誤り解析を行う。 この理論は、完全な無限次元入力出力設定におけるRFリッジ回帰のために開発されたが、それでも既存の有限次元解析に適用し改善する。 文献に匹敵する研究とは対照的に、ここで提案されているアプローチはリスク関数の直接解析に依存しており、ランダム行列の観点で明示的なrfリッジ回帰解式を完全に避けている。 これにより、ランダム行列理論やそれらのランダム作用素への一般化における集中結果の必要性が排除される。 本研究の主な成果は, モデル不特定条件下でのベクトル値RF推定器の強い整合性と, 最適収束率の最小化である。 そのようなレートを達成するのに必要なパラメータ複雑性(ランダムな特徴の数)とサンプル複雑性(ラベル付きデータの数)は、モンテカルロの直観と同等であり、対数係数を持たない。

This paper provides a comprehensive error analysis of learning with vector-valued random features (RF). The theory is developed for RF ridge regression in a fully general infinite-dimensional input-output setting, but nonetheless applies to and improves existing finite-dimensional analyses. In contrast to comparable work in the literature, the approach proposed here relies on a direct analysis of the underlying risk functional and completely avoids the explicit RF ridge regression solution formula in terms of random matrices. This removes the need for concentration results in random matrix theory or their generalizations to random operators. The main results established in this paper include strong consistency of vector-valued RF estimators under model misspecification and minimax optimal convergence rates in the well-specified setting. The parameter complexity (number of random features) and sample complexity (number of labeled data) required to achieve such rates are comparable with Monte Carlo intuition and free from logarithmic factors.
翻訳日:2023-05-30 23:22:50 公開日:2023-05-26
# フェルミオンスピン1/2模型における多体傷の安定性

Stability of the many-body scars in fermionic spin-1/2 models ( http://arxiv.org/abs/2305.17164v1 )

ライセンス: Link先を確認
Patrice Kolb, Kiryl Pakrouski(参考訳) スピン-1/2フェルミオン系における多体傷の安定性について, 関連物質における最も典型的な摂動下で検討した。 いくつかの傷跡は特定の摂動には全く敏感ではない。 他の場合では摂動理論の第一次に安定である。 我々の分析結果は、(arXiv:2106.10300)で知られている多くのハミルトン派に当てはまる。 数値計算では、ハイゼンベルクとハバードの相互作用を含む変形した$t-J-U$モデルを選択する。 本稿では,初期波動関数の忠実性ではなく,物理的観測性に基づく2つの新しい安定性尺度を提案する。 傷跡の実験的検出を可能にし、理論的および数値的な観点からより信頼性が高い。 これらの測定方法の1つは、正確な多体傷がエネルギーに等間隔にある他のシステムで応用される可能性がある。 小型系や小摂動系では、量子シミュレーターに特に関係する機構として、多体傷が示すさらなる安定性を同定し記述する。 より大きな摂動強度については、多体局在と一致する異なるエルゴディシティ破壊モードを観察する。

We study the stability of the many-body scars in spin-1/2 fermionic systems under the most typical perturbations in relevant materials. We find that some families of scars are completely insensitive to certain perturbations. In some other cases they are stable to the first order in perturbation theory. Our analytical results apply to a large class of Hamiltonians that are known [arXiv:2106.10300] to support exact many-body scars. For the numerical calculations we choose the deformed $t-J-U$ model that includes both Heisenberg and Hubbard interactions. We propose two new stability measures that are based on physical observables rather than the fidelity to the exact initial wavefunction. They enable the experimental detection of scars and are more reliable from the theoretical and numerical perspectives. One of these measures may potentially find applications in other systems where the exact many-body scars are equally spaced in energy. In small systems and at small perturbations, a regime particularly relevant for quantum simulators, we identify and describe an additional stability exhibited by the many-body scars. For larger perturbation strengths we observe a distinct mode of ergodicity breaking that is consistent with many-body localization.
翻訳日:2023-05-30 23:22:34 公開日:2023-05-26
# 量子埋め込み型確率行列

Quantum-embeddable stochastic matrices ( http://arxiv.org/abs/2305.17163v1 )

ライセンス: Link先を確認
Fereshte Shahbeigi, Christopher T. Chubb, Ryszard Kukulski, {\L}ukasz Pawela, Kamil Korzekwa(参考訳) 古典的な埋め込み可能性問題は、与えられた確率行列$T$が、$d$レベルのシステムの遷移確率を記述することは、基礎となる同次連続時間マルコフ過程から生じるかどうかを問うものである。 ここでは、与えられた$t$ で記述された状態遷移を生成するマルコフ量子チャネルの存在を問う、この問題の量子バージョンを調べる。 より正確には、メモリレス連続時間量子進化から生じる量子埋め込み可能な確率行列の集合を特徴づけることを目指している。 この目的のために、この集合上の上界と下界の両方を導出し、量子埋め込み可能でないが古典埋め込み不可能な確率行列の新しい族と、量子埋め込み不可能な確率行列の族を提供する。 その結果、より大規模な遷移行列は、ダイナミクスが量子化可能であれば、メモリレスモデルによって説明できるが、古典的あるいは量子的メモリレスダイナミクスでは説明できないランダムプロセスの非ゼロ測度集合も特定できることを示した。 最後に、量子埋め込み可能な極端確率行列(0と1のみの成分を含む)を完全に特徴づける。

The classical embeddability problem asks whether a given stochastic matrix $T$, describing transition probabilities of a $d$-level system, can arise from the underlying homogeneous continuous-time Markov process. Here, we investigate the quantum version of this problem, asking of the existence of a Markovian quantum channel generating state transitions described by a given $T$. More precisely, we aim at characterising the set of quantum-embeddable stochastic matrices that arise from memoryless continuous-time quantum evolution. To this end, we derive both upper and lower bounds on that set, providing new families of stochastic matrices that are quantum-embeddable but not classically-embeddable, as well as families of stochastic matrices that are not quantum-embeddable. As a result, we demonstrate that a larger set of transition matrices can be explained by memoryless models if the dynamics is allowed to be quantum, but we also identify a non-zero measure set of random processes that cannot be explained by either classical or quantum memoryless dynamics. Finally, we fully characterise extreme stochastic matrices (with entries given only by zeros and ones) that are quantum-embeddable.
翻訳日:2023-05-30 23:22:17 公開日:2023-05-26
# スケーラブルなシミュレーションに基づく推論のためのフローマッチング

Flow Matching for Scalable Simulation-Based Inference ( http://arxiv.org/abs/2305.17161v1 )

ライセンス: Link先を確認
Maximilian Dax, Jonas Wildberger, Simon Buchholz, Stephen R. Green, Jakob H. Macke, Bernhard Sch\"olkopf(参考訳) 離散正規化フローに基づく神経後部推定法はシミュレーションベース推論(SBI)の確立されたツールとなっているが,高次元問題への拡張は困難である。 本稿では, 連続正規化流を用いたsbi手法であるfmpe(flow matching posterior estimation)について述べる。 拡散モデルや離散フローとは対照的に、フローマッチングは制約のないアーキテクチャを可能にし、複雑なデータモダリティに対する柔軟性を高める。 したがって、フローマッチングは、正確な密度評価、高速なトレーニング、大規模なアーキテクチャへのシームレスなスケーラビリティを可能にします。 我々は,FMPEが確立したSBIベンチマーク上での競争性能を達成し,その拡張性を,重力波推論において,FMPEが同等の離散フローに基づく手法より優れ,トレーニング時間を30%短縮し,精度を大幅に向上することを示す。 我々の研究は、FMPEが挑戦的な推論シナリオのパフォーマンスを向上させる可能性を強調し、科学的な問題へのより高度な応用の道を開く。

Neural posterior estimation methods based on discrete normalizing flows have become established tools for simulation-based inference (SBI), but scaling them to high-dimensional problems can be challenging. Building on recent advances in generative modeling, we here present flow matching posterior estimation (FMPE), a technique for SBI using continuous normalizing flows. Like diffusion models, and in contrast to discrete flows, flow matching allows for unconstrained architectures, providing enhanced flexibility for complex data modalities. Flow matching, therefore, enables exact density evaluation, fast training, and seamless scalability to large architectures--making it ideal for SBI. We show that FMPE achieves competitive performance on an established SBI benchmark, and then demonstrate its improved scalability on a challenging scientific problem: for gravitational-wave inference, FMPE outperforms methods based on comparable discrete flows, reducing training time by 30% with substantially improved accuracy. Our work underscores the potential of FMPE to enhance performance in challenging inference scenarios, thereby paving the way for more advanced applications to scientific problems.
翻訳日:2023-05-30 23:21:57 公開日:2023-05-26
# 胎児健康予測のための異なるハイパーパラメータチューニング機械学習アルゴリズムを用いた改良モデル

An Improved Model Ensembled of Different Hyper-parameter Tuned Machine Learning Algorithms for Fetal Health Prediction ( http://arxiv.org/abs/2305.17156v1 )

ライセンス: Link先を確認
Md. Simul Hasan Talukder, Sharmin Akter(参考訳) 妊娠中の胎児の健康は、母親と赤ちゃんの健康に影響を及ぼす可能性があるため、重要な問題である。 最良の結果を保証するためには、定期的な監視とタイムリーな介入が必要です。 母親の子宮の胎児の健康をモニタリングする様々な方法があるが、人工知能(AI)の使用は、精度、効率、診断速度を改善することができる。 本研究では,胎児の健康状態を予測するために,調整支援ベクトルマシンとETSEのアンサンブルと呼ばれる頑健なアンサンブルモデルを提案する。 当初は,異常拒否,値インプテーションの欠如,データの標準化,データサンプリングなど,さまざまなデータ前処理手法を採用していました。 次に,SVM(Support Vector Machine),XGBoost(XGB),Light Gradient Boosting Machine(LGBM),Decision Tree(DT),Random Forest(RF),ExtraTrees(ET),K-Neighborsの7つの機械学習(ML)分類器を実装した。 これらのモデルをグリッドサーチ手法を用いてハイパーパラメータチューニングにより評価し,最適化した。 最後に,提案するETSEモデルの性能解析を行った。 各モデルの性能解析の結果,提案したETSEモデルは,100%精度,100%リコール,100%F1スコア,99.66%精度で他のモデルよりも優れていた。 これは、etseモデルが胎児の健康を効果的に予測し、母親と赤ちゃんの両方のタイムリーな介入を助け、結果を改善できることを示している。

Fetal health is a critical concern during pregnancy as it can impact the well-being of both the mother and the baby. Regular monitoring and timely interventions are necessary to ensure the best possible outcomes. While there are various methods to monitor fetal health in the mother's womb, the use of artificial intelligence (AI) can improve the accuracy, efficiency, and speed of diagnosis. In this study, we propose a robust ensemble model called ensemble of tuned Support Vector Machine and ExtraTrees (ETSE) for predicting fetal health. Initially, we employed various data preprocessing techniques such as outlier rejection, missing value imputation, data standardization, and data sampling. Then, seven machine learning (ML) classifiers including Support Vector Machine (SVM), XGBoost (XGB), Light Gradient Boosting Machine (LGBM), Decision Tree (DT), Random Forest (RF), ExtraTrees (ET), and K-Neighbors were implemented. These models were evaluated and then optimized by hyperparameter tuning using the grid search technique. Finally, we analyzed the performance of our proposed ETSE model. The performance analysis of each model revealed that our proposed ETSE model outperformed the other models with 100% precision, 100% recall, 100% F1-score, and 99.66% accuracy. This indicates that the ETSE model can effectively predict fetal health, which can aid in timely interventions and improve outcomes for both the mother and the baby.
翻訳日:2023-05-30 23:21:37 公開日:2023-05-26
# 動的システムの長期予測のための暗黙的ニューラルネットワークの安定性

Stability of implicit neural networks for long-term forecasting in dynamical systems ( http://arxiv.org/abs/2305.17155v1 )

ライセンス: Link先を確認
Leon Migus, Julien Salomon and Patrick Gallinari(参考訳) 物理信号の長期的予測は偏微分方程式(pdes)の研究において最も難しい課題である。 従来の解法の限界を回避するため、様々なディープラーニング手法が提案されている。 これらはすべて自動回帰法に基づいており、安定性の問題を示している。 暗黙的数値スキームの安定性特性から着想を得て、安定な自己回帰型暗黙的ニューラルネットワークを導入する。 このネットワークの予測における安定性を保証するためのスキームの安定性定義に基づく理論を開発する。 重みに対する厳しい制約を導入し、潜在空間の力学を伝播させる。 実験結果は安定性を検証し,2つのトランスポートpdesの長期予測結果の改善を示した。

Forecasting physical signals in long time range is among the most challenging tasks in Partial Differential Equations (PDEs) research. To circumvent limitations of traditional solvers, many different Deep Learning methods have been proposed. They are all based on auto-regressive methods and exhibit stability issues. Drawing inspiration from the stability property of implicit numerical schemes, we introduce a stable auto-regressive implicit neural network. We develop a theory based on the stability definition of schemes to ensure the stability in forecasting of this network. It leads us to introduce hard constraints on its weights and propagate the dynamics in the latent space. Our experimental results validate our stability property, and show improved results at long-term forecasting for two transports PDEs.
翻訳日:2023-05-30 23:21:08 公開日:2023-05-26
# 深部ネットワーク表現における凸概念領域について

On convex conceptual regions in deep network representations ( http://arxiv.org/abs/2305.17154v1 )

ライセンス: Link先を確認
Lenka T\v{e}tkov\'a, Thea Br\"usch, Teresa Karen Scheidt, Fabian Martin Mager, Rasmus {\O}rtoft Aagaard, Jonathan Foldager, Tommy Sonne Alstr{\o}m and Lars Kai Hansen(参考訳) ヒトと機械のアライメントに関する現在の研究は、潜在空間の幾何学と人間の表現への対応を理解することを目的としている。 G\"ardenforsの概念空間は人間の表現を理解するための顕著な枠組みである。 概念空間における対象領域の凸性は、一般化可能性、少数ショット学習、オブジェクト間のアライメントを促進する。 これらの知見に基づき,機械学習型潜在空間における概念領域の凸性の概念を検討する。 サンプルデータ中の凸度を測定し,最先端深層ネットワークの階層表現における創発的凸度を評価するための一連のツールを開発した。 凸性は基本的再パラメータ化に対して堅牢であることを示し、したがって、機械学習された潜在空間の品質として有意義である。 近似凸性は、画像、音声、人間の活動、テキスト、および脳データを含む複数のアプリケーション領域の神経表現に広く分布する。 我々はラベル(すなわち微調整対象)や他の概念に対して別々に凸性を測定する。 一般に、ファインチューニングはラベル領域の凸性を増大させるが、より一般的な概念では、その概念と微調整の目的との整合性に依存する。 クラスラベル領域の事前学習凸性がその後の微調整性能を予測する証拠を見出した。

The current study of human-machine alignment aims at understanding the geometry of latent spaces and the correspondence to human representations. G\"ardenfors' conceptual spaces is a prominent framework for understanding human representations. Convexity of object regions in conceptual spaces is argued to promote generalizability, few-shot learning, and intersubject alignment. Based on these insights, we investigate the notion of convexity of concept regions in machine-learned latent spaces. We develop a set of tools for measuring convexity in sampled data and evaluate emergent convexity in layered representations of state-of-the-art deep networks. We show that convexity is robust to basic re-parametrization, hence, meaningful as a quality of machine-learned latent spaces. We find that approximate convexity is pervasive in neural representations in multiple application domains, including models of images, audio, human activity, text, and brain data. We measure convexity separately for labels (i.e., targets for fine-tuning) and other concepts. Generally, we observe that fine-tuning increases the convexity of label regions, while for more general concepts, it depends on the alignment of the concept with the fine-tuning objective. We find evidence that pre-training convexity of class label regions predicts subsequent fine-tuning performance.
翻訳日:2023-05-30 23:20:59 公開日:2023-05-26
# mldr.resampling:マルチラベル再サンプリングアルゴリズムの効率的な参照実装

mldr.resampling: Efficient Reference Implementations of Multilabel Resampling Algorithms ( http://arxiv.org/abs/2305.17152v1 )

ライセンス: Link先を確認
Antonio J. Rivera, Miguel A. D\'avila, Mar\'ia J. del Jesus, David Elizondo, Francisco Charte(参考訳) 再サンプリングアルゴリズムは、マルチラベルシナリオにおける不均衡学習を扱うための有用なアプローチである。 これらの方法は、同じ事例において頻繁かつ頻繁なラベルの発生など、マルチラベルデータの特異点を扱う必要がある。 これらの手法の実装は、著者が論文で提供している擬似コードに制限されることがある。 このオリジナルソフトウェアパブリケーションは mldr.resampling という,11個のマルチラベルリサンプリングメソッドのリファレンス実装を提供するソフトウェアパッケージを提示する。

Resampling algorithms are a useful approach to deal with imbalanced learning in multilabel scenarios. These methods have to deal with singularities in the multilabel data, such as the occurrence of frequent and infrequent labels in the same instance. Implementations of these methods are sometimes limited to the pseudocode provided by their authors in a paper. This Original Software Publication presents mldr.resampling, a software package that provides reference implementations for eleven multilabel resampling methods, with an emphasis on efficiency since these algorithms are usually time-consuming.
翻訳日:2023-05-30 23:20:38 公開日:2023-05-26
# 忠実符号化を用いた診断時空間変換器

Diagnostic Spatio-temporal Transformer with Faithful Encoding ( http://arxiv.org/abs/2305.17149v1 )

ライセンス: Link先を確認
Jokin Labaien, Tsuyoshi Id\'e, Pin-Yu Chen, Ekhi Zugasti, Xabier De Carlos(参考訳) 本稿では,データ生成プロセスが複雑な時空間(ST)依存性を持つ場合の異常診断の課題について述べる。 重要な技術的課題は、時間的および空間的指標間の高次相互作用を特徴付ける依存性テンソルから実行可能な洞察を抽出することである。 我々は、ST依存を多変量時系列分類の副産物として学習する教師付き依存発見として問題を定式化する。 既存のST変圧器における時間的位置符号化は、高周波数(短時間スケール)の取得に重大な制限があることを示す。 離散フーリエ変換に基づく理論的な保証を持つ新しい位置符号化を提案する。 また、空間的および時間的方向の両方で容易に消費可能な診断情報を提供する新しいST依存性発見フレームワークを提案する。 最後に,提案モデルであるDFStrans(Diagnostic Fourier-based Spatio-temporal Transformer)の有用性を,エレベータ制御の産業的応用として示す。

This paper addresses the task of anomaly diagnosis when the underlying data generation process has a complex spatio-temporal (ST) dependency. The key technical challenge is to extract actionable insights from the dependency tensor characterizing high-order interactions among temporal and spatial indices. We formalize the problem as supervised dependency discovery, where the ST dependency is learned as a side product of multivariate time-series classification. We show that temporal positional encoding used in existing ST transformer works has a serious limitation in capturing higher frequencies (short time scales). We propose a new positional encoding with a theoretical guarantee, based on discrete Fourier transform. We also propose a new ST dependency discovery framework, which can provide readily consumable diagnostic information in both spatial and temporal directions. Finally, we demonstrate the utility of the proposed model, DFStrans (Diagnostic Fourier-based Spatio-temporal Transformer), in a real industrial application of building elevator control.
翻訳日:2023-05-30 23:20:19 公開日:2023-05-26
# 高次元データの微分プライベート低次元表現

Differentially private low-dimensional representation of high-dimensional data ( http://arxiv.org/abs/2305.17148v1 )

ライセンス: Link先を確認
Yiyun He, Thomas Strohmer, Roman Vershynin, Yizhe Zhu(参考訳) 個人に関する機密情報を保護しながら、データ分析を可能にする強力なメカニズムを提供する。 しかし、データが高次元空間にある場合、合成データの精度は次元性の呪いに苦しむ。 本稿では,ワッサーシュタイン距離に対する実用性を保証する高次元データセットから,低次元合成データを効率的に生成する微分プライベートアルゴリズムを提案する。 我々のアルゴリズムの重要なステップは、次元の呪いを回避し、ほぼ最適に近い精度のプライベート主成分分析 (pca) 手順である。 Davis-Kahanの定理を用いた標準摂動解析と異なり、我々はサンプル共分散行列のスペクトルギャップを仮定することなく、プライベートPCAの解析を行う。

Differentially private synthetic data provide a powerful mechanism to enable data analysis while protecting sensitive information about individuals. However, when the data lie in a high-dimensional space, the accuracy of the synthetic data suffers from the curse of dimensionality. In this paper, we propose a differentially private algorithm to generate low-dimensional synthetic data efficiently from a high-dimensional dataset with a utility guarantee with respect to the Wasserstein distance. A key step of our algorithm is a private principal component analysis (PCA) procedure with a near-optimal accuracy bound that circumvents the curse of dimensionality. Different from the standard perturbation analysis using the Davis-Kahan theorem, our analysis of private PCA works without assuming the spectral gap for the sample covariance matrix.
翻訳日:2023-05-30 23:20:01 公開日:2023-05-26
# 超解像顕微鏡のAIによる解析--地底真理の欠如による生物学的発見

AI-based analysis of super-resolution microscopy: Biological discovery in the absence of ground truth ( http://arxiv.org/abs/2305.17193v1 )

ライセンス: Link先を確認
Ivan R. Nabi, Ben Cardoen, Ismail M. Khater, Guang Gao, Timothy H. Wong, Ghassan Hamarneh(参考訳) 超高分解能顕微鏡のナノスケール分解能により、蛍光ベースの分子局在ツールを使用して細胞構造生物学全体を研究できるようになった。 機械学習による超解像データの解析は、定義上は未知であり、基礎的な真理が欠如している新しい生物学の発見に大きな可能性をもたらす。 本稿では, 弱教師付き学習パラダイムの超解像顕微鏡への応用と, 細胞内高分子とオルガネラの分子構造を高速に探索する可能性について述べる。

The nanoscale resolution of super-resolution microscopy has now enabled the use of fluorescent based molecular localization tools to study whole cell structural biology. Machine learning based analysis of super-resolution data offers tremendous potential for discovery of new biology, that by definition is not known and lacks ground truth. Herein, we describe the application of weakly supervised learning paradigms to super-resolution microscopy and its potential to enable the accelerated exploration of the molecular architecture of subcellular macromolecules and organelles.
翻訳日:2023-05-30 21:34:03 公開日:2023-05-26
# 畳み込みニューラルネットワークを用いたライブアメリカン手話文字分類

Live American Sign Language Letter Classification with Convolutional Neural Networks ( http://arxiv.org/abs/2305.17192v1 )

ライセンス: Link先を確認
Kyle Boone, Ben Wurster, Seth Thao, and Yu Hen Hu(参考訳) このプロジェクトは、特にライブビデオフィードの範囲内で、画像中のASL文字を認識できるニューラルネットワークの構築を中心にしている。 畳み込みネットワークとVGG16転送学習アプローチが異なるバックグラウンド設定で一般化できなかった場合、最初のテスト結果は期待に届かなかった。 その後、トレーニング済みの手関節検出モデルが採用され、生成された関節位置が完全に接続されたニューラルネットワークに入力される。 このアプローチの結果は、以前の方法よりも優れており、ライブビデオフィードアプリケーションによく適用されている。

This project is centered around building a neural network that is able to recognize ASL letters in images, particularly within the scope of a live video feed. Initial testing results came up short of expectations when both the convolutional network and VGG16 transfer learning approaches failed to generalize in settings of different backgrounds. The use of a pre-trained hand joint detection model was then adopted with the produced joint locations being fed into a fully-connected neural network. The results of this approach exceeded those of prior methods and generalized well to a live video feed application.
翻訳日:2023-05-30 21:33:54 公開日:2023-05-26
# ピアスワイドアフィン操作によるハードウェア効率の良い変圧器訓練

Hardware-Efficient Transformer Training via Piecewise Affine Operations ( http://arxiv.org/abs/2305.17190v1 )

ライセンス: Link先を確認
Atli Kosson, Martin Jaggi(参考訳) 乗算は、ニューラルネットワークのトレーニングと推論に関わる計算コストの大部分に責任がある。 そのため、近年の研究はコスト削減の方法を模索している。 Mogami (2020) にインスパイアされた乗法は、浮動小数点数のビット表現を整数として加えることで実現される安価なアフィン近似に置き換える。 変換器は、視覚と言語の両方のタスクに修正された行列乗法で、ほとんど、あるいは全くパフォーマンスへの影響がなく、トレーニングのハイパーパラメータを変更することなく、トレーニングできることを示す。 入力と重みの両方において、ネットワーク内のすべての非線形性を完全かつ結合的にアフィンに置き換える。 最後に、フォワードパス、後方パス、オプティマイザ更新の操作を含む、トレーニングプロセス全体のすべての乗算を排除できることを示し、完全な乗算フリーの方法で、現代のニューラルネットワークアーキテクチャの最初のトレーニングが成功したことを示す。

Multiplications are responsible for most of the computational cost involved in neural network training and inference. Recent research has thus looked for ways to reduce the cost associated with them. Inspired by Mogami (2020), we replace multiplication with a cheap piecewise affine approximation that is achieved by adding the bit representation of the floating point numbers together as integers. We show that transformers can be trained with the resulting modified matrix multiplications on both vision and language tasks with little to no performance impact, and without changes to the training hyperparameters. We further replace all non-linearities in the networks making them fully and jointly piecewise affine in both inputs and weights. Finally, we show that we can eliminate all multiplications in the entire training process, including operations in the forward pass, backward pass and optimizer update, demonstrating the first successful training of modern neural network architectures in a fully multiplication-free fashion.
翻訳日:2023-05-30 21:33:29 公開日:2023-05-26
# 画像分類のためのタスク駆動型レンズデザインは、画質だけじゃない

Image Quality Is Not All You Want: Task-Driven Lens Design for Image Classification ( http://arxiv.org/abs/2305.17185v1 )

ライセンス: Link先を確認
Xinge Yang, Qiang Fu, Yunfeng Nie, Wolfgang Heidrich(参考訳) コンピュータビジョンでは、高度に設計されたカメラレンズで得られる高品質の画像が優れた結果をもたらすのは当然のことです。 しかし、この共通認識は、多様なコンピュータビジョンタスクに対する「すべてにフィットする」ソリューションではない。 我々は、タスク駆動で深く学習された単純な光学が、より優れたビジュアルなタスクパフォーマンスを提供できることを実証する。 Task-Driven Lensデザインアプローチは、よく訓練されたネットワークモデルにのみ依存しており、スクラッチからレンズを設計できることが証明されている。 実験により、従来の撮像駆動レンズと比較して、レンズ要素が少なくても高い精度を示す画像分類レンズ(`tasklens'')が得られた。 さらに,分類精度の向上を保ちつつ,様々なネットワークモデルと互換性があることを示す。 本稿では,特に物理的次元やコストが厳しく制約された場合に,TaskLensが大きなポテンシャルを持つことを示す。

In computer vision, it has long been taken for granted that high-quality images obtained through well-designed camera lenses would lead to superior results. However, we find that this common perception is not a "one-size-fits-all" solution for diverse computer vision tasks. We demonstrate that task-driven and deep-learned simple optics can actually deliver better visual task performance. The Task-Driven lens design approach, which relies solely on a well-trained network model for supervision, is proven to be capable of designing lenses from scratch. Experimental results demonstrate the designed image classification lens (``TaskLens'') exhibits higher accuracy compared to conventional imaging-driven lenses, even with fewer lens elements. Furthermore, we show that our TaskLens is compatible with various network models while maintaining enhanced classification accuracy. We propose that TaskLens holds significant potential, particularly when physical dimensions and cost are severely constrained.
翻訳日:2023-05-30 21:33:11 公開日:2023-05-26
# ProGroTrack: 深層学習による細胞内タンパク質成長動態の追跡

ProGroTrack: Deep Learning-Assisted Tracking of Intracellular Protein Growth Dynamics ( http://arxiv.org/abs/2305.17183v1 )

ライセンス: Link先を確認
Kai San Chan, Huimiao Chen, Chenyu Jin, Yuxuan Tian, Dingchang Lin(参考訳) 細胞構造と細胞内構造の正確な追跡とそのダイナミクスは、生物学的システムの根本的なメカニズムを理解する上で重要な役割を担っている。 本稿では, 細胞内タンパク質ナノ構造を追跡するための検出ベーストラッキング(DBT)フレームワークにおいて, You Only Look Once (YOLO)とByteTrackアルゴリズムを組み合わせたProGroTrackを提案する。 代表的なケーススタディとして,iPAK4タンパク質繊維に着目し,YOLOv5およびYOLOv8モデルの総合的な評価を行い,データセット上でのYOLOv5の優れた性能を明らかにした。 特にYOLOv5xは0.839のmAP50と0.819のFスコアを達成した。 検出能力をさらに最適化するため、モデル改善のために半教師付き学習を導入し、その結果、すべてのメトリクスのパフォーマンスが向上した。 その後,iPAK4タンパク質繊維の成長挙動の追跡に本手法を応用し,これまでに報告された速度論的モデルと一致した2つの成長相を明らかにした。 本研究は,iPAK4繊維を超えるアプローチの可能性を示す。 また、生きた細胞における動的プロセスの正確な追跡や、生物医学研究のための新たな道のりを育むための重要な進歩を提供する。

Accurate tracking of cellular and subcellular structures, along with their dynamics, plays a pivotal role in understanding the underlying mechanisms of biological systems. This paper presents a novel approach, ProGroTrack, that combines the You Only Look Once (YOLO) and ByteTrack algorithms within the detection-based tracking (DBT) framework to track intracellular protein nanostructures. Focusing on iPAK4 protein fibers as a representative case study, we conducted a comprehensive evaluation of YOLOv5 and YOLOv8 models, revealing the superior performance of YOLOv5 on our dataset. Notably, YOLOv5x achieved an impressive mAP50 of 0.839 and F-score of 0.819. To further optimize detection capabilities, we incorporated semi-supervised learning for model improvement, resulting in enhanced performances in all metrics. Subsequently, we successfully applied our approach to track the growth behavior of iPAK4 protein fibers, revealing their two distinct growth phases consistent with a previously reported kinetic model. This research showcases the promising potential of our approach, extending beyond iPAK4 fibers. It also offers a significant advancement in precise tracking of dynamic processes in live cells, and fostering new avenues for biomedical research.
翻訳日:2023-05-30 21:32:56 公開日:2023-05-26
# 教師なしNMTのコピー問題--言語識別器損失のある訓練スケジュールについて-

On the Copying Problem of Unsupervised NMT: A Training Schedule with a Language Discriminator Loss ( http://arxiv.org/abs/2305.17182v1 )

ライセンス: Link先を確認
Yihong Liu, Alexandra Chronopoulou, Hinrich Sch\"utze, Alexander Fraser(参考訳) unsupervised neural machine translation (UNMT)は、多くの言語対で成功したが、特に低リソース言語が関与する場合には、コピーの問題、すなわち入力文の一部を翻訳として直接コピーすることが一般的である。 この問題は,オンライン翻訳(BT)における予期せぬ複製行動と密接に関連している。 本研究では,言語判別器の損失を組み込んだ簡易かつ効果的な訓練スケジュールを提案する。 この損失は、翻訳が所望の言語にあるように中間翻訳に制約を課す。 類似言語,遠隔言語,高低リソース言語など,異なる言語対に対する広範な実験を行うことで,提案手法が複写問題を軽減し,低リソース言語での翻訳性能を向上させることが確認された。

Although unsupervised neural machine translation (UNMT) has achieved success in many language pairs, the copying problem, i.e., directly copying some parts of the input sentence as the translation, is common among distant language pairs, especially when low-resource languages are involved. We find this issue is closely related to an unexpected copying behavior during online back-translation (BT). In this work, we propose a simple but effective training schedule that incorporates a language discriminator loss. The loss imposes constraints on the intermediate translation so that the translation is in the desired language. By conducting extensive experiments on different language pairs, including similar and distant, high and low-resource languages, we find that our method alleviates the copying problem, thus improving the translation performance on low-resource languages.
翻訳日:2023-05-30 21:32:36 公開日:2023-05-26
# エンドツーエンド自動運転における協調認識のための選択的コミュニケーション

Selective Communication for Cooperative Perception in End-to-End Autonomous Driving ( http://arxiv.org/abs/2305.17181v1 )

ライセンス: Link先を確認
Hsu-kuang Chiu and Stephen F. Smith(参考訳) 現在の自動運転システムの信頼性は、車両の視野が近接する物体によって制限された場合、しばしば危険に晒される。 この問題を軽減するため、複数の自動運転車間でセンサ情報を共有するための車両間通信が提案されている。 しかし,共有センサデータのタイムリーな処理と利用を実現するためには,通信帯域の制限が必要であり,それ以前の作業は,他の協調車両の数を制限し,通信範囲内にある全ての車両と情報交換するための車両のサブセットをランダムに選択することで行われている。 コミュニケーションの観点からはシンプルで費用効果が高いが、この選択アプローチは、ナビゲーション計画にとって最も重要な知覚情報を持っている車両の欠如に苦しむ。 近年のマルチエージェントパス探索研究に着想を得て,協調認識のための新しい選択的コミュニケーションアルゴリズムを提案する。 提案手法は,従来研究されてきた安全クリティカル運転シナリオシミュレーションにおけるランダム選択手法よりも,通信オーバーヘッドを最小限に抑えた,軽量な知覚ネットワークと従来開発された制御ネットワークによって実現されている。

The reliability of current autonomous driving systems is often jeopardized in situations when the vehicle's field-of-view is limited by nearby occluding objects. To mitigate this problem, vehicle-to-vehicle communication to share sensor information among multiple autonomous driving vehicles has been proposed. However, to enable timely processing and use of shared sensor data, it is necessary to constrain communication bandwidth, and prior work has done so by restricting the number of other cooperative vehicles and randomly selecting the subset of vehicles to exchange information with from all those that are within communication range. Although simple and cost effective from a communication perspective, this selection approach suffers from its susceptibility to missing those vehicles that possess the perception information most critical to navigation planning. Inspired by recent multi-agent path finding research, we propose a novel selective communication algorithm for cooperative perception to address this shortcoming. Implemented with a lightweight perception network and a previously developed control network, our algorithm is shown to produce higher success rates than a random selection approach on previously studied safety-critical driving scenario simulations, with minimal additional communication overhead.
翻訳日:2023-05-30 21:32:21 公開日:2023-05-26
# Tokenizationが言語モデリングに影響を及ぼす - 語彙の割り当てと言語間のオーバーラップを評価する

Tokenization Impacts Multilingual Language Modeling: Assessing Vocabulary Allocation and Overlap Across Languages ( http://arxiv.org/abs/2305.17179v1 )

ライセンス: Link先を確認
Tomasz Limisiewicz and Ji\v{r}\'i Balhar and David Mare\v{c}ek(参考訳) マルチ言語モデルは最近、単一のモデルで複数の言語を表現するための有望なソリューションとして注目を集めている。 本稿では,サブワードトークン化器で観測される語彙的表現と語彙的重複の質を評価するための新しい基準を提案する。 その結果,言語間の語彙の重複は,特定の下流タスク(POS,依存性木ラベリング)に対して有害であることがわかった。 対照的に、NERと文レベルのタスク(言語間検索、NLI)は語彙の共有の恩恵を受ける。 また、多言語語彙における言語固有のトークンのカバレッジが単語レベルのタスクに大きな影響を与えることも観察した。 本研究は,多言語言語モデルにおけるトークンライザの役割についてより深く理解し,将来モデル開発者が,コストのかかる事前学習を行う前に,特定のアプリケーションに適したトークンライザを選択するためのガイドラインを提供する。

Multilingual language models have recently gained attention as a promising solution for representing multiple languages in a single model. In this paper, we propose new criteria to evaluate the quality of lexical representation and vocabulary overlap observed in sub-word tokenizers. Our findings show that the overlap of vocabulary across languages can be actually detrimental to certain downstream tasks (POS, dependency tree labeling). In contrast, NER and sentence-level tasks (cross-lingual retrieval, NLI) benefit from sharing vocabulary. We also observe that the coverage of the language-specific tokens in the multilingual vocabulary significantly impacts the word-level tasks. Our study offers a deeper understanding of the role of tokenizers in multilingual language models and guidelines for future model developers to choose the most suitable tokenizer for their specific application before undertaking costly model pre-training
翻訳日:2023-05-30 21:31:59 公開日:2023-05-26
# DogwhistlesからBullhornsへ:言語モデルによるコード付きレトリックの展開

From Dogwhistles to Bullhorns: Unveiling Coded Rhetoric with Language Models ( http://arxiv.org/abs/2305.17174v1 )

ライセンス: Link先を確認
Julia Mendelsohn, Ronan Le Bras, Yejin Choi, Maarten Sap(参考訳) ドッグウィストル(dogwhistles)は、ある意味を広いオーディエンスに、別の意味(しばしば憎悪的または挑発的)を狭いグループに同時に伝えるコード化された表現であり、政治的な影響とアルゴリズムによるコンテンツモデレーションの両方を避けるために展開される。 例えば、"we need to end the cosmopolitan experiment"という文では、「コスモポリタン」(cosmopolitan)という言葉は多くの人に「世界的」を意味するが、ひそかに「ユダヤ人」(jewish)を意味する。 本研究は,イヌヒストルの大規模研究である。 我々は,ドッグウィストルの類型学を開発し,より豊富な文脈情報と実例で300以上のドッグウィストルの過去最大の用語集をキュレートし,歴史的アメリカの政治家の演説におけるその使用状況を分析した。 次に,大規模言語モデル (GPT-3) を用いて, イヌヒストルとその意味を識別できるかどうかを検証し, GPT-3 の性能は, イヌヒストルの種類や対象グループによって大きく異なることがわかった。 最後に,犬毛を含む有害なコンテンツは毒性の検出を回避し,このような符号化された言語のオンラインリスクを強調した。 この研究は、NLPと計算社会科学の両方におけるドッグウィストルの理論的および応用的な重要性に光を当て、ドッグウィストルをモデリングし、オンラインの害を軽減するためのリソースを提供する。

Dogwhistles are coded expressions that simultaneously convey one meaning to a broad audience and a second one, often hateful or provocative, to a narrow in-group; they are deployed to evade both political repercussions and algorithmic content moderation. For example, in the sentence 'we need to end the cosmopolitan experiment,' the word 'cosmopolitan' likely means 'worldly' to many, but secretly means 'Jewish' to a select few. We present the first large-scale computational investigation of dogwhistles. We develop a typology of dogwhistles, curate the largest-to-date glossary of over 300 dogwhistles with rich contextual information and examples, and analyze their usage in historical U.S. politicians' speeches. We then assess whether a large language model (GPT-3) can identify dogwhistles and their meanings, and find that GPT-3's performance varies widely across types of dogwhistles and targeted groups. Finally, we show that harmful content containing dogwhistles avoids toxicity detection, highlighting online risks of such coded language. This work sheds light on the theoretical and applied importance of dogwhistles in both NLP and computational social science, and provides resources for future research in modeling dogwhistles and mitigating their online harms.
翻訳日:2023-05-30 21:31:46 公開日:2023-05-26
# 機能的フローマッチング

Functional Flow Matching ( http://arxiv.org/abs/2305.17209v1 )

ライセンス: Link先を確認
Gavin Kerrigan, Giosue Migliorini, Padhraic Smyth(参考訳) 本研究では,最近導入されたフローマッチングモデルを一般化した関数空間生成モデルである関数型フローマッチング(ffm)を提案する。 我々のアプローチは、まず、固定されたガウス測度とデータ分布を補間する確率測度の経路を定義し、次に、この測度の経路を生成する関数の基底空間上のベクトル場を学習する。 我々の手法は確率やシミュレーションに頼らず、関数空間の設定に適している。 このようなモデルを構築するための理論的枠組みと、手法の実証的評価の両方を提供する。 本稿では,FFM法が最近提案した関数空間生成モデルよりも優れていることを示す。

In this work, we propose Functional Flow Matching (FFM), a function-space generative model that generalizes the recently-introduced Flow Matching model to operate directly in infinite-dimensional spaces. Our approach works by first defining a path of probability measures that interpolates between a fixed Gaussian measure and the data distribution, followed by learning a vector field on the underlying space of functions that generates this path of measures. Our method does not rely on likelihoods or simulations, making it well-suited to the function space setting. We provide both a theoretical framework for building such models and an empirical evaluation of our techniques. We demonstrate through experiments on synthetic and real-world benchmarks that our proposed FFM method outperforms several recently proposed function-space generative models.
翻訳日:2023-05-30 21:23:41 公開日:2023-05-26
# 知識ベースプランニングのためのカテゴリー表現言語と計算システム

A Categorical Representation Language and Computational System for Knowledge-Based Planning ( http://arxiv.org/abs/2305.17208v1 )

ライセンス: Link先を確認
Angeline Aguinaldo, Evan Patterson, James Fairbanks, Jaime Ruiz(参考訳) 一階述語論理に基づく古典的計画表現言語は、計画問題のモデル化と解決に広く用いられているが、複雑な計画シナリオで生じる暗黙の前提条件や効果を捉えるのに苦労している。 この問題に対処するため,計画中の世界国家を表現・変容するための代替手法を提案する。 提案した表現は、$\mathsf{C}$-sets と double-pushout rewriting (DPO) のカテゴリー論的概念に基づいて、あらゆるレベルでドメイン抽象化をサポートする世界状態に関する構造化知識を効果的に扱うことができる。 ユーザが提供するオントロジーに従って述語の意味を形式化し、世界状態間の遷移時に意味を保存する。 この方法は、知識グラフと関係データベースを使用して世界状態や計画の更新をモデル化するための形式的な意味論を提供する。 本稿では,カテゴリ理論の表現と古典的計画の表現を比較した。 提案する表現は,暗黙の前提条件や効果を扱うという点で,従来の表現よりも優れていることを示し,計画問題をモデル化し,解決するためのより構造化されたフレームワークを提供する。

Classical planning representation languages based on first-order logic have been extensively used to model and solve planning problems, but they struggle to capture implicit preconditions and effects that arise in complex planning scenarios. To address this problem, we propose an alternative approach to representing and transforming world states during planning. Based on the category-theoretic concepts of $\mathsf{C}$-sets and double-pushout rewriting (DPO), our proposed representation can effectively handle structured knowledge about world states that support domain abstractions at all levels. It formalizes the semantics of predicates according to a user-provided ontology and preserves the semantics when transitioning between world states. This method provides a formal semantics for using knowledge graphs and relational databases to model world states and updates in planning. In this paper, we compare our category-theoretic representation with the classical planning representation. We show that our proposed representation has advantages over the classical representation in terms of handling implicit preconditions and effects, and provides a more structured framework in which to model and solve planning problems.
翻訳日:2023-05-30 21:23:28 公開日:2023-05-26
# one-class detector for anything: テキスト画像モデルを用いたオープンボカブラリーゼロショットood検出

Building One-class Detector for Anything: Open-vocabulary Zero-shot OOD Detection Using Text-image Models ( http://arxiv.org/abs/2305.17207v1 )

ライセンス: Link先を確認
Yunhao Ge, Jie Ren, Jiaping Zhao, Kaifeng Chen, Andrew Gallagher, Laurent Itti, Balaji Lakshminarayanan(参考訳) 信頼性を確保する上で重要な側面である深層学習モデルにおけるod(out-of-distribution)検出の課題に注目した。 かなりの努力にもかかわらず、OOD入力の過信予測を出力する傾向にあるため、ディープラーニングモデルでは大きな問題が残る。 ゼロショット方式でテキストイメージ事前学習モデルを活用し,ドメイン内およびOODの様々な記述を取り入れた新しい一クラスオープンセットOOD検出器を提案する。 提案手法は,ドメイン内にないものを検知し,粒度の粗いラベル,あるいは自然言語で定義した多種多様なOODを検出する柔軟性を提供する。 我々は,細粒度でセマンティックに類似したクラスを含む大規模データセット,分布にシフトした画像,ドメイン内とOODオブジェクトの混合を含むマルチオブジェクト画像を含む,挑戦的なベンチマークに対するアプローチを評価する。 本手法は,すべてのベンチマークにおいて従来の手法よりも優れた性能を示す。 コードはhttps://github.com/gyhandy/One-Class-Anythingで入手できる。

We focus on the challenge of out-of-distribution (OOD) detection in deep learning models, a crucial aspect in ensuring reliability. Despite considerable effort, the problem remains significantly challenging in deep learning models due to their propensity to output over-confident predictions for OOD inputs. We propose a novel one-class open-set OOD detector that leverages text-image pre-trained models in a zero-shot fashion and incorporates various descriptions of in-domain and OOD. Our approach is designed to detect anything not in-domain and offers the flexibility to detect a wide variety of OOD, defined via fine- or coarse-grained labels, or even in natural language. We evaluate our approach on challenging benchmarks including large-scale datasets containing fine-grained, semantically similar classes, distributionally shifted images, and multi-object images containing a mixture of in-domain and OOD objects. Our method shows superior performance over previous methods on all benchmarks. Code is available at https://github.com/gyhandy/One-Class-Anything
翻訳日:2023-05-30 21:23:06 公開日:2023-05-26
# ディープニューラルネットワークの正則化のためのゴーストノイズ

Ghost Noise for Regularizing Deep Neural Networks ( http://arxiv.org/abs/2305.17205v1 )

ライセンス: Link先を確認
Atli Kosson, Dongyang Fan, Martin Jaggi(参考訳) バッチ正規化(BN)は、最適化プロセスを安定化し、ディープニューラルネットワークのテスト性能を改善するために広く用いられている。 BNの正規化効果はバッチサイズに依存しており、Ghost Batch Normalization (GBN) と呼ばれる手法である Batch Normalization を用いたより小さなバッチサイズを明示的に用いている。 正規化から誘導される"ghostノイズ"を分離してgbnの有効性を検証し,ノイズ分布の定量的解析とモデル性能への影響について検討した。 そこで本研究では,gbnの雑音を模倣したgni(ghost noise injection)と呼ばれる新しい正規化手法を提案する。 GNI が GBN よりも優れた一般化の恩恵をもたらすことを示す。 ゴーストノイズ注入は、層正規化ネットワークのような非ノイズの環境でも有効であり、正規化におけるゴーストノイズが正則化として有用であることを示す追加の証拠となる。

Batch Normalization (BN) is widely used to stabilize the optimization process and improve the test performance of deep neural networks. The regularization effect of BN depends on the batch size and explicitly using smaller batch sizes with Batch Normalization, a method known as Ghost Batch Normalization (GBN), has been found to improve generalization in many settings. We investigate the effectiveness of GBN by disentangling the induced "Ghost Noise" from normalization and quantitatively analyzing the distribution of noise as well as its impact on model performance. Inspired by our analysis, we propose a new regularization technique called Ghost Noise Injection (GNI) that imitates the noise in GBN without incurring the detrimental train-test discrepancy effects of small batch training. We experimentally show that GNI can provide a greater generalization benefit than GBN. Ghost Noise Injection can also be beneficial in otherwise non-noisy settings such as layer-normalized networks, providing additional evidence of the usefulness of Ghost Noise in Batch Normalization as a regularizer.
翻訳日:2023-05-30 21:22:48 公開日:2023-05-26
# BIG-C:Bemba用マルチモーダル多目的データセット

BIG-C: a Multimodal Multi-Purpose Dataset for Bemba ( http://arxiv.org/abs/2305.17202v1 )

ライセンス: Link先を確認
Claytone Sikasote, Eunice Mukonde, Md Mahfuz Ibn Alam, Antonios Anastasopoulos(参考訳) 我々は, bemba 用の大規模マルチモーダルデータセット big-c (bemba image grounded conversations) を提案する。 ベンバ語はザンビアで最も人口の多い言語であるが、言語技術や言語処理研究の開発をほぼ不可能にする資源が豊富にある。 データセットは、画像に基づく bemba 話者間の多段対話からなり、書き起こされ、英語に翻訳される。 92,000以上の発話/文があり、対応する書き起こしと英訳を伴う180時間以上の音声データである。 また、音声認識(ASR)、機械翻訳(MT)、音声翻訳(ST)タスクのベースラインを提供し、我々のデータセットの他の潜在的なマルチモーダル利用をスケッチする。 研究コミュニティがデータセットを利用できるようにすることで、この研究が研究を奨励し、特に"伝統的に"使われている高リソースの言語以外の言語に対して、言語、スピーチ、ビジョンコミュニティ間のコラボレーションを促進することを期待しています。 すべてのデータとコードは、https://github.com/csikasote/bigc.comで公開されている。

We present BIG-C (Bemba Image Grounded Conversations), a large multimodal dataset for Bemba. While Bemba is the most populous language of Zambia, it exhibits a dearth of resources which render the development of language technologies or language processing research almost impossible. The dataset is comprised of multi-turn dialogues between Bemba speakers based on images, transcribed and translated into English. There are more than 92,000 utterances/sentences, amounting to more than 180 hours of audio data with corresponding transcriptions and English translations. We also provide baselines on speech recognition (ASR), machine translation (MT) and speech translation (ST) tasks, and sketch out other potential future multimodal uses of our dataset. We hope that by making the dataset available to the research community, this work will foster research and encourage collaboration across the language, speech, and vision communities especially for languages outside the "traditionally" used high-resourced ones. All data and code are publicly available: https://github.com/csikasote/bigc.
翻訳日:2023-05-30 21:22:29 公開日:2023-05-26
# LightGBMによる季節分解とトレンドを用いた販売予測の改善

Improved Sales Forecasting using Trend and Seasonality Decomposition with LightGBM ( http://arxiv.org/abs/2305.17201v1 )

ライセンス: Link先を確認
Tong Zhou(参考訳) ウォルマートやアマゾンのような大型小売業者にとって小売売上高の予測は、商品、地理的な位置の不均一性、季節性、および天気、地域経済状況、地政学的イベントを含む外部要因の膨大な増加により、大きな課題となっている。 従来の時系列モデル、機械学習モデル、ニューラルネットワークメカニズムなど、この課題に対処するためにさまざまな方法が採用されているが、困難は続いている。 関連グループへのデータの分類は、異なるカテゴリの時系列が異なるパターンを示す可能性があるため、販売予測精度を向上させることが示されている。 本稿では,時系列における傾向と季節成分のユニークな影響を示すための新しい尺度を提案し,この尺度に基づいて時系列をグループ化することを提案する。 このアプローチを、2011年の01/29から2016年の05/22までのwalmartの販売データに適用し、2016年の05/23から2016年の06/19までの売り上げ予測を生成する。 実験の結果,提案手法により精度が向上した。 さらに,小売販売予測を行うための堅牢なパイプラインを提案する。

Retail sales forecasting presents a significant challenge for large retailers such as Walmart and Amazon, due to the vast assortment of products, geographical location heterogeneity, seasonality, and external factors including weather, local economic conditions, and geopolitical events. Various methods have been employed to tackle this challenge, including traditional time series models, machine learning models, and neural network mechanisms, but the difficulty persists. Categorizing data into relevant groups has been shown to improve sales forecast accuracy as time series from different categories may exhibit distinct patterns. In this paper, we propose a new measure to indicate the unique impacts of the trend and seasonality components on a time series and suggest grouping time series based on this measure. We apply this approach to Walmart sales data from 01/29/2011 to 05/22/2016 and generate sales forecasts from 05/23/2016 to 06/19/2016. Our experiments show that the proposed strategy can achieve improved accuracy. Furthermore, we present a robust pipeline for conducting retail sales forecasting.
翻訳日:2023-05-30 21:22:12 公開日:2023-05-26
# オフラインマルチエージェント強化学習コーディネーション問題に対するモデルに基づく解法

A Model-Based Solution to the Offline Multi-Agent Reinforcement Learning Coordination Problem ( http://arxiv.org/abs/2305.17198v1 )

ライセンス: Link先を確認
Paul Barde, Jakob Foerster, Derek Nowrouzezahrai, Amy Zhang(参考訳) 複数のエージェントを協調させる訓練は、ロボット工学、ゲーム理論、経済学、社会科学の応用において重要な問題である。 しかしながら、既存のマルチエージェント強化学習(marl)手法のほとんどはオンラインであり、新しいインタラクションの収集がコストか危険である現実のアプリケーションでは実用的ではない。 これらのアルゴリズムは利用可能であればオフラインデータを活用するべきであるが、オフライン調整の問題が発生する。 具体的には、現在のオフラインMARLアルゴリズムが失敗する2つの調整問題である戦略合意(SA)と戦略微調整(SFT)課題を特定し、形式化する。 そこで本研究では,合成インタラクションデータを生成し,エージェントがポリシーを微調整しながら戦略に収束できるシンプルなモデルベースアプローチを提案する。 提案手法であるモデルベースオフラインマルチエージェント近距離ポリシー最適化(moma-ppo)は,厳格な部分的可観測性や学習世界モデルにおいてもオフラインマルチエージェントムジョコタスクに挑戦する上で,一般的な学習手法を上回っている。

Training multiple agents to coordinate is an important problem with applications in robotics, game theory, economics, and social sciences. However, most existing Multi-Agent Reinforcement Learning (MARL) methods are online and thus impractical for real-world applications in which collecting new interactions is costly or dangerous. While these algorithms should leverage offline data when available, doing so gives rise to the offline coordination problem. Specifically, we identify and formalize the strategy agreement (SA) and the strategy fine-tuning (SFT) challenges, two coordination issues at which current offline MARL algorithms fail. To address this setback, we propose a simple model-based approach that generates synthetic interaction data and enables agents to converge on a strategy while fine-tuning their policies accordingly. Our resulting method, Model-based Offline Multi-Agent Proximal Policy Optimization (MOMA-PPO), outperforms the prevalent learning methods in challenging offline multi-agent MuJoCo tasks even under severe partial observability and with learned world models.
翻訳日:2023-05-30 21:21:53 公開日:2023-05-26
# ロバストな自己学習者としての関わり

Entailment as Robust Self-Learner ( http://arxiv.org/abs/2305.17197v1 )

ライセンス: Link先を確認
Jiaxin Ge, Hongyin Luo, Yoon Kim, James Glass(参考訳) エンターメントは自然言語理解(NLU)モデルを評価する上で重要な指標として認識されており、近年の研究では、エンターメント事前学習の利点が弱いことが示されている。 本研究では,複数の異なるNLUタスクを文脈的包摂として定式化するプロンプト戦略を設計する。 このアプローチは、事前訓練されたエンターメントモデルのゼロショット適応を改善する。 第2に,ラベルのないデータを用いた自己学習型モデルが下流タスクの適応性能を大幅に向上できることに気付きました。 より安定した改善を実現するために,自己学習における擬似ラベル品質向上のためのSimple Pseudo-Label Editing (SimPLE)アルゴリズムを提案する。 また,事前学習モデルと自己学習モデルの両方が,敵対的評価データに対して堅牢であることがわかった。 バイナリおよびマルチクラス分類タスクの実験では、単純さがより堅牢な自己学習結果をもたらし、自己学習された包含モデルは、言語理解タスクにおいて、大きな言語モデルよりも効率的で信頼性が高いことが示されている。

Entailment has been recognized as an important metric for evaluating natural language understanding (NLU) models, and recent studies have found that entailment pretraining benefits weakly supervised fine-tuning. In this work, we design a prompting strategy that formulates a number of different NLU tasks as contextual entailment. This approach improves the zero-shot adaptation of pretrained entailment models. Secondly, we notice that self-training entailment-based models with unlabeled data can significantly improve the adaptation performance on downstream tasks. To achieve more stable improvement, we propose the Simple Pseudo-Label Editing (SimPLE) algorithm for better pseudo-labeling quality in self-training. We also found that both pretrained entailment-based models and the self-trained models are robust against adversarial evaluation data. Experiments on binary and multi-class classification tasks show that SimPLE leads to more robust self-training results, indicating that the self-trained entailment models are more efficient and trustworthy than large language models on language understanding tasks.
翻訳日:2023-05-30 21:21:31 公開日:2023-05-26
# 知識工学プライマー

A Knowledge Engineering Primer ( http://arxiv.org/abs/2305.17196v1 )

ライセンス: Link先を確認
Agnieszka Lawrynowicz(参考訳) このプライマーの目的は、知識工学の主題を簡潔で合成的な方法で導入し、その領域に関する読者の直感を発達させることである。

The aim of this primer is to introduce the subject of knowledge engineering in a concise but synthetic way to develop the reader's intuition about the area.
翻訳日:2023-05-30 21:21:10 公開日:2023-05-26
# 過去を想像して未来を推測する

Inferring the Future by Imagining the Past ( http://arxiv.org/abs/2305.17195v1 )

ライセンス: Link先を確認
Kartik Chandra, Tony Chen, Tzu-Mao Li, Jonathan Ragan-Kelley, Josh Tenenbaum(参考訳) 漫画本の1枚のパネルは、現在キャラクターがいる場所だけでなく、彼らがどこから来たのか、彼らのモチベーションが何であるか、次に何が起こるのかを示す。 より一般的に、人間は知的エージェントの*単一スナップショット画像*から過去と将来の複雑な出来事を推測することができる。 認知科学における最近の研究に基づいて,このような推論を行うモンテカルロアルゴリズムを提案する。 コンピュータグラフィックスにおけるモンテカルロ経路トレースへの接続を描き、サンプル効率の先行作業において劇的に改善するアイデアを借用します。 これにより、ほんの一握りのサンプルだけで、さまざまな難しい推論問題にスケールできます。 これはまた、ある程度の認知的可能性も示唆しており、実際に、我々のアルゴリズムが、以前の方法ではスケールできない様々な領域において、人間の直観と一致することを示す人間の主題研究を示す。

A single panel of a comic book can say a lot: it shows not only where characters currently are, but also where they came from, what their motivations are, and what might happen next. More generally, humans can often infer a complex sequence of past and future events from a *single snapshot image* of an intelligent agent. Building on recent work in cognitive science, we offer a Monte Carlo algorithm for making such inferences. Drawing a connection to Monte Carlo path tracing in computer graphics, we borrow ideas that help us dramatically improve upon prior work in sample efficiency. This allows us to scale to a wide variety of challenging inference problems with only a handful of samples. It also suggests some degree of cognitive plausibility, and indeed we present human subject studies showing that our algorithm matches human intuitions in a variety of domains that previous methods could not scale to.
翻訳日:2023-05-30 21:21:07 公開日:2023-05-26
# 因果成分分析

Causal Component Analysis ( http://arxiv.org/abs/2305.17225v1 )

ライセンス: Link先を確認
Wendong Liang, Armin Keki\'c, Julius von K\"ugelgen, Simon Buchholz, Michel Besserve, Luigi Gresele, Bernhard Sch\"olkopf(参考訳) 独立成分分析(ICA)は、観測された混合物から独立潜伏変数を回収することを目的としている。 因果表現学習(crl)は、因果関係をエンコードする未知グラフとともに、因果関係(統計的に依存することが多い)の潜在変数を推論することを目的としている。 因果成分分析(CauCA)と呼ばれる中間問題を導入する。 CauCAはICAの一般化であり、潜伏成分間の因果依存性をモデル化し、CRLの特別な場合と見なすことができる。 CRLとは対照的に、因果グラフの知識を前提とし、未混合関数と因果機構の学習にのみ焦点をあてる。 CauCAにおける基底真理の回復に関するあらゆる不可能な結果は、CRLにも適用され、CRLの拡張のためのステップストーンとして機能する可能性がある。 潜在因果変数の異なる種類の介入によって生成された複数のデータセットからcaucaの識別性を特徴付ける。 この介入的な視点は、非線形ica -- 空グラフを持つcaucaの特別な場合 -- に対して、以前の結果よりも厳密に少ないデータセットを必要とする新しい識別可能性結果をもたらす。 本研究では,非混合関数と因果機構の両方を推定するために正規化フローを用いた可能性に基づくアプローチを導入し,CauCAおよびICA設定における広範囲な合成実験によりその効果を実証する。

Independent Component Analysis (ICA) aims to recover independent latent variables from observed mixtures thereof. Causal Representation Learning (CRL) aims instead to infer causally related (thus often statistically dependent) latent variables, together with the unknown graph encoding their causal relationships. We introduce an intermediate problem termed Causal Component Analysis (CauCA). CauCA can be viewed as a generalization of ICA, modelling the causal dependence among the latent components, and as a special case of CRL. In contrast to CRL, it presupposes knowledge of the causal graph, focusing solely on learning the unmixing function and the causal mechanisms. Any impossibility results regarding the recovery of the ground truth in CauCA also apply for CRL, while possibility results may serve as a stepping stone for extensions to CRL. We characterize CauCA identifiability from multiple datasets generated through different types of interventions on the latent causal variables. As a corollary, this interventional perspective also leads to new identifiability results for nonlinear ICA -- a special case of CauCA with an empty graph -- requiring strictly fewer datasets than previous results. We introduce a likelihood-based approach using normalizing flows to estimate both the unmixing function and the causal mechanisms, and demonstrate its effectiveness through extensive synthetic experiments in the CauCA and ICA setting.
翻訳日:2023-05-30 21:15:47 公開日:2023-05-26
# 非凸勾配降下による低ランク行列の高速・最小最適推定

Fast and Minimax Optimal Estimation of Low-Rank Matrices via Non-Convex Gradient Descent ( http://arxiv.org/abs/2305.17224v1 )

ライセンス: Link先を確認
Gavin Zhang, Hong-Ming Chiu, Richard Y. Zhang(参考訳) 本研究では,ミニマックス最適誤差の達成を目的とし,ノイズ測定から低ランク行列を推定する問題について検討する。 実際には、この問題は大規模な実世界のデータセットにスケールできるため、非凸勾配勾配降下を用いて一般に解決される。 理論上、非凸勾配降下はミニマックス誤差を達成することができる。 しかし実際には、しばしば非常にゆっくりと収束し、適度な時間内に控えめな精度の見積もりをすることさえできない。 一方、再スケーリングやプリコンディショニングによる非凸勾配降下の収束性を改善する手法は、測定ノイズを大きく増幅し、理論上はminimax最適誤差で達成可能なものよりも桁違いに精度の低い推定となる。 本稿では,最小限の最適性を維持しつつ,収束の遅い問題を解消する通常の非凸勾配降下法を若干修正することを提案する。 提案アルゴリズムは,非凸勾配降下法と基本的に同一の点定コストを有するが,線形速度でミニマックス誤差に収束することが保証されている。 提案アルゴリズムを用いて,60メガピクセルの医用画像用データセットを再構成し,従来の手法に比べて大幅な再構成誤差の低減を図った。

We study the problem of estimating a low-rank matrix from noisy measurements, with the specific goal of achieving minimax optimal error. In practice, the problem is commonly solved using non-convex gradient descent, due to its ability to scale to large-scale real-world datasets. In theory, non-convex gradient descent is capable of achieving minimax error. But in practice, it often converges extremely slowly, such that it cannot even deliver estimations of modest accuracy within reasonable time. On the other hand, methods that improve the convergence of non-convex gradient descent, through rescaling or preconditioning, also greatly amplify the measurement noise, resulting in estimations that are orders of magnitude less accurate than what is theoretically achievable with minimax optimal error. In this paper, we propose a slight modification to the usual non-convex gradient descent method that remedies the issue of slow convergence, while provably preserving its minimax optimality. Our proposed algorithm has essentially the same per-iteration cost as non-convex gradient descent, but is guaranteed to converge to minimax error at a linear rate that is immune to ill-conditioning. Using our proposed algorithm, we reconstruct a 60 megapixel dataset for a medical imaging application, and observe significantly decreased reconstruction error compared to previous approaches.
翻訳日:2023-05-30 21:15:24 公開日:2023-05-26
# 本当に大量のビジュアルプロンプトが必要なのでしょうか?

Do We Really Need a Large Number of Visual Prompts? ( http://arxiv.org/abs/2305.17223v1 )

ライセンス: Link先を確認
Youngeun Kim, Yuhang Li, Abhishek Moitra, Priyadarshini Panda(参考訳) 資源制約のあるエッジにモデルを適用することへの関心が高まっているため、パラメータ効率の高い転送学習が広く研究されている。 入力空間への学習可能なプロンプトに先行する視覚プロンプトチューニング(vpt)は、ネットワークパラメータのトレーニングと比較して、競合的な微調整性能を示す。 しかし、VPTは入力トークンの数を増やし、計算オーバーヘッドを増大させる。 本稿では,視覚トランスアーキテクチャの微調整性能と自己注意操作に及ぼすプロンプト数の影響を解析する。 理論的および経験的分析を通して、より多くのプロンプトを追加すると線形性能が向上しないことを示す。 さらに,少数のプロンプトの使用による性能劣化を防止することを目的とした,PC(Prompt Condensation)技術を提案する。 提案手法はFGVCとVTAB-1kのタスクに対して検証し,精度を維持しながらプロンプト数を約70%削減することを示す。

Due to increasing interest in adapting models on resource-constrained edges, parameter-efficient transfer learning has been widely explored. Among various methods, Visual Prompt Tuning (VPT), prepending learnable prompts to input space, shows competitive fine-tuning performance compared to training of full network parameters. However, VPT increases the number of input tokens, resulting in additional computational overhead. In this paper, we analyze the impact of the number of prompts on fine-tuning performance and self-attention operation in a vision transformer architecture. Through theoretical and empirical analysis we show that adding more prompts does not lead to linear performance improvement. Further, we propose a Prompt Condensation (PC) technique that aims to prevent performance degradation from using a small number of prompts. We validate our methods on FGVC and VTAB-1k tasks and show that our approach reduces the number of prompts by ~70% while maintaining accuracy.
翻訳日:2023-05-30 21:15:02 公開日:2023-05-26
# 意味解析のための連合学習:タスクの定式化、評価設定、新しいアルゴリズム

Federated Learning for Semantic Parsing: Task Formulation, Evaluation Setup, New Algorithms ( http://arxiv.org/abs/2305.17221v1 )

ライセンス: Link先を確認
Tianshu Zhang, Changchang Liu, Wei-Han Lee, Yu Su, Huan Sun(参考訳) 本稿では,複数のクライアントがセマンティック解析データを共有することなく,ひとつのグローバルモデルを協調訓練する,セマンティック解析のためのフェデレートラーニング(FL)の新たな課題について検討する。 複数のクライアントからのデータを活用することで、FLパラダイムは、トレーニングデータの少ないクライアントに対して、独自のデータハングリーなニューラルネットワークセマンティックパーザを開発する上で、特に有用である。 本研究では,このタスクを評価するための評価設定を提案し,クライアントとして広く使用されている単一ドメインのテキスト・トゥ・SQLデータセットを用いて,現実的な異種FL設定を作成し,グローバルモデルを協調訓練する。 現実的な設定では,標準FLアルゴリズムは高いクライアントの不均一性に悩まされるため,各ラウンドにおけるトレーニング損失低減に基づいて,各クライアントのグローバルモデル更新への貢献を調整し,性能劣化を緩和する,LOss Reduction Adjusted Re-weighting (Lorar) 機構も提案する。 私たちの直感は、損失削減が大きくなるほど、現在のグローバルモデルはクライアントのローカルな最適化からさらに遠ざけ、クライアントが得るべき重量が大きくなるということです。 広範に採用されている3つのflアルゴリズム(fedavg, fedopt, fedprox)にlorarを適用することで、その性能は平均で大幅に向上し(マクロavgでは4%-20%の絶対利得)、より小さなデータセットを持つクライアントはより大きなパフォーマンス向上を享受できる。 さらに、グローバルモデルは、ほぼすべてのクライアントに対してより高速に収束する。

This paper studies a new task of federated learning (FL) for semantic parsing, where multiple clients collaboratively train one global model without sharing their semantic parsing data. By leveraging data from multiple clients, the FL paradigm can be especially beneficial for clients that have little training data to develop a data-hungry neural semantic parser on their own. We propose an evaluation setup to study this task, where we re-purpose widely-used single-domain text-to-SQL datasets as clients to form a realistic heterogeneous FL setting and collaboratively train a global model. As standard FL algorithms suffer from the high client heterogeneity in our realistic setup, we further propose a novel LOss Reduction Adjusted Re-weighting (Lorar) mechanism to mitigate the performance degradation, which adjusts each client's contribution to the global model update based on its training loss reduction during each round. Our intuition is that the larger the loss reduction, the further away the current global model is from the client's local optimum, and the larger weight the client should get. By applying Lorar to three widely adopted FL algorithms (FedAvg, FedOPT and FedProx), we observe that their performance can be improved substantially on average (4%-20% absolute gain under MacroAvg) and that clients with smaller datasets enjoy larger performance gains. In addition, the global model converges faster for almost all the clients.
翻訳日:2023-05-30 21:14:45 公開日:2023-05-26
# VoxDet: 新しいインスタンス検出のためのVoxel Learning

VoxDet: Voxel Learning for Novel Instance Detection ( http://arxiv.org/abs/2305.17220v1 )

ライセンス: Link先を確認
Bowen Li, Jiashun Wang, Yaoyu Hu, Chen Wang, Sebastian Scherer(参考訳) マルチビューテンプレートに基づくunseenインスタンスの検出は、そのオープンワールドの性質上、難しい問題である。 2次元表現とマッチング技術に主に依存する伝統的な方法論は、ポーズのバリエーションやオクルージョンを扱うのに不十分であることが多い。 この問題を解決するために,我々は,強力な3次元ボクセル表現と信頼性の高いボクセルマッチング機構をフルに活用した,先駆的な3次元幾何認識フレームワークvoxdetを紹介する。 VoxDetはまず、マルチビュー2D画像を効果的に3Dボクセル特徴に変換するテンプレートボクセルアグリゲーション(TVA)モジュールを提案する。 関連するカメラポーズを活用することで、これらの機能はコンパクトな3dテンプレートvoxelに集約される。 新規なインスタンス検出では、このボクセル表現は閉塞に対する抵抗性を高め、変動を生じさせる。 また,TVAの2D-3Dマッピングを事前学習する上で,3次元再構成の目的が有効であることが判明した。 次に、VoxDetはテンプレートのvoxelと迅速に連携するために、Query Voxel Matching (QVM)モジュールを組み込んでいる。 2dクエリはまず、学習した2d-3dマッピングでvoxel表現に変換される。 3次元ボクセル表現は幾何学をエンコードするので、まず相対回転を推定し、配置されたボクセルを比較することで精度と効率が向上する。 要求されるLineMod-Occlusion、YCB-video、新たに構築されたRoboToolsベンチマークにおいて、VoxDetはリコール率20%、高速な2Dベースラインを著しく上回っている。 私たちの知識を最大限に活用するために、VoxDetは暗黙の3D知識を2Dタスクに取り入れた最初の企業です。

Detecting unseen instances based on multi-view templates is a challenging problem due to its open-world nature. Traditional methodologies, which primarily rely on 2D representations and matching techniques, are often inadequate in handling pose variations and occlusions. To solve this, we introduce VoxDet, a pioneer 3D geometry-aware framework that fully utilizes the strong 3D voxel representation and reliable voxel matching mechanism. VoxDet first ingeniously proposes template voxel aggregation (TVA) module, effectively transforming multi-view 2D images into 3D voxel features. By leveraging associated camera poses, these features are aggregated into a compact 3D template voxel. In novel instance detection, this voxel representation demonstrates heightened resilience to occlusion and pose variations. We also discover that a 3D reconstruction objective helps to pre-train the 2D-3D mapping in TVA. Second, to quickly align with the template voxel, VoxDet incorporates a Query Voxel Matching (QVM) module. The 2D queries are first converted into their voxel representation with the learned 2D-3D mapping. We find that since the 3D voxel representations encode the geometry, we can first estimate the relative rotation and then compare the aligned voxels, leading to improved accuracy and efficiency. Exhaustive experiments are conducted on the demanding LineMod-Occlusion, YCB-video, and the newly built RoboTools benchmarks, where VoxDet outperforms various 2D baselines remarkably with 20% higher recall and faster speed. To the best of our knowledge, VoxDet is the first to incorporate implicit 3D knowledge for 2D tasks.
翻訳日:2023-05-30 21:14:13 公開日:2023-05-26
# GVdoc: グラフベースのビジュアルドキュメント分類

GVdoc: Graph-based Visual Document Classification ( http://arxiv.org/abs/2305.17219v1 )

ライセンス: Link先を確認
Fnu Mohbat, Mohammed J. Zaki, Catherine Finegan-Dollak, Ashish Verma(参考訳) 実世界のデプロイのためのモデルのロバスト性は、見えないデータでどれだけうまく動作し、ドメイン内サンプルとドメイン外サンプルを区別するかによって決定される。 ビジュアル文書分類器は、分散テストセットで素晴らしいパフォーマンスを示している。 しかし、分布の例を正しく分類し、区別するのに苦労する傾向がある。 画像ベースの分類器はテキストコンポーネントを欠いているが、マルチモダリティトランスフォーマティブベースのモデルは、様々なレイアウトのため、視覚的ドキュメントのトークンシリアライズ問題に直面している。 また、推論中に多くのコンピューティングパワーを必要とするため、現実世界のアプリケーションでは実用的ではない。 これらの課題に対処するグラフベースの文書分類モデルであるGVdocを提案する。 提案手法では,そのレイアウトに基づいて文書グラフを生成し,グラフニューラルネットワークを用いてノードとグラフの埋め込みを学習する。 実験により,本モデルは,パラメータが小さい場合でも,分散テストセットで同等の性能を保ちながら,分散データに対する最先端モデルを上回ることを示した。

The robustness of a model for real-world deployment is decided by how well it performs on unseen data and distinguishes between in-domain and out-of-domain samples. Visual document classifiers have shown impressive performance on in-distribution test sets. However, they tend to have a hard time correctly classifying and differentiating out-of-distribution examples. Image-based classifiers lack the text component, whereas multi-modality transformer-based models face the token serialization problem in visual documents due to their diverse layouts. They also require a lot of computing power during inference, making them impractical for many real-world applications. We propose, GVdoc, a graph-based document classification model that addresses both of these challenges. Our approach generates a document graph based on its layout, and then trains a graph neural network to learn node and graph embeddings. Through experiments, we show that our model, even with fewer parameters, outperforms state-of-the-art models on out-of-distribution data while retaining comparable performance on the in-distribution test set.
翻訳日:2023-05-30 21:13:41 公開日:2023-05-26
# マルチモーダル言語モデルによる画像生成

Generating Images with Multimodal Language Models ( http://arxiv.org/abs/2305.17216v1 )

ライセンス: Link先を確認
Jing Yu Koh, Daniel Fried, Ruslan Salakhutdinov(参考訳) 本研究では,凍結したテキストのみの大規模言語モデル (LLM) を,事前に訓練した画像エンコーダとデコーダモデルで融合する手法を提案する。 本モデルは,画像検索,新しい画像生成,マルチモーダル対話など,多様なマルチモーダル機能を示す。 oursは、画像とテキスト入力を任意にインターリーブし、コヒーレントな画像(およびテキスト)出力を生成することができる最初のアプローチである。 画像生成において高い性能を達成するために,LLMをオフザシェルフテキスト・画像生成モデルに接地する効率的なマッピングネットワークを提案する。 このマッピングネットワークは,テキストの隠れ表現を視覚モデルの埋め込み空間に変換することで,LLMの強いテキスト表現を視覚出力に活用する。 我々のアプローチは、より長く複雑な言語でタスクのベースライン生成モデルより優れている。 また,新たな画像生成に加えて,予め指定したデータセットから画像検索を行うことができ,推定時に検索するか生成するかを決定する。 これはLLMの隠された表現を条件とした学習的な決定モジュールによって行われる。 従来のマルチモーダル言語モデルと比較して,我々のモデルは幅広い能力を示す。 画像とテキストの入力を処理し、検索された画像、生成された画像、および生成されたテキストを生成することができる。

We propose a method to fuse frozen text-only large language models (LLMs) with pre-trained image encoder and decoder models, by mapping between their embedding spaces. Our model demonstrates a wide suite of multimodal capabilities: image retrieval, novel image generation, and multimodal dialogue. Ours is the first approach capable of conditioning on arbitrarily interleaved image and text inputs to generate coherent image (and text) outputs. To achieve strong performance on image generation, we propose an efficient mapping network to ground the LLM to an off-the-shelf text-to-image generation model. This mapping network translates hidden representations of text into the embedding space of the visual models, enabling us to leverage the strong text representations of the LLM for visual outputs. Our approach outperforms baseline generation models on tasks with longer and more complex language. In addition to novel image generation, our model is also capable of image retrieval from a prespecified dataset, and decides whether to retrieve or generate at inference time. This is done with a learnt decision module which conditions on the hidden representations of the LLM. Our model exhibits a wider range of capabilities compared to prior multimodal language models. It can process image-and-text inputs, and produce retrieved images, generated images, and generated text -- outperforming non-LLM based generation models across several text-to-image tasks that measure context dependence.
翻訳日:2023-05-30 21:13:24 公開日:2023-05-26
# 高解像度画像の脳活動からのデコードに対するコントラスト, 態度, 難易度

Contrast, Attend and Diffuse to Decode High-Resolution Images from Brain Activities ( http://arxiv.org/abs/2305.17214v1 )

ライセンス: Link先を確認
Jingyuan Sun, Mingxiao Li, Zijiao Chen, Yunhao Zhang, Shaonan Wang, Marie-Francine Moens(参考訳) 機能的磁気共鳴画像(fmri)によって記録された神経反応からの視覚刺激の復号は、認知神経科学と機械学習の興味深い交点を示し、人間の視覚知覚の理解と非侵襲的脳-機械インターフェイスの構築を約束する。 しかし、この課題はfMRI信号のノイズの性質と脳の視覚表現の複雑なパターンによって困難である。 これらの課題を軽減するために,2相fMRI表現学習フレームワークを導入する。 第1フェーズでは、double-contrastive Mask Auto-encoderを提案してfMRI機能学習者を事前訓練し、識別表現を学習する。 第2フェーズは、画像オートエンコーダからのガイダンスにより、視覚再構成に最も有用な神経活性化パターンに、特徴学習者が出席するようにチューニングする。 最適化されたfMRI特徴学習者は、脳活動から画像刺激を再構成するために潜時拡散モデルを設定する。 実験により,50-way-top-1のセマンティック分類精度において,従来の最先端手法よりも39.34%,高解像度かつセマンティックな画像を生成する上で,モデルが優れていることを示す。 本研究は,非侵襲的脳-機械インタフェースの開発に寄与し,その可能性を探究するものである。

Decoding visual stimuli from neural responses recorded by functional Magnetic Resonance Imaging (fMRI) presents an intriguing intersection between cognitive neuroscience and machine learning, promising advancements in understanding human visual perception and building non-invasive brain-machine interfaces. However, the task is challenging due to the noisy nature of fMRI signals and the intricate pattern of brain visual representations. To mitigate these challenges, we introduce a two-phase fMRI representation learning framework. The first phase pre-trains an fMRI feature learner with a proposed Double-contrastive Mask Auto-encoder to learn denoised representations. The second phase tunes the feature learner to attend to neural activation patterns most informative for visual reconstruction with guidance from an image auto-encoder. The optimized fMRI feature learner then conditions a latent diffusion model to reconstruct image stimuli from brain activities. Experimental results demonstrate our model's superiority in generating high-resolution and semantically accurate images, substantially exceeding previous state-of-the-art methods by 39.34% in the 50-way-top-1 semantic classification accuracy. Our research invites further exploration of the decoding task's potential and contributes to the development of non-invasive brain-machine interfaces.
翻訳日:2023-05-30 21:13:02 公開日:2023-05-26
# 回転最適化:シンプルでロバストなDNNトレーニング

Rotational Optimizers: Simple & Robust DNN Training ( http://arxiv.org/abs/2305.17212v1 )

ライセンス: Link先を確認
Atli Kosson, Bettina Messmer, Martin Jaggi(参考訳) 現代のディープニューラルネットワークのトレーニングダイナミクスは、学習率、重量減少、初期化、その他のハイパーパラメータ間の複雑な相互作用に依存する。 これらの相互作用はスケール不変な層(例えば正規化層)における球面運動ダイナミクスを生じさせ、重みのノルムと期待される回転の更新サイズが固定された平衡状態へと収束する。 adamw, sgd, lionにおけるこの平衡の解析は, 異なるハイパーパラメータとそれらの相互作用がトレーニングプロセスに与える影響について新たな知見を与える。 本稿では,これらの最適化器の回転変種 (RV) を提案する。 これにより、平衡への収束に対応する過渡位相を除去することで、トレーニングダイナミクスを単純化する。 我々の回転オプティマイザは、しばしばベースラインのハイパーパラメータの最小あるいは不要なチューニングで、元の変分の性能と一致し、これらの過渡位相は不要であることを示す。 さらに、回転オプティマイザは、学習率ウォームアップの必要性を低減し、低正規化ネットワークの最適化を改善する。

The training dynamics of modern deep neural networks depend on complex interactions between the learning rate, weight decay, initialization, and other hyperparameters. These interactions can give rise to Spherical Motion Dynamics in scale-invariant layers (e.g., normalized layers), which converge to an equilibrium state, where the weight norm and the expected rotational update size are fixed. Our analysis of this equilibrium in AdamW, SGD with momentum, and Lion provides new insights into the effects of different hyperparameters and their interactions on the training process. We propose rotational variants (RVs) of these optimizers that force the expected angular update size to match the equilibrium value throughout training. This simplifies the training dynamics by removing the transient phase corresponding to the convergence to an equilibrium. Our rotational optimizers can match the performance of the original variants, often with minimal or no tuning of the baseline hyperparameters, showing that these transient phases are not needed. Furthermore, we find that the rotational optimizers have a reduced need for learning rate warmup and improve the optimization of poorly normalized networks.
翻訳日:2023-05-30 21:12:38 公開日:2023-05-26
# ソーシャルメディア危機メッセージ分類のための低データ可用性対策

Coping with low data availability for social media crisis message categorisation ( http://arxiv.org/abs/2305.17211v1 )

ライセンス: Link先を確認
Congcong Wang(参考訳) 危機的状況下では、ソーシャルメディアは、助けを求めるメッセージを含む情報を素早く共有することができる。 これは緊急対応者にとって価値があり、要求される援助の種類に基づいてこれらのメッセージを分類し優先順位付けする必要がある。 しかし、大量のメッセージは、計算技術を使わずにフィルタリングや優先順位付けを困難にしている。 危機メッセージ分類のための完全な教師付きフィルタリング技術は、通常大量の注釈付きトレーニングデータを必要とするが、これは進行中の危機の間に入手することは困難であり、作成する時間と労力の面で高価である。 この論文は、緊急対応のための危機メッセージを分類する際に、低データ可用性の課題に取り組むことに焦点を当てている。 これは、過去の危機イベント(ソースドメイン)からの注釈付きデータから分類モデルを学習し、進行中の危機イベント(ターゲットドメイン)からのメッセージの分類に適応させることを含む。 複数の過去の出来事にモデルを訓練し、進行中の出来事に適応させる多対多適応では、事前訓練された言語モデルを用いてマルチタスク学習アプローチが提案される。 このアプローチはベースラインを上回り、アンサンブルアプローチはパフォーマンスをさらに改善します。

During crisis situations, social media allows people to quickly share information, including messages requesting help. This can be valuable to emergency responders, who need to categorise and prioritise these messages based on the type of assistance being requested. However, the high volume of messages makes it difficult to filter and prioritise them without the use of computational techniques. Fully supervised filtering techniques for crisis message categorisation typically require a large amount of annotated training data, but this can be difficult to obtain during an ongoing crisis and is expensive in terms of time and labour to create. This thesis focuses on addressing the challenge of low data availability when categorising crisis messages for emergency response. It first presents domain adaptation as a solution for this problem, which involves learning a categorisation model from annotated data from past crisis events (source domain) and adapting it to categorise messages from an ongoing crisis event (target domain). In many-to-many adaptation, where the model is trained on multiple past events and adapted to multiple ongoing events, a multi-task learning approach is proposed using pre-trained language models. This approach outperforms baselines and an ensemble approach further improves performance...
翻訳日:2023-05-30 21:12:16 公開日:2023-05-26
# 暗黙のシーン表現を用いた一般化可能なポーズ推定

Generalizable Pose Estimation Using Implicit Scene Representations ( http://arxiv.org/abs/2305.17252v1 )

ライセンス: Link先を確認
Vaibhav Saxena, Kamal Rahimi Malekshan, Linh Tran, Yotto Koga(参考訳) 6-dofポーズ推定は,ロボット操作パイプラインの重要な構成要素である。 しかし、通常は新しいインスタンスやオブジェクトタイプへの一般化の欠如に悩まされる。 最も広く使われている方法は、モデルがオブジェクトの正確なポーズを推測するために有用な情報をフィルタリングする識別的な設定でオブジェクトのポーズを推測することを学ぶ。 このような手法は正確なポーズを提供するが、モデルは新しいオブジェクトに一般化するのに十分な情報を格納しない。 本研究では,異なるポーズで描画するオブジェクトに関する情報を十分に含むモデルを用いて,ポーズ推定の一般化について述べる。 私たちは、ニューラルレンダラーを逆転させてポーズを推測する作業の行に従います。 そこで我々は,i-$\sigma$SRNを提案し,入力されたポーズから描画されたシーンに流れる情報を最大化し,入力されたポーズを推論する。 具体的には,密度推定のための別個のネットワークを組み込んでシーン表現ネットワーク(srns)を拡張し,重み付けされたシーン表現を得る新しい方法を導入する。 本稿では,ニューラルレンダラーの初期ポーズ推定と損失について検討する。 最終評価では,既存手法と比較して推論性能と速度が大幅に向上した。

6-DoF pose estimation is an essential component of robotic manipulation pipelines. However, it usually suffers from a lack of generalization to new instances and object types. Most widely used methods learn to infer the object pose in a discriminative setup where the model filters useful information to infer the exact pose of the object. While such methods offer accurate poses, the model does not store enough information to generalize to new objects. In this work, we address the generalization capability of pose estimation using models that contain enough information about the object to render it in different poses. We follow the line of work that inverts neural renderers to infer the pose. We propose i-$\sigma$SRN to maximize the information flowing from the input pose to the rendered scene and invert them to infer the pose given an input image. Specifically, we extend Scene Representation Networks (SRNs) by incorporating a separate network for density estimation and introduce a new way of obtaining a weighted scene representation. We investigate several ways of initial pose estimates and losses for the neural renderer. Our final evaluation shows a significant improvement in inference performance and speed compared to existing approaches.
翻訳日:2023-05-30 21:03:07 公開日:2023-05-26
# 多視点制限カーネルマシンにおける双対性

Duality in Multi-View Restricted Kernel Machines ( http://arxiv.org/abs/2305.17251v1 )

ライセンス: Link先を確認
Sonny Achten, Arun Pandey, Hannes De Meulemeester, Bart De Moor, Johan A. K. Suykens(参考訳) 本稿では,既存の制限付きカーネルマシンメソッドを,教師なし設定と教師なし設定の両方においてカーネル主成分分析のための単一のプリミラル・ディアル・マルチビュー・フレームワークに結合した統一設定を提案する。 フレームワークの一次表現と双対表現を導出し、理論的な観点から異なるトレーニングと推論アルゴリズムを関連づける。 一次変数を再スケーリングすることで、原始変数と双対変数の完全同値性を実現する方法を示す。 最後に,不確定なテストデータを再帰的に予測し,学習した特徴を可視化することにより,複数の時系列データセットにおける異なる手法間の関係を実験的に検証し,考察する。

We propose a unifying setting that combines existing restricted kernel machine methods into a single primal-dual multi-view framework for kernel principal component analysis in both supervised and unsupervised settings. We derive the primal and dual representations of the framework and relate different training and inference algorithms from a theoretical perspective. We show how to achieve full equivalence in primal and dual formulations by rescaling primal variables. Finally, we experimentally validate the equivalence and provide insight into the relationships between different methods on a number of time series data sets by recursively forecasting unseen test data and visualizing the learned features.
翻訳日:2023-05-30 21:02:51 公開日:2023-05-26
# ランダム特徴を用いた自己監督型強化学習

Self-Supervised Reinforcement Learning that Transfers using Random Features ( http://arxiv.org/abs/2305.17250v1 )

ライセンス: Link先を確認
Boyuan Chen, Chuning Zhu, Pulkit Agrawal, Kaiqing Zhang, Abhishek Gupta(参考訳) モデルなし強化学習アルゴリズムは、高次元の観測と長い地平線で単一タスクの逐次決定問題を解く大きな可能性を示したが、タスクをまたいだ一般化は困難であることが知られている。 一方、モデルベースRLは、異なる報酬関数間の移動を自然に可能とする世界のタスク非依存モデルを学ぶが、複合的エラーのため複雑な環境へのスケールに苦慮する。 両世界を最大限に活用するために,モデルベースRLの課題を回避しつつ,タスク間での行動伝達を可能にする自己指導型強化学習手法を提案する。 特に,モデルフリー強化学習の自己教師あり事前学習において,ランダムな特徴を多数有し,長期ホリゾン環境ダイナミクスの暗黙的モデリングを可能にすることを示す。 そして、これらの暗黙のモデルを用いたモデル予測制御のような計画技術は、新しい報酬関数による問題への迅速な適応を可能にする。 このメソッドは、報酬ラベルなしでオフラインデータセットでトレーニングできるが、新しいタスクに素早くデプロイできるという点で、自己監視されている。 提案手法は,シミュレーションにおける様々な操作領域や移動領域のタスク間の移動を可能とし,汎用的な意思決定エージェントへの扉を開く。

Model-free reinforcement learning algorithms have exhibited great potential in solving single-task sequential decision-making problems with high-dimensional observations and long horizons, but are known to be hard to generalize across tasks. Model-based RL, on the other hand, learns task-agnostic models of the world that naturally enables transfer across different reward functions, but struggles to scale to complex environments due to the compounding error. To get the best of both worlds, we propose a self-supervised reinforcement learning method that enables the transfer of behaviors across tasks with different rewards, while circumventing the challenges of model-based RL. In particular, we show self-supervised pre-training of model-free reinforcement learning with a number of random features as rewards allows implicit modeling of long-horizon environment dynamics. Then, planning techniques like model-predictive control using these implicit models enable fast adaptation to problems with new reward functions. Our method is self-supervised in that it can be trained on offline datasets without reward labels, but can then be quickly deployed on new tasks. We validate that our proposed method enables transfer across tasks on a variety of manipulation and locomotion domains in simulation, opening the door to generalist decision-making agents.
翻訳日:2023-05-30 21:02:42 公開日:2023-05-26
# NASimEmu:新しいシナリオを一般化した訓練エージェントのためのネットワーク攻撃シミュレータとエミュレータ

NASimEmu: Network Attack Simulator & Emulator for Training Agents Generalizing to Novel Scenarios ( http://arxiv.org/abs/2305.17246v1 )

ライセンス: Link先を確認
Jarom\'ir Janisch, Tom\'a\v{s} Pevn\'y, Viliam Lis\'y(参考訳) 現在の攻撃的侵入テストエージェントを訓練するためのフレームワーク 深層強化学習は、シミュレーションベースのフレームワークの現実のギャップとエミュレーションベースのフレームワークのスケーラビリティの欠如により、現実世界のシナリオでうまく機能するエージェントを作成するのに苦労している。 さらに、既存のフレームワークは、トレーニングデータ上でエージェントのパフォーマンスを測定する非現実的なメトリクスを使用することが多い。 この論文で紹介された新しいフレームワークであるnasimemuは、シミュレータとエミュレータの両方に共有インターフェースを提供することで、これらの問題に対処している。 このアプローチでは、エージェントをシミュレーションでトレーニングし、エミュレータにデプロイすることで、使用済みの抽象化のリアリズムを検証することができる。 本フレームワークは,トレーニング中に見つからない新たなシナリオに移行可能な汎用エージェントの開発を促進する。 シミュレーション部では,既存のシミュレータnasimを採用し,その現実性を高める。 エミュレータは、Vagrant、VirtualBox、Metasploitといった業界レベルのツールで実装されている。 実験では,シミュレーション学習エージェントをエミュレーションにデプロイできることを示し,このフレームワークを用いて,新しい,構造的に異なるシナリオに移行する汎用エージェントをトレーニングする方法を示す。 NASimEmuはオープンソースとして利用可能である。

Current frameworks for training offensive penetration testing agents with deep reinforcement learning struggle to produce agents that perform well in real-world scenarios, due to the reality gap in simulation-based frameworks and the lack of scalability in emulation-based frameworks. Additionally, existing frameworks often use an unrealistic metric that measures the agents' performance on the training data. NASimEmu, a new framework introduced in this paper, addresses these issues by providing both a simulator and an emulator with a shared interface. This approach allows agents to be trained in simulation and deployed in the emulator, thus verifying the realism of the used abstraction. Our framework promotes the development of general agents that can transfer to novel scenarios unseen during their training. For the simulation part, we adopt an existing simulator NASim and enhance its realism. The emulator is implemented with industry-level tools, such as Vagrant, VirtualBox, and Metasploit. Experiments demonstrate that a simulation-trained agent can be deployed in emulation, and we show how to use the framework to train a general agent that transfers into novel, structurally different scenarios. NASimEmu is available as open-source.
翻訳日:2023-05-30 21:02:20 公開日:2023-05-26
# シングルイメージ人体メッシュ再構成における誤差推定

Error Estimation for Single-Image Human Body Mesh Reconstruction ( http://arxiv.org/abs/2305.17245v1 )

ライセンス: Link先を確認
Hamoon Jafarian and Faisal Qureshi(参考訳) 人体の1つ以上の部分が遮蔽されている状況では、人間のポーズや形状推定方法が苦しめられている。 さらに重要なことに、これらのメソッドは、予測されたポーズが間違っていたときに表現できない。 これらの手法が人間とロボットの相互作用のシナリオで使用される場合、これは深刻な結果をもたらす。 この研究はこの問題を研究している。 そこで本研究では,OpenPoseとSPINの2つの一般的なポーズと形状推定手法を組み合わせ,予測されたメッシュ上の領域を最も信頼性の低いものにする手法を提案する。 3dpw, 3doh, human3.6mのデータセットに対する提案手法を評価し, 人体メッシュの不正確な領域同定におけるモデルの有効性を実証した。 私たちのコードはhttps://github.com/hamoon 1987/meshconfidenceで利用可能です。

Human pose and shape estimation methods continue to suffer in situations where one or more parts of the body are occluded. More importantly, these methods cannot express when their predicted pose is incorrect. This has serious consequences when these methods are used in human-robot interaction scenarios, where we need methods that can evaluate their predictions and flag situations where they might be wrong. This work studies this problem. We propose a method that combines information from OpenPose and SPIN -- two popular human pose and shape estimation methods -- to highlight regions on the predicted mesh that are least reliable. We have evaluated the proposed approach on 3DPW, 3DOH, and Human3.6M datasets, and the results demonstrate our model's effectiveness in identifying inaccurate regions of the human body mesh. Our code is available at https://github.com/Hamoon1987/meshConfidence.
翻訳日:2023-05-30 21:01:58 公開日:2023-05-26
# 長期記憶ネットワークにおける壊滅的記憶の軽減

Mitigating Catastrophic Forgetting in Long Short-Term Memory Networks ( http://arxiv.org/abs/2305.17244v1 )

ライセンス: Link先を確認
Ketaki Joshi, Raghavendra Pradyumna Pothukuchi, Andre Wibisono, Abhishek Bhattacharjee(参考訳) シーケンシャルデータに対する継続的な学習は多くの機械学習(ML)デプロイメントにおいて重要である。 残念ながら、シーケンシャルなデータで学ぶのによく使われるLSTMネットワークは破滅的な忘れ込みに悩まされており、複数のタスクを継続的に学習する能力に制限がある。 LSTMネットワークにおける破滅的な忘れは、2つの斬新で容易に実装可能な方法で克服可能であることを発見し、LSTMメモリを各タスクまたは各ターゲットラベルで分離する。 我々のアプローチは、明示的な正規化、ハイパーネットワーク、その他の複雑なメソッドの必要性を高めます。 我々は,MLベースのコンピュータシステム最適化において重要な逐次学習問題である,コンピュータメモリアクセスプリフェッチのための最近提案されたLSTMネットワークに対するアプローチの利点を定量化する。 破滅的な忘れを和らげるための最先端の重み正規化手法と比較して、我々のアプローチは単純で効果的であり、より高速な学習を可能にする。 また,本提案では,従来困難とされていたオフライン学習シナリオにおいて,複雑な自然言語処理に小型で正規化されていないlstmネットワークを使用できることを示す。

Continual learning on sequential data is critical for many machine learning (ML) deployments. Unfortunately, LSTM networks, which are commonly used to learn on sequential data, suffer from catastrophic forgetting and are limited in their ability to learn multiple tasks continually. We discover that catastrophic forgetting in LSTM networks can be overcome in two novel and readily-implementable ways -- separating the LSTM memory either for each task or for each target label. Our approach eschews the need for explicit regularization, hypernetworks, and other complex methods. We quantify the benefits of our approach on recently-proposed LSTM networks for computer memory access prefetching, an important sequential learning problem in ML-based computer system optimization. Compared to state-of-the-art weight regularization methods to mitigate catastrophic forgetting, our approach is simple, effective, and enables faster learning. We also show that our proposal enables the use of small, non-regularized LSTM networks for complex natural language processing in the offline learning scenario, which was previously considered difficult.
翻訳日:2023-05-30 21:01:44 公開日:2023-05-26
# パワーロー相互作用を持つ2次元スピン模型におけるテンソルネットワークを用いた位相空間法の検証

Validating phase-space methods with tensor networks in two-dimensional spin models with power-law interactions ( http://arxiv.org/abs/2305.17242v1 )

ライセンス: Link先を確認
Sean R. Muleady, Mingru Yang, Steven R. White, Ana Maria Rey(参考訳) 最近開発された行列積状態の時間依存性変動原理の拡張を用いて、様々な実験プラットフォームで実装可能な2次元パワーロー相互作用XXZモデルのダイナミクスを評価する。 系の相関の尺度としてスピンスクイージングを計算し、離散切断ウィグナー近似(dtwa)を用いた半古典的位相空間計算と比較する。 これらのシステムでは, 相対的に資源集約的なテンソルネットワーク表現にもかかわらず, システムサイズとの絡み合いのスケーリングを効率よく, 正確に把握する。 またDTWAの定常挙動と熱アンサンブル計算をテンソルネットワークと比較した。 この結果から,2次元量子系の動的計算をベンチマークし,拡張性のある絡み合った資源の生成に関する最近の予測を厳密に検証することが可能になる。

Using a recently developed extension of the time-dependent variational principle for matrix product states, we evaluate the dynamics of 2D power-law interacting XXZ models, implementable in a variety of state-of-the-art experimental platforms. We compute the spin squeezing as a measure of correlations in the system, and compare to semiclassical phase-space calculations utilizing the discrete truncated Wigner approximation (DTWA). We find the latter efficiently and accurately captures the scaling of entanglement with system size in these systems, despite the comparatively resource-intensive tensor network representation of the dynamics. We also compare the steady-state behavior of DTWA to thermal ensemble calculations with tensor networks. Our results open a way to benchmark dynamical calculations for two-dimensional quantum systems, and allow us to rigorously validate recent predictions for the generation of scalable entangled resources for metrology in these systems.
翻訳日:2023-05-30 21:01:25 公開日:2023-05-26
# COMCAT: 意識に基づく視覚モデルの効率的な圧縮とカスタマイズを目指して

COMCAT: Towards Efficient Compression and Customization of Attention-Based Vision Models ( http://arxiv.org/abs/2305.17235v1 )

ライセンス: Link先を確認
Jinqi Xiao, Miao Yin, Yu Gong, Xiao Zang, Jian Ren, Bo Yuan(参考訳) 視覚トランスフォーマー(vit)などの注意に基づく視覚モデルは、様々なコンピュータビジョンタスクにおいて有望な性能を示している。 しかし、これらの新興アーキテクチャは大きなモデルサイズと高い計算コストに苦しめられ、効率的なモデル圧縮ソリューションが求められている。 現在、プルーニングViTはよく研究されているが、CNN圧縮に広く適用されている他の圧縮戦略、例えばモデル因子化は、ViT圧縮の文脈ではほとんど研究されていない。 本稿では,コンパクトな注意に基づく視覚モデルを得るためのツールセットを充実させるために,視覚トランスフォーマーを効率的に圧縮する方法を検討する。 マルチヘッドアテンション層に関する新たな知見に基づいて,最先端のプルーニング法よりも優れた高効率なViT圧縮ソリューションを開発した。 imagenet 上で deit-small および deit-base モデルを圧縮する場合,提案手法はパラメータが小さくても top-1 の精度が 0.45% と 0.76% 向上する。 我々の発見は、テキストと画像の拡散モデルのカスタマイズ効率を向上させるためにも適用でき、既存の作業よりもはるかに高速なトレーニング(最大2.6\times$ speedup)と余分なストレージコスト(最大1927.5\times$ reduction)を実現することができる。

Attention-based vision models, such as Vision Transformer (ViT) and its variants, have shown promising performance in various computer vision tasks. However, these emerging architectures suffer from large model sizes and high computational costs, calling for efficient model compression solutions. To date, pruning ViTs has been well studied, while other compression strategies that have been widely applied in CNN compression, e.g., model factorization, is little explored in the context of ViT compression. This paper explores an efficient method for compressing vision transformers to enrich the toolset for obtaining compact attention-based vision models. Based on the new insight on the multi-head attention layer, we develop a highly efficient ViT compression solution, which outperforms the state-of-the-art pruning methods. For compressing DeiT-small and DeiT-base models on ImageNet, our proposed approach can achieve 0.45% and 0.76% higher top-1 accuracy even with fewer parameters. Our finding can also be applied to improve the customization efficiency of text-to-image diffusion models, with much faster training (up to $2.6\times$ speedup) and lower extra storage cost (up to $1927.5\times$ reduction) than the existing works.
翻訳日:2023-05-30 21:01:08 公開日:2023-05-26
# ランダム位相散乱による量子進化

Quantum evolution with random phase scattering ( http://arxiv.org/abs/2305.17232v1 )

ライセンス: Link先を確認
Klaus Ziegler(参考訳) 非相互作用フェルミオンのd次元気体中のフェルミオン-ホール対のランダム位相散乱の存在下での量子進化を考察する。 この系は効果的なイジングモデルにマッピングされ、フェルミオンとホールを再結合する確率が初期空間分離距離で指数関数的に減少することを示すことができる。 ランダム位相散乱がない場合、再結合確率は無限平均二乗変位によって反射されるパワー則のように崩壊する。 有効イジングモデルは、サドル点近似内で研究され、進化時間と進化演算子の決定論的部分のスペクトル特性に依存する有限平均2乗変位が得られる。

We consider the quantum evolution of a fermion-hole pair in a d-dimensional gas of non-interacting fermions in the presence of random phase scattering. This system is mapped onto an effective Ising model, which enables us to show rigorously that the probability of recombining the fermion and the hole decays exponentially with the distance of their initial spatial separation. In the absence of random phase scattering the recombination probability decays like a power law, which is reflected by an infinite mean square displacement. The effective Ising model is studied within a saddle point approximation and yields a finite mean square displacement that depends on the evolution time and on the spectral properties of the deterministic part of the evolution operator.
翻訳日:2023-05-30 21:00:43 公開日:2023-05-26
# グラフ状態デコヒーレンスダイナミクスのための可解モデル

A solvable model for graph state decoherence dynamics ( http://arxiv.org/abs/2305.17231v1 )

ライセンス: Link先を確認
J\'er\^ome Houdayer, Haggai Landa and Gr\'egoire Misguich(参考訳) 我々は、N量子ビットの置換不変グラフ状態の連続散逸ダイナミクスに対して、正確に解けるおもちゃモデルを提案する。 このような状態は、多くの量子情報処理のセットアップにおける基本的なリソースであるN-qubit Greenberger-Horne-Zeilinger状態(GHZ)と局所的に等価である。 我々は3つの標準単量子ジャンプ作用素を持つリンドブラッドマスター方程式によって制御される状態の時間発展に注目し、ハミルトニアン部分は 0 に設定される。 可観測性の期待値に対する解析式をポーリ基底で常に拡張し, 非自明な中間時間ダイナミクスを解析する。 行列積演算子に基づく数値解法を用いて、最大64量子ビットの系の時間発展をシミュレートし、解析結果と数値的に正確な一致を検証する。 系の二分割の作用素空間エンタングルメントエントロピーの進化は、周期がキュービットの数と対数的に増加する台地を示すのに対し、全てのパウリ演算子積は、少なくとも一定時間で減衰する期待値を持つ。

We present an exactly solvable toy model for the continuous dissipative dynamics of permutation-invariant graph states of N qubits. Such states are locally equivalent to an N-qubit Greenberger-Horne-Zeilinger (GHZ) state, a fundamental resource in many quantum information processing setups. We focus on the time evolution of the state governed by a Lindblad master equation with the three standard single-qubit jump operators, the Hamiltonian part being set to zero. Deriving analytic expressions for the expectation values of observables expanded in the Pauli basis at all times, we analyze the nontrivial intermediate-time dynamics. Using a numerical solver based on matrix product operators we simulate the time evolution for systems with up to 64 qubits and verify a numerically exact agreement with the analytical results. We find that the evolution of the operator space entanglement entropy of a bipartition of the system manifests a plateau whose duration increases logarithmically with the number of qubits, whereas all Pauli-operator products have expectation values decaying at most in constant time.
翻訳日:2023-05-30 21:00:23 公開日:2023-05-26
# マスク付きシークエンシャルオートエンコーダによる自己事前学習によるロバストレーン検出とカスタマイズポリロスによる微調整

Robust Lane Detection through Self Pre-training with Masked Sequential Autoencoders and Fine-tuning with Customized PolyLoss ( http://arxiv.org/abs/2305.17271v1 )

ライセンス: Link先を確認
Ruohan Li, Yongqi Dong(参考訳) 車線検出は、自動運転と多くのインテリジェントで高度な運転支援システムの基礎となる車両のローカライゼーションに不可欠である。 利用可能な視覚に基づく車線検出手法は、貴重な特徴をフル活用せず、特に連続フレームにおける車線線と画像の他の領域間の相互関係を集約する。 この研究ギャップを埋め、レーン検出性能を向上するために、マスク付きシーケンシャルオートエンコーダによる自己事前学習と、マルチ連続画像フレームを用いたエンドツーエンドニューラルネットワークモデルのためのカスタマイズされたPolyLossによる微調整からなるパイプラインを提案する。 マスク付きシーケンシャルオートエンコーダを用いてニューラルネットワークモデルを事前訓練し、目的とするランダムマスク画像から欠落した画素を再構成する。 そして、レーン検出セグメンテーションが行われる微調整セグメンテーションフェーズにおいて、連続した画像フレームを入力として提供し、予め訓練されたモデル重みを、出力されたレーン検出結果とラベル付き基底真理との重み付き誤差を算出するカスタマイズされたポリロスによりバックプロパゲーション機構を用いて、さらに更新する。 提案したパイプラインでは、通常シーンと挑戦シーンの両方における車線検出モデルの性能が最先端を超えて向上し、通常のシーンテストセットにおける最高のテスト精度(98.38%)、精度(0.937)、F1測定(0.924)、そして挑戦シーンテストセットにおける最高の総合精度(98.36%)、精度(0.844)を実現し、トレーニング時間を著しく短縮できることを示した。

Lane detection is crucial for vehicle localization which makes it the foundation for automated driving and many intelligent and advanced driving assistant systems. Available vision-based lane detection methods do not make full use of the valuable features and aggregate contextual information, especially the interrelationships between lane lines and other regions of the images in continuous frames. To fill this research gap and upgrade lane detection performance, this paper proposes a pipeline consisting of self pre-training with masked sequential autoencoders and fine-tuning with customized PolyLoss for the end-to-end neural network models using multi-continuous image frames. The masked sequential autoencoders are adopted to pre-train the neural network models with reconstructing the missing pixels from a random masked image as the objective. Then, in the fine-tuning segmentation phase where lane detection segmentation is performed, the continuous image frames are served as the inputs, and the pre-trained model weights are transferred and further updated using the backpropagation mechanism with customized PolyLoss calculating the weighted errors between the output lane detection results and the labeled ground truth. Extensive experiment results demonstrate that, with the proposed pipeline, the lane detection model performance on both normal and challenging scenes can be advanced beyond the state-of-the-art, delivering the best testing accuracy (98.38%), precision (0.937), and F1-measure (0.924) on the normal scene testing set, together with the best overall accuracy (98.36%) and precision (0.844) in the challenging scene test set, while the training time can be substantially shortened.
翻訳日:2023-05-30 20:54:43 公開日:2023-05-26
# 明示的な基本意味モデリングによるメタファー検出

Metaphor Detection via Explicit Basic Meanings Modelling ( http://arxiv.org/abs/2305.17268v1 )

ライセンス: Link先を確認
Yucheng Li, Shun Wang, Chenghua Lin, Guerin Frank(参考訳) メタファ検出の顕著な傾向の1つは、モデルアーキテクチャ設計のためのメタファ識別手順(MIP)のような言語理論を受け入れることである。 MIPは、語彙単位の比喩性は、その \textit{contextual meaning} と \textit{basic meaning} の対比に基づいて決定されると明確に定義しているが、既存の研究は、通常、ターゲット語の基本的意味を近似するために \textit{aggregated meaning} を用いて、この原則を厳密に従わない。 本稿では,トレーニングセットからのリテラルアノテーションに基づいて単語の基本的意味をモデル化し,対象文の文脈的意味と比較してメタファを識別するメタファ検出手法を提案する。 実験の結果,本手法はf1スコアの1.0\%を大きく上回った。 さらに,メタファ検出のための基本的な意味をモデル化することの重要性を実証する,基本アノテーション付きターゲットのvua18ベンチマークの理論的上限まで到達した。

One noticeable trend in metaphor detection is the embrace of linguistic theories such as the metaphor identification procedure (MIP) for model architecture design. While MIP clearly defines that the metaphoricity of a lexical unit is determined based on the contrast between its \textit{contextual meaning} and its \textit{basic meaning}, existing work does not strictly follow this principle, typically using the \textit{aggregated meaning} to approximate the basic meaning of target words. In this paper, we propose a novel metaphor detection method, which models the basic meaning of the word based on literal annotation from the training set, and then compares this with the contextual meaning in a target sentence to identify metaphors. Empirical results show that our method outperforms the state-of-the-art method significantly by 1.0\% in F1 score. Moreover, our performance even reaches the theoretical upper bound on the VUA18 benchmark for targets with basic annotations, which demonstrates the importance of modelling basic meanings for metaphor detection.
翻訳日:2023-05-30 20:54:09 公開日:2023-05-26
# codet: 機械翻訳の対比弁別評価のためのベンチマーク

CODET: A Benchmark for Contrastive Dialectal Evaluation of Machine Translation ( http://arxiv.org/abs/2305.17267v1 )

ライセンス: Link先を確認
Md Mahfuz Ibn Alam, Sina Ahmadi, Antonios Anastasopoulos(参考訳) ニューラルマシン翻訳(NMT)システムは、ソース側の言語的バリエーションを扱う場合に、限られた堅牢性を示す。 これらの性能は、ドメインや第2言語話者が導入したバリエーションなど、言語使用の微妙な違いに直面すると劣化する傾向がある。 この観察を方言のバリエーションにも拡張することは直感的であるが、コミュニティがこの次元でmtシステムを評価できる作業は限られている。 この問題を緩和するために、9つの異なる言語から852の異なるバリエーションを含む対照的な方言ベンチマークである \dataset をコンパイルしてリリースする。 また,方言の変種を効果的に翻訳する上で,大規模なMTモデルが直面する課題を定量的に示す。 すべてのコードとデータをリリースしています。

Neural machine translation (NMT) systems exhibit limited robustness in handling source-side linguistic variations. Their performance tends to degrade when faced with even slight deviations in language usage, such as different domains or variations introduced by second-language speakers. It is intuitive to extend this observation to encompass dialectal variations as well, but the work allowing the community to evaluate MT systems on this dimension is limited. To alleviate this issue, we compile and release \dataset, a contrastive dialectal benchmark encompassing 882 different variations from nine different languages. We also quantitatively demonstrate the challenges large MT models face in effectively translating dialectal variants. We are releasing all code and data.
翻訳日:2023-05-30 20:53:45 公開日:2023-05-26
# ハニー、私は言語を縮小した: 縮小されたスケールでの言語モデル行動

Honey, I Shrunk the Language: Language Model Behavior at Reduced Scale ( http://arxiv.org/abs/2305.17266v1 )

ライセンス: Link先を確認
Vijeta Deshpande, Dan Pechi, Shree Thatte, Vladislav Lialin, Anna Rumshisky(参考訳) 近年,言語モデルのサイズが大幅に拡大し,これらのモデルの能力は大規模に向上することが示されている。 近年のスケーリング法則の大部分がハイコンピュートなハイパラメータ数の設定に焦点を合わせており、これらの能力がいつ出現し始めるのかという疑問が残されている。 本稿では,問題の大きさが小さくなったら事前学習の効果を観察できるかどうかを,より小さく,少ない語彙言語をモデル化して検討する。 マスク付き言語モデリング(MLM)モデルにおける事前学習の利点を1.25Mパラメータとして示すとともに、事前学習の難易度とダウンストリーム性能(GLUEベンチマーク)の強い相関性を確立する。 スケール法則を約1Mパラメータのモデルに拡張し,ダウンスケーリング効果を検討した。 このスケールでは、計算最適モデルに対する電力法則の破れを観察し、計算コスト (FLOPs) が 2.2 \times 10^{15}$ FLOPs 以下である場合、MLM損失はスムーズにスケールしないことを示す。 また、レイヤの追加が下流のパフォーマンスに必ずしも利益をもたらすとは限らないことも分かりました。

In recent years, language models have drastically grown in size, and the abilities of these models have been shown to improve with scale. The majority of recent scaling laws studies focused on high-compute high-parameter count settings, leaving the question of when these abilities begin to emerge largely unanswered. In this paper, we investigate whether the effects of pre-training can be observed when the problem size is reduced, modeling a smaller, reduced-vocabulary language. We show the benefits of pre-training with masked language modeling (MLM) objective in models as small as 1.25M parameters, and establish a strong correlation between pre-training perplexity and downstream performance (GLUE benchmark). We examine downscaling effects, extending scaling laws to models as small as ~1M parameters. At this scale, we observe a break of the power law for compute-optimal models and show that the MLM loss does not scale smoothly with compute-cost (FLOPs) below $2.2 \times 10^{15}$ FLOPs. We also find that adding layers does not always benefit downstream performance.
翻訳日:2023-05-30 20:53:34 公開日:2023-05-26
# im-promptu: イメージプロンプトからのコンテキスト内コンポジション

Im-Promptu: In-Context Composition from Image Prompts ( http://arxiv.org/abs/2305.17262v1 )

ライセンス: Link先を確認
Bhishma Dedhia, Michael Chang, Jake C. Snell, Thomas L. Griffiths, Niraj K. Jha(参考訳) 大規模な言語モデルは、少数のデモから様々なタスクを解決できる数少ない学習者です。 この暗黙のタスクの理解は、単語トークンに対する注意のメカニズムが類推的推論に重要な役割を果たしていることを示唆している。 本研究では,視覚刺激の構成可能な要素に対して,類似推論がコンテキスト内合成を可能にするかどうかを検討する。 まず,視覚インコンテキスト学習者の一般化特性をテストするための3つのベンチマークスイートを提案する。 アナロジーに基づくインコンテキスト学習の概念を定式化し,im-promptuと呼ばれるメタ学習フレームワークの設計に使用する。 言語に必要なトークンの粒度は十分に確立されているが、視覚刺激における文脈内一般化を可能にするための適切な構成の粒度は、通常不明である。 この目的のために、我々はim-promptuを使用して、ベクタ表現、パッチ表現、オブジェクトスロットなど、さまざまなレベルのコンポジション性を持つ複数のエージェントを訓練します。 本実験は,合成規則を未知の領域に拡張する非構成的表現を用いて,外挿能力と構成性の程度とのトレードオフを明らかにする。 パッチベースの表現は、堅牢な外挿のために全オブジェクトを含むパッチを必要とする。 同時に、クロスアテンションモジュールと結合したオブジェクト中心のトークン化器は一貫性のある高忠実な解を生成し、これらの帰納的バイアスは合成の一般化に特に重要である。 最後に,画像生成のための直感的なプログラミングインタフェースとしてim-promptuのユースケースを示す。

Large language models are few-shot learners that can solve diverse tasks from a handful of demonstrations. This implicit understanding of tasks suggests that the attention mechanisms over word tokens may play a role in analogical reasoning. In this work, we investigate whether analogical reasoning can enable in-context composition over composable elements of visual stimuli. First, we introduce a suite of three benchmarks to test the generalization properties of a visual in-context learner. We formalize the notion of an analogy-based in-context learner and use it to design a meta-learning framework called Im-Promptu. Whereas the requisite token granularity for language is well established, the appropriate compositional granularity for enabling in-context generalization in visual stimuli is usually unspecified. To this end, we use Im-Promptu to train multiple agents with different levels of compositionality, including vector representations, patch representations, and object slots. Our experiments reveal tradeoffs between extrapolation abilities and the degree of compositionality, with non-compositional representations extending learned composition rules to unseen domains but performing poorly on combinatorial tasks. Patch-based representations require patches to contain entire objects for robust extrapolation. At the same time, object-centric tokenizers coupled with a cross-attention module generate consistent and high-fidelity solutions, with these inductive biases being particularly crucial for compositional generalization. Lastly, we demonstrate a use case of Im-Promptu as an intuitive programming interface for image generation.
翻訳日:2023-05-30 20:53:13 公開日:2023-05-26
# 機械学習と人間-aiコラボレーションによる高リスク妊娠ケアのギャップを埋める

Closing the Gap in High-Risk Pregnancy Care Using Machine Learning and Human-AI Collaboration ( http://arxiv.org/abs/2305.17261v1 )

ライセンス: Link先を確認
Hussein Mozannar, Yuria Utsumi, Irene Y. Chen, Stephanie S. Gervasi, Michele Ewing, Aaron Smith-McLallen, David Sontag(参考訳) 医療保険者は、しばしば、ケアと状態管理プログラムの恩恵を受けるメンバーを特定するためにアルゴリズムを使用する。 アルゴリズム識別と臨床介入の時間的、正確、シームレスな統合は、システムデザイナーと看護師の効果的な連携に依存する。 本研究は,出生前,周産期,出生後の有害事象の可能性を低減し,(1)妊娠早期発見,(2)感染性の高い高リスクメンバーの正確な同定,(3)予測を補うための説明可能な指標の提供,の3つのHRPプログラムの課題を克服する方法を説明することを目的とした高リスク妊娠プログラム(HRP)に焦点を当てた。 本研究は, 妊娠57日目の妊娠を既往のコードベースモデルよりも早く同定する妊娠識別アルゴリズムを提案する。 次に、AUROCの0.760に達する影響のある妊娠合併症を予測するモデルを構築します。 妊娠の特定と合併症のモデルが提案されたユーザインタフェースに統合される。 本研究では,HRPプログラムのトリアージメンバに対する予測を駆動する臨床情報と合わせて,予測の有用性に関する看護師からの定量的,質的なフィードバックを収集した。

Health insurers often use algorithms to identify members who would benefit from care and condition management programs, which provide personalized, high-touch clinical support. Timely, accurate, and seamless integration between algorithmic identification and clinical intervention depends on effective collaboration between the system designers and nurse care managers. We focus on a high-risk pregnancy (HRP) program designed to reduce the likelihood of adverse prenatal, perinatal, and postnatal events and describe how we overcome three challenges of HRP programs as articulated by nurse care managers; (1) early detection of pregnancy, (2) accurate identification of impactable high-risk members, and (3) provision of explainable indicators to supplement predictions. We propose a novel algorithm for pregnancy identification that identifies pregnancies 57 days earlier than previous code-based models in a retrospective study. We then build a model to predict impactable pregnancy complications that achieves an AUROC of 0.760. Models for pregnancy identification and complications are then integrated into a proposed user interface. In a set of user studies, we collected quantitative and qualitative feedback from nurses on the utility of the predictions combined with clinical information driving the predictions on triaging members for the HRP program.
翻訳日:2023-05-30 20:52:47 公開日:2023-05-26
# モバイルクラウドゲームビデオの主観的・客観的品質評価に関する研究

Study of Subjective and Objective Quality Assessment of Mobile Cloud Gaming Videos ( http://arxiv.org/abs/2305.17260v1 )

ライセンス: Link先を確認
Avinab Saha, Yu-Chih Chen, Chase Davis, Bo Qiu, Xiaoming Wang, Rahul Gowda, Ioannis Katsavounidis, Alan C. Bovik(参考訳) 本稿では,モバイル・クラウド・ゲーム・ビデオ品質評価(MCG-VQA)の多種多様なゲーム・ビデオに対する大規模主観的研究の結果について述べる。 クラウドサービスの急速な進歩、より高速なビデオエンコーディング技術、高速で低遅延なワイヤレスインターネットへのアクセスの増加はすべて、モバイルクラウドゲーム産業の指数関数的な成長に寄与した。 その結果,クラウドゲームプラットフォームのエンドユーザに対するリアルタイムビデオフィードの質を評価する手法の開発がますます重要になっている。 しかしながら,多種多様な歪曲されたビデオセットと対応する主観的スコアを含む大規模モバイル・クラウド・ゲーミング・ビデオデータセットの欠如により,mcg-vqaモデルの開発作業は限られている。 これらの目標への進歩を加速するために,我々は,600本のランドスケープビデオとポートレートゲームビデオからなるlive-meta mobile cloud gaming (live-meta-mcg) ビデオ品質データベースという新しいデータセットを作成した。 さらに、新しいリソースの有用性を示すために、データベース上で複数の最先端VQAアルゴリズムをベンチマークした。 新しいデータベースは、我々のウェブサイトで公開される。 \url{https://live.ece.utexas.edu/research/LIVE-Meta-Mobile-Cloud-Gaming/index.html}

We present the outcomes of a recent large-scale subjective study of Mobile Cloud Gaming Video Quality Assessment (MCG-VQA) on a diverse set of gaming videos. Rapid advancements in cloud services, faster video encoding technologies, and increased access to high-speed, low-latency wireless internet have all contributed to the exponential growth of the Mobile Cloud Gaming industry. Consequently, the development of methods to assess the quality of real-time video feeds to end-users of cloud gaming platforms has become increasingly important. However, due to the lack of a large-scale public Mobile Cloud Gaming Video dataset containing a diverse set of distorted videos with corresponding subjective scores, there has been limited work on the development of MCG-VQA models. Towards accelerating progress towards these goals, we created a new dataset, named the LIVE-Meta Mobile Cloud Gaming (LIVE-Meta-MCG) video quality database, composed of 600 landscape and portrait gaming videos, on which we collected 14,400 subjective quality ratings from an in-lab subjective study. Additionally, to demonstrate the usefulness of the new resource, we benchmarked multiple state-of-the-art VQA algorithms on the database. The new database will be made publicly available on our website: \url{https://live.ece.utexas.edu/research/LIVE-Meta-Mobile-Cloud-Gaming/index.html}
翻訳日:2023-05-30 20:52:25 公開日:2023-05-26
# STL: 意外とトリッキーなロジック(システム検証用)

STL: Surprisingly Tricky Logic (for System Validation) ( http://arxiv.org/abs/2305.17258v1 )

ライセンス: Link先を確認
Ho Chit Siu, Kevin Leahy, and Makai Mann(参考訳) 自律システムの振る舞いを特定または学習するための形式的手法を開発する最近の研究の多くは、形式的仕様がシステムをチェックする際に人間にとって有用であるという信念に基づいている。 しばしば主張されるが、この仮定は滅多にテストされない。 人体実験(N = 62)を,前もって形式的手法に慣れていなかった人々を対象に実施し,信号時間論理(STL)の制約がエージェントに害を与えないようにし,グリッドワールド・キャプチャー・ザ・フラッグ・セッティングでタスクを完了させるかどうかを検証した。 検証精度は$45\% \pm 20\%$(平均$\pm$標準偏差)であった。 その結果, 仕様の真正性, 形式的手法に親しみ, 教育水準が, 検証正当性を決定する重要な要因であることが判明した。 被験者は肯定バイアスを示し,有効仕様の精度は著しく向上したが,無効仕様の精度は有意に低下した。 さらに、特に形式的手法に精通した参加者は、回答に過度に自信を持ち、実際の正確性に関係なく同様に自信を持つ傾向にあった。 私たちのデータは、形式的仕様は本質的に人間に解釈可能であり、システム検証に有意義な程度である、という信念をサポートしていません。 データ提示と検証トレーニングの人間工学的改善を推奨し、解釈可能性の主張が形式的な手法の文献に戻す前にテストすべきである。

Much of the recent work developing formal methods techniques to specify or learn the behavior of autonomous systems is predicated on a belief that formal specifications are interpretable and useful for humans when checking systems. Though frequently asserted, this assumption is rarely tested. We performed a human experiment (N = 62) with a mix of people who were and were not familiar with formal methods beforehand, asking them to validate whether a set of signal temporal logic (STL) constraints would keep an agent out of harm and allow it to complete a task in a gridworld capture-the-flag setting. Validation accuracy was $45\% \pm 20\%$ (mean $\pm$ standard deviation). The ground-truth validity of a specification, subjects' familiarity with formal methods, and subjects' level of education were found to be significant factors in determining validation correctness. Participants exhibited an affirmation bias, causing significantly increased accuracy on valid specifications, but significantly decreased accuracy on invalid specifications. Additionally, participants, particularly those familiar with formal methods, tended to be overconfident in their answers, and be similarly confident regardless of actual correctness. Our data do not support the belief that formal specifications are inherently human-interpretable to a meaningful degree for system validation. We recommend ergonomic improvements to data presentation and validation training, which should be tested before claims of interpretability make their way back into the formal methods literature.
翻訳日:2023-05-30 20:52:01 公開日:2023-05-26
# 大規模言語モデルは遅延学習者になり得る - コンテキスト内学習におけるショートカットの分析

Large Language Models Can be Lazy Learners: Analyze Shortcuts in In-Context Learning ( http://arxiv.org/abs/2305.17256v1 )

ライセンス: Link先を確認
Ruixiang Tang, Dehan Kong, Longtao Huang, Hui Xue(参考訳) 大規模言語モデル(LLM)は、LLMが数組の入力ラベルペア(prompts)を条件付けるだけで新しいタスクを学習する、コンテキスト内学習において大きな可能性を示している。 彼らの可能性にもかかわらず、エンドタスクのパフォーマンスと文脈内学習の堅牢性に影響を与える要因に対する我々の理解は限られている。 本稿では,この知識のギャップを埋めるために,近道へのllmの依存度や,プロンプト内のスプリアス相関について検討する。 分類・抽出タスクに関する包括的実験を通じて,下流タスクのプロンプトでショートカットを利用する傾向のある「怠慢な学習者」であることが判明した。 さらに、大きなモデルが推論中にプロンプトでショートカットを利用する可能性が高まるという驚くべき発見を明らかにしました。 本研究は,文脈内学習におけるロバスト性評価の新たな視点を提供するとともに,ショートカットを用いたプロンプトの検出と緩和に新たな課題を提起する。

Large language models (LLMs) have recently shown great potential for in-context learning, where LLMs learn a new task simply by conditioning on a few input-label pairs (prompts). Despite their potential, our understanding of the factors influencing end-task performance and the robustness of in-context learning remains limited. This paper aims to bridge this knowledge gap by investigating the reliance of LLMs on shortcuts or spurious correlations within prompts. Through comprehensive experiments on classification and extraction tasks, we reveal that LLMs are "lazy learners" that tend to exploit shortcuts in prompts for downstream tasks. Additionally, we uncover a surprising finding that larger models are more likely to utilize shortcuts in prompts during inference. Our findings provide a new perspective on evaluating robustness in in-context learning and pose new challenges for detecting and mitigating the use of shortcuts in prompts.
翻訳日:2023-05-30 20:51:34 公開日:2023-05-26
# FineMorphs:回帰のためのアフィン微分型配列

FineMorphs: Affine-diffeomorphic sequences for regression ( http://arxiv.org/abs/2305.17255v1 )

ライセンス: Link先を確認
Michele Lohr, Laurent Younes(参考訳) アフィンおよび微分同相変換列(ファインモルフ)の多変量回帰モデルを示す。 形状解析から概念を取り入れたモデル状態は、学習中に滑らかなベクトル場によって生成される微分同相によって最適に「再形」される。 アフィン変換とベクトル場は最適制御設定内で最適化され、モデルは自然に次元を減少(あるいは増大)し、最適ベクトル場を介して大きなデータセットに適応することができる。 解の存在証明とモデルに対する最適性に必要な条件が導出される。 UCIレポジトリの実際のデータセットに関する実験結果は、文献の最先端とTensorFlowの高密度に接続されたニューラルネットワークと比較して好意的な結果である。

A multivariate regression model of affine and diffeomorphic transformation sequences - FineMorphs - is presented. Leveraging concepts from shape analysis, model states are optimally "reshaped" by diffeomorphisms generated by smooth vector fields during learning. Affine transformations and vector fields are optimized within an optimal control setting, and the model can naturally reduce (or increase) dimensionality and adapt to large datasets via suboptimal vector fields. An existence proof of solution and necessary conditions for optimality for the model are derived. Experimental results on real datasets from the UCI repository are presented, with favorable results in comparison with state-of-the-art in the literature and densely-connected neural networks in TensorFlow.
翻訳日:2023-05-30 20:51:17 公開日:2023-05-26
# 非凸環境における凸リスク境界付き連続時間軌道計画と管設計

Convex Risk Bounded Continuous-Time Trajectory Planning and Tube Design in Uncertain Nonconvex Environments ( http://arxiv.org/abs/2305.17291v1 )

ライセンス: Link先を確認
Ashkan Jasour, Weiqiao Han, and Brian Williams(参考訳) 本稿では,不確定な非凸静的および動的環境において,確率的位置,大きさ,形状を有する障害物を含む軌道計画問題に対処する。 この問題に対処するため,我々は,計画時地平線上の境界リスクを保証した連続時間トラジェクタを探索するリスク境界軌道計画手法を提案する。 リスクは不確定な障害と衝突する確率として定義される。 リスク境界軌道計画問題に対処するための既存のアプローチは、ガウスの不確実性や凸障害物に限られるか、あるいは不確実性サンプルと時間離散化を必要とするサンプリングベースの手法に依存している。 リスク境界軌道計画問題に対処するために,リスク輪郭の概念を利用してリスク境界計画問題を決定論的最適化問題に変換する。 リスク輪郭(英: risk contour)とは、境界のあるリスクが保証された不確定な環境におけるすべての点の集合である。 得られた決定論的最適化は、一般に非線形および非凸時変最適化である。 得られた非凸時間変化最適化問題を効率的に解き,時間離散化を伴わない連続時間リスク有界軌道を得るために,2乗最適化に基づく凸法を提案する。 提案手法は, 任意の確率的不確実性, 非凸, 非線形, 静的, 動的障害に対処し, オンライン軌道計画問題に適している。 さらに, 管内の任意の状態が有界リスクを持つことが保証されるように, 軌跡に沿ったパラメータ化に対して最大サイズの管を構築するために, 総和二乗最適化に基づく凸法を提供する。

In this paper, we address the trajectory planning problem in uncertain nonconvex static and dynamic environments that contain obstacles with probabilistic location, size, and geometry. To address this problem, we provide a risk bounded trajectory planning method that looks for continuous-time trajectories with guaranteed bounded risk over the planning time horizon. Risk is defined as the probability of collision with uncertain obstacles. Existing approaches to address risk bounded trajectory planning problems either are limited to Gaussian uncertainties and convex obstacles or rely on sampling-based methods that need uncertainty samples and time discretization. To address the risk bounded trajectory planning problem, we leverage the notion of risk contours to transform the risk bounded planning problem into a deterministic optimization problem. Risk contours are the set of all points in the uncertain environment with guaranteed bounded risk. The obtained deterministic optimization is, in general, nonlinear and nonconvex time-varying optimization. We provide convex methods based on sum-of-squares optimization to efficiently solve the obtained nonconvex time-varying optimization problem and obtain the continuous-time risk bounded trajectories without time discretization. The provided approach deals with arbitrary (and known) probabilistic uncertainties, nonconvex and nonlinear, static and dynamic obstacles, and is suitable for online trajectory planning problems. In addition, we provide convex methods based on sum-of-squares optimization to build the max-sized tube with respect to its parameterization along the trajectory so that any state inside the tube is guaranteed to have bounded risk.
翻訳日:2023-05-30 20:44:23 公開日:2023-05-26
# Fourier-DeepONet:精度、一般化性、堅牢性を改善したフルウェーブフォームインバージョンのためのフーリエ強化ディープオペレータネットワーク

Fourier-DeepONet: Fourier-enhanced deep operator networks for full waveform inversion with improved accuracy, generalizability, and robustness ( http://arxiv.org/abs/2305.17289v1 )

ライセンス: Link先を確認
Min Zhu, Shihang Feng, Youzuo Lin, Lu Lu(参考訳) フル波形インバージョン(fwi)は非凸最適化問題を解いて地震波形データから地下構造情報を推定する。 データ駆動型fwiは、精度と計算効率を改善するために、様々なニューラルネットワークアーキテクチャで研究されている。 それでも、事前トレーニングされたニューラルネットワークの適用性は、フィールドサーベイで使用されるソース関数とトレーニング中に使用されるソース関数との潜在的な相違によって厳しく制限されている。 本稿では,震源の周波数や位置を一般化したFWIのためのフーリエ強化深度演算ネットワーク(Fourier-DeepONet)を開発した。 具体的には、DeepONetのデコーダとしてフーリエニューラル演算子を用い、ソースパラメータをFourier-DeepONetの一入力として利用し、可変ソースによるFWIの分解を容易にする。 Fourier-DeepONet をテストするために,FWI-F と FWI-L の2つのベンチマークデータセットを開発した。 実験により,既存のデータ駆動型FWI法と比較して,Fourier-DeepONetはより高精度な地下構造予測を行うことができた。 さらに,提案するフーリエディープネットは,ノイズ入力やトレースの欠如した入力を扱う場合のロバスト性が優れており,様々な実環境においてより信頼性が高く正確な地下イメージングを行う方法である。

Full waveform inversion (FWI) infers the subsurface structure information from seismic waveform data by solving a non-convex optimization problem. Data-driven FWI has been increasingly studied with various neural network architectures to improve accuracy and computational efficiency. Nevertheless, the applicability of pre-trained neural networks is severely restricted by potential discrepancies between the source function used in the field survey and the one utilized during training. Here, we develop a Fourier-enhanced deep operator network (Fourier-DeepONet) for FWI with the generalization of seismic sources, including the frequencies and locations of sources. Specifically, we employ the Fourier neural operator as the decoder of DeepONet, and we utilize source parameters as one input of Fourier-DeepONet, facilitating the resolution of FWI with variable sources. To test Fourier-DeepONet, we develop two new and realistic FWI benchmark datasets (FWI-F and FWI-L) with varying source frequencies and locations. Our experiments demonstrate that compared with existing data-driven FWI methods, Fourier-DeepONet obtains more accurate predictions of subsurface structures in a wide range of source parameters. Moreover, the proposed Fourier-DeepONet exhibits superior robustness when dealing with noisy inputs or inputs with missing traces, paving the way for more reliable and accurate subsurface imaging across diverse real conditions.
翻訳日:2023-05-30 20:43:54 公開日:2023-05-26
# 量子計算を魔法でシミュレートする: it の "ビット" はいくつあるか?

Simulating quantum computation with magic states: how many "bits" for "it"? ( http://arxiv.org/abs/2305.17287v1 )

ライセンス: Link先を確認
Michael Zurel, Cihan Okay, Robert Raussendorf(参考訳) 確率関数 (M. Zurel et al. PRL 260404 (2020)) からの繰り返しサンプリングにより, マジック状態を用いた量子計算の古典的シミュレーション法が導入された。 この手法はwigner関数に基づくサンプリングアルゴリズムと密接に関連しており、wigner関数はサンプリングを妨げる負の値を取ることができるという重要な区別がある。 実際、ウィグナー函数の負性は量子スピードアップの前提条件として特定されている。 しかし, 古典的シミュレーションの手法では, 準確率関数のネガティビティは発生しない。 このモデルは、全ての量子計算に対して確率的である。 本稿では,シミュレーション手順が追跡しなければならない古典的データの量を分析する。 私たちはこの金額が小さいことに気付く。 具体的には、任意の数のマジック状態に対して、任意の時間に量子系を記述するビットの数は、2n^2+o(n)$である。

A recently introduced classical simulation method for universal quantum computation with magic states operates by repeated sampling from probability functions [M. Zurel et al. PRL 260404 (2020)]. This method is closely related to sampling algorithms based on Wigner functions, with the important distinction that Wigner functions can take negative values obstructing the sampling. Indeed, negativity in Wigner functions has been identified as a precondition for a quantum speed-up. However, in the present method of classical simulation, negativity of quasiprobability functions never arises. This model remains probabilistic for all quantum computations. In this paper, we analyze the amount of classical data that the simulation procedure must track. We find that this amount is small. Specifically, for any number $n$ of magic states, the number of bits that describe the quantum system at any given time is $2n^2+O(n)$.
翻訳日:2023-05-30 20:43:26 公開日:2023-05-26
# GC-Flow: 効率的なクラスタリングのためのグラフベースのフローネットワーク

GC-Flow: A Graph-Based Flow Network for Effective Clustering ( http://arxiv.org/abs/2305.17284v1 )

ライセンス: Link先を確認
Tianchun Wang, Farzaneh Mirzazadeh, Xiang Zhang, Jie Chen(参考訳) グラフ畳み込みネットワーク (GCN) は、グラフデータの半教師付き分類のために、クラス後部$p(y|\mathbf{x})$を直接モデル化する \emph{discriminative model} である。 効率性はあるものの、表現学習アプローチとして、GCNから抽出されたノード表現は、目的が異なるため、効果的なクラスタリングのための有用な情報を見逃すことが多い。 本稿では、GCN層を置き換える正規化フローを設計し、クラス条件付き可能性$p(\mathbf{x}|y)$とクラス前の$p(y)$の両方をモデル化する \emph{generative model} を導いた。 得られたニューラルネットワークであるgc-flowは、ガウス混合表現空間を備えながら、グラフ畳み込み操作を保持する。 それは2つの利点を享受している: gcnの予測能力を維持するだけでなく、表現空間の構造化によって、十分に分離されたクラスタを生成する。 我々は、様々なベンチマークデータセットでこれらの利点を実証する。 さらに,グラフ畳み込みに使用される隣接行列などのパラメータの追加により,クラスタリングがさらに改善されることを示す。

Graph convolutional networks (GCNs) are \emph{discriminative models} that directly model the class posterior $p(y|\mathbf{x})$ for semi-supervised classification of graph data. While being effective, as a representation learning approach, the node representations extracted from a GCN often miss useful information for effective clustering, because the objectives are different. In this work, we design normalizing flows that replace GCN layers, leading to a \emph{generative model} that models both the class conditional likelihood $p(\mathbf{x}|y)$ and the class prior $p(y)$. The resulting neural network, GC-Flow, retains the graph convolution operations while being equipped with a Gaussian mixture representation space. It enjoys two benefits: it not only maintains the predictive power of GCN, but also produces well-separated clusters, due to the structuring of the representation space. We demonstrate these benefits on a variety of benchmark data sets. Moreover, we show that additional parameterization, such as that on the adjacency matrix used for graph convolutions, yields additional improvement in clustering.
翻訳日:2023-05-30 20:43:13 公開日:2023-05-26
# シャープ化ラジインクリメンタル準ニュートン法

Sharpened Lazy Incremental Quasi-Newton Method ( http://arxiv.org/abs/2305.17283v1 )

ライセンス: Link先を確認
Aakash Lahoti, Spandan Senapati, Ketan Rajawat, Alec Koppel(参考訳) 我々は、d$次元のリプシッツ連続ヘッシアンを持つn$強凸および滑らかな関数の有限和最小化を考える。 最大推定、経験的リスク最小化、教師なし学習など、そのような問題が生じる多くのアプリケーションにおいて、n$の観測数は膨大であり、各項目毎の複雑性が$n$とは独立な漸進的あるいは確率的アルゴリズムを使用する必要がある。 これらのうち、ニュートン法の漸進的/確率的変種は超線型収束を示すが、大規模設定では禁じられるであろう$O(d^3)$の点当たりの複雑さを生じさせる。 一方、インクリメンタルな準ニュートン法は、o(d^2)$ のイテレーション毎の複雑性をもたらすが、その超線形収束率は漸近的に特徴づけられるのみである。 この研究は、2つの世界のベストを達成するシャープな遅延漸進的準ニュートン(sliqn)法(英語版)(sliqn)を導出する: 文毎の複雑性が$o(d^2)$である明示的な超線形収束率。 最近提案されたSharpened Quasi-Newton法に基づいて、提案されたインクリメンタルなバージョンには、古典的および欲求的なBFGS更新の両方を取り入れたハイブリッドな更新戦略が組み込まれている。 提案した遅延更新規則は、繰り返し間の計算複雑性を分散し、$O(d^2)$のイテレーション当たりの複雑性を実現する。 数値実験は、SLIQNが他の増分的および確率的準ニュートン変種よりも優れていることを示す。

We consider the finite sum minimization of $n$ strongly convex and smooth functions with Lipschitz continuous Hessians in $d$ dimensions. In many applications where such problems arise, including maximum likelihood estimation, empirical risk minimization, and unsupervised learning, the number of observations $n$ is large, and it becomes necessary to use incremental or stochastic algorithms whose per-iteration complexity is independent of $n$. Of these, the incremental/stochastic variants of the Newton method exhibit superlinear convergence, but incur a per-iteration complexity of $O(d^3)$, which may be prohibitive in large-scale settings. On the other hand, the incremental Quasi-Newton method incurs a per-iteration complexity of $O(d^2)$ but its superlinear convergence rate has only been characterized asymptotically. This work puts forth the Sharpened Lazy Incremental Quasi-Newton (SLIQN) method that achieves the best of both worlds: an explicit superlinear convergence rate with a per-iteration complexity of $O(d^2)$. Building upon the recently proposed Sharpened Quasi-Newton method, the proposed incremental variant incorporates a hybrid update strategy incorporating both classic and greedy BFGS updates. The proposed lazy update rule distributes the computational complexity between the iterations, so as to enable a per-iteration complexity of $O(d^2)$. Numerical tests demonstrate the superiority of SLIQN over all other incremental and stochastic Quasi-Newton variants.
翻訳日:2023-05-30 20:42:52 公開日:2023-05-26
# 距離空間と長田次元における$k$-NN則の普遍的整合性。 II年

Universal consistency of the $k$-NN rule in metric spaces and Nagata dimension. II ( http://arxiv.org/abs/2305.17282v1 )

ライセンス: Link先を確認
Sushma Kumari and Vladimir G. Pestov(参考訳) 分離可能な距離空間における近接学習規則の$k$を引き続き検討する。 C\'erou と Guyader (2006) と Preiss (1983) の結果により、この規則は長田の意味でのシグマ有限次元であるすべての計量空間 $X$ において普遍的に整合であることが知られている。 ここで、この規則は結び付きのない空間において強く普遍的に一貫していることを示す。 devroye が適用したタイマーキング戦略では gy\"{o}rfi, krzy\ である。 ユークリッド集合における {z}ak, and Lugosi (1994) は、非アーキメディア計量空間(すなわち、長田次元 0 の空間)において強い普遍的整合性を示す。 C\'erou と Guyader の定理と Assouad と Quentin de Gromard (2006) の結果を組み合わせると、$k$-NN 則はデ・グルートの意味で有限次元の計量空間において普遍的に一貫したものであると推測される。 特に、$k$-nn の規則は、kor\'anyi and reimann (1995) と sawyer and wheeden (1992) によって独立に構築された例から、永田の意味でシグマ有限次元でないハイゼンベルク群において普遍的に一致する。

We continue to investigate the $k$ nearest neighbour learning rule in separable metric spaces. Thanks to the results of C\'erou and Guyader (2006) and Preiss (1983), this rule is known to be universally consistent in every metric space $X$ that is sigma-finite dimensional in the sense of Nagata. Here we show that the rule is strongly universally consistent in such spaces in the absence of ties. Under the tie-breaking strategy applied by Devroye, Gy\"{o}rfi, Krzy\.{z}ak, and Lugosi (1994) in the Euclidean setting, we manage to show the strong universal consistency in non-Archimedian metric spaces (that is, those of Nagata dimension zero). Combining the theorem of C\'erou and Guyader with results of Assouad and Quentin de Gromard (2006), one deduces that the $k$-NN rule is universally consistent in metric spaces having finite dimension in the sense of de Groot. In particular, the $k$-NN rule is universally consistent in the Heisenberg group which is not sigma-finite dimensional in the sense of Nagata as follows from an example independently constructed by Kor\'anyi and Reimann (1995) and Sawyer and Wheeden (1992).
翻訳日:2023-05-30 20:42:23 公開日:2023-05-26
# レシピグラウンド会話における命令順序の改善

Improved Instruction Ordering in Recipe-Grounded Conversation ( http://arxiv.org/abs/2305.17280v1 )

ライセンス: Link先を確認
Duong Minh Le, Ruohao Guo, Wei Xu, Alan Ritter(参考訳) 本稿では,指導対話の課題について考察し,調理領域に焦点をあてる。 GPT-Jモデルの出力を解析した結果、レシピグラウンドのダイアログシステムにおける主な課題は、正しい順序で指示を与える方法であることがわかった。 これは、モデルのユーザの意図に対する理解の欠如と、命令状態(つまり、最後に指示されたステップ)を追跡できないためである、と仮定します。 そこで本研究では,ユーザインテント検出と命令状態追跡という2つの補助的なサブタスクを提案する。 新たに収集したデータセットであるChattyChefを用いて実験したところ、ユーザ意図と命令状態情報を統合することで、応答生成モデルが誤った順序問題を緩和できることがわかった。 さらに、ChatGPTがこのタスクを完全に解決したかどうかを調べるために、アウトプットを分析し、ミス(レスポンスの10.7%)を犯すことを発見し、その約半数が注文外命令である。 ChattyChefのリリースは、この分野のさらなる研究を促進するためである。

In this paper, we study the task of instructional dialogue and focus on the cooking domain. Analyzing the generated output of the GPT-J model, we reveal that the primary challenge for a recipe-grounded dialog system is how to provide the instructions in the correct order. We hypothesize that this is due to the model's lack of understanding of user intent and inability to track the instruction state (i.e., which step was last instructed). Therefore, we propose to explore two auxiliary subtasks, namely User Intent Detection and Instruction State Tracking, to support Response Generation with improved instruction grounding. Experimenting with our newly collected dataset, ChattyChef, shows that incorporating user intent and instruction state information helps the response generation model mitigate the incorrect order issue. Furthermore, to investigate whether ChatGPT has completely solved this task, we analyze its outputs and find that it also makes mistakes (10.7% of the responses), about half of which are out-of-order instructions. We will release ChattyChef to facilitate further research in this area at: https://github.com/octaviaguo/ChattyChef.
翻訳日:2023-05-30 20:41:51 公開日:2023-05-26
# トポロジカルスワップによるnotears目標の最適化

Optimizing NOTEARS Objectives via Topological Swaps ( http://arxiv.org/abs/2305.17277v1 )

ライセンス: Link先を確認
Chang Deng, Kevin Bello, Bryon Aragam, Pradeep Ravikumar(参考訳) 近年,非凸最適化問題の興味深いクラスが,有向非巡回グラフ(DAG)の学習において出現している。 これらの問題は与えられた損失やスコア関数を最小化することを含み、グラフ内のサイクルの存在を罰する非凸連続制約の対象となる。 本研究では,この非凸プログラムのクラスに関連する最適化課題について検討する。 これらの課題に対処するために,非凸制約を新しい方法で活用する2レベルアルゴリズムを提案する。 アルゴリズムの外層は、DAGのトポロジ的順序内のノードのペアを反復的に交換することで、トポロジ的順序を最適化する。 このアプローチの重要な革新は、イテレーション毎にペアをスワップする候補セットを生成する効果的な方法の開発である。 内部レベルでは、トポロジカルな順序を与えると、線形制約を扱うことができるオフ・ザ・シェルフソルバを利用する。 提案アルゴリズムの主な利点は, 局所最小点やKKT点を従来よりも弱い条件下で見つけることが保証され, 低いスコアで解を求めることである。 広範な実験により,本手法は,よりよいスコアを得るという点で最先端のアプローチよりも優れていることが証明された。 さらに,後処理アルゴリズムとして利用することで,他のアルゴリズムのスコアを大幅に改善することができる。 提案するメソッドを実装するコードは、https://github.com/duntrain/topoで利用可能である。

Recently, an intriguing class of non-convex optimization problems has emerged in the context of learning directed acyclic graphs (DAGs). These problems involve minimizing a given loss or score function, subject to a non-convex continuous constraint that penalizes the presence of cycles in a graph. In this work, we delve into the optimization challenges associated with this class of non-convex programs. To address these challenges, we propose a bi-level algorithm that leverages the non-convex constraint in a novel way. The outer level of the algorithm optimizes over topological orders by iteratively swapping pairs of nodes within the topological order of a DAG. A key innovation of our approach is the development of an effective method for generating a set of candidate swapping pairs for each iteration. At the inner level, given a topological order, we utilize off-the-shelf solvers that can handle linear constraints. The key advantage of our proposed algorithm is that it is guaranteed to find a local minimum or a KKT point under weaker conditions compared to previous work and finds solutions with lower scores. Extensive experiments demonstrate that our method outperforms state-of-the-art approaches in terms of achieving a better score. Additionally, our method can also be used as a post-processing algorithm to significantly improve the score of other algorithms. Code implementing the proposed method is available at https://github.com/duntrain/topo.
翻訳日:2023-05-30 20:41:30 公開日:2023-05-26
# 部分曲率によるミニマックスゲームにおける勾配法の局所収束

Local Convergence of Gradient Methods for Min-Max Games under Partial Curvature ( http://arxiv.org/abs/2305.17275v1 )

ライセンス: Link先を確認
Guillaume Wang, L\'ena\"ic Chizat(参考訳) 2つのプレイヤーゼロサム微分可能なゲームに対する勾配法の局所的ナッシュ平衡について検討する。 そのようなダイナミクスが局所的に収束するのは、$S \succ 0$ が$S=0$ のときであり、$S\succeq 0$ がゲームの「ポテンシャル」成分であるヤコビ行列の対称部分であるときである。 これらのダイナミクスは、$S$ が 0 でない(部分曲率)とすぐに収束し、反対称部分 $A$ の固有ベクトルは、一般に$S$ の核に関する位置にあることを示す。 次に、$s \ll a$の収束率を調べ、通常、最小化問題の類推が示唆する最小値ではなく、$s$の固有値の平均に依存することを証明します。 この結果を説明するために,連続ゲームにおける混合ナッシュ平衡の計算問題を考える。 部分曲率のおかげで、混合戦略の重みと支持の両方を最適化する円錐粒子法は、固定支持法よりも一般的に収束する。 min-maxゲームの場合、「曲率のある」自由度を加えることは有益であり、これはオーバーパラメータ化の別の利点と解釈できる。

We study the convergence to local Nash equilibria of gradient methods for two-player zero-sum differentiable games. It is well-known that such dynamics converge locally when $S \succ 0$ and may diverge when $S=0$, where $S\succeq 0$ is the symmetric part of the Jacobian at equilibrium that accounts for the "potential" component of the game. We show that these dynamics also converge as soon as $S$ is nonzero (partial curvature) and the eigenvectors of the antisymmetric part $A$ are in general position with respect to the kernel of $S$. We then study the convergence rates when $S \ll A$ and prove that they typically depend on the average of the eigenvalues of $S$, instead of the minimum as an analogy with minimization problems would suggest. To illustrate our results, we consider the problem of computing mixed Nash equilibria of continuous games. We show that, thanks to partial curvature, conic particle methods -- which optimize over both weights and supports of the mixed strategies -- generically converge faster than fixed-support methods. For min-max games, it is thus beneficial to add degrees of freedom "with curvature": this can be interpreted as yet another benefit of over-parameterization.
翻訳日:2023-05-30 20:41:10 公開日:2023-05-26
# Slide, Constrain, Parse, Repeat: ドキュメントAMR解析のための同期スライディングWindows

Slide, Constrain, Parse, Repeat: Synchronous SlidingWindows for Document AMR Parsing ( http://arxiv.org/abs/2305.17273v1 )

ライセンス: Link先を確認
Sadhana Kumaravel, Tahira Naseem, Ramon Fernandez Astudillo, Radu Florian, Salim Roukos(参考訳) スライディングウィンドウアプローチは、言語モデリングのようなタスクのためにトランスフォーマーの入力ウィンドウよりも大きなサイズのコンテキストを扱うエレガントな方法を提供する。 ここでは,このアプローチを文書解析のシーケンシャル・ツー・シーケンスタスクに拡張する。 そこで本研究では,遷移解析の最近の進歩を利用して,ソースとターゲット上の同期スライディングウィンドウを備えたパーサを実装した。 我々は、ソースターゲットのアライメントと制約デコーディングを活用し、重なり合うウィンドウ間の同期性と一貫性を保証するため、Structured-BARTを拡張して文書レベルのAMRのためのオラクルとパーサを開発する。 抽象的意味表現(AMR)解析3.0コーパスを用いたオラクルとパーサの評価を行った。 AMR 3.0の多文開発セットでは,スライドウィンドウを使用しながら,我々の遷移オラクルは金のクロスセグメントリンクの8倍しか失われていないことがわかった。 実際にこのアプローチは、管理可能なメモリ要件を備えた高品質なドキュメントレベルのパーサも実現します。 提案システムは,文レベルの解析性能を維持しつつ,多文AMR 3.0コーパス上での文書レベルのAMR解析タスクに対して,最先端のパイプライン手法と同等に動作する。

The sliding window approach provides an elegant way to handle contexts of sizes larger than the Transformer's input window, for tasks like language modeling. Here we extend this approach to the sequence-to-sequence task of document parsing. For this, we exploit recent progress in transition-based parsing to implement a parser with synchronous sliding windows over source and target. We develop an oracle and a parser for document-level AMR by expanding on Structured-BART such that it leverages source-target alignments and constrains decoding to guarantee synchronicity and consistency across overlapping windows. We evaluate our oracle and parser using the Abstract Meaning Representation (AMR) parsing 3.0 corpus. On the Multi-Sentence development set of AMR 3.0, we show that our transition oracle loses only 8\% of the gold cross-sentential links despite using a sliding window. In practice, this approach also results in a high-quality document-level parser with manageable memory requirements. Our proposed system performs on par with the state-of-the-art pipeline approach for document-level AMR parsing task on Multi-Sentence AMR 3.0 corpus while maintaining sentence-level parsing performance.
翻訳日:2023-05-30 20:40:46 公開日:2023-05-26
# 認知ボットに向けて:アーキテクチャ研究の課題

Towards Cognitive Bots: Architectural Research Challenges ( http://arxiv.org/abs/2305.17308v1 )

ライセンス: Link先を確認
Habtom Kahsay Gidey, Peter Hillmann, Andreas Karcher, Alois Knoll(参考訳) 複数の仮想デジタルプラットフォームで動作するソフトウェアボットは、プラットフォームの能力を理解し、人間のユーザのように振る舞う必要がある。 プラットフォーム能力や機能は、あるアプリケーションプラットフォームから別のアプリケーションプラットフォーム、あるいはライフサイクルを通じて異なり、そのようなボットに適応する必要がある。 さらに、そのようなプラットフォームのボットは、人間や他のソフトウェアエージェントと協力したり、特定の行動パターンを学ぶことができる。 しかし、現在のボット、特に言語処理や予測以外のチャットボットは、複雑なビジネス情報システムの中で人間の行動レベルに達するには程遠い。 彼らはそのような仮想環境で認識し行動する認知能力に欠けており、彼らの開発は人工知能研究に挑戦している。 本研究では,情報システムにおける複雑な動作に富んだ認知型ボットの開発における重要なアーキテクチャ研究課題に注意を向け,ソフトウェアボットアーキテクチャの概念化における仮定を問題化し,検討する。 展望として,今後のボット設計およびボット開発フレームワークで考慮すべき,代替的なアーキテクチャ上の前提を提案する。

Software bots operating in multiple virtual digital platforms must understand the platforms' affordances and behave like human users. Platform affordances or features differ from one application platform to another or through a life cycle, requiring such bots to be adaptable. Moreover, bots in such platforms could cooperate with humans or other software agents for work or to learn specific behavior patterns. However, present-day bots, particularly chatbots, other than language processing and prediction, are far from reaching a human user's behavior level within complex business information systems. They lack the cognitive capabilities to sense and act in such virtual environments, rendering their development a challenge to artificial general intelligence research. In this study, we problematize and investigate assumptions in conceptualizing software bot architecture by directing attention to significant architectural research challenges in developing cognitive bots endowed with complex behavior for operation on information systems. As an outlook, we propose alternate architectural assumptions to consider in future bot design and bot development frameworks.
翻訳日:2023-05-30 20:36:08 公開日:2023-05-26
# chain-of-thought hub: 大きな言語モデルの推論性能を測定する継続的な取り組み

Chain-of-Thought Hub: A Continuous Effort to Measure Large Language Models' Reasoning Performance ( http://arxiv.org/abs/2305.17306v1 )

ライセンス: Link先を確認
Yao Fu, Litu Ou, Mingyu Chen, Yuhao Wan, Hao Peng and Tushar Khot(参考訳) 大規模言語モデル(LLM)が継続的に開発されているため、その評価はますます重要になってきています。 提案するChain-of-Thought Hubは,大規模言語モデルの多段階推論機能に関するオープンソース評価スイートである。 我々は,(1) GPT と PaLM モデルファミリの振る舞いから,複雑な推論が LLM の弱さと強みの差別化要因となる可能性が示唆されていること,(2) 大規模言語モデルが次世代の計算プラットフォームとなり,LLM ベースの新しいアプリケーションのエコシステムを育むこと,という2つの理由から,基礎モデルに言語的および論理的操作の合成を伴う複雑なタスクを実行することを求める。 我々のアプローチは、LSMの進捗を追跡するために、困難な推論ベンチマークのスイートをコンパイルすることです。 その結果,(1) モデルスケールは推論能力と明確に相関していること,(2) 2023年5月現在, Claude-v1.3 と PaLM-2 は GPT-4 に匹敵する2つのモデルであり, (3) LLaMA-65B は Code-davinci-002 と密接に関連していること,(3) 人間のフィードバックからの強化学習 (RLHF) などの更なる発展が成功すれば GPT-3.5-Turbo に近い可能性が示唆された。 我々の結果はまた、オープンソースが追いつくために、コミュニティはより良いベースモデルの構築とRLHFの探索に注力するかもしれないことを示唆している。

As large language models (LLMs) are continuously being developed, their evaluation becomes increasingly important yet challenging. This work proposes Chain-of-Thought Hub, an open-source evaluation suite on the multi-step reasoning capabilities of large language models. We are interested in this setting for two reasons: (1) from the behavior of GPT and PaLM model family, we observe that complex reasoning is likely to be a key differentiator between weaker and stronger LLMs; (2) we envisage large language models to become the next-generation computational platform and foster an ecosystem of LLM-based new applications, this naturally requires the foundation models to perform complex tasks that often involve the composition of linguistic and logical operations. Our approach is to compile a suite of challenging reasoning benchmarks to track the progress of LLMs. Our current results show that: (1) model scale clearly correlates with reasoning capabilities; (2) As of May 2023, Claude-v1.3 and PaLM-2 are the only two models that are comparable with GPT-4, while open-sourced models still lag behind; (3) LLaMA-65B performs closely to code-davinci-002, indicating that with successful further development such as reinforcement learning from human feedback (RLHF), it has great potential to be close to GPT-3.5-Turbo. Our results also suggest that for the open-source efforts to catch up, the community may focus more on building better base models and exploring RLHF.
翻訳日:2023-05-30 20:35:37 公開日:2023-05-26
# DynaShare:マルチタスク学習のためのタスクとインスタンス条件付きパラメータ共有

DynaShare: Task and Instance Conditioned Parameter Sharing for Multi-Task Learning ( http://arxiv.org/abs/2305.17305v1 )

ライセンス: Link先を確認
Elahe Rahimian, Golara Javadi, Frederick Tung, Gabriel Oliveira(参考訳) マルチタスクネットワークは、タスク間の堅牢な一般化を達成するために効果的なパラメータ共有に依存している。 本稿では,タスクと中間特徴表現の両方を推論時にパラメータ共有するマルチタスク学習のための新しいパラメータ共有手法を提案する。 従来のパラメータ共有アプローチとは対照的に,トレーニング中の決定論的共有パターンを修正あるいは学習し,推論中のすべての例に同じパターンを適用し,タスクと入力インスタンスの両方に基づいてネットワークのどの部分を活性化すべきかを動的に決定する。 提案手法は,個々の入力インスタンスに対する粗層選択とゲーティング単位のためのタスク固有のポリシーで構成された階層的ゲーティングポリシを学習し,推論時に実行経路を決定する。 NYU v2、Cityscapes、MIMIC-IIIデータセットの実験は、提案されたアプローチの可能性と問題領域を越えた適用性を示している。

Multi-task networks rely on effective parameter sharing to achieve robust generalization across tasks. In this paper, we present a novel parameter sharing method for multi-task learning that conditions parameter sharing on both the task and the intermediate feature representations at inference time. In contrast to traditional parameter sharing approaches, which fix or learn a deterministic sharing pattern during training and apply the same pattern to all examples during inference, we propose to dynamically decide which parts of the network to activate based on both the task and the input instance. Our approach learns a hierarchical gating policy consisting of a task-specific policy for coarse layer selection and gating units for individual input instances, which work together to determine the execution path at inference time. Experiments on the NYU v2, Cityscapes and MIMIC-III datasets demonstrate the potential of the proposed approach and its applicability across problem domains.
翻訳日:2023-05-30 20:34:20 公開日:2023-05-26
# 因子化ニューラルトランスデューサのための外部言語モデル統合

External Language Model Integration for Factorized Neural Transducers ( http://arxiv.org/abs/2305.17304v1 )

ライセンス: Link先を確認
Michael Levit, Sarangarajan Parthasarathy, Cem Aksoylar, Mohammad Sadegh Rasooli, Shuangyu Chang(参考訳) 外部言語モデルを用いた因子化ニューラルトランスデューサ(FNT)の適応法を提案する。 ニューラルネットワークとn-gram外部のLMは、浅い融合に比べて線形に予測子出力を補間した場合に有意に多くの値が付加されることを示し、FNTが予測子を正規言語モデルのように振舞うことを確認する。 さらに,クラスベースのn-gram言語モデルをFNTフレームワークに統合することで,ハイブリッドセットアップと同様の精度向上を実現する手法を提案する。 複数シナリオにまたがる語彙適応と1つのエンティティリッチシナリオにおける最大60% WERRの加算ゲインを,クラスベースn-gramとニューラルLMの組み合わせにより平均ゲイン18% WERRを示した。

We propose an adaptation method for factorized neural transducers (FNT) with external language models. We demonstrate that both neural and n-gram external LMs add significantly more value when linearly interpolated with predictor output compared to shallow fusion, thus confirming that FNT forces the predictor to act like regular language models. Further, we propose a method to integrate class-based n-gram language models into FNT framework resulting in accuracy gains similar to a hybrid setup. We show average gains of 18% WERR with lexical adaptation across various scenarios and additive gains of up to 60% WERR in one entity-rich scenario through a combination of class-based n-gram and neural LMs.
翻訳日:2023-05-30 20:34:00 公開日:2023-05-26
# 効率的な伝達学習のための解釈モデルへのBlackBoxの蒸留

Distilling BlackBox to Interpretable models for Efficient Transfer Learning ( http://arxiv.org/abs/2305.17303v1 )

ライセンス: Link先を確認
Shantanu Ghosh, Ke Yu, Kayhan Batmanghelich(参考訳) 一般化可能なAIモデルの構築は、医療分野における大きな課題のひとつだ。 放射線学者は異常の一般化可能な記述規則に頼っているが、ニューラルネットワーク(NN)モデルは入力分布がわずかに変化しても苦しむ。 あるドメインから別のドメインに知識を転送するモデルを微調整するには、ターゲットドメイン内の大量のラベル付きデータが必要である。 本稿では,最小の計算コストで対象領域に効率的に微調整可能な解釈可能なモデルを開発した。 NNの解釈可能なコンポーネントは、ほぼドメイン不変であると仮定する。 しかし、解釈可能なモデルは一般的にブラックボックス(BB)の派生モデルと比べて性能が劣る。 まずソース領域のBBから始まり、人間の理解可能な概念を用いて浅い解釈可能なモデルのemph{mixture}に蒸留する。 各解釈可能なモデルはデータのサブセットをカバーするため、解釈可能なモデルの混合はBBと同等のパフォーマンスを達成する。 さらに、準教師付き学習(SSL)の擬似ラベル技術を用いて、対象領域における概念分類器を学習し、続いて対象領域における解釈可能なモデルを微調整する。 実生活型大規模胸部X線分類データセットを用いて本モデルの評価を行った。 コードは以下の通りである。 \url{https://github.com/batmanlab/MICCAI-2023-Route-interpret-repeat-CXRs}。

Building generalizable AI models is one of the primary challenges in the healthcare domain. While radiologists rely on generalizable descriptive rules of abnormality, Neural Network (NN) models suffer even with a slight shift in input distribution (\eg scanner type). Fine-tuning a model to transfer knowledge from one domain to another requires a significant amount of labeled data in the target domain. In this paper, we develop an interpretable model that can be efficiently fine-tuned to an unseen target domain with minimal computational cost. We assume the interpretable component of NN to be approximately domain-invariant. However, interpretable models typically underperform compared to their Blackbox (BB) variants. We start with a BB in the source domain and distill it into a \emph{mixture} of shallow interpretable models using human-understandable concepts. As each interpretable model covers a subset of data, a mixture of interpretable models achieves comparable performance as BB. Further, we use the pseudo-labeling technique from semi-supervised learning (SSL) to learn the concept classifier in the target domain, followed by fine-tuning the interpretable models in the target domain. We evaluate our model using a real-life large-scale chest-X-ray (CXR) classification dataset. The code is available at: \url{https://github.com/batmanlab/MICCAI-2023-Route-interpret-repeat-CXRs}.
翻訳日:2023-05-30 20:33:48 公開日:2023-05-26
# 安定-ペナルティ-アダプティブ フォロー-ザ-レギュラー化--スペシャリティ、ゲーム依存性、そして両世界のベスト

Stability-penalty-adaptive Follow-the-regularized-leader: Sparsity, Game-dependency, and Best-of-both-worlds ( http://arxiv.org/abs/2305.17301v1 )

ライセンス: Link先を確認
Taira Tsuchiya, Shinji Ito, Junya Honda(参考訳) 問題の難しさへの適応性は、アルゴリズムの適用性を広げるためのシーケンシャルな意思決定問題の鍵となる性質である。 FTRL(Follow-the-Regularized-Leader)は、最近、バンドイット問題における様々な適応性を得るために最も有望なアプローチの1つである。 この適応性をさらに一般化するために,ftrlのためのspa学習率と呼ばれる汎用適応学習率を開発した。 この学習速度は、FTRLの後悔が分解されるアルゴリズムの安定性とペナルティに依存して、共同で後悔をもたらす。 この結果から,3種類の適応性を持つアルゴリズム,空間性,ゲーム依存性,Best-of-Both-Worlds (BOBW) が得られた。 空間性は現実世界の問題にしばしば現れる。 しかし、既存のsparse multi-armed bandit algorithm with $k$-arms はスパーシティレベル $s \leq k$ が事前に知られていると仮定しており、現実のシナリオではそうではないことが多い。 この問題に対処するために、新しいラーニングレートフレームワークの助けを借りて、対数係数に対する既存の下限に一致する$t$ラウンドの敵対的レジームにおいて、$\tilde{o}(\sqrt{st})$の残念な境界を持つ$s$非依存アルゴリズムを確立する。 一方,BOBWアルゴリズムは,確率的・敵対的両体制において,ほぼ最適に後悔することを目指している。 新しい適応学習率フレームワークと、正規化器の変化に応じてFTRL出力の変動をバウンドする新たな分析を活用し、空間依存のバウンダリを持つ最初のBOBWアルゴリズムを確立する。 さらに,部分的監視について検討し,提案する学習率フレームワークにより,ゲーム依存のバウンドとbowを同時に達成できることを実証する。

Adaptivity to the difficulties of a problem is a key property in sequential decision-making problems to broaden the applicability of algorithms. Follow-the-Regularized-Leader (FTRL) has recently emerged as one of the most promising approaches for obtaining various types of adaptivity in bandit problems. Aiming to further generalize this adaptivity, we develop a generic adaptive learning rate, called Stability-Penalty-Adaptive (SPA) learning rate for FTRL. This learning rate yields a regret bound jointly depending on stability and penalty of the algorithm, into which the regret of FTRL is typically decomposed. With this result, we establish several algorithms with three types of adaptivity: sparsity, game-dependency, and Best-of-Both-Worlds (BOBW). Sparsity frequently appears in real-world problems. However, existing sparse multi-armed bandit algorithms with $k$-arms assume that the sparsity level $s \leq k$ is known in advance, which is often not the case in real-world scenarios. To address this problem, with the help of the new learning rate framework, we establish $s$-agnostic algorithms with regret bounds of $\tilde{O}(\sqrt{sT})$ in the adversarial regime for $T$ rounds, which matches the existing lower bound up to a logarithmic factor. Meanwhile, BOBW algorithms aim to achieve a near-optimal regret in both the stochastic and adversarial regimes. Leveraging the new adaptive learning rate framework and a novel analysis to bound the variation in FTRL output in response to changes in a regularizer, we establish the first BOBW algorithm with a sparsity-dependent bound. Additionally, we explore partial monitoring and demonstrate that the proposed learning rate framework allows us to achieve a game-dependent bound and the BOBW simultaneously.
翻訳日:2023-05-30 20:33:30 公開日:2023-05-26
# 大規模ニューロイメージングデータセットを利用して、より堅牢で効率的、適応可能な人工知能のためのコネクトーム制約付きアプローチを作成する

Exploiting Large Neuroimaging Datasets to Create Connectome-Constrained Approaches for more Robust, Efficient, and Adaptable Artificial Intelligence ( http://arxiv.org/abs/2305.17300v1 )

ライセンス: Link先を確認
Erik C. Johnson, Brian S. Robinson, Gautam K. Vallabha, Justin Joyce, Jordan K. Matelsky, Raphael Norman-Tenazas, Isaac Western, Marisel Villafa\~ne-Delgado, Martha Cervantes, Michael S. Robinette, Arun V. Reddy, Lindsey Kitchell, Patricia K. Rivlin, Elizabeth P. Reilly, Nathan Drenkow, Matthew J. Roos, I-Jeng Wang, Brock A. Wester, William R. Gray-Roncal, Joan A. Hoffmann(参考訳) ディープラーニングネットワークの進歩にもかかわらず、エッジでの効率的な学習(適応性、低複雑さの機械学習ソリューションの提供)は、防衛および商用アプリケーションにとって重要なニーズである。 我々は、ニューロンとシナプス接続を捉える脳のマップを含む大規模なニューロイメージングデータセットを利用するパイプラインを構想し、機械学習アプローチを改善する。 我々はこのパイプライン構造の中で異なるアプローチを追求した。 まず、データ駆動による発見の実証として、チームは繰り返しサブ回路やモチーフを発見できる技術を開発した。 これらはネットワークアーキテクチャを進化させるニューラルネットワーク探索アプローチに組み込まれた。 第2に,視覚と角速度の特徴の融合を行う果実ハエの向方向回路の解析を行い,既存の計算モデルの拡張と新たな知見について検討した。 我々のチームは、新しい接続パターンを発見し、新しいモデルを実装し、ロボットプラットフォーム上でセンサー融合を実証した。 第3に、チームはフルーツフライコネクトームのメモリ形成の回路を分析し、新しい生成的リプレイアプローチの設計を可能にした。 最後にチームは、トランスフォーマーネットワークの改善の可能性を探るため、哺乳類の皮質の接続性の分析を開始した。 これらの制約は、cifar-10-cコンピュータビジョンのロバストネスベンチマークタスクにおける最も困難な例のネットワークロバスト性を高め、学習可能な注意パラメータを1桁以上削減した。 これらの結果は、ニューラルネットワークからの洞察を利用して堅牢で効率的な機械学習技術を開発するための、複数の潜在的アプローチを示す。

Despite the progress in deep learning networks, efficient learning at the edge (enabling adaptable, low-complexity machine learning solutions) remains a critical need for defense and commercial applications. We envision a pipeline to utilize large neuroimaging datasets, including maps of the brain which capture neuron and synapse connectivity, to improve machine learning approaches. We have pursued different approaches within this pipeline structure. First, as a demonstration of data-driven discovery, the team has developed a technique for discovery of repeated subcircuits, or motifs. These were incorporated into a neural architecture search approach to evolve network architectures. Second, we have conducted analysis of the heading direction circuit in the fruit fly, which performs fusion of visual and angular velocity features, to explore augmenting existing computational models with new insight. Our team discovered a novel pattern of connectivity, implemented a new model, and demonstrated sensor fusion on a robotic platform. Third, the team analyzed circuitry for memory formation in the fruit fly connectome, enabling the design of a novel generative replay approach. Finally, the team has begun analysis of connectivity in mammalian cortex to explore potential improvements to transformer networks. These constraints increased network robustness on the most challenging examples in the CIFAR-10-C computer vision robustness benchmark task, while reducing learnable attention parameters by over an order of magnitude. Taken together, these results demonstrate multiple potential approaches to utilize insight from neural systems for developing robust and efficient machine learning techniques.
翻訳日:2023-05-30 20:32:49 公開日:2023-05-26
# 決定木モデルの安定性向上

Improving Stability in Decision Tree Models ( http://arxiv.org/abs/2305.17299v1 )

ライセンス: Link先を確認
Dimitris Bertsimas, Vassilis Digalakis Jr(参考訳) 本質的に解釈可能な構造のため、決定木は解釈可能性が不可欠であるアプリケーションで一般的に使用される。 最近の研究は、予測力や頑健さなど、決定木の様々な側面の改善に重点を置いているが、その不安定さは文書化されているものの、ある程度は解決されていない。 本稿では、この空間における安定性と解釈可能性の関連性から、実世界の医療応用のレンズによる決定ツリーモデルの安定化に向けた一歩を踏み出す。 我々は、決定木に対する新しい距離計量を導入し、それを用いて木の安定性のレベルを決定する。 我々は,安定決定木を訓練し,安定度,予測力,解釈可能性など,決定木モデルに固有のトレードオフが存在するかを調べる新しい手法を提案する。 提案手法の価値は,現実の医療応用から得られた6つのケーススタディを定量的に定性的に分析することで実証し,平均して予測力は4.6%減少し,モデルの安定性は38%向上したことを示す。

Owing to their inherently interpretable structure, decision trees are commonly used in applications where interpretability is essential. Recent work has focused on improving various aspects of decision trees, including their predictive power and robustness; however, their instability, albeit well-documented, has been addressed to a lesser extent. In this paper, we take a step towards the stabilization of decision tree models through the lens of real-world health care applications due to the relevance of stability and interpretability in this space. We introduce a new distance metric for decision trees and use it to determine a tree's level of stability. We propose a novel methodology to train stable decision trees and investigate the existence of trade-offs that are inherent to decision tree models - including between stability, predictive power, and interpretability. We demonstrate the value of the proposed methodology through an extensive quantitative and qualitative analysis of six case studies from real-world health care applications, and we show that, on average, with a small 4.6% decrease in predictive power, we gain a significant 38% improvement in the model's stability.
翻訳日:2023-05-30 20:32:22 公開日:2023-05-26
# 独立性のない一般化誤差 : 雑音化,線形回帰,伝達学習

Generalization Error without Independence: Denoising, Linear Regression, and Transfer Learning ( http://arxiv.org/abs/2305.17297v1 )

ライセンス: Link先を確認
Chinmaya Kausik and Kashvi Srivastava and Rishi Sonthalia(参考訳) 実データを用いた線形モデルの一般化能力の研究は、統計学習における中心的な問題である。 初期の重要な著作物(loureiro et al. (2021a, 2021b)、wei et al. 2022)は、実データを用いて理論的な業績を検証しているが、これらの作品には技術的仮定による制限がある。 これらの仮定は、よく条件付き共分散行列を持ち、独立で同一の分散データを持つ。 これらの仮定は必ずしも実データに当てはまるものではない。 さらに、配電シフトに対処する以前の作業は、通常、列車とテストデータの共同分布に関する技術的仮定(Tripuraneni et al. 2021, Wu, Xu 2020)を行い、実際のデータではテストしない。 これらの問題に対処し、より優れた実データモデルを構築するために、I.I.D.ではなく低ランク構造を持つデータについて検討する。 さらに,トレーニングとテスト分布の仮定を分離することで,分布変化に対処する。 漸近的に厳密な分別問題の一般化誤差に対する解析公式を提供する。 これらは線形回帰、データ拡張、主成分回帰、転送学習の理論的結果を引き出すために使われる。 我々は,実データを用いた理論結果の検証を行い,平均二乗誤差が,経験的リスクと推定リスクの約1%であることを確認した。

Studying the generalization abilities of linear models with real data is a central question in statistical learning. While there exist a limited number of prior important works (Loureiro et al. (2021A, 2021B), Wei et al. 2022) that do validate theoretical work with real data, these works have limitations due to technical assumptions. These assumptions include having a well-conditioned covariance matrix and having independent and identically distributed data. These assumptions are not necessarily valid for real data. Additionally, prior works that do address distributional shifts usually make technical assumptions on the joint distribution of the train and test data (Tripuraneni et al. 2021, Wu and Xu 2020), and do not test on real data. In an attempt to address these issues and better model real data, we look at data that is not I.I.D. but has a low-rank structure. Further, we address distributional shift by decoupling assumptions on the training and test distribution. We provide analytical formulas for the generalization error of the denoising problem that are asymptotically exact. These are used to derive theoretical results for linear regression, data augmentation, principal component regression, and transfer learning. We validate all of our theoretical results on real data and have a low relative mean squared error of around 1% between the empirical risk and our estimated risk.
翻訳日:2023-05-30 20:32:07 公開日:2023-05-26
# モノトン三角トランスポートマップによる因果グラフの学習

Learning Causal Graphs via Monotone Triangular Transport Maps ( http://arxiv.org/abs/2305.18210v1 )

ライセンス: Link先を確認
Sina Akbari, Luca Ganassali(参考訳) 最適輸送(OT)を用いたデータから因果構造学習の問題点を考察する。 具体的には, 雑音分布に無依存な条件独立性テストを設計するために, 低三角単調パラメトリックトランスポートマップを基盤とした制約ベース手法を提案する。 マルコフ同値まで因果発見のためのアルゴリズムを構造方程式/雑音分布を仮定することなく提供し,潜在変数の設定を可能にする。 このアプローチは,スコアを定義する新しい手段を提供することによって,スコアに基づく因果発見にも拡張される。 これにより、付加的な雑音や非線型モデルのような追加の識別可能性や構造的仮定の下で因果グラフを一意に復元することができる。 提案手法を合成データと実世界データの両方における最先端技術と比較する実験結果を提供する。

We study the problem of causal structure learning from data using optimal transport (OT). Specifically, we first provide a constraint-based method which builds upon lower-triangular monotone parametric transport maps to design conditional independence tests which are agnostic to the noise distribution. We provide an algorithm for causal discovery up to Markov Equivalence with no assumptions on the structural equations/noise distributions, which allows for settings with latent variables. Our approach also extends to score-based causal discovery by providing a novel means for defining scores. This allows us to uniquely recover the causal graph under additional identifiability and structural assumptions, such as additive noise or post-nonlinear models. We provide experimental results to compare the proposed approach with the state of the art on both synthetic and real-world datasets.
翻訳日:2023-05-30 14:12:38 公開日:2023-05-26
# 昆虫のマイクロハビタット識別のための新しい手法としての画像背景評価

Image background assessment as a novel technique for insect microhabitat identification ( http://arxiv.org/abs/2305.18207v1 )

ライセンス: Link先を確認
Sesa Singha Roy, Reid Tingley and Alan Dorin(参考訳) 気候変動、都市化、農業の影響は、昆虫が生息地を占める方法を変えつつある。 種によっては、自然の特徴を好むか、選択の余地がないためか、その存在のために人為的マイクロ居住の特徴を利用することもある。 他の種は天然の微小生物に依存している。 これらの昆虫の自然および人為的なマイクロ居住地の使用を同定および分析することは、環境の変化に対する反応を評価し、受粉を改善し、侵入性害虫を管理するために重要である。 昆虫の微小生物利用に関する伝統的な研究は、機械学習に基づく昆虫画像解析によって補うことができる。 通常、研究は昆虫の自動分類に焦点を当てているが、画像背景の貴重なデータは無視されている。 本研究では、ALAデータベースで利用可能な画像背景を分析し、それらの微小な居住地を判定する。 オーストラリア全土に分布する3種の昆虫(ハエ、ミツバチ、ハチ)の微小生息地を分析した。 画像背景は、コンピュータビジョンと手動分類アルゴリズムでベンチマークした機械学習ツールを用いて、自然または人為的な微小生物として分類された。 我々はハエとミツバチを天然のマイクロ生息地で発見し、都市内の自然保護区の必要性を確認しました。 スズメバチは人為的な微生物群によく見られる。 結果は、これらの昆虫が都市で生き残るのに適していることを示している。 この侵入性害虫の管理は、人為的な資源へのアクセスを慎重に減らさなければならない。 昆虫像背景の評価は、昆虫による微小生息地の使用を文書化するための指導である。 都市化が自然環境に浸透し続け、昆虫の多様性を維持し、侵入性害虫を管理するために、構築された環境内に資源を意識的に供給する必要がある。

The effects of climate change, urbanisation and agriculture are changing the way insects occupy habitats. Some species may utilise anthropogenic microhabitat features for their existence, either because they prefer them to natural features, or because of no choice. Other species are dependent on natural microhabitats. Identifying and analysing these insects' use of natural and anthropogenic microhabitats is important to assess their responses to a changing environment, for improving pollination and managing invasive pests. Traditional studies of insect microhabitat use can now be supplemented by machine learning-based insect image analysis. Typically, research has focused on automatic insect classification, but valuable data in image backgrounds has been ignored. In this research, we analysed the image backgrounds available on the ALA database to determine their microhabitats. We analysed the microhabitats of three insect species common across Australia: Drone flies, European honeybees and European wasps. Image backgrounds were classified as natural or anthropogenic microhabitats using computer vision and machine learning tools benchmarked against a manual classification algorithm. We found flies and honeybees in natural microhabitats, confirming their need for natural havens within cities. Wasps were commonly seen in anthropogenic microhabitats. Results show these insects are well adapted to survive in cities. Management of this invasive pest requires a thoughtful reduction of their access to human-provided resources. The assessment of insect image backgrounds is instructive to document the use of microhabitats by insects. The method offers insight that is increasingly vital for biodiversity management as urbanisation continues to encroach on natural ecosystems and we must consciously provide resources within built environments to maintain insect biodiversity and manage invasive pests.
翻訳日:2023-05-30 14:12:24 公開日:2023-05-26
# テンポトロンに基づくパルス形状判別:gpuを用いた強力な分類器

Pulse shape discrimination based on the Tempotron: a powerful classifier on GPU ( http://arxiv.org/abs/2305.18205v1 )

ライセンス: Link先を確認
Haoran Liu, Peng Li, Ming-Zhe Liu, Kai-Ming Wang, Zhuo Zuo, Bing-Qi Liu(参考訳) 本研究では,第3世代ニューラルネットワークモデルに基づくパルス形状識別のための強力な分類器であるtempotronを提案する。 手動の特徴抽出を不要にすることで、テンポトロンモデルはパルス信号を直接処理し、学習前の知識に基づいて識別結果を生成することができる。 この研究では、GPUアクセラレーションを用いた実験を行い、CPUベースモデルと比較して500倍以上のスピードアップを実現し、テンポトロンの性能に対するノイズ増大の影響を調査した。 実験の結果,テンポトロンは高い識別精度を達成できる強力な分類器であることがわかった。 さらに、トレーニング中のテンポトロンの神経活動の分析は、学習特性に光を当て、テンポトロンのハイパーパラメータを選択するのに役立った。 この研究で使用されたデータセットとGPUベースのTempotronのソースコードはGitHubでhttps://github.com/HaoranLiu507/TempotronGPUで公開されている。

This study introduces the Tempotron, a powerful classifier based on a third-generation neural network model, for pulse shape discrimination. By eliminating the need for manual feature extraction, the Tempotron model can process pulse signals directly, generating discrimination results based on learned prior knowledge. The study performed experiments using GPU acceleration, resulting in over a 500 times speedup compared to the CPU-based model, and investigated the impact of noise augmentation on the Tempotron's performance. Experimental results showed that the Tempotron is a potent classifier capable of achieving high discrimination accuracy. Furthermore, analyzing the neural activity of Tempotron during training shed light on its learning characteristics and aided in selecting the Tempotron's hyperparameters. The dataset used in this study and the source code of the GPU-based Tempotron are publicly available on GitHub at https://github.com/HaoranLiu507/TempotronGPU.
翻訳日:2023-05-30 14:11:55 公開日:2023-05-26
# 確率的深層学習のための量子カーネル混合

Quantum Kernel Mixtures for Probabilistic Deep Learning ( http://arxiv.org/abs/2305.18204v1 )

ライセンス: Link先を確認
Fabio A. Gonz\'alez, Ra\'ul Ramos-Poll\'an, Joseph A. Gallego-Mejia(参考訳) 本稿では,連続確率変数と離散確率変数の合同確率分布を表現するための,より単純かつ効果的なメカニズムを提供する量子密度行列の数学的形式から導出した,確率的深層学習(pdl)への新しいアプローチを提案する。 このフレームワークは密度推定、推論、サンプリングのための微分可能なモデルの構築を可能にし、エンドツーエンドのディープニューラルモデルとの統合を可能にする。 そこで本研究では,確率分布と連立確率分布を多義的に表現し,密度推定,識別学習,生成モデルなど,幅広い機械学習タスクをカバーする,微分可能,構成可能,可逆的推論手順を開発する。 本稿では,提案手法の可逆性によって自然に条件付き生成モデルに変換可能な画像分類モデルと,弱い教師付き分類タスクであるラベル比率を用いた学習モデルと,トレーニングサンプルにおける不確実性に対処するフレームワークの能力を示す。

This paper presents a novel approach to probabilistic deep learning (PDL), quantum kernel mixtures, derived from the mathematical formalism of quantum density matrices, which provides a simpler yet effective mechanism for representing joint probability distributions of both continuous and discrete random variables. The framework allows for the construction of differentiable models for density estimation, inference, and sampling, enabling integration into end-to-end deep neural models. In doing so, we provide a versatile representation of marginal and joint probability distributions that allows us to develop a differentiable, compositional, and reversible inference procedure that covers a wide range of machine learning tasks, including density estimation, discriminative learning, and generative modeling. We illustrate the broad applicability of the framework with two examples: an image classification model, which can be naturally transformed into a conditional generative model thanks to the reversibility of our inference procedure; and a model for learning with label proportions, which is a weakly supervised classification task, demonstrating the framework's ability to deal with uncertainty in the training samples.
翻訳日:2023-05-30 14:11:39 公開日:2023-05-26
# 訓練済み言語モデルのスケールアップのための弱教師の知識蒸留に関する研究

A Study on Knowledge Distillation from Weak Teacher for Scaling Up Pre-trained Language Models ( http://arxiv.org/abs/2305.18239v1 )

ライセンス: Link先を確認
Hayeon Lee, Rui Hou, Jongpil Kim, Davis Liang, Sung Ju Hwang, Alexander Min(参考訳) 弱教師 (DWT) による蒸留は、より小さく弱い教師モデルからより大きな学生モデルへ知識を伝達し、その性能を向上させる方法である。 従来の研究では、DWTは視覚領域と自然言語処理(NLP)の事前学習段階で有効であることが示されている。 具体的には、DWTは、事前訓練された古いモデルまたはより小さなモデルを使用した新しい世代またはより大きなモデルの拡張や、リソース予算の欠如など、現実的なシナリオにおける約束を示す。 しかし、DWTの最適条件は、NLP事前学習では十分に研究されていない。 そこで本研究では,視覚領域や伝統的な知識蒸留と異なり,DWTを最適化するための3つの重要な要因について検討した。 これらの要因は (i)教師モデル品質がDWTの有効性に及ぼす影響 2DWT損失の重み付け値を調整するためのガイドライン及び 3DWTにおける学生モデル初期化手法としてのパラメータ再マッピングの効果

Distillation from Weak Teacher (DWT) is a method of transferring knowledge from a smaller, weaker teacher model to a larger student model to improve its performance. Previous studies have shown that DWT can be effective in the vision domain and natural language processing (NLP) pre-training stage. Specifically, DWT shows promise in practical scenarios, such as enhancing new generation or larger models using pre-trained yet older or smaller models and lacking a resource budget. However, the optimal conditions for using DWT have yet to be fully investigated in NLP pre-training. Therefore, this study examines three key factors to optimize DWT, distinct from those used in the vision domain or traditional knowledge distillation. These factors are: (i) the impact of teacher model quality on DWT effectiveness, (ii) guidelines for adjusting the weighting value for DWT loss, and (iii) the impact of parameter remapping as a student model initialization technique for DWT.
翻訳日:2023-05-30 14:03:31 公開日:2023-05-26
# スコアベース生成モデルを用いた高忠実画像圧縮

High-Fidelity Image Compression with Score-based Generative Models ( http://arxiv.org/abs/2305.18231v1 )

ライセンス: Link先を確認
Emiel Hoogeboom, Eirikur Agustsson, Fabian Mentzer, Luca Versari, George Toderici, Lucas Theis(参考訳) テキスト対画像生成における拡散生成モデルの成功にもかかわらず、画像圧縮領域におけるこの成功を再現することは困難であることが証明されている。 本稿では,FIDスコアで測定したPO-ELICとHiFiCに比較して,拡散が与えられたビットレートでの知覚品質を著しく向上することを示す。 これはmseをターゲットとしたオートエンコーダと、さらにスコアベースのデコーダを組み合わせた、単純だが理論的に動機付けられた2段階アプローチによって達成される。 しかし、実装の詳細と最適な設計決定は、典型的なテキスト・画像モデルとは大きく異なる可能性がある。

Despite the tremendous success of diffusion generative models in text-to-image generation, replicating this success in the domain of image compression has proven difficult. In this paper, we demonstrate that diffusion can significantly improve perceptual quality at a given bit-rate, outperforming state-of-the-art approaches PO-ELIC and HiFiC as measured by FID score. This is achieved using a simple but theoretically motivated two-stage approach combining an autoencoder targeting MSE followed by a further score-based decoder. However, as we will show, implementation details matter and the optimal design decisions can differ greatly from typical text-to-image models.
翻訳日:2023-05-30 14:02:53 公開日:2023-05-26
# sr-ood: サンプル修復による分散検出

SR-OOD: Out-of-Distribution Detection via Sample Repairing ( http://arxiv.org/abs/2305.18228v1 )

ライセンス: Link先を確認
Rui Sun, Andi Zhang, Haiming Zhang, Yao Zhu, Ruimao Zhang, Zhen Li(参考訳) 深層生成モデルでは,分布外(OOD)サンプルを信頼性の高い分布内として分類することができることが広く報告されている。 本研究では,この現象が,生成モデルが低レベルの特徴に重きを置きすぎ,意味情報に十分依存しないような,再構築作業によるものであるという仮説を提案する。 この問題を解決するために,サンプル修復を利用したOOD検出フレームワークSR-OODを導入する。 セマンティクスに焦点を当てることで,外部データやラベル情報なしでOOD検出性能を向上させる。 実験結果は,oodサンプル検出における提案手法の競合性を示す。

It is widely reported that deep generative models can classify out-of-distribution (OOD) samples as in-distribution with high confidence. In this work, we propose a hypothesis that this phenomenon is due to the reconstruction task, which can cause the generative model to focus too much on low-level features and not enough on semantic information. To address this issue, we introduce SR-OOD, an OOD detection framework that utilizes sample repairing to encourage the generative model to learn more than just an identity map. By focusing on semantics, our framework improves OOD detection performance without external data and label information. Our experimental results demonstrate the competitiveness of our approach in detecting OOD samples.
翻訳日:2023-05-30 14:02:44 公開日:2023-05-26
# HowkGPT:文脈認識パープレキシティ分析によるチャットGPT生成大学生の宿題の検出の検討

HowkGPT: Investigating the Detection of ChatGPT-generated University Student Homework through Context-Aware Perplexity Analysis ( http://arxiv.org/abs/2305.18226v1 )

ライセンス: Link先を確認
Christoforos Vasilatos, Manaar Alam, Talal Rahwan, Yasir Zaki and Michail Maniatakos(参考訳) テキスト生成タスクにおけるLarge Language Models (LLM)の使用が増加するにつれて、学術的完全性を損なう可能性があるという懸念が生じる。 教育部門は現在、学生が認可した宿題とAIが生成した宿題を区別することで苦戦している。 本稿では,AIが生成する宿題の特定を目的としたハウクGPTの導入による課題に対処する。 HowkGPTは学術的課題のデータセットとメタデータ [17] に基づいて構築されており、学生認可およびChatGPT生成応答のパープレキシティスコアを計算するために事前訓練されたLLMを使用している。 これらのスコアは、提出された割り当ての起源を識別するためのしきい値を確立するのに役立つ。 学術研究の特異性と文脈の性質を踏まえ、HowkGPTはメタデータから派生したカテゴリ固有のしきい値を定義し、検出の精度を高めることで分析をさらに洗練する。 本研究は,LLMの影響が拡大する中で,学術的整合性を維持するための効果的な戦略の批判的必要性を強調し,教育機関の公正かつ正確な格付けを確保するためのアプローチを提供する。

As the use of Large Language Models (LLMs) in text generation tasks proliferates, concerns arise over their potential to compromise academic integrity. The education sector currently tussles with distinguishing student-authored homework assignments from AI-generated ones. This paper addresses the challenge by introducing HowkGPT, designed to identify homework assignments generated by AI. HowkGPT is built upon a dataset of academic assignments and accompanying metadata [17] and employs a pretrained LLM to compute perplexity scores for student-authored and ChatGPT-generated responses. These scores then assist in establishing a threshold for discerning the origin of a submitted assignment. Given the specificity and contextual nature of academic work, HowkGPT further refines its analysis by defining category-specific thresholds derived from the metadata, enhancing the precision of the detection. This study emphasizes the critical need for effective strategies to uphold academic integrity amidst the growing influence of LLMs and provides an approach to ensuring fair and accurate grading in educational institutions.
翻訳日:2023-05-30 14:02:15 公開日:2023-05-26
# 主観的嗜好を伴うマルチモーダルレコメンデーションダイアログ : 新しい課題とベンチマーク

Multimodal Recommendation Dialog with Subjective Preference: A New Challenge and Benchmark ( http://arxiv.org/abs/2305.18212v1 )

ライセンス: Link先を確認
Yuxing Long, Binyuan Hui, Caixia Yuan1, Fei Huang, Yongbin Li, Xiaojie Wang(参考訳) 既存のマルチモーダルタスク指向のダイアログデータは、実際のショッピングシナリオにおけるユーザの主観的好みやレコメンデーション行動の多様な表現を示さない。 本稿では,複合店舗シーンにおける12Kのショッピングダイアログを含むSURE(Multimodal Recommendation Dialog with SUbjective Preference)を提案する。 データは、品質と多様性を保証するために、人間のアノテーションで2つのフェーズで構築されます。 SUREは、営業専門家が提案する主観的嗜好と推奨行為によく言及されている。 SUREの特徴を明らかにするために、包括的な分析を行う。 次に、3つのベンチマークタスクがデータに提案され、マルチモーダルレコメンデーションエージェントの能力を評価する。 SUREに基づいて,これらのタスクに対して,最先端のマルチモーダルモデルを用いたベースラインモデルを提案する。

Existing multimodal task-oriented dialog data fails to demonstrate the diverse expressions of user subjective preferences and recommendation acts in the real-life shopping scenario. This paper introduces a new dataset SURE (Multimodal Recommendation Dialog with SUbjective PREference), which contains 12K shopping dialogs in complex store scenes. The data is built in two phases with human annotations to ensure quality and diversity. SURE is well-annotated with subjective preferences and recommendation acts proposed by sales experts. A comprehensive analysis is given to reveal the distinguishing features of SURE. Three benchmark tasks are then proposed on the data to evaluate the capability of multimodal recommendation agents. Based on the SURE, we propose a baseline model, powered by a state-of-the-art multimodal model, for these tasks.
翻訳日:2023-05-30 14:00:45 公開日:2023-05-26
# xgrad: 重量予測を用いた勾配に基づく最適化

XGrad: Boosting Gradient-Based Optimizers With Weight Prediction ( http://arxiv.org/abs/2305.18240v1 )

ライセンス: Link先を確認
Lei Guan, Dongsheng Li, Jian Meng, Yanqi Shi(参考訳) 本稿では,一般的な勾配に基づくオプティマイザに重み予測を導入して,深層ニューラルネットワーク(dnn)モデルの学習時の収束と一般化を促進する,一般的なディープラーニングトレーニングフレームワークであるxgradを提案する。 特に、各ミニバッチトレーニングの前に、使用したオプティマイザの更新ルールに従って将来の重みを予測し、前方通過と後方伝播の両方に適用する。 このように、トレーニング期間全体において、オプティマイザは常にDNNパラメータを更新するために将来の重みの勾配を用いており、グラデーションベースのオプティマイザは、ウェイト予測のないオリジナルのオプティマイザと比較して、より収束と一般化を実現している。 XGradは比較的単純で、勾配に基づくオプティマイザの収束とDNNモデルの精度を高めるのに非常に効果的である。 sgd with momentum, adam, adamwを含む最も人気のある3つの勾配に基づく最適化に関する実験結果は,本提案の有効性を示している。 実験により,DNNモデルのトレーニングにおいて,XGradが元のオプティマイザよりも高いモデル精度が得られることを確認した。 XGradのコードは、https://github.com/guanleics/XGrad.comで入手できる。

In this paper, we propose a general deep learning training framework XGrad which introduces weight prediction into the popular gradient-based optimizers to boost their convergence and generalization when training the deep neural network (DNN) models. In particular, ahead of each mini-batch training, the future weights are predicted according to the update rule of the used optimizer and are then applied to both the forward pass and backward propagation. In this way, during the whole training period, the optimizer always utilizes the gradients w.r.t. the future weights to update the DNN parameters, making the gradient-based optimizer achieve better convergence and generalization compared to the original optimizer without weight prediction. XGrad is rather straightforward to implement yet pretty effective in boosting the convergence of gradient-based optimizers and the accuracy of DNN models. Empirical results concerning the most three popular gradient-based optimizers including SGD with momentum, Adam, and AdamW demonstrate the effectiveness of our proposal. The experimental results validate that XGrad can attain higher model accuracy than the original optimizers when training the DNN models. The code of XGrad will be available at: https://github.com/guanleics/XGrad.
翻訳日:2023-05-30 13:50:45 公開日:2023-05-26
# 重み付きA*の準最適性の誤差解析と補正(拡張版)

Error Analysis and Correction for Weighted A*'s Suboptimality (Extended Version) ( http://arxiv.org/abs/1905.11346v3 )

ライセンス: Link先を確認
Robert C. Holte, Ruben Majadas, Alberto Pozanco, Daniel Borrajo(参考訳) 重み付きA* (wA*) は計画問題や探索問題の解法として広く使われているアルゴリズムである。 生成する解のコストは、Wが開ノードの優先順位付けに使用する重量 wA* である最適解コストの少なくとも W 倍であることが保証されている。 したがって、W は wA* によって生成される解に対して準最適である。 この境界はそれほど正確ではなく、wA* の解の実際の準最適性は、しばしば W 倍の最適値よりもはるかに小さいという広い見解がある。 しかし、この見解を支持する証拠はほとんど発表されておらず、なぜ W が境界が弱いのかを説明できない。 この論文は文学におけるこれらのギャップを埋める。 我々は、これらの領域に対する様々な領域とヒューリスティックスにおいて、W が wA* の解の真の準最適性からかなり離れていることを示す大規模な実験から始める。 次に、潜在的なエラー源を解析的に同定する。 最後に,これら2つの誤り源を補正する実用的手法を提案し,その補正がエラーの多くを頻繁に除去することを示す。

Weighted A* (wA*) is a widely used algorithm for rapidly, but suboptimally, solving planning and search problems. The cost of the solution it produces is guaranteed to be at most W times the optimal solution cost, where W is the weight wA* uses in prioritizing open nodes. W is therefore a suboptimality bound for the solution produced by wA*. There is broad consensus that this bound is not very accurate, that the actual suboptimality of wA*'s solution is often much less than W times optimal. However, there is very little published evidence supporting that view, and no existing explanation of why W is a poor bound. This paper fills in these gaps in the literature. We begin with a large-scale experiment demonstrating that, across a wide variety of domains and heuristics for those domains, W is indeed very often far from the true suboptimality of wA*'s solution. We then analytically identify the potential sources of error. Finally, we present a practical method for correcting for two of these sources of error and experimentally show that the correction frequently eliminates much of the error.
翻訳日:2023-05-30 01:18:41 公開日:2023-05-26
# 量子システムにおける多時間統計の緩和

Relaxation of Multitime Statistics in Quantum Systems ( http://arxiv.org/abs/2108.07420v4 )

ライセンス: Link先を確認
Neil Dowling, Pedro Figueroa-Romero, Felix A. Pollock, Philipp Strasberg, Kavan Modi(参考訳) 平衡統計力学は、マクロスケールでの物理学を理解する強力なツールを提供する。 しかし、この問題は微視的な量子記述に基づいてどのように正当化できるのかという疑問が残る。 ここでは、単一時間統計に焦点を当てた純粋状態量子統計力学の考え方を拡張し、孤立した量子過程の平衡を示す。 すなわち、システムが極端に多くの時間にわたって探索される場合や観測可能が特にきめ細かな粒度である場合を除き、十分に大規模なマルチタイムオブザーバブルが平衡過程と非平衡過程を区別できないことを示す。 我々の結果は、非マルコビアン性やその他の非平衡過程のマルチタイム特性も等しくなるというものである。

Equilibrium statistical mechanics provides powerful tools to understand physics at the macroscale. Yet, the question remains how this can be justified based on a microscopic quantum description. Here, we extend the ideas of pure state quantum statistical mechanics, which focus on single time statistics, to show the equilibration of isolated quantum processes. Namely, we show that most multitime observables for sufficiently large times cannot distinguish a nonequilibrium process from an equilibrium one, unless the system is probed for an extremely large number of times or the observable is particularly fine-grained. A corollary of our results is that the size of non-Markovianity and other multitime characteristics of a nonequilibrium process also equilibrate.
翻訳日:2023-05-30 00:46:17 公開日:2023-05-26
# 物理誘導による高非線形パラメトリック偏微分方程式の発見

Physics-Guided Discovery of Highly Nonlinear Parametric Partial Differential Equations ( http://arxiv.org/abs/2106.01078v4 )

ライセンス: Link先を確認
Yingtao Luo, Qiang Liu, Yuntian Chen, Wenbo Hu, Tian Tian, Jun Zhu(参考訳) 科学データに適合する偏微分方程式(PDE)は、物理学やファイナンスなど様々な数学的対象に対して説明可能なメカニズムで物理法則を表現することができる。 科学データからのデータ駆動型pdesの発見は、自然界における複雑な現象をモデル化する新たな試みとして繁栄するが、現在の手法の有効性は、データの不足と現象の複雑さによって制限される。 特に、低品質データから高い非線形係数を持つPDEの発見は、ほとんど行き届かないままである。 この課題に対処するために,初期条件や境界条件などの観察知識をエンコードできるだけでなく,モデル最適化を導く基本的な物理原理や法則を取り入れる,新しい物理誘導学習手法を提案する。 提案手法は,既存のベースラインの係数推定誤差を厳密に低減し,雑音に対して頑健であることを理論的に示す。 実験の結果,提案手法はデータノイズに対してより頑健であり,推定誤差を大きなマージンで低減できることがわかった。 さらに、実験中のすべてのPDEが正しく発見され、初めて高い非線形係数を持つ3次元PDEを発見することができる。

Partial differential equations (PDEs) that fit scientific data can represent physical laws with explainable mechanisms for various mathematically-oriented subjects, such as physics and finance. The data-driven discovery of PDEs from scientific data thrives as a new attempt to model complex phenomena in nature, but the effectiveness of current practice is typically limited by the scarcity of data and the complexity of phenomena. Especially, the discovery of PDEs with highly nonlinear coefficients from low-quality data remains largely under-addressed. To deal with this challenge, we propose a novel physics-guided learning method, which can not only encode observation knowledge such as initial and boundary conditions but also incorporate the basic physical principles and laws to guide the model optimization. We theoretically show that our proposed method strictly reduces the coefficient estimation error of existing baselines, and is also robust against noise. Extensive experiments show that the proposed method is more robust against data noise, and can reduce the estimation error by a large margin. Moreover, all the PDEs in the experiments are correctly discovered, and for the first time we are able to discover three-dimensional PDEs with highly nonlinear coefficients.
翻訳日:2023-05-30 00:46:04 公開日:2023-05-26
# 機械読解のためのファクト駆動論理推論

Fact-driven Logical Reasoning for Machine Reading Comprehension ( http://arxiv.org/abs/2105.10334v2 )

ライセンス: Link先を確認
Siru Ouyang, Zhuosheng Zhang and Hai Zhao(参考訳) 近年、推論能力を持つ訓練機械への関心が高まっており、それは正確ではっきりと示される手がかり形式に大きく依存している。 手がかりは通常、既存の研究においてエンティティ認識の知識としてモデル化される。 しかし、これらエンティティを意識した手がかりは、主にコモンセンスに焦点を当てており、一時的な事実や出来事の知識を必要とするタスク、特に読解の論理的推論には不十分である。 この課題に対処するために、私たちは常識と一時的な知識の手がかりを階層的にカバーする動機があります。 具体的には,「事実」と呼ばれる主目的語などの文のバックボーン成分を抽出し,知識単位の一般的な形式化を提案する。 次に、ファクトユニットの上にスーパーグラフを構築し、文レベルのメリット(ファクトグループ間の関係)とエンティティレベルのインタラクション(ファクト内の概念やアクション)を可能にします。 論理的推論ベンチマークと対話モデルデータセットによる実験結果から,本手法はベースラインを大幅に改善し,バックボーンモデルにまたがる一般性を示す。 コードは \url{https://github.com/ozyyshr/focalreasoner} で入手できる。

Recent years have witnessed an increasing interest in training machines with reasoning ability, which deeply relies on accurately and clearly presented clue forms. The clues are usually modeled as entity-aware knowledge in existing studies. However, those entity-aware clues are primarily focused on commonsense, making them insufficient for tasks that require knowledge of temporary facts or events, particularly in logical reasoning for reading comprehension. To address this challenge, we are motivated to cover both commonsense and temporary knowledge clues hierarchically. Specifically, we propose a general formalism of knowledge units by extracting backbone constituents of the sentence, such as the subject-verb-object formed ``facts''. We then construct a supergraph on top of the fact units, allowing for the benefit of sentence-level (relations among fact groups) and entity-level interactions (concepts or actions inside a fact). Experimental results on logical reasoning benchmarks and dialogue modeling datasets show that our approach improves the baselines substantially, and it is general across backbone models. Code is available at \url{https://github.com/ozyyshr/FocalReasoner}.
翻訳日:2023-05-30 00:45:43 公開日:2023-05-26
# スマートホームシステムのための説明可能なアクティビティ認識

Explainable Activity Recognition for Smart Home Systems ( http://arxiv.org/abs/2105.09787v2 )

ライセンス: Link先を確認
Devleena Das, Yasutaka Nishimura, Rajan P. Vivek, Naoto Takeda, Sean T. Fish, Thomas Ploetz, Sonia Chernova(参考訳) スマートホーム環境は、空間全体に設置されたさまざまなセンサーやアクチュエータを通じて、居住者の生活の質を改善するサービスを提供するように設計されている。 スマートホームが行う多くの自動アクションは、基礎となるアクティビティ認識システムの出力によって制御される。 しかし、アクティビティ認識システムは必ずしも正確ではないため、スマートホーム操作の不整合により、スマートホームの予測に頼って「なぜスマートホームがそれをしたのか? 本研究は、説明可能な人工知能(XAI)技術からの洞察に基づいて、先導的なXAI手法を利用して、与えられた分類に繋がった活動が何をもたらすかを説明する自然言語の説明を生成する、説明可能なアクティビティ認識フレームワークを導入する。 遠隔介護者監視の文脈において,我々は2段階評価を行う。 (a)MLの専門家を用いて説明の感受性を評価し、 (b) 当社のフレームワークを通じて生成された説明の有効性を評価するために, 同期および非同期の2つのリモート介護監視シナリオにおいて, 非専門家を採用。 以上の結果から,XAI アプローチ SHAP は 92% の成功率を持つことが明らかとなった。 さらに、サンプルシナリオの83%では、ユーザは単純なアクティビティラベルよりも自然言語の説明を好み、説明可能なアクティビティ認識システムの必要性を強調している。 最後に、いくつかのXAI手法によって生成された説明は、ユーザが基礎となる活動認識モデルの精度を損なう可能性があることを示す。 スマートホームオートメーションの分野では,既存のXAI手法が最高のパフォーマンスをもたらすのかを推奨するとともに,今後の課題を議論して,より説明可能な活動認識を改善する。

Smart home environments are designed to provide services that help improve the quality of life for the occupant via a variety of sensors and actuators installed throughout the space. Many automated actions taken by a smart home are governed by the output of an underlying activity recognition system. However, activity recognition systems may not be perfectly accurate and therefore inconsistencies in smart home operations can lead users reliant on smart home predictions to wonder "why did the smart home do that?" In this work, we build on insights from Explainable Artificial Intelligence (XAI) techniques and introduce an explainable activity recognition framework in which we leverage leading XAI methods to generate natural language explanations that explain what about an activity led to the given classification. Within the context of remote caregiver monitoring, we perform a two-step evaluation: (a) utilize ML experts to assess the sensibility of explanations, and (b) recruit non-experts in two user remote caregiver monitoring scenarios, synchronous and asynchronous, to assess the effectiveness of explanations generated via our framework. Our results show that the XAI approach, SHAP, has a 92% success rate in generating sensible explanations. Moreover, in 83% of sampled scenarios users preferred natural language explanations over a simple activity label, underscoring the need for explainable activity recognition systems. Finally, we show that explanations generated by some XAI methods can lead users to lose confidence in the accuracy of the underlying activity recognition model. We make a recommendation regarding which existing XAI method leads to the best performance in the domain of smart home automation, and discuss a range of topics for future work to further improve explainable activity recognition.
翻訳日:2023-05-30 00:45:24 公開日:2023-05-26
# ナノ秒スピン依存キックによるスピノルマター波制御

Spinor matterwave control with nanosecond spin-dependent kicks ( http://arxiv.org/abs/2202.09709v4 )

ライセンス: Link先を確認
Liyang Qiu, Lingjing Ji, Jiangyong Hu, Yizun He, Yuzhuo Wang, Saijun Wu(参考訳) 今日の先進量子技術の重要な側面は、超微細ラマン遷移を持つ原子の物質波の迅速な制御に依存している。 残念なことに、効率的なラマン励起は通常、補償されていない動的位相とコヒーレントなスピン放出を伴い、大規模な試料へのリコイル運動量の正確な繰り返し移動を防ぐ。 本研究では, 断熱パルス列を動的にプログラムすることで, 限界を著しく過大評価できることを示す。 実験的に、逆伝播周波数チャープパルスは光遅延線上にプログラムされ、5つの$\delta m=0$ hyperfine raman 遷移をスピン依存キック (sdk) のために$^{85}$rb 原子を$\tau=40$~nanoseconds で並列に駆動し、$f_{\rm sdk}\approx 97.6\%$ inferred fidelityである。 数値モデリングにより, 逐次パルスのチャープを平衡的に交互に調整することにより, スピン浸出を含む非断熱誤差の蓄積を管理でき, 動的位相を堅牢にキャンセルできることを示した。 位相安定遅延線で動作し、効率的なラマン励起によるスピノル物質波の精密かつ高速かつ柔軟な制御をサポートする。

Significant aspects of advanced quantum technology today rely on rapid control of atomic matterwaves with hyperfine Raman transitions. Unfortunately, efficient Raman excitations are usually accompanied by uncompensated dynamic phases and coherent spin-leakages, preventing accurate and repetitive transfer of recoil momentum to large samples. We provide systematic study to demonstrate that the limitations can be substantially overcame by dynamically programming an adiabatic pulse sequence. Experimentally, counter-propagating frequency-chirped pulses are programmed on an optical delay line to parallelly drive five $\Delta m=0$ hyperfine Raman transitions of $^{85}$Rb atoms for spin-dependent kick (SDK) within $\tau=40$~nanoseconds, with an $f_{\rm SDK}\approx 97.6\%$ inferred fidelity. Aided by numerical modeling, we demonstrate that by alternating the chirps of successive pulses in a balanced fashion, accumulation of non-adiabatic errors including the spin-leakages can be managed, while the dynamic phases can be robustly cancelled. Operating on a phase-stable delay line, the method supports precise, fast, and flexible control of spinor matterwave with efficient Raman excitations.
翻訳日:2023-05-30 00:38:54 公開日:2023-05-26
# 変動量子アルゴリズムのためのハードウェア効率な絡み合い測定

Hardware-efficient entangled measurements for variational quantum algorithms ( http://arxiv.org/abs/2202.06979v4 )

ライセンス: Link先を確認
Francisco Escudero, David Fern\'andez-Fern\'andez, Gabriel Jaum\`a, Guillermo F. Pe\~nas, and Luciano Pereira(参考訳) 近年,ノイズの多い中間規模量子(NISQ)デバイスを用いた実用的な問題を解く可能性から,変分アルゴリズムは注目されている。 これらのアルゴリズムの基本的なステップは、ハミルトニアンの期待値の評価であり、そのため、このタスクを実行するための効率的なスキームが必要である。 標準的アプローチはポーリ演算子の局所的測定を採用し、多数の回路を必要とする。 これは物理的に切り離されたキュービット間のゲートを追加して性能を損なう可能性がある。 この問題に対する解決策として,ハードウェア効率の高いエンタングル測定(heem),すなわち物理的に接続されたキュービット間のエンタングルのみを許容する測定を提案する。 この戦略により,NISQデバイスにおける分子ハミルトニアンの評価が深度を増すことなく必要となる回路数を削減できることが示されている。 このアプローチが局所的な測定や任意に絡み合った測定よりも優れた結果をもたらすかの定量的指標を提供する。 古典シミュレータを用いたh$_2$o分子の基底状態エネルギーとheemを用いた変分量子固有解法を用いて量子ハードウェアを推定する。

Variational algorithms have received significant attention in recent years due to their potential to solve practical problems using noisy intermediate-scale quantum (NISQ) devices. A fundamental step of these algorithms is the evaluation of the expected value of Hamiltonians, and hence efficient schemes to perform this task are required. The standard approach employs local measurements of Pauli operators and requires a large number of circuits. An alternative is to make use of entangled measurements, which might introduce additional gates between physically disconnected qubits that harm the performance. As a solution to this problem, we propose hardware-efficient entangled measurements (HEEM), that is, measurements that permit only entanglement between physically connected qubits. We show that this strategy enhances the evaluation of molecular Hamiltonians in NISQ devices by reducing the number of circuits required without increasing their depth. We provide quantitative metrics of how this approach offers better results than local measurements and arbitrarily entangled measurements. We estimate the ground-state energy of the H$_2$O molecule with classical simulators and quantum hardware using the variational quantum eigensolver with HEEM.
翻訳日:2023-05-30 00:38:25 公開日:2023-05-26
# wing上の5gネットワーク:uavベースの統合アクセスとバックホールへの深い強化学習アプローチ

5G Network on Wings: A Deep Reinforcement Learning Approach to the UAV-based Integrated Access and Backhaul ( http://arxiv.org/abs/2202.02006v3 )

ライセンス: Link先を確認
Hongyi Zhang, Zhiqiang Qi, Jingya Li, Anders Aronsson, Jan Bosch, Helena Holmstr\"om Olsson(参考訳) 高速で信頼性の高い無線通信は、人間の生活において重要な需要となっている。 例えば、ミッションクリティカル(MC)のシナリオでは、自然災害が発生した場合、従来の無線ネットワークを使用することで、ユビキタスな接続が困難になる。 この文脈では、無人航空機(uav)ベースの航空ネットワークは、高速で柔軟で信頼性の高い無線通信の代替手段を提供する。 移動性、フレキシブルなデプロイメント、迅速な再設定といったユニークな特徴により、緊急時に地上のユーザに対してオンデマンド通信を提供するために、ドローンは位置を動的に変更することができる。 その結果,UAV基地局(UAV-BSs)の利用は,MCシナリオにおける迅速な接続を実現するための適切なアプローチと考えられる。 本稿では,静的環境と動的環境の両方において,複数のUAV-BSを制御する方法について検討する。 システムレベルのシミュレータを用いて、携帯電話ネットワークのマクロBSが利用できなくなり、複数のUAV-BSが統合アクセス・バックホール(IAB)技術を用いてデプロイされ、災害現場の利用者にカバレッジを提供するMCシナリオをモデル化する。 システムレベルのシミュレーションから収集したデータを用いて,複数のUAV-BSの3次元配置を協調的に最適化する深部強化学習アルゴリズムを開発した。 評価の結果,提案アルゴリズムは,ユーザスループットとドロップレートの観点から,mcサービス要求を満たすために,uav-bssの自律的ナビゲーションをサポートすることができることがわかった。

Fast and reliable wireless communication has become a critical demand in human life. In the case of mission-critical (MC) scenarios, for instance, when natural disasters strike, providing ubiquitous connectivity becomes challenging by using traditional wireless networks. In this context, unmanned aerial vehicle (UAV) based aerial networks offer a promising alternative for fast, flexible, and reliable wireless communications. Due to unique characteristics such as mobility, flexible deployment, and rapid reconfiguration, drones can readily change location dynamically to provide on-demand communications to users on the ground in emergency scenarios. As a result, the usage of UAV base stations (UAV-BSs) has been considered an appropriate approach for providing rapid connection in MC scenarios. In this paper, we study how to control multiple UAV-BSs in both static and dynamic environments. We use a system-level simulator to model an MC scenario in which a macro BS of a cellular network is out of service and multiple UAV-BSs are deployed using integrated access and backhaul (IAB) technology to provide coverage for users in the disaster area. With the data collected from the system-level simulation, a deep reinforcement learning algorithm is developed to jointly optimize the three-dimensional placement of these multiple UAV-BSs, which adapt their 3-D locations to the on-ground user movement. The evaluation results show that the proposed algorithm can support the autonomous navigation of the UAV-BSs to meet the MC service requirements in terms of user throughput and drop rate.
翻訳日:2023-05-30 00:38:07 公開日:2023-05-26
# 分布ベルマン方程式の解について

On solutions of the distributional Bellman equation ( http://arxiv.org/abs/2202.00081v3 )

ライセンス: Link先を確認
Julian Gerstenberg, Ralph Neininger, Denis Spiegel(参考訳) 分布強化学習では、期待されたリターンだけでなく、政策の完全なリターン分布も考慮される。 固定ポリシの戻り分布は、関連する分布ベルマン方程式の解として与えられる。 本稿では,一般分布ベルマン方程式を考察し,それらの解の存在と一意性および帰納分布のテール特性について考察する。 我々は、戻り分布の存在と特異性について必要かつ十分な条件を与え、正規変動の場合を特定する。 分布ベルマン方程式と多変量アフィン分布方程式をリンクする。 分布型ベルマン方程式の任意の解は、多変量アフィン分布方程式に対する解の辺法則のベクトルとして得られることを示す。 これにより、そのような方程式の一般理論は分布強化学習設定に適用できる。

In distributional reinforcement learning not only expected returns but the complete return distributions of a policy are taken into account. The return distribution for a fixed policy is given as the solution of an associated distributional Bellman equation. In this note we consider general distributional Bellman equations and study existence and uniqueness of their solutions as well as tail properties of return distributions. We give necessary and sufficient conditions for existence and uniqueness of return distributions and identify cases of regular variation. We link distributional Bellman equations to multivariate affine distributional equations. We show that any solution of a distributional Bellman equation can be obtained as the vector of marginal laws of a solution to a multivariate affine distributional equation. This makes the general theory of such equations applicable to the distributional reinforcement learning setting.
翻訳日:2023-05-30 00:37:38 公開日:2023-05-26
# トークンスマートコントラクトコードからのDeFi証券違反の検出

Detecting DeFi Securities Violations from Token Smart Contract Code ( http://arxiv.org/abs/2112.02731v5 )

ライセンス: Link先を確認
Arianna Trozze, Bennett Kleinberg, and Toby Davies(参考訳) DeFi(Decentralized Finance)は、さまざまなブロックチェーン上のスマートコントラクトを通じて構築および配信される金融製品とサービスのシステムである。 ここ数年、DeFiの人気と市場資本化が続いている。 しかし、犯罪、特に様々な種類の証券違反とも関係がある。 DeFiにおけるKnow Your Customer要件の欠如は、この分野での潜在的な攻撃を緩和しようとする政府に課題をもたらす。 本研究は,この問題が機械学習のアプローチに適合するかどうか,すなわちトークンのスマートコントラクトコードに基づいて,証券違反の可能性のあるdefiプロジェクトを識別できるかどうかを明らかにすることを目的としている。 DeFiプロジェクトのトークンのスマートコントラクトコード(特にオペコードベースの機能)から抽出された機能に基づいて分類器を構築する。 最終モデルは,基準値50\%に対して80\%のF-1スコアを得るランダム森林モデルである。 特に、私たちはさらに、モデルのパフォーマンスにとって最も重要なコードベースの機能を調べ、トークンの固形度コードを分析し、コサインの類似度分析を行います。 私たちは、Opcodeベースのフィーチャがキャプチャしているかもしれないコードの1つの要素がSafeMathライブラリの実装であることに気付きました。 私たちの研究のもうひとつの貢献は、新しいデータセットです。 (a)証券違反にかかわるトークンの検証された根拠真理データ b) 請求可能なDeFiアグリゲータからの正当なトークンの集合 本報告では,法執行における検事による我々のようなモデルの利用の可能性についても検討し,より広い法的文脈と結びつける。

Decentralized Finance (DeFi) is a system of financial products and services built and delivered through smart contracts on various blockchains. In the past year, DeFi has gained popularity and market capitalization. However, it has also been connected to crime, in particular, various types of securities violations. The lack of Know Your Customer requirements in DeFi poses challenges to governments trying to mitigate potential offending in this space. This study aims to uncover whether this problem is suited to a machine learning approach, namely, whether we can identify DeFi projects potentially engaging in securities violations based on their tokens' smart contract code. We adapt prior work on detecting specific types of securities violations across Ethereum, building classifiers based on features extracted from DeFi projects' tokens' smart contract code (specifically, opcode-based features). Our final model is a random forest model that achieves an 80\% F-1 score against a baseline of 50\%. Notably, we further explore the code-based features that are most important to our model's performance in more detail, analyzing tokens' Solidity code and conducting cosine similarity analyses. We find that one element of the code our opcode-based features may be capturing is the implementation of the SafeMath library, though this does not account for the entirety of our features. Another contribution of our study is a new data set, comprised of (a) a verified ground truth data set for tokens involved in securities violations and (b) a set of legitimate tokens from a reputable DeFi aggregator. This paper further discusses the potential use of a model like ours by prosecutors in enforcement efforts and connects it to the wider legal context.
翻訳日:2023-05-30 00:37:12 公開日:2023-05-26
# 異なるコピーを異なるユーザに提供することで敵攻撃を緩和する

Mitigating Adversarial Attacks by Distributing Different Copies to Different Users ( http://arxiv.org/abs/2111.15160v3 )

ライセンス: Link先を確認
Jiyi Zhang, Han Fang, Wesley Joon-Wie Tann, Ke Xu, Chengfang Fang, Ee-Chien Chang(参考訳) 機械学習モデルは敵の攻撃に弱い。 本稿では,悪質な買い手が他の買い手を攻撃しようとする複数の買い手に対してモデルを配布するシナリオについて考察する。 悪意のあるバイヤーは、モデルのコピーをプローブして、敵のサンプルを検索し、見つかったサンプルを被害者のモデルのコピーに提示して、攻撃を再現する。 モデルの異なるコピーを別の購入者に配布することで、あるコピーで見つかった敵のサンプルが別のコピーでは動作しないような攻撃を緩和できる、と指摘する。 異なるランダム性を持つモデルのトレーニングは、実際にそのような複製をある程度軽減する。 しかし、保証はなく、再訓練は計算コストがかかる。 モデル間の差異を高めるために、多くの研究が再訓練手法を拡張した。 しかし、そのような手法で非常に限られた数のモデルが作成でき、計算コストはさらに高くなる。 そこで本研究では,モデルパラメータを直接修正するフレキシブルパラメータ書き換え手法を提案する。 この方法は追加の訓練を必要とせず、より制御可能な方法で多数のコピーを生成することができ、各コピーは異なる敵領域を誘導する。 実験により、リライトは高い分類精度を維持しながら攻撃を著しく軽減できることが示された。 例えば、ホップスキップジャンプ攻撃に関するGTSRBデータセットでは、アトラクタベースのリライターを使用すると、攻撃を再現する成功率が0.5%に減少し、ランダム性の異なるコピーを個別にトレーニングすると、成功率が6.5%に低下する。 この研究から、さらに多くの道のりを探索する価値があると信じている。

Machine learning models are vulnerable to adversarial attacks. In this paper, we consider the scenario where a model is distributed to multiple buyers, among which a malicious buyer attempts to attack another buyer. The malicious buyer probes its copy of the model to search for adversarial samples and then presents the found samples to the victim's copy of the model in order to replicate the attack. We point out that by distributing different copies of the model to different buyers, we can mitigate the attack such that adversarial samples found on one copy would not work on another copy. We observed that training a model with different randomness indeed mitigates such replication to a certain degree. However, there is no guarantee and retraining is computationally expensive. A number of works extended the retraining method to enhance the differences among models. However, a very limited number of models can be produced using such methods and the computational cost becomes even higher. Therefore, we propose a flexible parameter rewriting method that directly modifies the model's parameters. This method does not require additional training and is able to generate a large number of copies in a more controllable manner, where each copy induces different adversarial regions. Experimentation studies show that rewriting can significantly mitigate the attacks while retaining high classification accuracy. For instance, on GTSRB dataset with respect to Hop Skip Jump attack, using attractor-based rewriter can reduce the success rate of replicating the attack to 0.5% while independently training copies with different randomness can reduce the success rate to 6.5%. From this study, we believe that there are many further directions worth exploring.
翻訳日:2023-05-30 00:36:47 公開日:2023-05-26
# 安全・説明可能・規制された自動運転を目指して

Towards Safe, Explainable, and Regulated Autonomous Driving ( http://arxiv.org/abs/2111.10518v4 )

ライセンス: Link先を確認
Shahin Atakishiyev, Mohammad Salameh, Hengshuai Yao, Randy Goebel(参考訳) 強力な人工知能技術(ai)の実証的な成功によって、特にディープラーニングと強化学習の応用によって、自動運転車の開発と展開への関心が近年ますます高まっている。 しかし、最近の交通事故で証明されたように、自動運転技術は安全な配備に完全に信頼できない。 AIが自動運転車のインテリジェントナビゲーションシステムの背後にある主要な技術であるため、ステークホルダーと交通規制当局の両方が、AI駆動のソフトウェアアーキテクチャを安全、説明可能、規制に準拠するように要求している。 本稿では,自律制御,説明可能なAI(XAI),規制コンプライアンスを統合した設計フレームワークを提案する。 さらに,フレームワークの目標達成に役立つ,関連するXAIアプローチについても述べる。

There has been recent and growing interest in the development and deployment of autonomous vehicles, encouraged by the empirical successes of powerful artificial intelligence techniques (AI), especially in the applications of deep learning and reinforcement learning. However, as demonstrated by recent traffic accidents, autonomous driving technology is not fully reliable for safe deployment. As AI is the main technology behind the intelligent navigation systems of self-driving vehicles, both the stakeholders and transportation regulators require their AI-driven software architecture to be safe, explainable, and regulatory compliant. In this paper, we propose a design framework that integrates autonomous control, explainable AI (XAI), and regulatory compliance to address this issue, and then provide an initial validation of the framework with a critical analysis in a case study. Moreover, we describe relevant XAI approaches that can help achieve the goals of the framework.
翻訳日:2023-05-30 00:36:06 公開日:2023-05-26
# トランスファービリティのメトリクス、その特異性、安定性、パフォーマンスを再考する

Newer is not always better: Rethinking transferability metrics, their peculiarities, stability and performance ( http://arxiv.org/abs/2110.06893v3 )

ライセンス: Link先を確認
Shibal Ibrahim, Natalia Ponomareva, Rahul Mazumder(参考訳) 小さなカスタマイズデータセット上での大規模な事前学習画像と言語モデルの微調整は、限られたリソースの予測と効率的な使用を改善するために、ますます人気が高まっている。 微調整には、転送可能性の定量化と転送可能性から最良のモデルの識別が必要であり、全ての候補モデル/タスクペアで高価な再トレーニングが防止される。 本稿では,共分散推定による統計的問題は,新しいメトリクスの共通ベースラインであるh-scoreの性能低下を招き,縮小に基づく推定器を提案する。 その結果,Hスコア相関性能は最大80%向上し,最先端のLogME測定値と競合する結果となった。 縮小ベースのh-scoreはlogmeに比べて計算速度が$3\times$-10$\times$高速です。 さらに、ターゲットの(ソースではなく)タスク選択の一般的でない設定についても検討します。 ラベル数やクラス不均衡率など,近年の指標であるnceやleepなどでは,これまで見過ごされていた問題点が,主要な指標として誤表現された。 このような状況下での相関性能と相対精度の相関を補正して評価することを推奨する。 我々は,視覚モデルとグラフニューラルネットワークの両方について,約164,000の実験を行った。

Fine-tuning of large pre-trained image and language models on small customized datasets has become increasingly popular for improved prediction and efficient use of limited resources. Fine-tuning requires identification of best models to transfer-learn from and quantifying transferability prevents expensive re-training on all of the candidate models/tasks pairs. In this paper, we show that the statistical problems with covariance estimation drive the poor performance of H-score -- a common baseline for newer metrics -- and propose shrinkage-based estimator. This results in up to 80% absolute gain in H-score correlation performance, making it competitive with the state-of-the-art LogME measure. Our shrinkage-based H-score is $3\times$-10$\times$ faster to compute compared to LogME. Additionally, we look into a less common setting of target (as opposed to source) task selection. We demonstrate previously overlooked problems in such settings with different number of labels, class-imbalance ratios etc. for some recent metrics e.g., NCE, LEEP that resulted in them being misrepresented as leading measures. We propose a correction and recommend measuring correlation performance against relative accuracy in such settings. We support our findings with ~164,000 (fine-tuning trials) experiments on both vision models and graph neural networks.
翻訳日:2023-05-30 00:35:39 公開日:2023-05-26
# 擬似付加モデルと構造化相互作用によるセンサスサーベイ応答率の予測

Predicting Census Survey Response Rates With Parsimonious Additive Models and Structured Interactions ( http://arxiv.org/abs/2108.11328v3 )

ライセンス: Link先を確認
Shibal Ibrahim, Rahul Mazumder, Peter Radchenko, Emanuel Ben-David(参考訳) 本稿では, フレキシブルかつ解釈可能な非パラメトリックモデル群を用いて, アンケート応答率の予測問題について考察する。 この研究は、米国国勢調査局のよく知られたroamアプリケーションによって動機付けられたもので、米国の国勢調査計画データベースデータに基づいてトレーニングされた線形回帰モデルを使用して、サーベイエリアを特定する。 10年ほど前に組織されたクラウドソーシングコンペにより、回帰木のアンサンブルに基づく機械学習手法が、調査応答率の予測に最高のパフォーマンスをもたらすことが明らかとなった。 我々は、$\ell_0$-based penalization を用いて、主対相互作用効果の少ない非パラメトリック加法モデルを考える。 方法論的観点からは, 計算的側面と統計的側面の両方について検討し, 強い階層的相互作用を組み込んだ変種について考察する。 我々のアルゴリズム(githubでオープンソース化)は、我々が検討しているアプリケーションに関連するデータセットを処理できるように、スパース付加モデルのための既存のアルゴリズムの計算的フロンティアを拡張します。 本モデルから得られた知見について,米国国勢調査計画データベース上で議論し,解釈する。 解釈可能性の観点から有用であることに加えて、私たちのモデルは、勾配向上とフィードフォワードニューラルネットワークに基づく一般的なブラックボックス機械学習手法よりも優れていると思われる予測につながります。

In this paper we consider the problem of predicting survey response rates using a family of flexible and interpretable nonparametric models. The study is motivated by the US Census Bureau's well-known ROAM application which uses a linear regression model trained on the US Census Planning Database data to identify hard-to-survey areas. A crowdsourcing competition organized around ten years ago revealed that machine learning methods based on ensembles of regression trees led to the best performance in predicting survey response rates; however, the corresponding models could not be adopted for the intended application due to their black-box nature. We consider nonparametric additive models with small number of main and pairwise interaction effects using $\ell_0$-based penalization. From a methodological viewpoint, we study both computational and statistical aspects of our estimator; and discuss variants that incorporate strong hierarchical interactions. Our algorithms (opensourced on github) extend the computational frontiers of existing algorithms for sparse additive models, to be able to handle datasets relevant for the application we consider. We discuss and interpret findings from our model on the US Census Planning Database. In addition to being useful from an interpretability standpoint, our models lead to predictions that appear to be better than popular black-box machine learning methods based on gradient boosting and feedforward neural networks -- suggesting that it is possible to have models that have the best of both worlds: good model accuracy and interpretability.
翻訳日:2023-05-30 00:35:18 公開日:2023-05-26
# EVOTER: 透明な説明可能なルールセットの進化

EVOTER: Evolution of Transparent Explainable Rule-sets ( http://arxiv.org/abs/2204.10438v3 )

ライセンス: Link先を確認
Hormoz Shahrzad, Babak Hodjat, Risto Miikkulainen(参考訳) ほとんどのAIシステムは、与えられた入力に対して適切な出力を生成するブラックボックスである。 しかし、いくつかのドメインは、これらのアプローチで直接満足できない説明可能性と信頼性要件を持っている。 そのため、トレーニング後にブラックボックスモデルを解釈するために様々な方法が開発されている。 本稿では,モデルが透過的かつ説明可能な代替手法を提案する。 このアプローチ、EVOTERは単純な論理式に基づいてルールセットを進化させる。 この手法は、いくつかの予測/分類と処方/政治検索ドメインにおいて代理なしで評価される。 ブラックボックスモデルと同様に実行される有意義なルールセットを見つけることが示される。 ルールはドメインに関する洞察を与え、データに隠されたバイアスを明示する。 バイアスを取り除き、制約を追加するために、それらを直接編集することもできる。 EVOTERは将来、現実世界のアプリケーションのための信頼できるAIシステムを構築するための有望な基盤となる。

Most AI systems are black boxes generating reasonable outputs for given inputs. Some domains, however, have explainability and trustworthiness requirements that cannot be directly met by these approaches. Various methods have therefore been developed to interpret black-box models after training. This paper advocates an alternative approach where the models are transparent and explainable to begin with. This approach, EVOTER, evolves rule-sets based on simple logical expressions. The approach is evaluated in several prediction/classification and prescription/policy search domains with and without a surrogate. It is shown to discover meaningful rule sets that perform similarly to black-box models. The rules can provide insight into the domain, and make biases hidden in the data explicit. It may also be possible to edit them directly to remove biases and add constraints. EVOTER thus forms a promising foundation for building trustworthy AI systems for real-world applications in the future.
翻訳日:2023-05-30 00:27:21 公開日:2023-05-26
# セクタリー制約の存在下での因果構造と量子スイッチへの応用

Causal structure in the presence of sectorial constraints, with application to the quantum switch ( http://arxiv.org/abs/2204.10273v3 )

ライセンス: Link先を確認
Nick Ormrod, Augustin Vanrietvelde, Jonathan Barrett(参考訳) 既存の量子因果構造の研究は、興味のあるシステム上で任意の操作を実行できると仮定している。 しかし、この条件はしばしば満たされない。 ここでは、量子因果モデリングの枠組みを、システムが互いに写像されるヒルベルト空間の直交部分空間の制限として、セクタリー制約に苦しむことができる状況にまで拡張する。 当社の枠組み (a)因果関係に関する多くの異なる直観が等価であることが証明される。 (b) セクター制約の存在下での量子因果構造が有向グラフで表現できることを示す。 c) システムの個々のセクタが因果関係を持つ因果構造の細粒度を定義する。 例えば、この枠組みを量子スイッチのフォトニック実装に応用し、粗粒の因果構造は循環的であるが、細粒の因果構造は非循環的であることを示す。 したがって、これらの実験は弱い意味でのみ不確定因果順序を実現する。 特に、これは因果相対論が時空に局所化されなければならないという仮定に基づかない、この効果に対する最初の議論である。

Existing work on quantum causal structure assumes that one can perform arbitrary operations on the systems of interest. But this condition is often not met. Here, we extend the framework for quantum causal modelling to situations where a system can suffer sectorial constraints, that is, restrictions on the orthogonal subspaces of its Hilbert space that may be mapped to one another. Our framework (a) proves that a number of different intuitions about causal relations turn out to be equivalent; (b) shows that quantum causal structures in the presence of sectorial constraints can be represented with a directed graph; and (c) defines a fine-graining of the causal structure in which the individual sectors of a system bear causal relations. As an example, we apply our framework to purported photonic implementations of the quantum switch to show that while their coarse-grained causal structure is cyclic, their fine-grained causal structure is acyclic. We therefore conclude that these experiments realize indefinite causal order only in a weak sense. Notably, this is the first argument to this effect that is not rooted in the assumption that the causal relata must be localized in spacetime.
翻訳日:2023-05-30 00:27:10 公開日:2023-05-26
# テキスト分類は本当に大きく進歩しているのか? 比較レビュー

Are We Really Making Much Progress in Text Classification? A Comparative Review ( http://arxiv.org/abs/2204.03954v4 )

ライセンス: Link先を確認
Lukas Galke, Andor Diera, Bao Xin Lin, Bhakti Khera, Tim Meuser, Tushar Singhal, Fabian Karl, Ansgar Scherp(参考訳) 本研究は,単音節と複数音節のテキスト分類の手法をレビュー・比較し,その手法を単語のバガオブワード,シーケンスベース,グラフベース,階層的手法に分類した。 この比較は、5つのシングルラベルと7つのマルチラベルデータセットの文献を集計し、それらを新しい実験で補完する。 その結果、最近提案されたグラフベースおよび階層ベース手法はすべて、事前学習された言語モデルよりも優れておらず、時として、多層パーセプトロンのような標準的な機械学習手法よりもパフォーマンスが悪くなることが判明した。 テキスト分類の真の科学的進歩を評価するために、将来の研究は、強固な単語ベースラインと最先端の事前学習言語モデルに対して徹底的にテストされるべきである。

This study reviews and compares methods for single-label and multi-label text classification, categorized into bag-of-words, sequence-based, graph-based, and hierarchical methods. The comparison aggregates results from the literature over five single-label and seven multi-label datasets and complements them with new experiments. The findings reveal that all recently proposed graph-based and hierarchy-based methods fail to outperform pre-trained language models and sometimes perform worse than standard machine learning methods like a multilayer perceptron on a bag-of-words. To assess the true scientific progress in text classification, future work should thoroughly test against strong bag-of-words baselines and state-of-the-art pre-trained language models.
翻訳日:2023-05-30 00:26:47 公開日:2023-05-26
# SD-Conv:動的畳み込みのパラメータ効率に向けて

SD-Conv: Towards the Parameter-Efficiency of Dynamic Convolution ( http://arxiv.org/abs/2204.02227v3 )

ライセンス: Link先を確認
Shwai He, Chenbo Jiang, Daize Dong, Liang Ding(参考訳) 動的畳み込みは、無視可能なFLOPの増加による効率の良いCNNの性能向上を実現する。 しかし、性能向上は、実際のアプリケーションにおいて主要なボトルネックとなるパラメータの大幅な増加には一致しない。 対照的にマスクベースの非構造プルーニングは重ネットワークの冗長性を除去して軽量ネットワークを得る。 本稿では,この2つの経路を自然に統合し,動的機構と疎結合の利点を継承するために,新しいフレームワークである‘textbf{Sparse Dynamic Convolution}(\textsc{SD-Conv})を提案する。 まず,学習可能なしきい値から派生したバイナリマスクを設計,パラメータと計算コストを大幅に削減したが,imagenet-1kでは高い性能を実現している。 さらに、トレーニング済みのモデルをさまざまなダウンストリームタスクに転送し、ベースラインよりも一貫して優れた結果を示します。 SD-Convが従来の動的畳み込みに代わる効率的な代替になることを期待しています。

Dynamic convolution achieves better performance for efficient CNNs at the cost of negligible FLOPs increase. However, the performance increase can not match the significantly expanded number of parameters, which is the main bottleneck in real-world applications. Contrastively, mask-based unstructured pruning obtains a lightweight network by removing redundancy in the heavy network. In this paper, we propose a new framework, \textbf{Sparse Dynamic Convolution} (\textsc{SD-Conv}), to naturally integrate these two paths such that it can inherit the advantage of dynamic mechanism and sparsity. We first design a binary mask derived from a learnable threshold to prune static kernels, significantly reducing the parameters and computational cost but achieving higher performance in Imagenet-1K. We further transfer pretrained models into a variety of downstream tasks, showing consistently better results than baselines. We hope our SD-Conv could be an efficient alternative to conventional dynamic convolutions.
翻訳日:2023-05-30 00:26:33 公開日:2023-05-26
# qudit系に対する量子近似最適化アルゴリズム

Quantum approximate optimization algorithm for qudit systems ( http://arxiv.org/abs/2204.00340v2 )

ライセンス: Link先を確認
Yannick Deller and Sebastian Schmitt and Maciej Lewenstein and Steve Lenk and Marika Federer and Fred Jendrzejewski and Philipp Hauke and Valentin Kasper(参考訳) 量子計算プラットフォームの頻繁な出発点は2状態量子システム、すなわち量子ビットである。 しかし、スケジューリング最適化や演算研究に関連する整数最適化問題では、2つ以上の基底状態を持つ量子システム、いわゆるquditsを採用する方がリソース効率が良いことが多い。 本稿では,量子近似最適化アルゴリズム(QAOA)について述べる。 本稿では,QAOAを用いてグラフ着色問題や電気自動車(EV)の充電最適化などの整数最適化問題を定式化する方法について述べる。 さらに、制約の実装についてコメントし、コストハミルトニアン、アンシラ量子ビットを用いた条件ゲート、動的デカップリング戦略へのペナルティ貢献により、これらをQAOAの量子回路に組み込む3つの方法を説明する。 最後に、quditベースのQAOAの展示として、最大$kのカラー化問題にマッピングされた充電最適化問題の数値結果を示す。 本研究は整数最適化問題の解法として,quditシステムの柔軟性を示す。

A frequent starting point of quantum computation platforms are two-state quantum systems, i.e., qubits. However, in the context of integer optimization problems, relevant to scheduling optimization and operations research, it is often more resource-efficient to employ quantum systems with more than two basis states, so-called qudits. Here, we discuss the quantum approximate optimization algorithm (QAOA) for qudit systems. We illustrate how the QAOA can be used to formulate a variety of integer optimization problems such as graph coloring problems or electric vehicle (EV) charging optimization. In addition, we comment on the implementation of constraints and describe three methods to include these into a quantum circuit of a QAOA by penalty contributions to the cost Hamiltonian, conditional gates using ancilla qubits, and a dynamical decoupling strategy. Finally, as a showcase of qudit-based QAOA, we present numerical results for a charging optimization problem mapped onto a max-$k$-graph coloring problem. Our work illustrates the flexibility of qudit systems to solve integer optimization problems.
翻訳日:2023-05-30 00:26:17 公開日:2023-05-26
# VGSE: ゼロショット学習のためのビジュアルグラウンドセマンティック埋め込み

VGSE: Visually-Grounded Semantic Embeddings for Zero-Shot Learning ( http://arxiv.org/abs/2203.10444v2 )

ライセンス: Link先を確認
Wenjia Xu, Yongqin Xian, Jiuniu Wang, Bernt Schiele, Zeynep Akata(参考訳) 人間アノテーション属性はゼロショット学習における強力なセマンティック埋め込みとして機能する。 しかし、アノテーションプロセスは労働集約的であり、専門家の監督が必要である。 現在の教師なしセマンティック埋め込み、すなわち単語埋め込みは、クラス間の知識伝達を可能にする。 しかし、単語埋め込みは必ずしも視覚的な類似性を反映せず、ゼロショット性能を低下させる。 ゼロショット学習のための識別的視覚特性を含む意味的埋め込みを,人間の注釈を必要とせずに発見する。 本モデルでは,画像の集合を視覚的類似性に応じて局所的な画像領域の集合に分割し,そのクラス識別と意味的関連性を付加する。 これらのクラスタを未確認のクラスに関連付けるために、単語埋め込みなどの外部知識を使用し、新しいクラス関係発見モジュールを提案する。 定量的・定性的評価により,本モデルでは視認クラスと視認クラスの両方の視覚特性をモデル化する意味埋め込みを探索する。 さらに,様々なzslモデルにまたがる単語埋め込みよりも,視覚的に接する意味埋め込みの性能が,大きなマージンで向上することを示す3つのベンチマークを実演した。

Human-annotated attributes serve as powerful semantic embeddings in zero-shot learning. However, their annotation process is labor-intensive and needs expert supervision. Current unsupervised semantic embeddings, i.e., word embeddings, enable knowledge transfer between classes. However, word embeddings do not always reflect visual similarities and result in inferior zero-shot performance. We propose to discover semantic embeddings containing discriminative visual properties for zero-shot learning, without requiring any human annotation. Our model visually divides a set of images from seen classes into clusters of local image regions according to their visual similarity, and further imposes their class discrimination and semantic relatedness. To associate these clusters with previously unseen classes, we use external knowledge, e.g., word embeddings and propose a novel class relation discovery module. Through quantitative and qualitative evaluation, we demonstrate that our model discovers semantic embeddings that model the visual properties of both seen and unseen classes. Furthermore, we demonstrate on three benchmarks that our visually-grounded semantic embeddings further improve performance over word embeddings across various ZSL models by a large margin.
翻訳日:2023-05-30 00:26:00 公開日:2023-05-26
# 意味セグメンテーションを考慮した双曲的不確かさ

Hyperbolic Uncertainty Aware Semantic Segmentation ( http://arxiv.org/abs/2203.08881v2 )

ライセンス: Link先を確認
Bike Chen, Wei Peng, Xiaofeng Cao, Juha R\"oning(参考訳) セマンティックセグメンテーション(ss)は、各ピクセルを事前定義されたクラスに分類することを目的としている。 このタスクは、自動運転車と自律ドローンにおいて重要な役割を果たす。 SSでは、多くの研究が、ほとんどの誤分類されたピクセルは、一般に高い不確実性を持つ対象境界付近にあることを示した。 しかし、既存のss損失関数は、トレーニング中にこれらの不確定な画素を処理するために調整されていない。なぜなら、これらの画素は通常、自信を持って分類された画素として扱われ、ユークリッド空間に任意の低歪みを組み込むことはできないため、ssの性能が低下するからだ。 そこで本稿では,ハイパーボリック空間におけるハイパーボリック不確かさ損失(HyperUL)を動的に強調する「ハイパーボリック不確かさ損失(Hyperbolic Uncertainty Loss)」を設計する。 提案したHyperULはモデル非依存であり、様々なニューラルネットワークアーキテクチャに容易に適用できる。 最近の3つのSSモデルにHyperULを使用した結果、CityscapesとUAVidデータセットの実験結果から、既存のSSモデルのセグメンテーション性能が一貫して改善できることが判明した。

Semantic segmentation (SS) aims to classify each pixel into one of the pre-defined classes. This task plays an important role in self-driving cars and autonomous drones. In SS, many works have shown that most misclassified pixels are commonly near object boundaries with high uncertainties. However, existing SS loss functions are not tailored to handle these uncertain pixels during training, as these pixels are usually treated equally as confidently classified pixels and cannot be embedded with arbitrary low distortion in Euclidean space, thereby degenerating the performance of SS. To overcome this problem, this paper designs a "Hyperbolic Uncertainty Loss" (HyperUL), which dynamically highlights the misclassified and high-uncertainty pixels in Hyperbolic space during training via the hyperbolic distances. The proposed HyperUL is model agnostic and can be easily applied to various neural architectures. After employing HyperUL to three recent SS models, the experimental results on Cityscapes and UAVid datasets reveal that the segmentation performance of existing SS models can be consistently improved.
翻訳日:2023-05-30 00:25:45 公開日:2023-05-26
# 勾配降下を超えた勾配補正

Gradient Correction beyond Gradient Descent ( http://arxiv.org/abs/2203.08345v2 )

ライセンス: Link先を確認
Zefan Li, Bingbing Ni, Teng Li, WenJun Zhang, Wen Gao(参考訳) ニューラルネットワークが達成した大きな成功は、gd(gradient-descent)アルゴリズムの適用と不可分である。 GDに基づいて、GD最適化プロセスを改善するために多くの変種アルゴリズムが登場した。 バックプロパゲーションの勾配は明らかにニューラルネットワークのトレーニングにおいて最も重要な側面である。 計算された勾配の品質は、ノイズデータ、計算誤差、アルゴリズム制限など、複数の側面に影響される可能性がある。 勾配降下を超える勾配情報を明らかにするために,勾配補正を行うためのフレームワーク(\textbf{GCGD})を導入する。 GCGDは2つのプラグインモジュールで構成される。 1) 勾配予測のアイデアに触発されて, 重み勾配補正のための \textbf{GC-W} モジュールを提案する。 2)Neural ODEに基づいて,隠れ状態勾配補正のための‘textbf{GC-ODE}モジュールを提案する。 実験の結果、勾配補正フレームワークは、勾配品質を効果的に改善し、トレーニング期間を$\sim$20\%削減し、ネットワーク性能を向上させることができることがわかった。

The great success neural networks have achieved is inseparable from the application of gradient-descent (GD) algorithms. Based on GD, many variant algorithms have emerged to improve the GD optimization process. The gradient for back-propagation is apparently the most crucial aspect for the training of a neural network. The quality of the calculated gradient can be affected by multiple aspects, e.g., noisy data, calculation error, algorithm limitation, and so on. To reveal gradient information beyond gradient descent, we introduce a framework (\textbf{GCGD}) to perform gradient correction. GCGD consists of two plug-in modules: 1) inspired by the idea of gradient prediction, we propose a \textbf{GC-W} module for weight gradient correction; 2) based on Neural ODE, we propose a \textbf{GC-ODE} module for hidden states gradient correction. Experiment results show that our gradient correction framework can effectively improve the gradient quality to reduce training epochs by $\sim$ 20\% and also improve the network performance.
翻訳日:2023-05-30 00:25:27 公開日:2023-05-26
# SummaReranker: 抽象的な要約のためのマルチタスク・ミックス・オブ・エクササイズ・リグレードフレームワーク

SummaReranker: A Multi-Task Mixture-of-Experts Re-ranking Framework for Abstractive Summarization ( http://arxiv.org/abs/2203.06569v2 )

ライセンス: Link先を確認
Mathieu Ravaut, Shafiq Joty, Nancy F. Chen(参考訳) sequence-to-sequenceニューラルネットワークは最近、抽象的な要約、特に下流のデータセットで事前学習された大きな言語モデルを微調整することで、大きな成功を収めている。 これらのモデルは通常ビームサーチでデコードされ、ユニークな要約を生成する。 しかし、探索空間は非常に大きく、露光バイアスがあるため、そのような復号化は最適ではない。 本稿では,サマリ候補のセットで再ランキングを行う2段モデルを直接トレーニングすることが可能であることを示す。 当社のmixed-of-experts summarerankerは、よりよい候補を選ぶことを学び、ベースモデルのパフォーマンスを一貫して改善します。 PEGASUSをベースとしたROUGEスコアは、CNN-DailyMail(47.16 ROUGE-1)で5.44%、XSum(48.12 ROUGE-1)で1.31%、Reddit TIFU(29.83 ROUGE-1)で9.34%、新しい最先端に到達した。 私たちのコードとチェックポイントはhttps://github.com/ntunlp/summarerankerで利用可能です。

Sequence-to-sequence neural networks have recently achieved great success in abstractive summarization, especially through fine-tuning large pre-trained language models on the downstream dataset. These models are typically decoded with beam search to generate a unique summary. However, the search space is very large, and with the exposure bias, such decoding is not optimal. In this paper, we show that it is possible to directly train a second-stage model performing re-ranking on a set of summary candidates. Our mixture-of-experts SummaReranker learns to select a better candidate and consistently improves the performance of the base model. With a base PEGASUS, we push ROUGE scores by 5.44% on CNN-DailyMail (47.16 ROUGE-1), 1.31% on XSum (48.12 ROUGE-1) and 9.34% on Reddit TIFU (29.83 ROUGE-1), reaching a new state-of-the-art. Our code and checkpoints will be available at https://github.com/ntunlp/SummaReranker.
翻訳日:2023-05-30 00:25:11 公開日:2023-05-26
# FCNet:任意長露光推定のための畳み込みニューラルネットワーク

FCNet: A Convolutional Neural Network for Arbitrary-Length Exposure Estimation ( http://arxiv.org/abs/2203.03624v2 )

ライセンス: Link先を確認
Jin Liang, Yuchen Yang, Anran Zhang, Jun Xu, Hui Li, Xiantong Zhen(参考訳) デジタルカメラで撮影された写真は、通常不適切な露出問題(over or under)に苦しむ。 画像露光エンハンスメントでは,単一露光補正(sec)と複数露光融合(mef)の課題が画像処理コミュニティで広く研究されている。 しかし、現在のSECまたはMEF法は、異なるモチベーションの下で開発されており、SECとMEFの内部相関を無視しているため、不正確な露出で任意の長さのシーケンスを処理することは困難である。 加えて、MEF法は通常、露出不足または露出過剰な画像のみを含むシーケンスの露出を推定できない。 これらの問題を緩和するため,本論文では,不正確な露光に苦しむ任意の長さの(1つを含む)画像列に対処可能な統合畳み込みニューラルネットワークを開発した。 具体的には,多レベルラプラシアンピラミッド(lp)画像分解方式を用いて,画像シーケンスを融合補正する新しい融合補正ネットワーク(fcnet)を提案する。 各lpレベルにおいて、入力画像シーケンスの低周波ベース成分(s)を、代替画像融合および露光補正により実装された連続露光推定のための連続露光ブロックと補正ブロックとに順次供給する。 現在のLPレベルの露光補正画像を、次のLPレベルの入力画像シーケンスの高周波詳細成分(s)とアップサンプリングして再構成し、次のLPレベルのフュージョン及び補正ブロックの入力画像シーケンスの基成分を出力する。 ベンチマークデータセットの実験では、FCNetが有効に任意の長さの露光推定(SECとMEFの両方)可能であることが示された。 コードは公開される予定だ。

The photographs captured by digital cameras usually suffer from the improper (over or under) exposure problems. For image exposure enhancement, the tasks of Single-Exposure Correction (SEC) and Multi-Exposure Fusion (MEF) are widely studied in the image processing community. However, current SEC or MEF methods are developed under different motivations and thus ignore the internal correlation between SEC and MEF, making it difficult to process arbitrary-length sequences with inaccurate exposures. Besides, the MEF methods usually fail at estimating the exposure of a sequence containing only under-exposed or over-exposed images. To alleviate these problems, in this paper, we develop an integrated convolutional neural network feasible to tackle an arbitrary-length (including one) image sequence suffering from inaccurate exposures. Specifically, we propose a novel Fusion-Correction Network (FCNet) to fuse and correct an image sequence by employing the multi-level Laplacian Pyramid (LP) image decomposition scheme. In each LP level, the low-frequency base component(s) of the input image sequence is fed into a Fusion block and a Correction block sequentially for consecutive exposure estimation, implemented by alternative image fusion and exposure correction. The exposure-corrected image in current LP level is upsampled and re-composed with the high-frequency detail component(s) of the input image sequence in the next LP level, to output the base component of the input image sequence for the Fusion and Correction blocks in the next LP level. Experiments on the benchmark dataset demonstrate that our FCNet is effective arbitrary-length exposure estimation (both SEC and MEF). The code will be publicly released.
翻訳日:2023-05-30 00:24:48 公開日:2023-05-26
# 新しい条件下での転がり軸受故障サンプルの合成:修正cganに基づく枠組み

Synthesizing Rolling Bearing Fault Samples in New Conditions: A framework based on a modified CGAN ( http://arxiv.org/abs/2206.12076v3 )

ライセンス: Link先を確認
Maryam Ahang, Masoud Jalayer, Ardeshir Shojaeinasab, Oluwaseyi Ogunfowora, Todd Charter, Homayoun Najjaran(参考訳) ベアリングは、予期せぬ故障を起こしやすい回転機械の重要な構成要素の1つである。 そのため,多くの産業において,故障診断と状態モニタリングが運用コストとダウンタイムの削減に不可欠である。 様々な生産条件において、軸受は様々な荷重と速度で操作することができ、故障の種類によって異なる振動パターンを引き起こす。 通常、システムは望ましい条件下で動作するため、通常のデータは不可欠である。 一方、フォールトデータはまれであり、多くの状況において、フォールトクラスのために記録されたデータは存在しません。 障害データへのアクセスは、運用のパフォーマンスと安全性の両方を改善するデータ駆動型障害診断ツールの開発に不可欠である。 そこで,条件付き生成型adversarial network (cgans) に基づく新しいアルゴリズムを提案する。 このアルゴリズムは, 実際の故障条件の正常データと故障データに基づいて, 対象条件の正常データから故障データを生成する。 提案手法は実世界の軸受データセット上で検証され、異なる条件で故障データを生成する。 合成データの品質を評価するために,いくつかの最先端の分類器と可視化モデルを実装した。 その結果,提案アルゴリズムの有効性が示された。

Bearings are one of the vital components of rotating machines that are prone to unexpected faults. Therefore, bearing fault diagnosis and condition monitoring is essential for reducing operational costs and downtime in numerous industries. In various production conditions, bearings can be operated under a range of loads and speeds, which causes different vibration patterns associated with each fault type. Normal data is ample as systems usually work in desired conditions. On the other hand, fault data is rare, and in many conditions, there is no data recorded for the fault classes. Accessing fault data is crucial for developing data-driven fault diagnosis tools that can improve both the performance and safety of operations. To this end, a novel algorithm based on Conditional Generative Adversarial Networks (CGANs) is introduced. Trained on the normal and fault data on any actual fault conditions, this algorithm generates fault data from normal data of target conditions. The proposed method is validated on a real-world bearing dataset, and fault data are generated for different conditions. Several state-of-the-art classifiers and visualization models are implemented to evaluate the quality of the synthesized data. The results demonstrate the efficacy of the proposed algorithm.
翻訳日:2023-05-30 00:19:20 公開日:2023-05-26
# b2t接続:ディープトランスの安定性と性能

B2T Connection: Serving Stability and Performance in Deep Transformers ( http://arxiv.org/abs/2206.00330v2 )

ライセンス: Link先を確認
Sho Takase, Shun Kiyono, Sosuke Kobayashi, Jun Suzuki(参考訳) 層正規化(LN)位置の観点からは、トランスフォーマーのアーキテクチャはPost-LNとPre-LNの2つのタイプに分類される。 最近のトランスフォーマーは、深いトランスフォーマー(例えば10層以上のトランスフォーマー)を持つポストlnでは、トレーニングが不安定で役に立たないモデルになることが多いため、プレlnである傾向がある。 しかし、Post-LNは比較的浅いトランスフォーマー(例えば6層以下のトランスフォーマー)において、Pre-LNよりも一貫してパフォーマンスが向上している。 本研究はまず,これらの不規則な観測の理由を実証的・理論的に検討し,次の発見を行った: 1) Post-LNのLNは不安定なトレーニングにつながる消失する勾配問題の主原因であり,2) Post-LNは後方伝播の過程で, 上位層の勾配ノルムを大きく保つ傾向にあり, 効果的なトレーニングにつながる可能性がある。 そこで本研究では,Post-LNの簡易な修正により,高安定性と効果的なトレーニングを両立させる手法を提案する。 我々は、幅広いテキスト生成タスクについて実験を行う。 実験の結果,本手法はプレlnよりも優れており,浅い層や深い層でも安定したトレーニングが可能であった。 私たちのコードはhttps://github.com/takase/b2t_connectionで公開されています。

From the perspective of the layer normalization (LN) positions, the architectures of Transformers can be categorized into two types: Post-LN and Pre-LN. Recent Transformers tend to be Pre-LN because, in Post-LN with deep Transformers (e.g., those with ten or more layers), the training is often unstable, resulting in useless models. However, Post-LN has consistently achieved better performance than Pre-LN in relatively shallow Transformers (e.g., those with six or fewer layers). This study first investigates the reason for these discrepant observations empirically and theoretically and made the following discoveries: 1, the LN in Post-LN is the main source of the vanishing gradient problem that leads to unstable training, whereas Pre-LN prevents it, and 2, Post-LN tends to preserve larger gradient norms in higher layers during the back-propagation, which may lead to effective training. Exploiting the new findings, we propose a method that can provide both high stability and effective training by a simple modification of Post-LN. We conduct experiments on a wide range of text generation tasks. The experimental results demonstrate that our method outperforms Pre-LN, and enables stable training regardless of the shallow or deep layer settings. Our code is publicly available at https://github.com/takase/b2t_connection.
翻訳日:2023-05-30 00:18:06 公開日:2023-05-26
# 廃棄物削減のためのシミュレーション環境と強化学習方法

A Simulation Environment and Reinforcement Learning Method for Waste Reduction ( http://arxiv.org/abs/2205.15455v2 )

ライセンス: Link先を確認
Sami Jullien, Mozhdeh Ariannezhad, Paul Groth, Maarten de Rijke(参考訳) 小売業(食料品店、アパレル店、オンライン小売業など)では、在庫管理職は短期的なリスク(販売するアイテムがない)と長期リスク(製品廃棄物につながる注文)のバランスをとる必要がある。 このバランス作業は、将来の顧客の購入に関する情報が不足しているため、特に難しい。 本稿では,流通の観点から,食料品店の在庫を消耗品で補充する際の問題点について考察する。 目的は廃棄物を最小化しながら販売を最大化することであり、衣料品の実際の消費について不確実性がある。 この問題は、食料需要の増加と食品廃棄物が環境、経済、購買力に与える影響を考えると、今日では高い関係にある。 我々は, 環境を部分的に観察できるような, エージェントの行動に合わせた確率的行動を示す新しい強化学習タスクとして, 在庫再備を行う。 主な貢献は2つある。 まず,実店舗データと専門家の知識をもとに,新たな強化学習環境「小売」を提案する。 この環境は非常に確率的であり、強化学習実践者にはユニークな課題である。 本研究では, 従来のサプライチェーンアルゴリズムでは環境の将来の挙動の不確実性はうまく扱えないこと, 分布的アプローチが不確実性を考慮する良い方法であることを示す。 第2に,報奨空間上の一般化されたTukey Lambda分布を学習する分散強化学習アルゴリズムGTDQNを導入する。 GTDQNは環境に強力なベースラインを提供します。 この部分観測可能な環境では, 全体の報奨と廃棄物の削減の両方において, 他の分散強化学習手法よりも優れている。

In retail (e.g., grocery stores, apparel shops, online retailers), inventory managers have to balance short-term risk (no items to sell) with long-term-risk (over ordering leading to product waste). This balancing task is made especially hard due to the lack of information about future customer purchases. In this paper, we study the problem of restocking a grocery store's inventory with perishable items over time, from a distributional point of view. The objective is to maximize sales while minimizing waste, with uncertainty about the actual consumption by costumers. This problem is of a high relevance today, given the growing demand for food and the impact of food waste on the environment, the economy, and purchasing power. We frame inventory restocking as a new reinforcement learning task that exhibits stochastic behavior conditioned on the agent's actions, making the environment partially observable. We make two main contributions. First, we introduce a new reinforcement learning environment, RetaiL, based on real grocery store data and expert knowledge. This environment is highly stochastic, and presents a unique challenge for reinforcement learning practitioners. We show that uncertainty about the future behavior of the environment is not handled well by classical supply chain algorithms, and that distributional approaches are a good way to account for the uncertainty. Second, we introduce GTDQN, a distributional reinforcement learning algorithm that learns a generalized Tukey Lambda distribution over the reward space. GTDQN provides a strong baseline for our environment. It outperforms other distributional reinforcement learning approaches in this partially observable setting, in both overall reward and reduction of generated waste.
翻訳日:2023-05-30 00:17:39 公開日:2023-05-26
# 要約におけるFactual Errorsの理解--Errors, Summarizers, Datasets, Error Detectors

Understanding Factual Errors in Summarization: Errors, Summarizers, Datasets, Error Detectors ( http://arxiv.org/abs/2205.12854v2 )

ライセンス: Link先を確認
Liyan Tang, Tanya Goyal, Alexander R. Fabbri, Philippe Laban, Jiacheng Xu, Semih Yavuz, Wojciech Kry\'sci\'nski, Justin F. Rousseau, Greg Durrett(参考訳) 事実的エラーを検出するためのメトリクスの設計や、現在のシステム出力におけるエラーのアノテーションなど、事実的エラーを犯すための抽象的要約モデルが広く研究されている。 しかし、要約システム、メトリクス、注釈付きベンチマークの進化を続ける性質は、事実性評価を移動目標とし、メトリクス間の明確な比較を描くことがますます困難になっている。 本研究では,9つの既存データセットから事実性エラーアノテーションを集約し,基礎となる要約モデルに従って階層化する。 この階層化ベンチマークでは,最近のChatGPTベースの指標を含む最先端の事実性指標のパフォーマンスを比較し,その性能が様々な種類の要約モデルで大きく異なることを示す。 批判的に,近年の事実性検出空間における改善の多くは,より関連する要約モデルではなく,古い(トランスフォーマー以前の)モデルによる要約であることが示された。 さらに,エラータイプ毎のきめ細かい分析を行い,異なる事実度指標に対するエラータイプ間の類似性能のばらつきを見出した。 以上の結果から,すべての設定やエラータイプにおいて,ひとつの指標が優れているとは限りません。

The propensity of abstractive summarization models to make factual errors has been studied extensively, including design of metrics to detect factual errors and annotation of errors in current systems' outputs. However, the ever-evolving nature of summarization systems, metrics, and annotated benchmarks makes factuality evaluation a moving target, and drawing clear comparisons among metrics has become increasingly difficult. In this work, we aggregate factuality error annotations from nine existing datasets and stratify them according to the underlying summarization model. We compare performance of state-of-the-art factuality metrics, including recent ChatGPT-based metrics, on this stratified benchmark and show that their performance varies significantly across different types of summarization models. Critically, our analysis shows that much of the recent improvement in the factuality detection space has been on summaries from older (pre-Transformer) models instead of more relevant recent summarization models. We further perform a finer-grained analysis per error-type and find similar performance variance across error types for different factuality metrics. Our results show that no one metric is superior in all settings or for all error types, and we provide recommendations for best practices given these insights.
翻訳日:2023-05-30 00:17:14 公開日:2023-05-26
# TAGPRIME:関係構造抽出のための統一フレームワーク

TAGPRIME: A Unified Framework for Relational Structure Extraction ( http://arxiv.org/abs/2205.12585v2 )

ライセンス: Link先を確認
I-Hung Hsu, Kuan-Hao Huang, Shuning Zhang, Wenxin Cheng, Premkumar Natarajan, Kai-Wei Chang, Nanyun Peng(参考訳) 自然言語処理における多くのタスクは、イベント引数抽出、関係抽出、タスク指向意味解析など、与えられた条件に対する関係情報の抽出を必要とする。 最近の研究では、各タスクを独立して洗練されたモデルを提案し、これらのタスクの共通性に注意を払わず、すべてのタスクに統一されたフレームワークを持つようにしている。 本稿では,これらの課題を統一的に把握し,関係構造抽出問題に対処するためにTAGPRIMEを導入することを提案する。 TAGPRIMEは、入力テキストに与えられた条件に関する情報(イベントトリガーなど)に関する予備語を付加するシーケンスタグモデルである。 事前学習された言語モデルにおける自己対応機構により、プライミングワードは、出力された文脈化された表現に与えられた条件に関するより多くの情報を含むようにし、条件に対する特定の関係を抽出するのにより適する。 5つの言語にわたる10のデータセットをカバーする3つの異なるタスクに関する広範な実験と分析は、tagprimeの汎用性と有効性を示している。

Many tasks in natural language processing require the extraction of relationship information for a given condition, such as event argument extraction, relation extraction, and task-oriented semantic parsing. Recent works usually propose sophisticated models for each task independently and pay less attention to the commonality of these tasks and to have a unified framework for all the tasks. In this work, we propose to take a unified view of all these tasks and introduce TAGPRIME to address relational structure extraction problems. TAGPRIME is a sequence tagging model that appends priming words about the information of the given condition (such as an event trigger) to the input text. With the self-attention mechanism in pre-trained language models, the priming words make the output contextualized representations contain more information about the given condition, and hence become more suitable for extracting specific relationships for the condition. Extensive experiments and analyses on three different tasks that cover ten datasets across five different languages demonstrate the generality and effectiveness of TAGPRIME.
翻訳日:2023-05-30 00:16:54 公開日:2023-05-26
# Masked Jigsaw Puzzle: ビジョントランスフォーマーのためのVersatile Position Embeddding

Masked Jigsaw Puzzle: A Versatile Position Embedding for Vision Transformers ( http://arxiv.org/abs/2205.12551v3 )

ライセンス: Link先を確認
Bin Ren, Yahui Liu, Yue Song, Wei Bi, Rita Cucchiara, Nicu Sebe, Wei Wang(参考訳) 位置埋め込み (PE) は視覚変換器 (ViT) において必然的に必須の要素であり、多くの視覚タスクにおけるViTの性能を向上させることが示されている。 しかし、PEは入力パッチの空間情報が露出しているため、プライバシー漏洩のリスクが高い可能性がある。 この注意事項は、peが正確性、プライバシ、予測一貫性などに与える影響に関する興味深い質問を自然に生み出す。 これらの問題に対処するために,Masked Jigsaw Puzzle (MJP) 位置埋め込み法を提案する。 特に,MJPはブロックワイドランダムジグソーパズルシャッフルアルゴリズムを用いて,選択したパッチをシャッフルし,対応するPEを隠蔽する。 一方、非閉塞パッチでは、PEは元のパッチのままであるが、その空間的関係は我々の密集した絶対局在回帰器によって強化されている。 実験の結果は 1)PEは,2次元空間関係を明示的に符号化し,勾配反転攻撃時のプライバシー漏洩問題を引き起こす。 2) 無効にシャッフルされたパッチによるvitのトレーニングは、問題を緩和するが、精度は損なわれる。 3) あるシャッフル比の下では,提案したMJPは大規模データセット(ImageNet-1K, ImageNet-C, -A/O)の性能と堅牢性を向上するだけでなく,通常のグラデーション攻撃によるプライバシー保護能力を大きなマージンで向上させる。 ソースコードとトレーニングされたモデルは、~\url{https://github.com/yhlleo/MJP}で入手できる。

Position Embeddings (PEs), an arguably indispensable component in Vision Transformers (ViTs), have been shown to improve the performance of ViTs on many vision tasks. However, PEs have a potentially high risk of privacy leakage since the spatial information of the input patches is exposed. This caveat naturally raises a series of interesting questions about the impact of PEs on the accuracy, privacy, prediction consistency, etc. To tackle these issues, we propose a Masked Jigsaw Puzzle (MJP) position embedding method. In particular, MJP first shuffles the selected patches via our block-wise random jigsaw puzzle shuffle algorithm, and their corresponding PEs are occluded. Meanwhile, for the non-occluded patches, the PEs remain the original ones but their spatial relation is strengthened via our dense absolute localization regressor. The experimental results reveal that 1) PEs explicitly encode the 2D spatial relationship and lead to severe privacy leakage problems under gradient inversion attack; 2) Training ViTs with the naively shuffled patches can alleviate the problem, but it harms the accuracy; 3) Under a certain shuffle ratio, the proposed MJP not only boosts the performance and robustness on large-scale datasets (i.e., ImageNet-1K and ImageNet-C, -A/O) but also improves the privacy preservation ability under typical gradient attacks by a large margin. The source code and trained models are available at~\url{https://github.com/yhlleo/MJP}.
翻訳日:2023-05-30 00:16:38 公開日:2023-05-26
# Assurance 2.0による信頼性の評価

Assessing Confidence with Assurance 2.0 ( http://arxiv.org/abs/2205.04522v3 )

ライセンス: Link先を確認
Robin Bloomfield and John Rushby(参考訳) アシュアランス・ケースは、安全やセキュリティに関する主要な主張の真相を正当化できる信頼を提供するためのものである。 自然な疑問は、このケースがどの程度の信頼を提供するのか、ということです。 信頼は単一の属性や測定に還元できない、と我々は主張する。 代わりに、それは3つの異なる視点、すなわち正、負、および残余の疑念に基づくべきだと提案する。 ポジティブ・パースペクティブ(Positive Perspectives)は、事件の証拠と全体的な議論が組み合わさった範囲を、その主張に対する信念を正当化する肯定的な声明として考える。 私たちは正当化のために高い基準を設定しました。 これに対する第一の正の測度は音性であり、これは議論を論理的証明として解釈する。 証拠の信頼は確率論的に表すことができ、証拠の「重み」がしきい値を超えたことを保証するための確認措置を用いる。 さらに、確率論理を用いて議論のステップを通じて証拠から確率を集約して、我々がクレームの確率的評価と呼ぶものを得ることもできる。 否定的な視点は、典型的には敗者として表現される事件に対する疑念と挑戦とその探索と解決を記録している。 保証開発者は、確認バイアスを回避し、ケースを開発する際に、潜在的な敗者を探究し、再作業を避けてレビュアーを助けるために、それらとその解決を記録すべきである。 Residual Doubts: 世界は不確実であり、すべての潜在的な敗者を解決することはできない。 リスクを探求し、受け入れがたい、あるいは避けられないと判断する。 しかし、これらの判断は意識的なものであり、保証ケースに記録されていることは重要である。 本報告では,アシュアランス2.0のプロトタイプツールセットであるClarissaがどのように評価を支援するか,その視点を詳細に検討する。

An assurance case is intended to provide justifiable confidence in the truth of its top claim, which typically concerns safety or security. A natural question is then "how much" confidence does the case provide? We argue that confidence cannot be reduced to a single attribute or measurement. Instead, we suggest it should be based on attributes that draw on three different perspectives: positive, negative, and residual doubts. Positive Perspectives consider the extent to which the evidence and overall argument of the case combine to make a positive statement justifying belief in its claims. We set a high bar for justification, requiring it to be indefeasible. The primary positive measure for this is soundness, which interprets the argument as a logical proof. Confidence in evidence can be expressed probabilistically and we use confirmation measures to ensure that the "weight" of evidence crosses some threshold. In addition, probabilities can be aggregated from evidence through the steps of the argument using probability logics to yield what we call probabilistic valuations for the claims. Negative Perspectives record doubts and challenges to the case, typically expressed as defeaters, and their exploration and resolution. Assurance developers must guard against confirmation bias and should vigorously explore potential defeaters as they develop the case, and should record them and their resolution to avoid rework and to aid reviewers. Residual Doubts: the world is uncertain so not all potential defeaters can be resolved. We explore risks and may deem them acceptable or unavoidable. It is crucial however that these judgments are conscious ones and that they are recorded in the assurance case. This report examines the perspectives in detail and indicates how Clarissa, our prototype toolset for Assurance 2.0, assists in their evaluation.
翻訳日:2023-05-30 00:16:10 公開日:2023-05-26
# 逆多重クラス分類のマルチマルジナル最適輸送定式化

The Multimarginal Optimal Transport Formulation of Adversarial Multiclass Classification ( http://arxiv.org/abs/2204.12676v3 )

ライセンス: Link先を確認
Nicolas Garcia Trillos, Matt Jacobs, Jakwang Kim(参考訳) 我々は,敵対的多クラス分類問題の一家系について研究し,以下の点において等価な改定を行う。 1)本論文で導入された一般化されたバリーセンター問題の家系及び 2) 境界数の数が元の分類問題におけるクラス数に等しいようなマルチマルジナル最適輸送問題の族。 これらの新しい理論的な結果は、多クラス分類における逆学習問題のリッチな幾何学的構造を示し、最近の結果は二分分類に制限されている。 この結果の直接的な計算的意味は、バリセンタ問題とその双対、あるいはMOT問題とその双対を解くことにより、元の逆問題に対する最適ロバストな分類規則と最適逆戦略を回復できるということである。 合成および実データによる例は、我々の結果を示している。

We study a family of adversarial multiclass classification problems and provide equivalent reformulations in terms of: 1) a family of generalized barycenter problems introduced in the paper and 2) a family of multimarginal optimal transport problems where the number of marginals is equal to the number of classes in the original classification problem. These new theoretical results reveal a rich geometric structure of adversarial learning problems in multiclass classification and extend recent results restricted to the binary classification setting. A direct computational implication of our results is that by solving either the barycenter problem and its dual, or the MOT problem and its dual, we can recover the optimal robust classification rule and the optimal adversarial strategy for the original adversarial problem. Examples with synthetic and real data illustrate our results.
翻訳日:2023-05-30 00:15:41 公開日:2023-05-26
# 環境クレーム検出

Environmental Claim Detection ( http://arxiv.org/abs/2209.00507v4 )

ライセンス: Link先を確認
Dominik Stammbach, Nicolas Webersinke, Julia Anna Bingler, Mathias Kraus, Markus Leippold(参考訳) グリーンエコノミーに移行するためには、企業による環境クレームは信頼性が高く、比較され、検証可能である必要がある。 このような主張を大規模に分析するには,まずは自動で検出する必要がある。 しかし、このためのデータセットやモデルは存在しない。 そこで本稿では,環境クレーム検出の課題を紹介する。 このタスクに対応するために、専門家による注釈付きデータセットと、このデータセットでトレーニングされたモデルをリリースする。 我々は、2015年のパリ協定以降、四半期決算報告で得られた環境要求を検知し、環境要求の数が着実に増加していることを確認する。

To transition to a green economy, environmental claims made by companies must be reliable, comparable, and verifiable. To analyze such claims at scale, automated methods are needed to detect them in the first place. However, there exist no datasets or models for this. Thus, this paper introduces the task of environmental claim detection. To accompany the task, we release an expert-annotated dataset and models trained on this dataset. We preview one potential application of such models: We detect environmental claims made in quarterly earning calls and find that the number of environmental claims has steadily increased since the Paris Agreement in 2015.
翻訳日:2023-05-30 00:08:27 公開日:2023-05-26
# タスク計画のためのマルチメディア生成スクリプト学習

Multimedia Generative Script Learning for Task Planning ( http://arxiv.org/abs/2208.12306v2 )

ライセンス: Link先を確認
Qingyun Wang, Manling Li, Hou Pong Chan, Lifu Huang, Julia Hockenmaier, Girish Chowdhary, Heng Ji(参考訳) 目標指向生成スクリプト学習は,ロボットが日常生活のステレオタイプ的活動を行うのを支援する上で不可欠な課題である目標に基づいて,その後のステップを生成することを目的としている。 本課題は, 歴史的状態が人への言語指導によって捉えられただけでなく, 付随画像による付加情報によって拡張された場合にも改善できることを示す。 そこで本稿では,テキストと視覚の両モードの履歴状態をトラッキングし,さらに2,338のタスクと31,496のステップを含む最初のベンチマークを記述的画像で提示する,マルチメディア生成スクリプト学習を提案する。 視覚状態の追跡が可能で、見えないタスクに対して帰納的であり、個々のステップで多様であるスクリプトを生成することを目指している。 本稿では,マルチメディア選択型エンコーダを用いて視覚状態変化を符号化し,検索拡張デコーダを用いて先行観測されたタスクから知識を伝達し,多様性指向のコントラスト学習目標を最適化することにより,各ステップで異なる情報を示すことを提案する。 生成品質と帰納的品質の両方を評価するためにメトリクスを定義します。 実験の結果,本手法は強いベースラインを著しく上回ることがわかった。

Goal-oriented generative script learning aims to generate subsequent steps based on a goal, which is an essential task to assist robots in performing stereotypical activities of daily life. We show that the performance of this task can be improved if historical states are not just captured by the linguistic instructions given to people, but are augmented with the additional information provided by accompanying images. Therefore, we propose a new task, Multimedia Generative Script Learning, to generate subsequent steps by tracking historical states in both text and vision modalities, as well as presenting the first benchmark containing 2,338 tasks and 31,496 steps with descriptive images. We aim to generate scripts that are visual-state trackable, inductive for unseen tasks, and diverse in their individual steps. We propose to encode visual state changes through a multimedia selective encoder, transferring knowledge from previously observed tasks using a retrieval-augmented decoder, and presenting the distinct information at each step by optimizing a diversity-oriented contrastive learning objective. We define metrics to evaluate both generation quality and inductive quality. Experiment results demonstrate that our approach significantly outperforms strong baselines.
翻訳日:2023-05-30 00:08:16 公開日:2023-05-26
# ツープレイヤーゼロサムゲームにおける完全・雑音フィードバックによる最終Iterate Convergence

Last-Iterate Convergence with Full and Noisy Feedback in Two-Player Zero-Sum Games ( http://arxiv.org/abs/2208.09855v3 )

ライセンス: Link先を確認
Kenshi Abe, Kaito Ariu, Mitsuki Sakamoto, Kentaro Toyoshima, Atsushi Iwasaki(参考訳) 本稿では,2プレイヤーゼロサム正規形式ゲームにおける平衡学習のためのM2WU(Mutation-Driven Multiplicative Weights Update)を提案する。 前者では、プレイヤーはユーティリティ関数の正確な勾配ベクトルを観測する。 後者では、ノイズのある勾配ベクトルのみを観測する。 有望な乗法重み更新(MWU)や最適化MWU(OMWU)アルゴリズムでさえ、ノイズフィードバックを伴うナッシュ平衡に収束しない可能性がある。 反対に、M2WUは両方のフィードバック設定においてナッシュ平衡に近い静止点に最終点収束を示す。 次に、突然変異項を反復的に適応させることにより、正確なナッシュ平衡に収束することが証明される。 我々は,M2WUがMWUやOMWUよりも利用性と収束率が高いことを実証的に確認した。

This paper proposes Mutation-Driven Multiplicative Weights Update (M2WU) for learning an equilibrium in two-player zero-sum normal-form games and proves that it exhibits the last-iterate convergence property in both full and noisy feedback settings. In the former, players observe their exact gradient vectors of the utility functions. In the latter, they only observe the noisy gradient vectors. Even the celebrated Multiplicative Weights Update (MWU) and Optimistic MWU (OMWU) algorithms may not converge to a Nash equilibrium with noisy feedback. On the contrary, M2WU exhibits the last-iterate convergence to a stationary point near a Nash equilibrium in both feedback settings. We then prove that it converges to an exact Nash equilibrium by iteratively adapting the mutation term. We empirically confirm that M2WU outperforms MWU and OMWU in exploitability and convergence rates.
翻訳日:2023-05-30 00:07:33 公開日:2023-05-26
# カオスを学習ハーモニーにラベリングする - ノイズラベルを用いた連合学習

Labeling Chaos to Learning Harmony: Federated Learning with Noisy Labels ( http://arxiv.org/abs/2208.09378v3 )

ライセンス: Link先を確認
Vasileios Tsouvalas, Aaqib Saeed, Tanir Ozcelebi, Nirvana Meratnia(参考訳) フェデレーション学習(federated learning, fl)は、分散型機械学習パラダイムであり、分散化されたプライベートデータセットからの学習モデルを可能にする。 既存のFLアプローチの多くは、高品質なラベルがユーザのデバイスで容易に利用できると仮定しているが、実際には、ラベルノイズはFLで自然に発生し、クライアントの特徴と密接に関連している。 FLのクライアント間で利用可能なデータの不足と重要なラベルノイズの変化により、既存の最先端の集中型アプローチは不満足な性能を示す一方、以前のFL研究では過剰なデバイス上の計算スキームやサーバ上で利用可能な追加のクリーンなデータに依存していた。 本稿では,FLの初期化,オンデバイスモデルトレーニング,サーバモデルアグリゲーションなど,さまざまなFLトレーニング段階におけるラベルノイズに対処するフレームワークであるFedLNを提案する。 具体的には、FedLNは、単一フェデレーションラウンドにおけるクライアントごとのノイズレベル推定を計算し、ノイズサンプルの効果を補正または緩和することでモデルの性能を改善する。 様々な視覚および音声データセットに対する評価は,ラベルノイズレベルが60%の他の既存手法と比較して,平均で22%改善していることを示している。 我々は、人間の注釈付き実世界のノイズデータセットにおけるFedLNの効率をさらに検証し、モデルの認識性能が平均4.8%向上したことを報告した。

Federated Learning (FL) is a distributed machine learning paradigm that enables learning models from decentralized private datasets, where the labeling effort is entrusted to the clients. While most existing FL approaches assume high-quality labels are readily available on users' devices; in reality, label noise can naturally occur in FL and is closely related to clients' characteristics. Due to scarcity of available data and significant label noise variations among clients in FL, existing state-of-the-art centralized approaches exhibit unsatisfactory performance, while prior FL studies rely on excessive on-device computational schemes or additional clean data available on server. Here, we propose FedLN, a framework to deal with label noise across different FL training stages; namely, FL initialization, on-device model training, and server model aggregation, able to accommodate the diverse computational capabilities of devices in a FL system. Specifically, FedLN computes per-client noise-level estimation in a single federated round and improves the models' performance by either correcting or mitigating the effect of noisy samples. Our evaluation on various publicly available vision and audio datasets demonstrate a 22% improvement on average compared to other existing methods for a label noise level of 60%. We further validate the efficiency of FedLN in human-annotated real-world noisy datasets and report a 4.8% increase on average in models' recognition performance, highlighting that~\method~can be useful for improving FL services provided to everyday users.
翻訳日:2023-05-30 00:07:19 公開日:2023-05-26
# 物理現象を学習する熱力学

Thermodynamics of learning physical phenomena ( http://arxiv.org/abs/2207.12749v3 )

ライセンス: Link先を確認
Elias Cueto and Francisco Chinesta(参考訳) 熱力学は高い認識レベルで物理学の表現と見なすことができる。 このように、機械学習の手順が正確で信頼できる予測を達成するための帰納的バイアスとしてのポテンシャルは、近年多くの分野で実現されている。 熱力学が学習過程にどのように役立つかを概観する。 同時に,与えられた現象を記述すべきスケール,この記述に関連する変数の選択,学習プロセスで利用可能な異なる手法などの影響について検討する。

Thermodynamics could be seen as an expression of physics at a high epistemic level. As such, its potential as an inductive bias to help machine learning procedures attain accurate and credible predictions has been recently realized in many fields. We review how thermodynamics provides helpful insights in the learning process. At the same time, we study the influence of aspects such as the scale at which a given phenomenon is to be described, the choice of relevant variables for this description or the different techniques available for the learning process.
翻訳日:2023-05-30 00:06:32 公開日:2023-05-26
# 隠れスキーマネットワーク

Hidden Schema Networks ( http://arxiv.org/abs/2207.03777v2 )

ライセンス: Link先を確認
Rams\'es J. S\'anchez, Lukas Conrads, Pascal Welke, Kostadin Cvejoski and C\'esar Ojeda(参考訳) 大きな事前学習された言語モデルは、暗黙的にではあるが、豊富な意味的および構文的コンテンツをエンコードする強力な表現を推論する。 本研究では,事前学習した言語モデルの出力表現に合成性を持たせるための,帰納的バイアス,明示的リレーショナル構造を強制する新しいニューラル言語モデルを提案する。 具体的には、このモデルは文を記号列(合成表現)に符号化し、グローバル潜在グラフ上でバイアス付きランダムウォーカーが訪問したノードに対応し、後者の後方分布を推定する。 まず,このモデルを用いて,ランダムなトークン列のデータセットから基底構造グラフを抽出できることを実証した。 次に,事前学習したBERTとGPT-2言語モデルをそれぞれエンコーダとデコーダとして利用し,自然言語データセットからシンボル(スキーマ)のネットワークを推論する。 私たちの実験は (i)推定記号は、例えば話題や感情など、言語の異なる側面を符号化したものと解釈することができる。 (ii) GPT のようなモデルは記号表現に効果的に条件付けできる。 最後に,commonsense知識データベースから推定したスキーマネットワーク上での自己回帰的ランダムウォーク ‘reasoning’モデルのトレーニングと,サンプルパスを使用して,commonsense if-then推論タスクにおける事前学習された言語モデルのパフォーマンス向上について検討する。

Large, pretrained language models infer powerful representations that encode rich semantic and syntactic content, albeit implicitly. In this work we introduce a novel neural language model that enforces, via inductive biases, explicit relational structures which allow for compositionality onto the output representations of pretrained language models. Specifically, the model encodes sentences into sequences of symbols (composed representations), which correspond to the nodes visited by biased random walkers on a global latent graph, and infers the posterior distribution of the latter. We first demonstrate that the model is able to uncover ground-truth graphs from artificially generated datasets of random token sequences. Next, we leverage pretrained BERT and GPT-2 language models as encoder and decoder, respectively, to infer networks of symbols (schemata) from natural language datasets. Our experiments show that (i) the inferred symbols can be interpreted as encoding different aspects of language, as e.g. topics or sentiments, and that (ii) GPT-like models can effectively be conditioned on symbolic representations. Finally, we explore training autoregressive, random walk ``reasoning" models on schema networks inferred from commonsense knowledge databases, and using the sampled paths to enhance the performance of pretrained language models on commonsense If-Then reasoning tasks.
翻訳日:2023-05-30 00:05:43 公開日:2023-05-26
# 俳優か批評家か? 2つの時間スケールの物語

Actor-Critic or Critic-Actor? A Tale of Two Time Scales ( http://arxiv.org/abs/2210.04470v3 )

ライセンス: Link先を確認
Shalabh Bhatnagar, Vivek S. Borkar, Soumyajit Guin(参考訳) 本稿では,より高速な時間スケールで計算し,より遅い時間スケールで計算する値関数を用いた2つの時間スケール確率近似として,表型アクタ・クリティックアルゴリズムの標準的な定式化を再考する。 これはポリシーイテレーションをエミュレートする。 時間スケールの逆転が実際に値反復をエミュレートし、正当性のあるアルゴリズムであることを観察する。 関数近似法(線形関数近似法と非線形関数近似法の両方を用いて)を実験的に比較し,提案手法がアクター-批判法と精度と計算量の両方で同等の性能を発揮することを検証した。

We revisit the standard formulation of tabular actor-critic algorithm as a two time-scale stochastic approximation with value function computed on a faster time-scale and policy computed on a slower time-scale. This emulates policy iteration. We observe that reversal of the time scales will in fact emulate value iteration and is a legitimate algorithm. We provide a proof of convergence and compare the two empirically with and without function approximation (with both linear and nonlinear function approximators) and observe that our proposed critic-actor algorithm performs on par with actor-critic in terms of both accuracy and computational effort.
翻訳日:2023-05-29 23:59:32 公開日:2023-05-26
# 特徴属性記述器における境界認識の不確かさ

Boundary-Aware Uncertainty for Feature Attribution Explainers ( http://arxiv.org/abs/2210.02419v4 )

ライセンス: Link先を確認
Davin Hill, Aria Masoomi, Sandesh Ghimire, Max Torop, Jennifer Dy(参考訳) ポストホックな説明手法は、高スループットアプリケーションにおいてブラックボックス分類器を理解する上で重要なツールとなっている。 しかし、ハイパフォーマンスな分類器は、しばしば高度に非線形であり、決定境界付近で複雑な振る舞いを示し、不安定で誤解を招く局所的な説明につながる。 そのため、この説明方法の不確かさを定量化し、いつ説明が信頼できるかを理解する必要性が差し迫っている。 本稿では,決定境界認識の不確実性と説明関数近似不確実性を組み合わせた統一不確実性推定を生成するガウス過程説明不確実性(gpec)フレームワークを提案する。 対象のブラックボックス決定境界の複雑さを捉えた新しい測地線ベースのカーネルを提案する。 提案するカーネルの類似性は,決定境界の複雑さによって増大することを示す。 提案するフレームワークは非常に柔軟で,ブラックボックス分類器や特徴属性法で使用することができる。 複数の表と画像のデータセットに対する実験結果から,GPECの不確実性推定は既存手法と比較して説明の理解を向上させることが示された。

Post-hoc explanation methods have become a critical tool for understanding black-box classifiers in high-stakes applications. However, high-performing classifiers are often highly nonlinear and can exhibit complex behavior around the decision boundary, leading to brittle or misleading local explanations. Therefore there is an impending need to quantify the uncertainty of such explanation methods in order to understand when explanations are trustworthy. In this work we propose the Gaussian Process Explanation unCertainty (GPEC) framework, which generates a unified uncertainty estimate combining decision boundary-aware uncertainty with explanation function approximation uncertainty. We introduce a novel geodesic-based kernel, which captures the complexity of the target black-box decision boundary. We show theoretically that the proposed kernel similarity increases with decision boundary complexity. The proposed framework is highly flexible; it can be used with any black-box classifier and feature attribution method. Empirical results on multiple tabular and image datasets show that the GPEC uncertainty estimate improves understanding of explanations as compared to existing methods.
翻訳日:2023-05-29 23:59:20 公開日:2023-05-26
# ロボット制御のためのオプション対応逆強化学習

Option-Aware Adversarial Inverse Reinforcement Learning for Robotic Control ( http://arxiv.org/abs/2210.01969v5 )

ライセンス: Link先を確認
Jiayu Chen, Tian Lan, Vaneet Aggarwal(参考訳) 階層的模倣学習(Hierarchical Imitation Learning, HIL)は、タスク階層をオプションフレームワークでモデル化することにより、専門家による実証から長期タスクの複雑な振る舞いを復元するために提案されている。 既存の方法は、サブタスクとそれに対応するポリシーの間の因果関係を見落としているか、あるいはエンドツーエンドでポリシーを学ぶことができないため、亜最適性につながる。 本研究では, 適応逆強化学習に基づく新しいHILアルゴリズムを開発し, 予測最大化アルゴリズムで適応することで, 注釈のない実演から階層的ポリシーを直接復元する。 さらに,目的関数に有向情報項を導入して因果性を高めるとともに,目的をエンドツーエンドで学習するための変分オートエンコーダフレームワークを提案する。 本アルゴリズムの優位性を示すため,ロボット制御の課題に対する理論的正当化と評価を行った。 コードはhttps://github.com/lucascjysdl/hierairlで入手できる。

Hierarchical Imitation Learning (HIL) has been proposed to recover highly-complex behaviors in long-horizon tasks from expert demonstrations by modeling the task hierarchy with the option framework. Existing methods either overlook the causal relationship between the subtask and its corresponding policy or cannot learn the policy in an end-to-end fashion, which leads to suboptimality. In this work, we develop a novel HIL algorithm based on Adversarial Inverse Reinforcement Learning and adapt it with the Expectation-Maximization algorithm in order to directly recover a hierarchical policy from the unannotated demonstrations. Further, we introduce a directed information term to the objective function to enhance the causality and propose a Variational Autoencoder framework for learning with our objectives in an end-to-end fashion. Theoretical justifications and evaluations on challenging robotic control tasks are provided to show the superiority of our algorithm. The codes are available at https://github.com/LucasCJYSDL/HierAIRL.
翻訳日:2023-05-29 23:58:26 公開日:2023-05-26
# 下流のデータセットは驚くほど良い事前学習コーパスを作る

Downstream Datasets Make Surprisingly Good Pretraining Corpora ( http://arxiv.org/abs/2209.14389v2 )

ライセンス: Link先を確認
Kundan Krishna, Saurabh Garg, Jeffrey P. Bigham, Zachary C. Lipton(参考訳) ほとんどの自然言語処理タスクでは、より小さな下流データセットを使用して、大きな事前訓練されたトランスフォーマーモデル(例えばBERT)を微調整する。 このアプローチの成功にもかかわらず、これらの利益が、事前訓練に使用される巨大な背景コーパスと、事前訓練目的自体にどの程度寄与するかは、まだ不明である。 本稿では,事前学習と微調整の両方に同じ(下流)トレーニングデータを用いる自己訓練の大規模研究を紹介する。 ELECTRAとRoBERTaのモデルと10の異なる下流分類データセットに対処する実験では、BookWikiコーパスで事前トレーニングを行うセルフトレーニングのライバル(約10\times$--500\times$ less data)が、それぞれ7ドルと5ドルのデータセットで比較した。 驚いたことに、これらのタスク固有の事前訓練されたモデルは、GLUEベンチマークを含む他のタスクでよく機能する。 分類タスクの他に、自己事前学習は、スパンベースの質問応答やコモンセンス推論のような構造化された出力予測タスクにも利益をもたらし、しばしばBookWikiコーパスで事前トレーニングによって提供されるパフォーマンス向上の50\%以上を提供する。 以上の結果から, 事前学習に起因する性能向上は, 主に事前学習対象自体が原因であり, 外部事前学習データの大量使用に起因するとは限らないことが示唆された。 これらの知見は,Webスケール事前学習データにおける知的財産権や攻撃的コンテンツに対する懸念から,特に関連性が高い。

For most natural language processing tasks, the dominant practice is to finetune large pretrained transformer models (e.g., BERT) using smaller downstream datasets. Despite the success of this approach, it remains unclear to what extent these gains are attributable to the massive background corpora employed for pretraining versus to the pretraining objectives themselves. This paper introduces a large-scale study of self-pretraining, where the same (downstream) training data is used for both pretraining and finetuning. In experiments addressing both ELECTRA and RoBERTa models and 10 distinct downstream classification datasets, we observe that self-pretraining rivals standard pretraining on the BookWiki corpus (despite using around $10\times$--$500\times$ less data), outperforming the latter on $7$ and $5$ datasets, respectively. Surprisingly, these task-specific pretrained models often perform well on other tasks, including the GLUE benchmark. Besides classification tasks, self-pretraining also provides benefits on structured output prediction tasks such as span based question answering and commonsense inference, often providing more than $50\%$ of the performance boosts provided by pretraining on the BookWiki corpus. Our results hint that in many scenarios, performance gains attributable to pretraining are driven primarily by the pretraining objective itself and are not always attributable to the use of external pretraining data in massive amounts. These findings are especially relevant in light of concerns about intellectual property and offensive content in web-scale pretraining data.
翻訳日:2023-05-29 23:58:11 公開日:2023-05-26
# 無線ネットワークにおける可変ビット幅フェデレーション学習の性能最適化

Performance Optimization for Variable Bitwidth Federated Learning in Wireless Networks ( http://arxiv.org/abs/2209.10200v2 )

ライセンス: Link先を確認
Sihua Wang and Mingzhe Chen and Christopher G. Brinton and Changchuan Yin and Walid Saad and Shuguang Cui(参考訳) 本稿では,モデル量子化による統合学習(FL)における無線通信と計算効率の向上について考察する。 提案したビット幅FL方式では,エッジデバイスは局所FLモデルパラメータの量子化バージョンを調整し,コーディネートサーバに送信し,それらを量子化されたグローバルモデルに集約し,デバイスを同期させる。 目標は、ローカルflモデルの量子化に使用されるビット幅と、各イテレーションでflトレーニングに参加するデバイスの集合を共同で決定することである。 本稿では,音素化flの学習損失を最小限に抑えるための最適化問題として,音素化装置ごとのサンプリング予算と遅延要件を提案する。 しかし 定式化問題は 解決が困難で (i)量子化がグローバルml性能に与える影響の具体的理解 (ii)このプロセスの見積もりを効率的に構築できるサーバの能力。 最初の課題に対処するため,提案手法では,無線リソースの制限と量子化誤差が性能に与える影響を解析的に評価した。 この結果から,2回連続するイテレーション間のflトレーニング損失の定量化は,デバイス選択と量子化のスキームと,学習対象モデルに固有のパラメータに依存することがわかった。 そこで本研究では,FL学習過程をマルコフ決定過程として記述し,反復よりも行動選択を最適化するためのモデルベース強化学習(RL)手法を提案する。 モデルフリーRLと比較して、このモデルベースRLアプローチは、FLトレーニングプロセスの導出した数学的特徴を利用して、追加のデバイス通信オーバーヘッドを伴わずに効果的なデバイス選択と量子化スキームを発見する。 シミュレーションの結果,提案アルゴリズムは収束時間を短縮できることがわかった。

This paper considers improving wireless communication and computation efficiency in federated learning (FL) via model quantization. In the proposed bitwidth FL scheme, edge devices train and transmit quantized versions of their local FL model parameters to a coordinating server, which aggregates them into a quantized global model and synchronizes the devices. The goal is to jointly determine the bitwidths employed for local FL model quantization and the set of devices participating in FL training at each iteration. We pose this as an optimization problem that aims to minimize the training loss of quantized FL under a per-iteration device sampling budget and delay requirement. However, the formulated problem is difficult to solve without (i) a concrete understanding of how quantization impacts global ML performance and (ii) the ability of the server to construct estimates of this process efficiently. To address the first challenge, we analytically characterize how limited wireless resources and induced quantization errors affect the performance of the proposed FL method. Our results quantify how the improvement of FL training loss between two consecutive iterations depends on the device selection and quantization scheme as well as on several parameters inherent to the model being learned. Then, we show that the FL training process can be described as a Markov decision process and propose a model-based reinforcement learning (RL) method to optimize action selection over iterations. Compared to model-free RL, this model-based RL approach leverages the derived mathematical characterization of the FL training process to discover an effective device selection and quantization scheme without imposing additional device communication overhead. Simulation results show that the proposed FL algorithm can reduce the convergence time.
翻訳日:2023-05-29 23:57:29 公開日:2023-05-26
# rex: モデル非依存な局所的説明手法に時間情報を取り込むフレームワーク

ReX: A Framework for Incorporating Temporal Information in Model-Agnostic Local Explanation Techniques ( http://arxiv.org/abs/2209.03798v2 )

ライセンス: Link先を確認
Junhao Liu, Xin Zhang(参考訳) 可変長の入力を処理できるニューラルネットワークモデルは強力だが、しばしば解釈するのが困難である。 透明性の欠如は、多くのドメインで採用を妨げる。 説明技法は透明性向上に不可欠である。 しかし、既存のモデル非依存の一般的な説明技術は入力データポイントの可変長を考慮せず、有効性を制限している。 この制限に対処するため、可変長入力を処理するモデルに様々な説明手法を適用するための一般的なフレームワークであるReXを提案し、説明範囲を異なる長さのデータポイントに拡大する。 提案手法では,コアアルゴリズムを変更することなく,既存の手法による説明に時間的情報を加える。 LIME と Anchors の2つの一般的な説明手法にアプローチをインスタンス化する。 ReXの有効性を評価するために,2つの異なるタスクにおいて3つのモデルに適用する。 評価の結果,本手法は説明の忠実性と理解性を大幅に向上させることがわかった。

Neural network models that can handle inputs of variable lengths are powerful, but often hard to interpret. The lack of transparency hinders their adoption in many domains. Explanation techniques are essential for improving transparency. However, existing model-agnostic general explanation techniques do not consider the variable lengths of input data points, which limits their effectiveness. To address this limitation, we propose ReX, a general framework for adapting various explanation techniques to models that process variable-length inputs, expanding explanation coverage to data points of different lengths. Our approach adds temporal information to the explanations generated by existing techniques without altering their core algorithms. We instantiate our approach on two popular explanation techniques: LIME and Anchors. To evaluate the effectiveness of ReX, we apply our approach to three models in two different tasks. Our evaluation results demonstrate that our approach significantly improves the fidelity and understandability of explanations.
翻訳日:2023-05-29 23:57:02 公開日:2023-05-26
# 新しい配列の単純なドイツ語コーパス

A New Aligned Simple German Corpus ( http://arxiv.org/abs/2209.01106v4 )

ライセンス: Link先を確認
Vanessa Toborek and Moritz Busch and Malte Bo{\ss}ert and Christian Bauckhage and Pascal Welke(参考訳) ドイツ語で「leichte sprache」を意味する「leichte sprache」は、異なる集団に通じない複雑な文字言語を促進することを目的とした規制された言語である。 単純ドイツ語のための文列単言語コーパスを新たに提案する。 自動文アライメント手法を用いてアライメントした複数の文書アライメントソースを含んでいる。 文書を手動でラベル付けしたサブセットに基づいてアライメントを評価する。 文のアライメントの質は、F1スコアで測定されたように、以前の作業を上回る。 データセットはCC BY-SAで公開し、対応するコードはMITライセンスで公開します。

"Leichte Sprache", the German counterpart to Simple English, is a regulated language aiming to facilitate complex written language that would otherwise stay inaccessible to different groups of people. We present a new sentence-aligned monolingual corpus for Simple German -- German. It contains multiple document-aligned sources which we have aligned using automatic sentence-alignment methods. We evaluate our alignments based on a manually labelled subset of aligned documents. The quality of our sentence alignments, as measured by F1-score, surpasses previous work. We publish the dataset under CC BY-SA and the accompanying code under MIT license.
翻訳日:2023-05-29 23:56:29 公開日:2023-05-26
# アダプティブクロスと並列スーパービジョンによる立体内視鏡像のロバスト3次元再構成のための双方向半教師付きデュアルブランチCNN

Bidirectional Semi-supervised Dual-branch CNN for Robust 3D Reconstruction of Stereo Endoscopic Images via Adaptive Cross and Parallel Supervisions ( http://arxiv.org/abs/2210.08291v5 )

ライセンス: Link先を確認
Hongkuan Shi, Zhiwei Wang, Ying Zhou, Dun Li, Xin Yang, Qiang Li(参考訳) 教師-学生ネットワークによる半教師付き学習は、いくつかのラベル付きサンプルでモデルを効果的に訓練することができる。 学生モデルでは、教師の余分なラベル付きデータの予測から知識を抽出することができる。 しかし、このような知識の流れは通常一方向であり、パフォーマンスは教師モデルの品質に弱い。 本稿では,教師と学生の両方の役割を兼ね備えた,新しい双方向学習方式を提案することによって,ステレオ内視鏡画像の3次元再構築を活発に行うことを目的とする。 具体的には,二重分岐畳み込みニューラルネットワークを学習するために,適応クロス・スーパービジョン(acs)と適応パラレル・スーパービジョン(aps)という2つの自己スーパービジョンを導入する。 2つの枝は同じ位置で2つの異なる相違確率分布を予測し、その相違値として期待を出力する。 学習した知識は、分岐方向(ACSにおける分散誘導)と平行方向(APSにおける分散誘導)の2つの方向に沿って流れている。 さらに、各ブランチは、提供された監督を動的に洗練するための信頼性も学習する。 ACSでは、予測された相違が一様分布に軟化され、信頼性が低ければ低いほど分布は滑らかになる。 APSでは、信頼性の低い人の体重を下げることで誤った予測を抑える。 適応的な双方向学習では、2つの枝はよく調整された指導を受け、最終的には一貫したより正確な格差推定に収束する。 4つの公開データセットに対する広範囲かつ包括的な実験結果は、平均的な不一致誤差を少なくとも9.76%減少させた他の最先端技術よりも優れたパフォーマンスを示している。

Semi-supervised learning via teacher-student network can train a model effectively on a few labeled samples. It enables a student model to distill knowledge from the teacher's predictions of extra unlabeled data. However, such knowledge flow is typically unidirectional, having the performance vulnerable to the quality of teacher model. In this paper, we seek to robust 3D reconstruction of stereo endoscopic images by proposing a novel fashion of bidirectional learning between two learners, each of which can play both roles of teacher and student concurrently. Specifically, we introduce two self-supervisions, i.e., Adaptive Cross Supervision (ACS) and Adaptive Parallel Supervision (APS), to learn a dual-branch convolutional neural network. The two branches predict two different disparity probability distributions for the same position, and output their expectations as disparity values. The learned knowledge flows across branches along two directions: a cross direction (disparity guides distribution in ACS) and a parallel direction (disparity guides disparity in APS). Moreover, each branch also learns confidences to dynamically refine its provided supervisions. In ACS, the predicted disparity is softened into a unimodal distribution, and the lower the confidence, the smoother the distribution. In APS, the incorrect predictions are suppressed by lowering the weights of those with low confidence. With the adaptive bidirectional learning, the two branches enjoy well-tuned supervisions, and eventually converge on a consistent and more accurate disparity estimation. The extensive and comprehensive experimental results on four public datasets demonstrate our superior performance over other state-of-the-arts with a relative decrease of averaged disparity error by at least 9.76%.
翻訳日:2023-05-29 23:49:26 公開日:2023-05-26
# フレーズ表現検索による名前付きエンティティ認識データセットの自動生成

Automatic Creation of Named Entity Recognition Datasets by Querying Phrase Representations ( http://arxiv.org/abs/2210.07586v3 )

ライセンス: Link先を確認
Hyunjae Kim, Jaehyo Yoo, Seunghyun Yoon, Jaewoo Kang(参考訳) 殆どの弱い教師付き名前付きエンティティ認識(ner)モデルは専門家が提供したドメイン固有辞書に依存している。 このアプローチは辞書が存在しない多くのドメインでは実現不可能である。 最近の研究では、句検索モデルがwikipediaから抽出されたエンティティを持つ疑似辞書を構築するのに使われたが、これらの辞書は、レトリバーが珍しいものよりも人気の高いエンティティを検索する可能性が高いため、カバーが限られていることが多い。 本研究では,高被覆擬似辞書を用いたNERデータセットを生成する新しいフレームワークであるHighGENを提案する。 具体的には,様々なエンティティに密集した空間を検索することを促す句埋め込み探索と呼ばれる新しい検索手法を用いて,エンティティに富む辞書を作成する。 さらに,エンティティ参照候補とエンティティタイプ間の埋め込み距離に基づく新しい検証プロセスを用いて,高被覆辞書によって生成された弱ラベルの偽陽性ノイズを低減する。 5つのNERベンチマークデータセットの平均F1スコア4.7で、HighGENが前のベストモデルより優れていたことを実証する。

Most weakly supervised named entity recognition (NER) models rely on domain-specific dictionaries provided by experts. This approach is infeasible in many domains where dictionaries do not exist. While a phrase retrieval model was used to construct pseudo-dictionaries with entities retrieved from Wikipedia automatically in a recent study, these dictionaries often have limited coverage because the retriever is likely to retrieve popular entities rather than rare ones. In this study, we present a novel framework, HighGEN, that generates NER datasets with high-coverage pseudo-dictionaries. Specifically, we create entity-rich dictionaries with a novel search method, called phrase embedding search, which encourages the retriever to search a space densely populated with various entities. In addition, we use a new verification process based on the embedding distance between candidate entity mentions and entity types to reduce the false-positive noise in weak labels generated by high-coverage dictionaries. We demonstrate that HighGEN outperforms the previous best model by an average F1 score of 4.7 across five NER benchmark datasets.
翻訳日:2023-05-29 23:48:47 公開日:2023-05-26
# データもバランスもとれる - バランスよく効率的な多言語モデルを目指して

You Can Have Your Data and Balance It Too: Towards Balanced and Efficient Multilingual Models ( http://arxiv.org/abs/2210.07135v2 )

ライセンス: Link先を確認
Tomasz Limisiewicz and Dan Malkin and Gabriel Stanovsky(参考訳) マルチリンガルモデルは低リソース言語へのクロスリンガル転送に広く用いられている。 しかし、これらの言語の性能は、事前学習データの不足によって妨げられている。 この問題を軽減するために,教師による知識蒸留に基づく多言語学習手法を提案する。 この設定では、言語に最適化された単言語教師モデルを利用する。 教師たちは、バランスのとれた(サブサンプリングされた)データと共に、教師の知識を1つの多言語学生に蒸留する。 提案手法は,低リソース言語における標準学習方法より優れ,同じ量のデータを用いて高リソース言語における性能を再訓練する。 広く適用されれば,NLPシステムにおける低リソース言語の表現を増大させることができる。

Multilingual models have been widely used for cross-lingual transfer to low-resource languages. However, the performance on these languages is hindered by their underrepresentation in the pretraining data. To alleviate this problem, we propose a novel multilingual training technique based on teacher-student knowledge distillation. In this setting, we utilize monolingual teacher models optimized for their language. We use those teachers along with balanced (sub-sampled) data to distill the teachers' knowledge into a single multilingual student. Our method outperforms standard training methods in low-resource languages and retrains performance on high-resource languages while using the same amount of data. If applied widely, our approach can increase the representation of low-resource languages in NLP systems.
翻訳日:2023-05-29 23:47:49 公開日:2023-05-26
# コントラスト学習による言語非依存多言語情報検索

Language Agnostic Multilingual Information Retrieval with Contrastive Learning ( http://arxiv.org/abs/2210.06633v3 )

ライセンス: Link先を確認
Xiyang Hu, Xinchi Chen, Peng Qi, Deguang Kong, Kunlun Liu, William Yang Wang, Zhiheng Huang(参考訳) 多言語情報検索(IR)は、注釈付きトレーニングデータが多くの言語で取得するのにコストがかかるため困難である。 本稿では、英語のIRトレーニングデータと、英語と他言語の並列コーパスのみを利用できる場合に、多言語IRシステムの学習に有効な方法を提案する。 パラレルコーポラと非並列コーポラを用いて,事前学習された多言語モデルの言語間伝達能力を向上させる。 我々は、異なる言語で同じ意味を持つ並列文の表現を整合させる意味的コントラストロスを設計し、並列文ペアを利用して非並列コーパスから文表現における言語固有の情報を除去する新しい言語コントラストロスを設計する。 これらの損失を伴って英語のIRデータをトレーニングし、非英語データでゼロショットを評価すると、検索性能に関する先行研究よりも大幅に改善され、計算労力は大幅に削減される。 また,並列コーパスがいくつかの言語でのみ利用可能である場合,並列コーパスリソースの欠如が他の低リソース言語で持続する場合には,実用的にモデルの価値を示す。 私たちのモデルは、少数の並列文でもうまく機能し、バックボーンや他のタスクへのアドオンモジュールとして使用できます。

Multilingual information retrieval (IR) is challenging since annotated training data is costly to obtain in many languages. We present an effective method to train multilingual IR systems when only English IR training data and some parallel corpora between English and other languages are available. We leverage parallel and non-parallel corpora to improve the pretrained multilingual language models' cross-lingual transfer ability. We design a semantic contrastive loss to align representations of parallel sentences that share the same semantics in different languages, and a new language contrastive loss to leverage parallel sentence pairs to remove language-specific information in sentence representations from non-parallel corpora. When trained on English IR data with these losses and evaluated zero-shot on non-English data, our model demonstrates significant improvement to prior work on retrieval performance, while it requires much less computational effort. We also demonstrate the value of our model for a practical setting when a parallel corpus is only available for a few languages, but a lack of parallel corpora resources persists for many other low-resource languages. Our model can work well even with a small number of parallel sentences, and be used as an add-on module to any backbones and other tasks.
翻訳日:2023-05-29 23:47:38 公開日:2023-05-26
# 言語モデルは特定できるのか? どうやって?

Can Language Models Be Specific? How? ( http://arxiv.org/abs/2210.05159v2 )

ライセンス: Link先を確認
Jie Huang, Kevin Chen-Chuan Chang, Jinjun Xiong, Wen-mei Hwu(参考訳) 「彼は人です」「パリは地球上にあります」 どちらの文も正確だが意味がない。 本稿では,事前学習型言語モデル(plm)の言語がどの程度具体的であるかを測定することを提案する。 これを実現するために,マスク付きトークン予測タスクをプロンプトで形成することにより,特異性テストのためのベンチマークを構築する新しい手法を提案する。 例えば "Toronto is located in [MASK]" を仮定すると,カナダの代わりにオンタリオ州など,より具体的な回答が PLM によって満たされるかどうかを検証したい。 評価の結果,既存のPLMはより具体的な回答を少ししか好まないことがわかった。 具体性に影響を与える要因を特定し,具体性を改善するための2つのプロンプトベースの手法を設計する。 以上の結果から,提案手法によりモデルの特異性が向上できることが示唆された。 この研究が言語モデルの特異性の概念を意識し、研究コミュニティにこの重要だが未調査の問題をさらに探求するよう促すことを願っている。

"He is a person", "Paris is located on the earth". Both statements are correct but meaningless - due to lack of specificity. In this paper, we propose to measure how specific the language of pre-trained language models (PLMs) is. To achieve this, we introduce a novel approach to build a benchmark for specificity testing by forming masked token prediction tasks with prompts. For instance, given "Toronto is located in [MASK].", we want to test whether a more specific answer will be better filled in by PLMs, e.g., Ontario instead of Canada. From our evaluations, we show that existing PLMs have only a slight preference for more specific answers. We identify underlying factors affecting the specificity and design two prompt-based methods to improve the specificity. Results show that the specificity of the models can be improved by the proposed methods without additional training. We hope this work can bring to awareness the notion of specificity of language models and encourage the research community to further explore this important but understudied problem.
翻訳日:2023-05-29 23:47:16 公開日:2023-05-26
# REV:自由テキスト合理化の情報理論評価

REV: Information-Theoretic Evaluation of Free-Text Rationales ( http://arxiv.org/abs/2210.04982v4 )

ライセンス: Link先を確認
Hanjie Chen, Faeze Brahman, Xiang Ren, Yangfeng Ji, Yejin Choi, Swabha Swayamdipta(参考訳) 自由文有理数の生成は、説明可能なNLPへの有望なステップであるが、そのような有理数の評価は依然として課題である。 既存のメトリクスは主に、合理的性と与えられたラベルの関係を測定することに重点を置いています。 理想的な計量は、入力やラベルに提供されない理性において一意に提供される新しい情報に焦点を当てるべきである。 本研究は,条件付きV情報を用いた情報理論の観点から検討する(Hewitt et al., 2021)。 より具体的には,REV(Rationale Evaluation with Conditional V-information)と呼ばれるメトリクスを提案し,入力やラベルで既に利用可能な情報以外の理性理論において,ラベル関連情報量の定量化を行う。 思考の連鎖を含む推論タスクを伴う4つのベンチマーク実験は、既存のメトリクスと比較して合理性とラベルのペアを評価する上でのREVの有効性を示す。 さらに、REVは、有理性評価に関する人間の判断と整合性を示し、自由文有理性における新しい情報のより敏感な測定を提供する。 従来のパフォーマンス指標と並行して使用すると、REVはモデルの推論と予測プロセスに関する深い洞察を提供する。

Generating free-text rationales is a promising step towards explainable NLP, yet evaluating such rationales remains a challenge. Existing metrics have mostly focused on measuring the association between the rationale and a given label. We argue that an ideal metric should focus on the new information uniquely provided in the rationale that is otherwise not provided in the input or the label. We investigate this research problem from an information-theoretic perspective using conditional V-information (Hewitt et al., 2021). More concretely, we propose a metric called REV (Rationale Evaluation with conditional V-information), to quantify the amount of new, label-relevant information in a rationale beyond the information already available in the input or the label. Experiments across four benchmarks with reasoning tasks, including chain-of-thought, demonstrate the effectiveness of REV in evaluating rationale-label pairs, compared to existing metrics. We further demonstrate REV is consistent with human judgments on rationale evaluations and provides more sensitive measurements of new information in free-text rationales. When used alongside traditional performance metrics, REV provides deeper insights into models' reasoning and prediction processes.
翻訳日:2023-05-29 23:46:59 公開日:2023-05-26
# 浅層ニューラルネットワーク分類器を克服したマルチモードファイバリザーバコンピューティング

Multi-mode fiber reservoir computing overcomes shallow neural networks classifiers ( http://arxiv.org/abs/2210.04745v2 )

ライセンス: Link先を確認
Daniele Ancora, Matteo Negri, Antonio Gianfrate, Dimitris Trypogeorgos, Lorenzo Dominici, Daniele Sanvitto, Federico Ricci-Tersenghi, Luca Leuzzi(参考訳) 乱れたフォトニクスの分野では、光伝達を制御するために光学不透明な材料を特徴づけることやイメージングを行うことが共通の目的である。 様々な複雑なデバイスの中で、多モード光ファイバは費用対効果と扱いやすいツールとして際立っている。 この文脈では、貯留層計算のパラダイムを利用して、これらのファイバーをランダムなハードウェアプロジェクタにリキャストし、入力データセットを高次元のスペックル画像集合に変換する。 本研究の目的は,単一ロジスティック回帰層のトレーニングによる分類におけるランダム化データの利用が,直接生画像のトレーニングに比べて精度を向上させることを示すことである。 興味深いことに, この貯水池で得られた分類精度は, 乱れた装置による光透過を記述する手段として広く受け入れられている標準透過マトリクスモデルよりも高いことがわかった。 このような性能向上の理由は、現在のディープニューラルネットワークの理論と整合するファイバーデータを用いたトレーニングにおいて、ハードウェア分類器が損失ランドスケープのフラットな領域で動作していることに起因している可能性がある。 これらの結果は、多モードファイバが強力な一般化特性を有しており、光アシストニューラルネットワークの有望なツールとして位置づけられていることを強く示唆している。 本研究は,これらの多目的楽器の知識と実用性の向上に寄与し,機械学習の未来を形作る上で重要な役割を担っていると考えられる。

In the field of disordered photonics, a common objective is to characterize optically opaque materials for controlling light delivery or performing imaging. Among various complex devices, multi-mode optical fibers stand out as cost-effective and easy-to-handle tools, making them attractive for several tasks. In this context, we leverage the reservoir computing paradigm to recast these fibers into random hardware projectors, transforming an input dataset into a higher dimensional speckled image set. The goal of our study is to demonstrate that using such randomized data for classification by training a single logistic regression layer improves accuracy compared to training on direct raw images. Interestingly, we found that the classification accuracy achieved using the reservoir is also higher than that obtained with the standard transmission matrix model, a widely accepted tool for describing light transmission through disordered devices. We find that the reason for such improved performance could be due to the fact that the hardware classifier operates in a flatter region of the loss landscape when trained on fiber data, which aligns with the current theory of deep neural networks. These findings strongly suggest that multi-mode fibers possess robust generalization properties, positioning them as promising tools for optically-assisted neural networks. With this study, in fact, we want to contribute to advancing the knowledge and practical utilization of these versatile instruments, which may play a significant role in shaping the future of machine learning.
翻訳日:2023-05-29 23:46:37 公開日:2023-05-26
# O(n^2)におけるスパンベースネスト付きネスト値認識のための動的プログラミングアルゴリズム

A dynamic programming algorithm for span-based nested named-entity recognition in O(n^2) ( http://arxiv.org/abs/2210.04738v2 )

ライセンス: Link先を確認
Caio Corro(参考訳) Span-based nested named-entity recognition (NER) はCYKアルゴリズムの変種を用いた3次時間複雑性を持つ。 探索空間に補足的構造制約を加えることで、ネストされたNERは2次時間複雑性を持ち、これは非ネストの場合と同じ漸近的複雑性を持つことを示す。 提案アルゴリズムは3つの標準英語ベンチマークの大部分をカバーし,同等の実験結果を提供する。

Span-based nested named-entity recognition (NER) has a cubic-time complexity using a variant of the CYK algorithm. We show that by adding a supplementary structural constraint on the search space, nested NER has a quadratic-time complexity, that is the same asymptotic complexity than the non-nested case. The proposed algorithm covers a large part of three standard English benchmarks and delivers comparable experimental results.
翻訳日:2023-05-29 23:46:14 公開日:2023-05-26
# QuACK: Koopman演算子学習による勾配に基づく量子最適化の高速化

QuACK: Accelerating Gradient-Based Quantum Optimization with Koopman Operator Learning ( http://arxiv.org/abs/2211.01365v2 )

ライセンス: Link先を確認
Di Luo, Jiayu Shen, Rumen Dangovski, Marin Solja\v{c}i\'c(参考訳) 量子コンピューティングの重要な応用である量子最適化は、パラメータ数の増加を伴う勾配計算の線形に増加する複雑さによって、伝統的に抑制されてきた。 この研究は、非線形力学の予測に成功したことで知られるクープマン作用素論と、量子最適化における自然勾配法とのギャップを橋渡し、勾配に基づく量子最適化の大幅な加速に繋がる。 本稿では,量子コンピュータ上での勾配ダイナミクスの効率的な予測に交互アルゴリズムを用いた新しいフレームワークquackを提案する。 量子最適化と機械学習の幅広い応用において、勾配に基づく最適化を加速するQuACKの驚くべき能力を示す。 実際、量子化学、量子凝縮物質、量子機械学習、ノイズの多い環境にまたがる我々の実証研究は、過度にパラメータ化された状態における200倍以上のスピードアップ、滑らかな状態における10倍のスピードアップ、非滑らかな状態における3倍のスピードアップを示した。 QuACKでは、現実的な利益のために勾配に基づく量子最適化の利点を利用する堅牢な進歩を提供する。

Quantum optimization, a key application of quantum computing, has traditionally been stymied by the linearly increasing complexity of gradient calculations with an increasing number of parameters. This work bridges the gap between Koopman operator theory, renowned for its success in predicting nonlinear dynamics, and natural gradient methods in quantum optimization, leading to a significant acceleration of gradient-based quantum optimization. We present Quantum-circuit Alternating Controlled Koopman learning (QuACK), a novel framework that leverages an alternating algorithm for efficient prediction of gradient dynamics on quantum computers. We demonstrate QuACK's remarkable ability to accelerate gradient-based optimization across a range of applications in quantum optimization and machine learning. In fact, our empirical studies, spanning quantum chemistry, quantum condensed matter, quantum machine learning, and noisy environments, have shown accelerations of more than 200x speedup in the overparameterized regime, 10x speedup in the smooth regime, and 3x speedup in the non-smooth regime. With QuACK, we offer a robust advancement that harnesses the advantage of gradient-based quantum optimization for practical benefits.
翻訳日:2023-05-29 23:40:29 公開日:2023-05-26
# P$-Wave Feshbach共鳴近傍の単一成分フェルミガス中の異常損失挙動

Anomalous loss behavior in a single-component Fermi gas close to a $p$-Wave Feshbach resonance ( http://arxiv.org/abs/2210.15981v2 )

ライセンス: Link先を確認
K. Welz, M. Gerken, B. Zhu, E. Lippi, M. Rautenberg, L. Chomaz, M. Weidem\"uller(参考訳) 相互作用する非単位系におけるフェシュバッハ共振器近傍の単一成分フェルミガスの3体損失について理論的に検討した。 waseem \textit{et al. によって導入されたカスケードモデルを拡張する。 とM。 Waseem, J. Yoshida, T. Saito, T. Mukaiyama, Phys A \textbf{99}, 052704 (2019)] は弾性および非弾性衝突過程を記述する。 損失挙動は, 弾性-非弾性衝突速度の比が 1 より大きい場合, それぞれ$n^3$, 異常な$n^2$の密度依存性を示す。 エネルギー分布の対応する進化は、それぞれ低エネルギー非熱的定常状態への衝突冷却または進化を示す。 これらの知見は、フェルミオンリチウム原子の基底状態における超低温気体の原子損失とエネルギー進化を理解することに特に関係している。

We theoretically investigate three-body losses in a single-component Fermi gas near a $p$-wave Feshbach resonance in the interacting, non-unitary regime. We extend the cascade model introduced by Waseem \textit{et al.} [M. Waseem, J. Yoshida, T. Saito, and T. Mukaiyama, Phys. Rev. A \textbf{99}, 052704 (2019)] to describe the elastic and inelastic collision processes. We find that the loss behavior exhibits a $n^3$ and an anomalous $n^2$ density dependence for a ratio of elastic-to-inelastic collision rate larger and smaller than 1, respectively. The corresponding evolutions of the energy distribution show collisional cooling or evolution toward low-energetic non-thermalized steady states, respectively. These findings are particularly relevant for understanding atom loss and energetic evolution of ultracold gases of fermionic lithium atoms in their ground state.
翻訳日:2023-05-29 23:39:46 公開日:2023-05-26
# JECC:インタラクティブフィクションから得られた常識推論タスク

JECC: Commonsense Reasoning Tasks Derived from Interactive Fictions ( http://arxiv.org/abs/2210.15456v2 )

ライセンス: Link先を確認
Mo Yu, Yi Gu, Xiaoxiao Guo, Yufei Feng, Xiaodan Zhu, Michael Greenspan, Murray Campbell, Chuang Gan(参考訳) commonsenseの推論は、私たちの物理的な世界について推定する人間の能力をシミュレートし、一般的なaiシステムを構築する上で重要な基礎となる。 本研究では,人間プレイヤーが多様かつ多様なコモンセンス推論を実証する際,人間のインタラクティブフィクション(IF)ゲームプレイスルーに基づく新しいコモンセンス推論データセットを提案する。 新しいデータセットは、様々な推論タイプの自然な混合を提供し、マルチホップ推論を必要とする。 さらに、IFゲームベースの建設手順は、以前のものよりもはるかに少ない人間の介入を必要とする。 既存のベンチマークと異なり、我々のデータセットは、事実知識よりも機能的常識知識ルールの評価に焦点を当てている。 したがって、タスクのより高いパフォーマンスを達成するために、モデルは事実を記憶することのみに頼るのではなく、そのような機能的知識を効果的に活用して行動の結果を予測する必要がある。 実験によると、導入されたデータセットは、従来の機械学習モデルだけでなく、人間のエキスパートに比べて20%のパフォーマンスギャップを持つ新しい大規模言語モデルにも挑戦している。

Commonsense reasoning simulates the human ability to make presumptions about our physical world, and it is an essential cornerstone in building general AI systems. We propose a new commonsense reasoning dataset based on human's Interactive Fiction (IF) gameplay walkthroughs as human players demonstrate plentiful and diverse commonsense reasoning. The new dataset provides a natural mixture of various reasoning types and requires multi-hop reasoning. Moreover, the IF game-based construction procedure requires much less human interventions than previous ones. Different from existing benchmarks, our dataset focuses on the assessment of functional commonsense knowledge rules rather than factual knowledge. Hence, in order to achieve higher performance on our tasks, models need to effectively utilize such functional knowledge to infer the outcomes of actions, rather than relying solely on memorizing facts. Experiments show that the introduced dataset is challenging to previous machine reading models as well as the new large language models with a significant 20% performance gap compared to human experts.
翻訳日:2023-05-29 23:39:31 公開日:2023-05-26
# MARLlib: スケーラブルなマルチエージェント強化学習ライブラリ

MARLlib: A Scalable Multi-agent Reinforcement Learning Library ( http://arxiv.org/abs/2210.13708v2 )

ライセンス: Link先を確認
Siyi Hu, Yifan Zhong, Minquan Gao, Weixun Wang, Hao Dong, Zhihui Li, Xiaodan Liang, Xiaojun Chang, Yaodong Yang(参考訳) マルチエージェントシステム(MAS)とマルチエージェント強化学習(MARL)アルゴリズムの急速な開発にもかかわらず、統一評価プラットフォームや一般に認められたベースライン実装がない。 したがって、様々なベンチマークで信頼性の高いMARL実装と複製可能な評価を提供する統合ライブラリスイートを開発する必要がある。 このような研究ギャップを埋めるために,本稿ではマルチエージェント問題を解決するための総合的なMARLアルゴリズムライブラリであるMARLlibを提案する。 エージェントレベルの分散データフローの新しい設計により、MARLlibは数十のアルゴリズムを高度に構成可能な統合スタイルで統一する。 さらに、MARLlibは多様な環境インターフェースを統合し、フレキシブルなパラメータ共有戦略を提供することで、現在の作業を超えています。 最後に、MARLlibは使いやすいAPIと完全に分離された構成システムを提供し、エンドユーザが学習プロセスを操作できるようにする。 アルゴリズムコンポーネントの性能と設計との関係について,さらに新たな知見を導き出すため,実装の正しさを実証するために,多数の実験を行った。 MARLlibでは、研究者が信頼できるソリューションで、より広範な現実世界のマルチエージェント問題に対処できることを期待しています。 Github: \url{https://github.com/Replicable-MARL/MARLlib

Despite the fast development of multi-agent systems (MAS) and multi-agent reinforcement learning (MARL) algorithms, there is a lack of unified evaluation platforms and commonly-acknowledged baseline implementation. Therefore, an urgent need is to develop an integrated library suite that delivers reliable MARL implementation and replicable evaluation in various benchmarks. To fill such a research gap, in this paper, we propose MARLlib, a comprehensive MARL algorithm library for solving multi-agent problems. With a novel design of agent-level distributed dataflow, MARLlib manages to unify tens of algorithms in a highly composable integration style. Moreover, MARLlib goes beyond current work by integrating diverse environment interfaces and providing flexible parameter sharing strategies; this allows for versatile solutions to cooperative, competitive, and mixed tasks with minimal code modifications for end users. Finally, MARLlib provides easy-to-use APIs and a fully decoupled configuration system to help end users manipulate the learning process. A plethora of experiments is conducted to substantiate the correctness of our implementation, based on which we further derive new insights into the relationship between the performance and the design of algorithmic components. With MARLlib, we expect researchers to be able to tackle broader real-world multi-agent problems with trustworthy solutions. Github: \url{https://github.com/Replicable-MARL/MARLlib
翻訳日:2023-05-29 23:39:16 公開日:2023-05-26
# インスタンス対応画像補完

Instance-Aware Image Completion ( http://arxiv.org/abs/2210.12350v3 )

ライセンス: Link先を確認
Jinoh Cho, Minguk Kang, Vibhav Vineet and Jaesik Park(参考訳) 画像補完は、マスクされた画像の欠落領域を、妥当な内容で埋めることを目的としたタスクである。 しかし、既存の画像補完手法では、シーンのコンテキストに応じて適切な視覚的インスタンスを幻覚させるのではなく、周囲のテクスチャで不足領域を埋める傾向にある。 そこで本研究では,不完全という新しい画像補完モデルを提案する。 imcompleteはまず、可視インスタンスと欠落した領域の位置を考慮したtransformerアーキテクチャを採用する。 そして、欠落領域内のセマンティクスセグメンテーションマスクを完了させ、ピクセルレベルのセマンティクスと構造ガイダンスを提供する。 最後に、画像合成ブロックは、フォトリアリスティックコンテンツを生成する。 視覚的品質 (LPIPS, FID) と文脈保存スコア (CLIPスコア, オブジェクト検出精度) をCOCO-panoptic と Visual Genome のデータセットを用いて総合的に評価する。 実験の結果,ImCompleteの自然画像に対する優位性が示された。

Image completion is a task that aims to fill in the missing region of a masked image with plausible contents. However, existing image completion methods tend to fill in the missing region with the surrounding texture instead of hallucinating a visual instance that is suitable in accordance with the context of the scene. In this work, we propose a novel image completion model, dubbed ImComplete, that hallucinates the missing instance that harmonizes well with - and thus preserves - the original context. ImComplete first adopts a transformer architecture that considers the visible instances and the location of the missing region. Then, ImComplete completes the semantic segmentation masks within the missing region, providing pixel-level semantic and structural guidance. Finally, the image synthesis blocks generate photo-realistic content. We perform a comprehensive evaluation of the results in terms of visual quality (LPIPS and FID) and contextual preservation scores (CLIPscore and object detection accuracy) with COCO-panoptic and Visual Genome datasets. Experimental results show the superiority of ImComplete on various natural images.
翻訳日:2023-05-29 23:38:52 公開日:2023-05-26
# 体験者の感情と評価予測

Experiencer-Specific Emotion and Appraisal Prediction ( http://arxiv.org/abs/2210.12078v2 )

ライセンス: Link先を確認
Maximilian Wegge and Enrica Troiano and Laura Oberl\"ander and Roman Klinger(参考訳) NLPにおける感情分類は、文章や段落などの感情をテキストに割り当てる。 彼が泣いたときに罪悪感を感じた」といったテキストでは、文章レベルでは、状況における各参加者の立場を無視している: 作家(i)と他の実体(he)は、実際には異なる情緒的状態を持つ可能性がある。 異なる実体の感情は、感情的役割を感情的キュー語に関連付けるタスクである感情意味的役割ラベリングにおいてのみ考慮されてきた。 関連するタスクを提供して、イベントの経験者に焦点を絞り、それぞれに感情(もしあれば)を割り当てます。 この目的のために、我々は各感情を分類的および評価変数の両方で表現し、ある人が特定の感情を発達させる理由を説明する心理的アクセスとして表現する。 イベント記述コーパスでは,経験者の感情と評価のモデルが経験者非依存のベースラインより優れており,イベント参加者を無視することが感情検出タスクの過度な単純化であることを示す。

Emotion classification in NLP assigns emotions to texts, such as sentences or paragraphs. With texts like "I felt guilty when he cried", focusing on the sentence level disregards the standpoint of each participant in the situation: the writer ("I") and the other entity ("he") could in fact have different affective states. The emotions of different entities have been considered only partially in emotion semantic role labeling, a task that relates semantic roles to emotion cue words. Proposing a related task, we narrow the focus on the experiencers of events, and assign an emotion (if any holds) to each of them. To this end, we represent each emotion both categorically and with appraisal variables, as a psychological access to explaining why a person develops a particular emotion. On an event description corpus, our experiencer-aware models of emotions and appraisals outperform the experiencer-agnostic baselines, showing that disregarding event participants is an oversimplification for the emotion detection task.
翻訳日:2023-05-29 23:38:32 公開日:2023-05-26
# さまざまな名前付きエンティティ認識タスクのためのエンティティからテキストへのデータ拡張

Entity-to-Text based Data Augmentation for various Named Entity Recognition Tasks ( http://arxiv.org/abs/2210.10343v2 )

ライセンス: Link先を確認
Xuming Hu, Yong Jiang, Aiwei Liu, Zhongqiang Huang, Pengjun Xie, Fei Huang, Lijie Wen, Philip S. Yu(参考訳) データ拡張技術は、様々なNERタスク(フラット、ネスト、不連続なNERタスク)におけるラベル付きデータの不足の問題を軽減するために使われてきた。 既存の拡張技法は、テキストの意味的一貫性を損なう原文の単語を操作するか、原文のエンティティを無視する生成モデルを利用するかのどちらかであり、これはネストしたnerタスクや不連続なnerタスクでの拡張技術の使用を妨げる。 本稿では,原文のエンティティリストにおけるエンティティの追加,削除,置換,交換を行うためのentdaと呼ばれる新しいエンティティ間データ拡張手法を提案し,これらの拡張エンティティリストを用いて,様々なnerタスクに対して意味的に一貫性のあるエンティティ保存テキストを生成する。 さらに,テキスト生成過程における多様性を高めるために,多様性ビーム探索を導入する。 3つのタスク(フラット、ネスト、不連続なNERタスク)にわたる13のNERデータセットと2つの設定(フルデータとリソース設定の低い)に対する実験は、EnTDAがベースライン拡張技術よりもパフォーマンスの向上をもたらすことを示している。

Data augmentation techniques have been used to alleviate the problem of scarce labeled data in various NER tasks (flat, nested, and discontinuous NER tasks). Existing augmentation techniques either manipulate the words in the original text that break the semantic coherence of the text, or exploit generative models that ignore preserving entities in the original text, which impedes the use of augmentation techniques on nested and discontinuous NER tasks. In this work, we propose a novel Entity-to-Text based data augmentation technique named EnTDA to add, delete, replace or swap entities in the entity list of the original texts, and adopt these augmented entity lists to generate semantically coherent and entity preserving texts for various NER tasks. Furthermore, we introduce a diversity beam search to increase the diversity during the text generation process. Experiments on thirteen NER datasets across three tasks (flat, nested, and discontinuous NER tasks) and two settings (full data and low resource settings) show that EnTDA could bring more performance improvements compared to the baseline augmentation techniques.
翻訳日:2023-05-29 23:37:56 公開日:2023-05-26
# 要約候補の融合に向けて

Towards Summary Candidates Fusion ( http://arxiv.org/abs/2210.08779v2 )

ライセンス: Link先を確認
Mathieu Ravaut, Shafiq Joty, Nancy F. Chen(参考訳) sequence-to-sequence deep neural models fine-tuned for abstractive summarizationは、十分な人間のアノテーションでデータセット上で優れたパフォーマンスを達成することができる。 しかし、トップビームサーチ出力とオラクルビームとの間には広いギャップがあり、それらが完全なポテンシャルに到達していないことが示されている。 近年,より優れた要約候補を選択するための手法が提案されている。 しかし、このような方法は第1段階の候補が捉えた概要品質の側面によって制限される。 この制限を回避するために,いくつかの要約候補を融合して新しい抽象的第2段階要約を生成する,第2段階抽象要約の新しいパラダイムであるsummafusionを提案する。 本手法は,複数の要約データセットでよく機能し,融解サマリーのROUGEスコアと定性の両方を改善した。 fuseの候補がもっと悪い場合、例えば、新しい最先端設定をするときのような、特に良いことです。 コードとチェックポイントはhttps://github.com/ntunlp/SummaFusion/.comで公開します。

Sequence-to-sequence deep neural models fine-tuned for abstractive summarization can achieve great performance on datasets with enough human annotations. Yet, it has been shown that they have not reached their full potential, with a wide gap between the top beam search output and the oracle beam. Recently, re-ranking methods have been proposed, to learn to select a better summary candidate. However, such methods are limited by the summary quality aspects captured by the first-stage candidates. To bypass this limitation, we propose a new paradigm in second-stage abstractive summarization called SummaFusion that fuses several summary candidates to produce a novel abstractive second-stage summary. Our method works well on several summarization datasets, improving both the ROUGE scores and qualitative properties of fused summaries. It is especially good when the candidates to fuse are worse, such as in the few-shot setup where we set a new state-of-the-art. We will make our code and checkpoints available at https://github.com/ntunlp/SummaFusion/.
翻訳日:2023-05-29 23:37:35 公開日:2023-05-26
# 相関ブースト量子エンジン:原理実証実験

Correlation-boosted quantum engine: A proof-of-principle demonstration ( http://arxiv.org/abs/2211.11449v2 )

ライセンス: Link先を確認
Marcela Herrera, John H. Reina, Irene D'Amico, Roberto M. Serra(参考訳) 現在利用可能な量子技術を活用して、標準カルノット限界を超える効率を達成することができる非古典的相関のSWAPヒートエンジンを設計し、実装する。 このようなエンジンはまた、作業物質の初期量子相関が存在しないエンジンのサイクルに関して、より広いパラメータウィンドウにおける抽出可能な作業量を増加させる。 促進された効率は、エントロピー生成と全熱力学サイクル中の量子相関の消費の間のトレードオフから生じる。 相関サイクルに対する一般化された第2法則を導出し,クラウド量子プロセッサ上で熱エンジンを効果的に調整することにより,エンジン効率向上の実証・実証を行う。

Employing currently available quantum technology, we design and implement a non-classically correlated SWAP heat engine that allows to achieve an efficiency above the standard Carnot limit. Such an engine also boosts the amount of extractable work, in a wider parameter window, with respect to engine's cycle in the absence of initial quantum correlations in the working substance. The boosted efficiency arises from a trade-off between the entropy production and the consumption of quantum correlations during the full thermodynamic cycle. We derive a generalized second-law limit for the correlated cycle and implement a proof-of-principle demonstration of the engine efficiency enhancement by effectively tailoring the thermal engine on a cloud quantum processor.
翻訳日:2023-05-29 23:30:17 公開日:2023-05-26
# 多目的最適化のための並列アルゴリズムポートフォリオの自動構築

Automatic Construction of Parallel Algorithm Portfolios for Multi-objective Optimization ( http://arxiv.org/abs/2211.09498v2 )

ライセンス: Link先を確認
Xiasheng Ma, Shengcai Liu, Wenjing Hong(参考訳) 万能多目的進化アルゴリズム(MOEA)が、可能な全多目的最適化問題(MOP)において他のすべてのMOEAを支配下に置くことはないことが広く知られている。 本稿では,複数のmoeaを独立して並列に実行し,それらを最大限に活用し,異なるmoeaの利点を組み合わせる並列アルゴリズムポートフォリオ(parallel algorithm portfolio:pap)の利用を提唱する。 PAPのマニュアル構築は簡単で面倒なため,MPPを解くための高性能なPAPの自動構築を提案する。 具体的には、まず、従来のpapsよりもmopsの出力解セットをよりよく決定できる、moeas/papの変種を提案する。 そこで本研究では,moeas/papの自動構築手法として,複数のmopにおけるmoeasの性能評価のための新しい性能指標を提案する。 最後に,提案手法を用いてモップのトレーニングセットとnsga-iiのいくつかの変種によって定義されるアルゴリズム構成空間に基づいてmoeas/papを構築する。 実験の結果、自動構築されたMOEA/PAPは、人間の専門家が設計した最先端のMOEAと競合し、多目的最適化におけるPAPの自動構築の可能性を示した。

It has been widely observed that there exists no universal best Multi-objective Evolutionary Algorithm (MOEA) dominating all other MOEAs on all possible Multi-objective Optimization Problems (MOPs). In this work, we advocate using the Parallel Algorithm Portfolio (PAP), which runs multiple MOEAs independently in parallel and gets the best out of them, to combine the advantages of different MOEAs. Since the manual construction of PAPs is non-trivial and tedious, we propose to automatically construct high-performance PAPs for solving MOPs. Specifically, we first propose a variant of PAPs, namely MOEAs/PAP, which can better determine the output solution set for MOPs than conventional PAPs. Then, we present an automatic construction approach for MOEAs/PAP with a novel performance metric for evaluating the performance of MOEAs across multiple MOPs. Finally, we use the proposed approach to construct a MOEAs/PAP based on a training set of MOPs and an algorithm configuration space defined by several variants of NSGA-II. Experimental results show that the automatically constructed MOEAs/PAP can even rival the state-of-the-art ensemble MOEAs designed by human experts, demonstrating the huge potential of automatic construction of PAPs in multi-objective optimization.
翻訳日:2023-05-29 23:30:04 公開日:2023-05-26
# マルチビュー圧縮表現を用いたロバスト低リソースファインチューニングに向けて

Towards Robust Low-Resource Fine-Tuning with Multi-View Compressed Representations ( http://arxiv.org/abs/2211.08794v4 )

ライセンス: Link先を確認
Linlin Liu, Xingxuan Li, Megh Thakkar, Xin Li, Shafiq Joty, Luo Si, Lidong Bing(参考訳) 大量のパラメータのため、事前訓練された言語モデル(PLM)の微調整は、低リソースのシナリオで過度に適合する傾向がある。 そこで本研究では,PLMの隠れ表現に基づいてオーバーフィッティングを低減する手法を提案する。 微調整の際には, PLMの隠蔽層間にランダムなオートエンコーダを挿入し, 前の層からのアクティベーションを複数ビュー圧縮表現に変換して上層に供給する。 オートエンコーダは微調整後に接続されるので,提案手法ではパラメータの追加や推論時の計算コストの増大は行わない。 本手法は,多種多様なシーケンスおよびトークンレベルの低リソースnlpタスクにおいて有望な性能改善を示す。

Due to the huge amount of parameters, fine-tuning of pretrained language models (PLMs) is prone to overfitting in the low resource scenarios. In this work, we present a novel method that operates on the hidden representations of a PLM to reduce overfitting. During fine-tuning, our method inserts random autoencoders between the hidden layers of a PLM, which transform activations from the previous layers into multi-view compressed representations before feeding them into the upper layers. The autoencoders are plugged out after fine-tuning, so our method does not add extra parameters or increase computation cost during inference. Our method demonstrates promising performance improvement across a wide range of sequence- and token-level low-resource NLP tasks.
翻訳日:2023-05-29 23:29:43 公開日:2023-05-26
# メタアトムを用いた浮揚光メカニクス

Levitated Optomechanics with Meta-Atoms ( http://arxiv.org/abs/2211.08235v4 )

ライセンス: Link先を確認
Sergei Lepeshov, Nadine Meyer, Patrick Maurer, Oriol Romero-Isart and Romain Quidant(参考訳) そこで本研究では, 三重共鳴を支える準波長および高誘電率誘電体粒子をトラップすることで, 浮遊光学のさらなる制御を導入することを提案する。 特に, 真空中におけるシリコンナノ粒子の光学浮揚と地中冷却は実験的に実現可能であるだけでなく, トラップ周波数とトラップ深さの両面から広く用いられているシリカ粒子よりも高い性能を示す。 また, 粒子共鳴に対するトラップレーザーの減衰を調整することにより, 偏光性の符号が負となり, 定在波のノードなど, レーザ強度の最小値の浮揚が可能となることを示した。 後者は、フォトニックナノ構造と近距離力センシングに強い結合をもたらす2レベル原子に類似した、赤と青の調整された周波数を組み合わせた光学的近接場におけるナノ粒子のトラップの扉を開く。

We propose to introduce additional control in levitated optomechanics by trapping a meta-atom, i.e. a subwavelength and high-permittivity dielectric particle supporting Mie resonances. In particular, we theoretically demonstrate that optical levitation and center-of-mass ground-state cooling of silicon nanoparticles in vacuum is not only experimentally feasible but it offers enhanced performance over widely used silica particles, in terms of both trap frequency and trap depth. Moreover, we show that, by adjusting the detuning of the trapping laser with respect to the particle's resonance, the sign of the polarizability becomes negative, enabling levitation in the minimum of laser intensity e.g. at the nodes of a standing wave. The latter opens the door to trapping nanoparticles in the optical near-field combining red and blue-detuned frequencies, in analogy to two-level atoms, which is of interest for generating strong coupling to photonic nanostructures and short-distance force sensing.
翻訳日:2023-05-29 23:29:29 公開日:2023-05-26
# 多視点注意による階層的発音評価

Hierarchical Pronunciation Assessment with Multi-Aspect Attention ( http://arxiv.org/abs/2211.08102v2 )

ライセンス: Link先を確認
Heejin Do, Yunsu Kim, Gary Geunbae Lee(参考訳) 自動発音評価はコンピュータによる発音訓練システムの主要な構成要素である。 音素、単語、発話などの様々なレベルの粒度で発音をスコアリングし、正確性、流束性、完全性といった多様な側面を欠かせない奥行きフィードバックを提供する。 しかし,既存の多アスペクト多粒度手法は,すべての粒度レベルを同時に予測するので,音素,単語,発話の言語的階層を捉えることは困難である。 この制限により、同一言語単位における親密な対面関係は無視される。 本稿では,言語構造を直接捉えるために,粒度レベルを階層的に表現する階層的発音評価(hipama,multi-aspect attention)モデルを提案する。 粒度とアスペクトの両面から関係情報を取得することで、HiPAMAはマルチタスク学習を最大限に活用することができる。 speachocean762データセットにおける実験結果の顕著な改善はヒパマのロバスト性、特に評価の難しい側面を示している。

Automatic pronunciation assessment is a major component of a computer-assisted pronunciation training system. To provide in-depth feedback, scoring pronunciation at various levels of granularity such as phoneme, word, and utterance, with diverse aspects such as accuracy, fluency, and completeness, is essential. However, existing multi-aspect multi-granularity methods simultaneously predict all aspects at all granularity levels; therefore, they have difficulty in capturing the linguistic hierarchy of phoneme, word, and utterance. This limitation further leads to neglecting intimate cross-aspect relations at the same linguistic unit. In this paper, we propose a Hierarchical Pronunciation Assessment with Multi-aspect Attention (HiPAMA) model, which hierarchically represents the granularity levels to directly capture their linguistic structures and introduces multi-aspect attention that reflects associations across aspects at the same level to create more connotative representations. By obtaining relational information from both the granularity- and aspect-side, HiPAMA can take full advantage of multi-task learning. Remarkable improvements in the experimental results on the speachocean762 datasets demonstrate the robustness of HiPAMA, particularly in the difficult-to-assess aspects.
翻訳日:2023-05-29 23:29:12 公開日:2023-05-26
# GreenPLM: 単言語事前学習言語モデルのほぼ無償で言語間移行

GreenPLM: Cross-Lingual Transfer of Monolingual Pre-Trained Language Models at Almost No Cost ( http://arxiv.org/abs/2211.06993v3 )

ライセンス: Link先を確認
Qingcheng Zeng, Lucas Garay, Peilin Zhou, Dading Chong, Yining Hua, Jiageng Wu, Yikang Pan, Han Zhou, Rob Voigt, Jie Yang(参考訳) 大きな事前訓練されたモデルは自然言語処理(nlp)の研究と応用に革命をもたらしたが、高い訓練コストと限られたデータ資源は、世界中の言語話者の間でその利点が平等に共有されることを妨げている。 このようなモデルへの言語横断的アクセスの問題に対処し、大規模モデルトレーニングにおける持続可能性のためのエネルギー消費を削減するため、両言語レキシコンを用いて、学習済みの言語モデルを他の言語に直接翻訳するグリーンPLMと呼ばれる効果的でエネルギー効率の良いフレームワークを提案する。 このアプローチを18言語のBERTモデルで検証し、このフレームワークがトレーニングコストの高い他のヒューリスティックと同等であることを示す。 さらに、利用可能な限られたデータに対する軽量な事前トレーニングが続くと、このフレームワークは7つのテスト言語のうち6つのモノリンガル言語モデルで、最大200倍の事前トレーニング作業でパフォーマンスを向上する。 LNOB(Leave No One Behind Principle)では,言語間の不平等とエネルギー消費を大幅に削減する。 コードとモデルをここで公開しています。 \url{https://github.com/qcznlp/GreenPLMs}

Large pre-trained models have revolutionized natural language processing (NLP) research and applications, but high training costs and limited data resources have prevented their benefits from being shared equally amongst speakers of all the world's languages. To address issues of cross-linguistic access to such models and reduce energy consumption for sustainability during large-scale model training, this study proposes an effective and energy-efficient framework called GreenPLM that uses bilingual lexicons to directly "translate" pre-trained language models of one language into another at almost no additional cost. We validate this approach in 18 languages' BERT models and show that this framework is comparable to, if not better than, other heuristics with high training costs. In addition, given lightweight continued pre-training on limited data where available, this framework outperforms the original monolingual language models in six out of seven tested languages with up to 200x less pre-training efforts. Aiming at the Leave No One Behind Principle (LNOB), our approach manages to reduce inequalities between languages and energy consumption greatly. We make our codes and models publicly available here: \url{https://github.com/qcznlp/GreenPLMs}
翻訳日:2023-05-29 23:28:53 公開日:2023-05-26
# 航空自律性向上のためのスケーラブルなモジュール合成データ生成

Scalable Modular Synthetic Data Generation for Advancing Aerial Autonomy ( http://arxiv.org/abs/2211.05335v2 )

ライセンス: Link先を確認
Mehrnaz Sabet, Praveen Palanisamy, Sakshi Mishra(参考訳) 自律性向上の大きな障壁のひとつは、機械学習モデルをトレーニングするための大規模な空中データセット収集だ。 ドローンの展開によるコストと時間を要する実世界のデータ収集により、ドローンアプリケーションのトレーニングモデルに合成データを使用することへのシフトが増えている。 しかし、広く一般化され、実世界へのモデル転送が促進されるため、全ての種類にわたってモデルを訓練し、トレーニングデータを強化するためのシミュレーション環境の多様化が不可欠であることが証明されている。 現在の合成空中データ生成ツールは、データ拡張の欠如か、手動のワークロードや実際のサンプルに大きく依存している。 これらの依存関係はデータ生成ワークフローのスケーラビリティを制限する。 したがって、合成データ生成の汎用性とスケーラビリティのバランスには大きな課題がある。 これらのギャップに対処するため、航空自律アプリケーションに適したスケーラブルなAerial Synthetic Data Augmentation(ASDA)フレームワークを導入します。 ASDAは中央データ収集エンジンを拡張し、2つのスクリプト可能なパイプラインでシーンとデータ拡張を自動的に実行し、異なるトレーニングタスクのための多様な空中データセットを生成する。 ASDAは、柔軟な制御のために統合パイプライン上で統一されたプロンプトベースのインターフェースを提供することで、データ生成ワークフローの効率を改善する。 データ拡張の手続き的生成アプローチは、異なるシミュレーション環境、トレーニングタスク、データ収集ニーズに適応し、実行可能である。 多様なデータセットを自動生成する手法の有効性を実証し、下流の性能最適化の可能性を示す。

One major barrier to advancing aerial autonomy has been collecting large-scale aerial datasets for training machine learning models. Due to costly and time-consuming real-world data collection through deploying drones, there has been an increasing shift towards using synthetic data for training models in drone applications. However, to increase widespread generalization and transferring models to real-world, increasing the diversity of simulation environments to train a model over all the varieties and augmenting the training data, has been proved to be essential. Current synthetic aerial data generation tools either lack data augmentation or rely heavily on manual workload or real samples for configuring and generating diverse realistic simulation scenes for data collection. These dependencies limit scalability of the data generation workflow. Accordingly, there is a major challenge in balancing generalizability and scalability in synthetic data generation. To address these gaps, we introduce a scalable Aerial Synthetic Data Augmentation (ASDA) framework tailored to aerial autonomy applications. ASDA extends a central data collection engine with two scriptable pipelines that automatically perform scene and data augmentations to generate diverse aerial datasets for different training tasks. ASDA improves data generation workflow efficiency by providing a unified prompt-based interface over integrated pipelines for flexible control. The procedural generative approach of our data augmentation is performant and adaptable to different simulation environments, training tasks and data collection needs. We demonstrate the effectiveness of our method in automatically generating diverse datasets and show its potential for downstream performance optimization.
翻訳日:2023-05-29 23:28:30 公開日:2023-05-26
# ギヤモータの終端試験における産業的ゆらぎ雑音下での音響異常検出特性の検討

Discussion of Features for Acoustic Anomaly Detection under Industrial Disturbing Noise in an End-of-Line Test of Geared Motors ( http://arxiv.org/abs/2211.01716v3 )

ライセンス: Link先を確認
Peter Wissbrock, David Pelkmann, and Yvonne Richter(参考訳) ギヤモータの終端試験では, 製品品質の評価が重要である。 時間的制約と変動量の多様性のため、アコースティック測定は振動測定よりも経済的である。 しかし,音響データは産業騒音の影響を受けている。 そこで本研究の目的は,ギア付モータエンドオブライン試験において異常検出に用いる特徴のロバスト性を検討することである。 典型的な断層と音響障害を持つ実世界のデータセットを音響アレイで記録する。 これには生産からの産業ノイズと、ロバスト性を比較するために使用される体系的な外乱が含まれる。 全体として,対数エンベロープスペクトルから抽出した特徴と心理音響的特徴を併用することを提案する。 この異常除去は、孤立林またはより普遍的な袋詰めランダムマイナーを用いて行う。 ほとんどの外乱は回避できるが、ハンマーや空気圧の使用はしばしば問題を引き起こす。 一般に、これらの結果は音響・振動計測に基づく調音監視作業において重要である。 さらに、一般的なシグナル処理と機械学習タスクを改善するために、実世界の問題記述が提示される。

In the end-of-line test of geared motors, the evaluation of product qual-ity is important. Due to time constraints and the high diversity of variants, acous-tic measurements are more economical than vibration measurements. However, the acoustic data is affected by industrial disturbing noise. Therefore, the aim of this study is to investigate the robustness of features used for anomaly detection in geared motor end-of-line testing. A real-world dataset with typical faults and acoustic disturbances is recorded by an acoustic array. This includes industrial noise from the production and systematically produced disturbances, used to compare the robustness. Overall, it is proposed to apply features extracted from a log-envelope spectrum together with psychoacoustic features. The anomaly de-tection is done by using the isolation forest or the more universal bagging random miner. Most disturbances can be circumvented, while the use of a hammer or air pressure often causes problems. In general, these results are important for condi-tion monitoring tasks that are based on acoustic or vibration measurements. Fur-thermore, a real-world problem description is presented to improve common sig-nal processing and machine learning tasks.
翻訳日:2023-05-29 23:28:04 公開日:2023-05-26
# 畳み込みニューラルネットワークを用いた量子類似性テスト

Quantum Similarity Testing with Convolutional Neural Networks ( http://arxiv.org/abs/2211.01668v3 )

ライセンス: Link先を確認
Ya-Dong Wu, Yan Zhu, Ge Bai, Yuexuan Wang, Giulio Chiribella(参考訳) 2つの非文字化量子デバイスが同じように振る舞うかどうかをテストするタスクは、短期量子コンピュータと量子シミュレーターのベンチマークに不可欠だが、これまでは連続可変量子システムに対してオープンだった。 本稿では,制約データと雑音データを用いて未知の連続変数状態を比較する機械学習アルゴリズムを開発する。 このアルゴリズムは、以前の手法では類似性テストが達成できない非ガウス量子状態で動作する。 本手法は,計測データから構築した低次元状態表現に基づいて,量子状態の類似性を評価する畳み込みニューラルネットワークに基づいている。 ネットワークは、テスト対象の状態と構造的な類似性を共有する複数の状態の古典的なシミュレーションデータ、またはfiducial状態の測定によって生成された実験データ、またはシミュレーションデータと実験データの組み合わせでオフラインでトレーニングすることができる。 任意選択数依存性位相ゲートによって生成された雑音猫状態および状態におけるモデルの性能を検証した。 我々のネットワークは、異なる実験プラットフォーム間の連続変数状態と異なる達成可能な測定セットを比較する問題や、2つの状態がガウスユニタリ変換に等しいかどうかを実験的に検証する問題にも適用できる。

The task of testing whether two uncharacterized quantum devices behave in the same way is crucial for benchmarking near-term quantum computers and quantum simulators, but has so far remained open for continuous-variable quantum systems. In this Letter, we develop a machine learning algorithm for comparing unknown continuous variable states using limited and noisy data. The algorithm works on non-Gaussian quantum states for which similarity testing could not be achieved with previous techniques. Our approach is based on a convolutional neural network that assesses the similarity of quantum states based on a lower-dimensional state representation built from measurement data. The network can be trained offline with classically simulated data from a fiducial set of states sharing structural similarities with the states to be tested, or with experimental data generated by measurements on the fiducial states, or with a combination of simulated and experimental data. We test the performance of the model on noisy cat states and states generated by arbitrary selective number-dependent phase gates. Our network can also be applied to the problem of comparing continuous variable states across different experimental platforms, with different sets of achievable measurements, and to the problem of experimentally testing whether two states are equivalent up to Gaussian unitary transformations.
翻訳日:2023-05-29 23:27:46 公開日:2023-05-26
# RQUGE:質問に対する回答による質問生成評価のための基準フリーメトリクス

RQUGE: Reference-Free Metric for Evaluating Question Generation by Answering the Question ( http://arxiv.org/abs/2211.01482v3 )

ライセンス: Link先を確認
Alireza Mohammadshahi and Thomas Scialom and Majid Yazdani and Pouya Yanki and Angela Fan and James Henderson and Marzieh Saeidi(参考訳) bleu、rouge、bertscore、bleurtなどの自動生成質問の品質評価のための既存のメトリクスは、参照と予測された質問を比較し、候補と参照質問の間に語彙的重複や意味的類似性がある場合に高いスコアを与える。 このアプローチには2つの大きな欠点がある。 まず、人間が提供する高価な参照質問が必要です。 第二に、参照質問と高い語彙的あるいは意味的類似性を持たない有効な質問をペナライズする。 本稿では,その文脈に与えられた質問に対する回答可能性に基づいて,新しい尺度RQUGEを提案する。 このメトリクスは、既存の文献から事前学習されたモデルを使用して、質問応答とスパンスコアモジュールで構成されており、それ以上のトレーニングなしで使用できる。 RQUGEは基準質問に頼らずに人間の判断と高い相関性を有することを示す。 さらに、RQUGEはいくつかの敵の腐敗に対してより堅牢であることが示されている。 さらに,質問生成モデルが生成し,RQUGEが再ランク付けした合成データを微調整することにより,ドメイン外のデータセット上でのQAモデルの性能を大幅に向上させることができることを示す。

Existing metrics for evaluating the quality of automatically generated questions such as BLEU, ROUGE, BERTScore, and BLEURT compare the reference and predicted questions, providing a high score when there is a considerable lexical overlap or semantic similarity between the candidate and the reference questions. This approach has two major shortcomings. First, we need expensive human-provided reference questions. Second, it penalises valid questions that may not have high lexical or semantic similarity to the reference questions. In this paper, we propose a new metric, RQUGE, based on the answerability of the candidate question given the context. The metric consists of a question-answering and a span scorer modules, using pre-trained models from existing literature, thus it can be used without any further training. We demonstrate that RQUGE has a higher correlation with human judgment without relying on the reference question. Additionally, RQUGE is shown to be more robust to several adversarial corruptions. Furthermore, we illustrate that we can significantly improve the performance of QA models on out-of-domain datasets by fine-tuning on synthetic data generated by a question generation model and re-ranked by RQUGE.
翻訳日:2023-05-29 23:27:23 公開日:2023-05-26
# オフライン強化学習のための多元データからの行動推定

Behavior Estimation from Multi-Source Data for Offline Reinforcement Learning ( http://arxiv.org/abs/2211.16078v3 )

ライセンス: Link先を確認
Guoxi Zhang and Hisashi Kashima(参考訳) オフライン強化学習(RL)はその魅力あるデータ効率のために関心が高まっている。 本研究では,多くのオフラインRLアルゴリズムの基礎となる行動推定について述べる。 行動推定は、トレーニングデータを生成するポリシーを推定することを目的としている。 特に本研究では,複数のソースからデータを収集するシナリオについて考察する。 この場合、データの不均一性を無視して、行動推定のための既存のアプローチは行動の特定に悩まされる。 この欠点を克服するために,本研究では,データから一連のポリシーを推測する潜在変数モデルを提案する。 このモデルは、マルチソースデータに対するきめ細かいキャラクタリゼーションをエージェントに提供し、振舞いの特定を克服するのに役立つ。 この研究は、このモデルの学習アルゴリズムも提案し、既存のオフラインRLアルゴリズムを拡張してその実用性を示す。 最後に,本研究は,行動の誤特定の存在と提案モデルの有効性を確認した。

Offline reinforcement learning (RL) have received rising interest due to its appealing data efficiency. The present study addresses behavior estimation, a task that lays the foundation of many offline RL algorithms. Behavior estimation aims at estimating the policy with which training data are generated. In particular, this work considers a scenario where the data are collected from multiple sources. In this case, neglecting data heterogeneity, existing approaches for behavior estimation suffers from behavior misspecification. To overcome this drawback, the present study proposes a latent variable model to infer a set of policies from data, which allows an agent to use as behavior policy the policy that best describes a particular trajectory. This model provides with a agent fine-grained characterization for multi-source data and helps it overcome behavior misspecification. This work also proposes a learning algorithm for this model and illustrates its practical usage via extending an existing offline RL algorithm. Lastly, with extensive evaluation this work confirms the existence of behavior misspecification and the efficacy of the proposed model.
翻訳日:2023-05-29 23:21:37 公開日:2023-05-26
# 対照的なノベルティ強化学習:大言語モデルによるアウトリーチの予測

Contrastive Novelty-Augmented Learning: Anticipating Outliers with Large Language Models ( http://arxiv.org/abs/2211.15718v2 )

ライセンス: Link先を確認
Albert Xu, Xiang Ren, and Robin Jia(参考訳) 多くのタスク設定において、テキスト分類モデルは、正しく予測できない新しいクラスの例に遭遇する可能性が高い。 モデルが低信頼の例に固執する選択的予測は、可能な解決策を提供するが、既存のモデルは、しばしば見当たらないクラスに過度に自信を持っている。 この過度な自信を補うために,新しいクラスを代表するOOD例を生成する2段階の手法であるContrastive Novelty-Augmented Learning (CoNAL)を導入し,その信頼性を低下させる訓練を行った。 まず、大きな言語モデルを2回促すことでoodの例を生成します。 関連する新規クラスを列挙するように促し、タスクフォーマットにマッチする各新規クラスから例を生成します。 第2に,ood生成例に対する信頼度をトレーニング例よりも低くする,新しい対照目的を持った分類器を訓練する。 CoNALで訓練すると、分類器は4つのNLPデータセットにまたがる精度曲線(AUAC)と5.5%のAUROCで平均2.3%の精度で、従来の手法よりも新しいクラスのサンプルを検出して吸収する能力を向上する。

In many task settings, text classification models are likely to encounter examples from novel classes on which they cannot predict correctly. Selective prediction, in which models abstain on low-confidence examples, provides a possible solution, but existing models are often overly confident on unseen classes. To remedy this overconfidence, we introduce Contrastive Novelty-Augmented Learning (CoNAL), a two-step method that generates OOD examples representative of novel classes, then trains to decrease confidence on them. First, we generate OOD examples by prompting a large language model twice: we prompt it to enumerate relevant novel classes, then generate examples from each novel class matching the task format. Second, we train a classifier with a novel contrastive objective that encourages lower confidence on generated OOD examples than training examples. When trained with CoNAL, classifiers improve in their ability to detect and abstain on novel class examples over prior methods by an average of 2.3% in terms of accuracy under the accuracy-coverage curve (AUAC) and 5.5% AUROC across 4 NLP datasets, with no cost to in-distribution accuracy.
翻訳日:2023-05-29 23:21:22 公開日:2023-05-26
# Satlas: リモートセンシング画像理解のための大規模データセット

Satlas: A Large-Scale Dataset for Remote Sensing Image Understanding ( http://arxiv.org/abs/2211.15660v2 )

ライセンス: Link先を確認
Favyen Bastani and Piper Wolters and Ritwik Gupta and Joe Ferdinando and Aniruddha Kembhavi(参考訳) リモートセンシング画像は、森林伐採の追跡から違法漁業への対処まで、さまざまな地球モニタリング用途に有用である。 地球は極めて多様で、リモートセンシング画像における潜在的タスクの量は膨大であり、特徴の大きさは数kmから数十cm程度である。 しかしながら、汎用的なコンピュータビジョン手法を作成することは、多くのタスクのためにこれらの多様な特徴をキャプチャする大規模なデータセットが欠如していることによる課題である。 本稿では,137のカテゴリで302mのラベルと7つのラベルタイプからなる,広さとスケールの両面で大きなリモートセンシングデータセットとベンチマークであるsatlasを提案する。 我々は8つのベースラインと提案手法をsatlas上で評価し,リモートセンシングに特有の研究課題に対して,非常に異なる種類のセンサからのイメージからなる画像時系列の処理や,長距離空間コンテキストの活用など,改善の余地があることを見出した。 さらに,Satlasの事前トレーニングによって下流タスクのパフォーマンスが大幅に向上し,ImageNetよりも平均精度が18%,次の最良ベースラインより6%向上することがわかった。

Remote sensing images are useful for a wide variety of earth monitoring applications, from tracking deforestation to tackling illegal fishing. The earth is extremely diverse -- the amount of potential tasks in remote sensing images is massive, and the sizes of features range from several kilometers to just tens of centimeters. However, creating generalizable computer vision methods is a challenge in part due to the lack of a large-scale dataset that captures these diverse features for many tasks. In this paper, we present Satlas, a remote sensing dataset and benchmark that is large in both breadth and scale, comprising 302M labels under 137 categories and seven label types. We evaluate eight baselines and a proposed method on Satlas, and find that there is substantial room for improvement in addressing research challenges specific to remote sensing, including processing image time series that consist of images from very different types of sensors, and taking advantage of long-range spatial context. Moreover, we find that pre-training on Satlas substantially improves performance on downstream tasks, increasing average accuracy by 18% over ImageNet and 6% over the next best baseline.
翻訳日:2023-05-29 23:20:58 公開日:2023-05-26
# songrewriter: コントロール可能なコンテンツとrhymeスキームを備えた中国の歌の書き直しシステム

SongRewriter: A Chinese Song Rewriting System with Controllable Content and Rhyme Scheme ( http://arxiv.org/abs/2211.15037v2 )

ライセンス: Link先を確認
Yusen Sun, Liangyou Li, Qun Liu and Dit-Yan Yeung(参考訳) 近年,歌詞生成は顕著な進歩を遂げているが,互換性のある旋律を作成せずには歌詞を演奏できないため,実用的応用は限られている。 そこで本研究では,生成した歌詞が既存の旋律のリズムと適合し,歌えるように,既存の歌の歌詞を書き換える歌書き換えシステムを提案することで,この実用的ギャップを解消する。 特に,メロディ構成の知識のないユーザを支援する制御可能な中国語歌詞生成・編集システムであるSongRewriterを提案する。 システムはランダム化されたマルチレベルマスキング戦略によって訓練され、完全に新しい歌詞を生成したり、いくつかの断片を編集するための統一モデルを生成する。 生成プロセスの制御能力を向上させるために、コンテンツの語彙選択を制御するキーワードプロンプトを更に取り入れ、フレキシブルエンドおよび内部リズムスキームを実現するための新しい復号制約と母音モデリングタスクを提案する。 先行韻律はラップ歌詞を主目的とするが,新たに3つの韻律評価指標を提案する。 自動評価と人間評価の両方により,提案モデルが,内容と韻律品質の両方において,最先端モデルよりも優れた性能を示す。

Although lyrics generation has achieved significant progress in recent years, it has limited practical applications because the generated lyrics cannot be performed without composing compatible melodies. In this work, we bridge this practical gap by proposing a song rewriting system which rewrites the lyrics of an existing song such that the generated lyrics are compatible with the rhythm of the existing melody and thus singable. In particular, we propose SongRewriter,a controllable Chinese lyrics generation and editing system which assists users without prior knowledge of melody composition. The system is trained by a randomized multi-level masking strategy which produces a unified model for generating entirely new lyrics or editing a few fragments. To improve the controllabiliy of the generation process, we further incorporate a keyword prompt to control the lexical choices of the content and propose novel decoding constraints and a vowel modeling task to enable flexible end and internal rhyme schemes. While prior rhyming metrics are mainly for rap lyrics, we propose three novel rhyming evaluation metrics for song lyrics. Both automatic and human evaluations show that the proposed model performs better than the state-of-the-art models in both contents and rhyming quality.
翻訳日:2023-05-29 23:20:38 公開日:2023-05-26
# c-TPE:高パラメータ最適化のための不等式制約付き木構造パーゼン推定器

c-TPE: Tree-structured Parzen Estimator with Inequality Constraints for Expensive Hyperparameter Optimization ( http://arxiv.org/abs/2211.14411v4 )

ライセンス: Link先を確認
Shuhei Watanabe, Frank Hutter(参考訳) ハイパーパラメータ最適化(hpo)は、ディープラーニングアルゴリズムの強力なパフォーマンスに不可欠であり、現実世界のアプリケーションは、しばしばメモリ使用量やパフォーマンス要求の遅延といったいくつかの制約を課す。 本研究では,多用途ベイズ最適化手法である木構造パルゼン推定器(tree-structured parzen estimator, tpe)の拡張である制約付きtpe (c-tpe) を提案する。 提案するエクステンションは,既存の取得関数とオリジナルのTPEの単純な組み合わせに留まらず,パフォーマンスの低下の原因となる問題に対処する修正も含んでいる。 我々はこれらの修正を経験的および理論的に徹底的に分析し、これらの課題を効果的に克服する方法についての洞察を提供する。 実験では,C-TPEは,不等式制約のある81のHPOに対して,統計的に有意な既存手法の中で最高の平均ランク性能を示すことを示した。 ベースラインの欠如により,Appendix D におけるハードコントラスト最適化への本手法の適用性についてのみ論じる。

Hyperparameter optimization (HPO) is crucial for strong performance of deep learning algorithms and real-world applications often impose some constraints, such as memory usage, or latency on top of the performance requirement. In this work, we propose constrained TPE (c-TPE), an extension of the widely-used versatile Bayesian optimization method, tree-structured Parzen estimator (TPE), to handle these constraints. Our proposed extension goes beyond a simple combination of an existing acquisition function and the original TPE, and instead includes modifications that address issues that cause poor performance. We thoroughly analyze these modifications both empirically and theoretically, providing insights into how they effectively overcome these challenges. In the experiments, we demonstrate that c-TPE exhibits the best average rank performance among existing methods with statistical significance on 81 expensive HPO with inequality constraints. Due to the lack of baselines, we only discuss the applicability of our method to hard-constrained optimization in Appendix D.
翻訳日:2023-05-29 23:20:19 公開日:2023-05-26
# 決定ダイアグラムに基づくキャッシングによる支配とサブオプティリティ検出

Decision Diagram-Based Branch-and-Bound with Caching for Dominance and Suboptimality Detection ( http://arxiv.org/abs/2211.13118v2 )

ライセンス: Link先を確認
Vianney Copp\'e, Xavier Gillard, Pierre Schaus(参考訳) 2016年にBergmanらによって導入された決定図に基づく分岐とバウンドのアルゴリズムは、動的プログラミングの定式化によって離散最適化問題を解決するためのフレームワークである。 これは、任意の部分問題に対して下限と上限を提供する一連の有界幅決定ダイアグラムをコンパイルすることで機能する。 最終的には、検索空間のすべての部分がアルゴリズムによって探索または切断されるため、最適性が証明される。 本稿では動的プログラミングモデルの構造を利用して探索を高速化する新しい要素を提案する。 鍵となる考え方は、バリアと呼ばれるデータ構造にしきい値を保存することによって、同じ動的プログラミング状態に対応するノードの反復的な探索を防止することである。 これらのしきい値は、以前に発見された部分解間の支配関係に基づいている。 2021年にGillardらによって導入されたフィルタリング技術を統合することでさらに強化することができる。 計算実験により、バリアによってもたらされる刈り取りは、アルゴリズムによって拡張されたノード数を大幅に削減できることを示した。 これにより、より狭い決定ダイアグラムを使いながら、より少ない時間で難しい最適化問題のベンチマークインスタンスが解決される。

The branch-and-bound algorithm based on decision diagrams introduced by Bergman et al. in 2016 is a framework for solving discrete optimization problems with a dynamic programming formulation. It works by compiling a series of bounded-width decision diagrams that can provide lower and upper bounds for any given subproblem. Eventually, every part of the search space will be either explored or pruned by the algorithm, thus proving optimality. This paper presents new ingredients to speed up the search by exploiting the structure of dynamic programming models. The key idea is to prevent the repeated exploration of nodes corresponding to the same dynamic programming states by storing and querying thresholds in a data structure called the Barrier. These thresholds are based on dominance relations between partial solutions previously found. They can be further strengthened by integrating the filtering techniques introduced by Gillard et al. in 2021. Computational experiments show that the pruning brought by the Barrier allows to significantly reduce the number of nodes expanded by the algorithm. This results in more benchmark instances of difficult optimization problems being solved in less time while using narrower decision diagrams.
翻訳日:2023-05-29 23:19:42 公開日:2023-05-26
# モンテカルロ森林探索によるUNSATソルバー合成

UNSAT Solver Synthesis via Monte Carlo Forest Search ( http://arxiv.org/abs/2211.12581v2 )

ライセンス: Link先を確認
Chris Cameron, Jason Hartford, Taylor Lundy, Tuan Truong, Alan Milligan, Rex Chen, Kevin Leyton-Brown(参考訳) 我々は,モンテカルロ森林探索(MCFS)を紹介した。このアルゴリズムは,指数的規模の木を横断する政策実行を伴う,木MDPにおける政策学習のための強化学習(RL)アルゴリズムである。 そのような問題の例として、SAT式の不満足性の証明、SAT式の解の数を数えること、混合整数プログラムの最適解を見つけることが挙げられる。 MCFSアルゴリズムはモンテカルロ木探索(MCTS)の拡張と見なすことができ、木の中に良い経路(解法)を見つけるのではなく、候補木のある森の中に小さな木を見つけることが問題となる。 我々は,boolean satisfiability(sat)問題を解決するdpll分岐ポリシーを学習するmcfsアルゴリズムであるknuth synthesis(knuth synthesis)をダビングするアルゴリズムでアイデアをインスタンス化し,評価する。 クヌース合成は2つの重要なアイデアを活用し、指数関数的にサイズのツリーにおける政策評価の禁止コストを回避する。 まず,木の大きさをランダムにサンプリングし,その長さを計測し,クヌート(1975)による偏りのない近似値から推定する。 第2に、木全体のポリシーを学ぶのではなく、ユーザ定義の深さで強力な解法をクエリし、木のサイズを減らす最大の可能性を提供する早期決定にポリシー検索を集中させる。 よく知られているSAT分布(R3SAT, sgen, sfc)の強いベースライン上での性能を比較または改善した。

We introduce Monte Carlo Forest Search (MCFS), a class of reinforcement learning (RL) algorithms for learning policies in {tree MDPs}, for which policy execution involves traversing an exponential-sized tree. Examples of such problems include proving unsatisfiability of a SAT formula; counting the number of solutions of a satisfiable SAT formula; and finding the optimal solution to a mixed-integer program. MCFS algorithms can be seen as extensions of Monte Carlo Tree Search (MCTS) to cases where, rather than finding a good path (solution) within a tree, the problem is to find a small tree within a forest of candidate trees. We instantiate and evaluate our ideas in an algorithm that we dub Knuth Synthesis, an MCFS algorithm that learns DPLL branching policies for solving the Boolean satisfiability (SAT) problem, with the objective of achieving good average-case performance on a given distribution of unsatisfiable problem instances. Knuth Synthesis leverages two key ideas to avoid the prohibitive costs of policy evaluations in an exponentially-sized tree. First, we estimate tree size by randomly sampling paths and measuring their lengths, drawing on an unbiased approximation due to Knuth (1975). Second, we query a strong solver at a user-defined depth rather than learning a policy across the whole tree, to focus our policy search on early decisions that offer the greatest potential for reducing tree size. We matched or improved performance over a strong baseline on three well-known SAT distributions (R3SAT, sgen, satfc).
翻訳日:2023-05-29 23:19:23 公開日:2023-05-26
# 反復線形化を用いた深層ネットワークにおけるスパース機能更新の理解

Understanding Sparse Feature Updates in Deep Networks using Iterative Linearisation ( http://arxiv.org/abs/2211.12345v2 )

ライセンス: Link先を確認
Adrian Goldwaser and Hong Ge(参考訳) 大規模でより深いネットワークは、過度に適合する能力の増大にもかかわらず、うまく一般化している。 なぜこの現象が起こるかを理解することは理論上、事実上重要である。 一つのアプローチは、そのようなネットワークの無限に広い限界を見ることである。 しかし、これらは機能や経験的カーネルが無限ネットワークとは対照的にトレーニング中に大きく変化するため、有限ネットワークを完全に説明することはできない。 そこで本研究では,この差分を探索する反復線形化学習手法を考案し,スパース(頻度の低い)機能更新を制御し,同等の性能を達成するのに必要な特徴学習の頻度を定量化する。 特徴を学習しない無限幅レジームの有限アナログと標準勾配降下訓練との補間として反復線形化を正当化する。 また,2次法であるガウスニュートンアルゴリズムの減衰バージョンに類似していることを示す。 様々なケースにおいて、反復線形化トレーニングは標準訓練と同等の性能を発揮することを示し、特に同等の性能を達成するために機能学習の頻度がいかに少ないかに注目した。 また、優れたパフォーマンスには機能学習が不可欠であることも示しています。 このような特徴学習は必然的にNTKカーネルの変化を引き起こすため、NTKカーネルがトレーニング中に一定であることを示すNTK理論の直接的な否定的な証拠を提供する。

Larger and deeper networks generalise well despite their increased capacity to overfit. Understanding why this happens is theoretically and practically important. One approach has been to look at the infinitely wide limits of such networks. However, these cannot fully explain finite networks as they do not learn features and the empirical kernel changes significantly during training in contrast to infinite networks. In this work, we derive an iterative linearised training method to investigate this distinction, allowing us to control for sparse (i.e. infrequent) feature updates and quantify the frequency of feature learning needed to achieve comparable performance. We justify iterative linearisation as an interpolation between a finite analog of the infinite width regime, which does not learn features, and standard gradient descent training, which does. We also show that it is analogous to a damped version of the Gauss-Newton algorithm -- a second-order method. We show that in a variety of cases, iterative linearised training performs on par with standard training, noting in particular how much less frequent feature learning is required to achieve comparable performance. We also show that feature learning is essential for good performance. Since such feature learning inevitably causes changes in the NTK kernel, it provides direct negative evidence for the NTK theory, which states the NTK kernel remains constant during training.
翻訳日:2023-05-29 23:18:55 公開日:2023-05-26
# SGDを用いたニューラルネットワークによる複雑性増加の学習分布の学習

Neural networks trained with SGD learn distributions of increasing complexity ( http://arxiv.org/abs/2211.11567v2 )

ライセンス: Link先を確認
Maria Refinetti and Alessandro Ingrosso and Sebastian Goldt(参考訳) 深層ニューラルネットワークがトレーニングデータを補間してもうまく一般化する能力は、様々な「単純化バイアス」を用いて説明されている。 これらの理論は、ニューラルネットワークがより複雑な非線形関数を学ぶ前に、まず線形分類子のような単純な関数を学習することで過剰にフィットすることを避けると仮定している。 一方、データ構造は優れた一般化の鍵となる要素としても認識されているが、単純さバイアスにおけるその役割はまだ理解されていない。 ここでは,確率勾配勾配から学習したニューラルネットワークが,平均や共分散といった低次入力統計を用いて入力を分類し,訓練中にのみ高次統計を利用することを示す。 まず、この分布的単純性バイアス(DSB)を、合成データに基づいてトレーニングされたニューラルネットワークの可解モデルで示す。 我々は、CIFAR10で訓練された深層畳み込みネットワークとビジュアルトランスフォーマーでDSBを実証的に実証し、ImageNetで事前訓練されたネットワークにさえ保持されていることを示す。 DSBと他の単純バイアスとの関係を論じ,学習におけるガウス普遍性の原理にその意味を考察する。

The ability of deep neural networks to generalise well even when they interpolate their training data has been explained using various "simplicity biases". These theories postulate that neural networks avoid overfitting by first learning simple functions, say a linear classifier, before learning more complex, non-linear functions. Meanwhile, data structure is also recognised as a key ingredient for good generalisation, yet its role in simplicity biases is not yet understood. Here, we show that neural networks trained using stochastic gradient descent initially classify their inputs using lower-order input statistics, like mean and covariance, and exploit higher-order statistics only later during training. We first demonstrate this distributional simplicity bias (DSB) in a solvable model of a neural network trained on synthetic data. We empirically demonstrate DSB in a range of deep convolutional networks and visual transformers trained on CIFAR10, and show that it even holds in networks pre-trained on ImageNet. We discuss the relation of DSB to other simplicity biases and consider its implications for the principle of Gaussian universality in learning.
翻訳日:2023-05-29 23:18:32 公開日:2023-05-26
# Multi-VALUE: クロスプラットフォーム英語NLPフレームワーク

Multi-VALUE: A Framework for Cross-Dialectal English NLP ( http://arxiv.org/abs/2212.08011v2 )

ライセンス: Link先を確認
Caleb Ziems, William Held, Jingfeng Yang, Diyi Yang(参考訳) 地域、社会的、経済的要因による方言の違いは、言語技術利用者の多くのグループでパフォーマンスの相違を引き起こす。 包含的かつ平等な言語技術は、方言不変性(英語版)に批判的でなければならない。 現在のシステムは、単一の方言であるスタンダード・アメリカン・イングリッシュ(sae)で設計・テストされているため、この理想に欠けることが多い。 英語の方言の不変性を評価・達成するためのリソース群を紹介する。 このリソースはMulti-VALUEと呼ばれ、50の英語方言と189の言語的特徴にまたがる制御可能なルールベースの翻訳システムである。 多値は、saeを各方言の合成形式にマッピングする。 まず,本システムを用いて質問応答,機械翻訳,意味解析を行う。 ストレステストは、非標準方言の先行モデルに対する顕著な性能格差を示す。 第2に,本システムは既存のシステムの方言ロバスト性を改善するために,データ拡張手法として用いる。 最後に、チカノとインド英語のネイティブスピーカーと提携して、人気のあるCoQAタスクの新しいゴールドスタンダード版をリリースします。 変換コードを実行するには、モデルチェックポイントを実行し、合成および金標準の方言ベンチマークデータセットをダウンロードする。

Dialect differences caused by regional, social, and economic factors cause performance discrepancies for many groups of language technology users. Inclusive and equitable language technology must critically be dialect invariant, meaning that performance remains constant over dialectal shifts. Current systems often fall short of this ideal since they are designed and tested on a single dialect: Standard American English (SAE). We introduce a suite of resources for evaluating and achieving English dialect invariance. The resource is called Multi-VALUE, a controllable rule-based translation system spanning 50 English dialects and 189 unique linguistic features. Multi-VALUE maps SAE to synthetic forms of each dialect. First, we use this system to stress tests question answering, machine translation, and semantic parsing. Stress tests reveal significant performance disparities for leading models on non-standard dialects. Second, we use this system as a data augmentation technique to improve the dialect robustness of existing systems. Finally, we partner with native speakers of Chicano and Indian English to release new gold-standard variants of the popular CoQA task. To execute the transformation code, run model checkpoints, and download both synthetic and gold-standard dialectal benchmark datasets, see http://value-nlp.org.
翻訳日:2023-05-29 23:11:06 公開日:2023-05-26
# 画像のないNLPタスクのための視覚的な事前学習言語モデル

Visually-augmented pretrained language models for NLP tasks without images ( http://arxiv.org/abs/2212.07937v2 )

ライセンス: Link先を確認
Hangyu Guo, Kun Zhou, Wayne Xin Zhao, Qinyu Zhang, and Ji-Rong Wen(参考訳) 事前訓練された言語モデル~(PLM)は、テキストのみによる自己教師付きトレーニングによる印象的なパフォーマンスを示しているが、視覚的意味論や常識は欠如している。 既存のソリューションは、視覚的知識増強(時間を要する検索や生成)のために明示的なイメージに依存することが多く、特定の入力やタスクに実際に必要かどうかを考慮せずに、入力テキスト全体の拡張も行う。 これらの問題に対処するために、様々な PLM や NLP タスクに適用可能な新しい \textbf{V}isually-\textbf{A}ugmented fine-tuning 手法、検索または生成された \textbf{I}mages、すなわち \textbf{VAWI} を提案する。 実験結果から,BERT,RoBERTa,BART,T5の異なるスケールでの性能向上が図られ,10タスクにおける競争基準よりも優れていた。 私たちのコードとデータは、~\url{https://github.com/RUCAIBox/VAWI}で公開されています。

Although pre-trained language models~(PLMs) have shown impressive performance by text-only self-supervised training, they are found lack of visual semantics or commonsense. Existing solutions often rely on explicit images for visual knowledge augmentation (requiring time-consuming retrieval or generation), and they also conduct the augmentation for the whole input text, without considering whether it is actually needed in specific inputs or tasks. To address these issues, we propose a novel \textbf{V}isually-\textbf{A}ugmented fine-tuning approach that can be generally applied to various PLMs or NLP tasks, \textbf{W}ithout using any retrieved or generated \textbf{I}mages, namely \textbf{VAWI}. Experimental results show that our approach can consistently improve the performance of BERT, RoBERTa, BART, and T5 at different scales, and outperform several competitive baselines on ten tasks. Our codes and data are publicly available at~\url{https://github.com/RUCAIBox/VAWI}.
翻訳日:2023-05-29 23:10:44 公開日:2023-05-26
# シミュレータを用いた3次元トモグラフィ再構成のための自己スーパービジョン

Simulator-Based Self-Supervision for Learned 3D Tomography Reconstruction ( http://arxiv.org/abs/2212.07431v2 )

ライセンス: Link先を確認
Onni Kosomaa, Samuli Laine, Tero Karras, Miika Aittala, Jaakko Lehtinen(参考訳) 低用量ヘリカルコーンビームctによる3次元体積再構成のための深層学習法を提案する。 事前機械学習アプローチでは、別のアルゴリズムで計算された参照再構成が必要となる。 対照的に、ノイズの多い2次元X線データのみを用いて、完全に自己教師された方法でモデルを訓練する。 これにより、高速で微分可能なCTシミュレータをトレーニングループに組み込むことができる。 参照再構成に頼らないので、その潜在的な欠点によって結果の忠実さは制限されない。 本手法は実ヘリカルコーンビーム投影法とファントムシミュレーションを用いて評価する。 以上の結果から,既存の再建技術よりも視覚的忠実度が高く,PSNRが優れていた。 実測データに適用した場合,本手法は反復法よりも高速に高品質な結果が得られる。

We propose a deep learning method for 3D volumetric reconstruction in low-dose helical cone-beam computed tomography. Prior machine learning approaches require reference reconstructions computed by another algorithm for training. In contrast, we train our model in a fully self-supervised manner using only noisy 2D X-ray data. This is enabled by incorporating a fast differentiable CT simulator in the training loop. As we do not rely on reference reconstructions, the fidelity of our results is not limited by their potential shortcomings. We evaluate our method on real helical cone-beam projections and simulated phantoms. Our results show significantly higher visual fidelity and better PSNR over techniques that rely on existing reconstructions. When applied to full-dose data, our method produces high-quality results orders of magnitude faster than iterative techniques.
翻訳日:2023-05-29 23:10:20 公開日:2023-05-26
# 深部ReLUネットワークにおける最大初期学習率

Maximal Initial Learning Rates in Deep ReLU Networks ( http://arxiv.org/abs/2212.07295v2 )

ライセンス: Link先を確認
Gaurav Iyer, Boris Hanin, David Rolnick(参考訳) ニューラルネットワークのトレーニングには、速度と収束の有効性のトレードオフを伴う適切な学習率を選択する必要がある。 学習率の程度については理論上、実証的な分析がなされているが、ほとんどの先行研究は後期段階のトレーニングのみに焦点を当てている。 本研究では,ランダム初期化ニューラルネットワークの学習に成功し,与えられた閾値精度を(少なくとも)達成できる最大学習率である最大初期学習率$\eta^{\ast}$を導入する。 簡単なアプローチで$\eta^{\ast}$を推定すると、一定の幅の完全接続されたReLUネットワークでは、$\eta^{\ast}$はトレーニング後の最大学習率と異なる振る舞いをする。 具体的には、$\eta^{\ast}$は深さ$\times$ widthのパワーとしてよく予測される。 (i)奥行きに比べてネットワーク幅が十分大きいこと、 (ii)入力層は比較的少ない学習率で訓練される。 さらに、初期化時のネットワークの$\eta^{\ast}$とシャープ性$\lambda_{1}$の関係を解析し、それらは逆関係ではないことを示唆する。 私たちは、経験的な結果に合致した深さ$\times$ widthで、$\lambda_{1}$の境界を正式に証明します。

Training a neural network requires choosing a suitable learning rate, which involves a trade-off between speed and effectiveness of convergence. While there has been considerable theoretical and empirical analysis of how large the learning rate can be, most prior work focuses only on late-stage training. In this work, we introduce the maximal initial learning rate $\eta^{\ast}$ - the largest learning rate at which a randomly initialized neural network can successfully begin training and achieve (at least) a given threshold accuracy. Using a simple approach to estimate $\eta^{\ast}$, we observe that in constant-width fully-connected ReLU networks, $\eta^{\ast}$ behaves differently from the maximum learning rate later in training. Specifically, we find that $\eta^{\ast}$ is well predicted as a power of depth $\times$ width, provided that (i) the width of the network is sufficiently large compared to the depth, and (ii) the input layer is trained at a relatively small learning rate. We further analyze the relationship between $\eta^{\ast}$ and the sharpness $\lambda_{1}$ of the network at initialization, indicating they are closely though not inversely related. We formally prove bounds for $\lambda_{1}$ in terms of depth $\times$ width that align with our empirical results.
翻訳日:2023-05-29 23:10:12 公開日:2023-05-26
# 事前訓練された言語モデルは完全なゼロショット学習者になれる

Pre-trained Language Models Can be Fully Zero-Shot Learners ( http://arxiv.org/abs/2212.06950v2 )

ライセンス: Link先を確認
Xuandong Zhao, Siqi Ouyang, Zhiguo Yu, Ming Wu, Lei Li(参考訳) ラベル付きや追加のラベル付きデータなしで、事前訓練されたモデルを多くの言語理解タスクにどのように拡張できるのか? プレトレーニング言語モデル(PLM)は、幅広いNLPタスクに有効である。 しかし、既存のアプローチでは、ダウンストリームラベル付きデータセットを微調整するか、あるいは手動で適切なプロンプトを構築する必要がある。 本稿では,完全ゼロショット言語理解のための非パラメトリックプロンプト PLM (NPPrompt) を提案する。 従来の手法とは異なり、NPPromptは事前訓練された言語モデルのみを使用し、さらなる微調整のためにラベル付きデータや追加の生コーパスを必要としない。 我々はNPPromptを、テキスト分類、テキストエンテインメント、類似したテキスト検索、パラフレーズ処理を含む様々なNLPタスクにおいて、従来の複数ショットおよびゼロショット学習手法と比較して評価した。 実験結果から,NPPromptはテキスト分類の精度が12.8%,GLUEベンチマークの精度が18.9%向上し,これまでで最高の完全ゼロショット法よりも大きなマージンを達成できた。

How can we extend a pre-trained model to many language understanding tasks, without labeled or additional unlabeled data? Pre-trained language models (PLMs) have been effective for a wide range of NLP tasks. However, existing approaches either require fine-tuning on downstream labeled datasets or manually constructing proper prompts. In this paper, we propose nonparametric prompting PLM (NPPrompt) for fully zero-shot language understanding. Unlike previous methods, NPPrompt uses only pre-trained language models and does not require any labeled data or additional raw corpus for further fine-tuning, nor does it rely on humans to construct a comprehensive set of prompt label words. We evaluate NPPrompt against previous major few-shot and zero-shot learning methods on diverse NLP tasks: including text classification, text entailment, similar text retrieval, and paraphrasing. Experimental results demonstrate that our NPPrompt outperforms the previous best fully zero-shot method by big margins, with absolute gains of 12.8% in accuracy on text classification and 18.9% on the GLUE benchmark.
翻訳日:2023-05-29 23:09:51 公開日:2023-05-26
# タスク類似性に基づく木構造parzen推定器のメタラーニングによる多目的ハイパーパラメータ最適化の高速化

Speeding Up Multi-Objective Hyperparameter Optimization by Task Similarity-Based Meta-Learning for the Tree-Structured Parzen Estimator ( http://arxiv.org/abs/2212.06751v4 )

ライセンス: Link先を確認
Shuhei Watanabe, Noor Awad, Masaki Onishi, Frank Hutter(参考訳) ハイパーパラメータ最適化(HPO)は,ディープラーニング(DL)の性能向上のための重要なステップである。 実践者は、正確性やレイテンシなど、複数の基準の間のトレードオフに直面します。 DLの高い計算要求と効率的なHPOの需要の増大を考えると、多目的最適化(MO)の加速はますます重要になる。 HPOのメタラーニングに多大な努力を払っているにもかかわらず、既存の手法はMO木構造Parzen estimator (MO-TPE) には適用できない。 本稿では,タスク間のトップドメインの重複によって定義されるタスク類似性を用いて,TPEの取得機能をメタ学習環境に拡張する。 また,タスク類似性の限界を理論的に解析し,対処する。 実験では,表付きHPOベンチマークでMO-TPEを高速化し,最先端性能を実現する。 また, AutoML 2022 コンペティション "Multiobjective Hyperparameter Optimization for Transformers" で優勝した。

Hyperparameter optimization (HPO) is a vital step in improving performance in deep learning (DL). Practitioners are often faced with the trade-off between multiple criteria, such as accuracy and latency. Given the high computational needs of DL and the growing demand for efficient HPO, the acceleration of multi-objective (MO) optimization becomes ever more important. Despite the significant body of work on meta-learning for HPO, existing methods are inapplicable to MO tree-structured Parzen estimator (MO-TPE), a simple yet powerful MO-HPO algorithm. In this paper, we extend TPE's acquisition function to the meta-learning setting using a task similarity defined by the overlap of top domains between tasks. We also theoretically analyze and address the limitations of our task similarity. In the experiments, we demonstrate that our method speeds up MO-TPE on tabular HPO benchmarks and attains state-of-the-art performance. Our method was also validated externally by winning the AutoML 2022 competition on "Multiobjective Hyperparameter Optimization for Transformers".
翻訳日:2023-05-29 23:09:30 公開日:2023-05-26
# プロンプト学習による伝播構造によるゼロショット騒音検出

Zero-Shot Rumor Detection with Propagation Structure via Prompt Learning ( http://arxiv.org/abs/2212.01117v5 )

ライセンス: Link先を確認
Hongzhan Lin, Pengyao Yi, Jing Ma, Haiyun Jiang, Ziyang Luo, Shuming Shi, Ruifang Liu(参考訳) 噂の広まりと破壊的な出来事は、ソーシャルメディア時代の真実を著しく妨げている。 以前の研究では、注釈付きリソースがないため、マイノリティ言語で提示される噂は検出しにくいことが示されている。 さらに、昨日のニュースに関わらない予期せぬ破壊的な出来事は、データリソースの不足を悪化させる。 本研究では,異なるドメインで発生する噂や異なる言語で提示される噂を早期に検出するためのゼロショットフレームワークを提案する。 より具体的には,まずソーシャルメディア上で拡散する噂を多様な伝搬スレッドとして表現し,その上で,プロンプトと噂データの両方に対する言語に依存しない文脈表現を学習するための階層的なプロンプトエンコーディング機構を設計する。 ドメイン適応をさらに強化するため,伝播スレッドからドメイン不変な構造特徴をモデル化し,コミュニティ応答の構造的位置表現を組み込む。 さらに、モデルトレーニングを改善するために、新しい仮想応答拡張法が使用される。 3つの実世界のデータセットで行った広範囲な実験により,提案モデルが最先端の手法よりも優れた性能を実現し,早期の噂検出に優れた能力を示すことを示した。

The spread of rumors along with breaking events seriously hinders the truth in the era of social media. Previous studies reveal that due to the lack of annotated resources, rumors presented in minority languages are hard to be detected. Furthermore, the unforeseen breaking events not involved in yesterday's news exacerbate the scarcity of data resources. In this work, we propose a novel zero-shot framework based on prompt learning to detect rumors falling in different domains or presented in different languages. More specifically, we firstly represent rumor circulated on social media as diverse propagation threads, then design a hierarchical prompt encoding mechanism to learn language-agnostic contextual representations for both prompts and rumor data. To further enhance domain adaptation, we model the domain-invariant structural features from the propagation threads, to incorporate structural position representations of influential community response. In addition, a new virtual response augmentation method is used to improve model training. Extensive experiments conducted on three real-world datasets demonstrate that our proposed model achieves much better performance than state-of-the-art methods and exhibits a superior capacity for detecting rumors at early stages.
翻訳日:2023-05-29 23:08:54 公開日:2023-05-26
# エコー状態ネットワークにおける適切な直交分解の検討

Investigation of Proper Orthogonal Decomposition for Echo State Networks ( http://arxiv.org/abs/2211.17179v3 )

ライセンス: Link先を確認
Jean Panaioti Jordanou, Eric Aislan Antonelo, Eduardo Camponogara, Eduardo Gildin(参考訳) エコー状態ネットワーク(英: Echo State Networks、ESN)は、時系列および非線形力学系を表現するための有望な結果をもたらすリカレントニューラルネットワークの一種である。 それらは非常に効率的なトレーニング手順を備えているが、esnのようなリザーバコンピューティング戦略は、高次ネットワーク、すなわち多くのニューロンを必要とする。 特にモデル予測制御(MPC)やその他の最適制御問題にESNを適用する際には、多くの状態が時間ステップ計算をよりコストがかかるだけでなく、堅牢性の問題を引き起こす可能性がある。 この問題を回避するための1つの方法は、適切な直交分解(POD)とその変種(POD-DEIM)のようなモデル秩序化戦略を通じて、既に訓練された高次元ESNに等価な低次表現を見つけることである。 本研究の目的は,Echo State Networks における POD 手法の性能を調査・解析することであり,元の (全順序) ESN と比較してPOD-Reduced Network の Memory Capacity (MC) を用いて評価することである。 また,narma10差分式と2つの井戸と1つのライザーを含む油プラットフォームについて,数値実験を行った。 その結果,オリジナルのESNとPODを再現したESNとの比較では性能がほとんど損なわれず,PODを再現したESNの性能は,同じ大きさの通常のESNよりも優れている傾向にあることがわかった。 また、POD-reduced ネットワークは元の ESN と比較して約80\% のスピードアップを実現している。

Echo State Networks (ESN) are a type of Recurrent Neural Network that yields promising results in representing time series and nonlinear dynamic systems. Although they are equipped with a very efficient training procedure, Reservoir Computing strategies, such as the ESN, require high-order networks, i.e., many neurons, resulting in a large number of states that are magnitudes higher than the number of model inputs and outputs. A large number of states not only makes the time-step computation more costly but also may pose robustness issues, especially when applying ESNs to problems such as Model Predictive Control (MPC) and other optimal control problems. One way to circumvent this complexity issue is through Model Order Reduction strategies such as the Proper Orthogonal Decomposition (POD) and its variants (POD-DEIM), whereby we find an equivalent lower order representation to an already trained high dimension ESN. To this end, this work aims to investigate and analyze the performance of POD methods in Echo State Networks, evaluating their effectiveness through the Memory Capacity (MC) of the POD-reduced network compared to the original (full-order) ESN. We also perform experiments on two numerical case studies: a NARMA10 difference equation and an oil platform containing two wells and one riser. The results show that there is little loss of performance comparing the original ESN to a POD-reduced counterpart and that the performance of a POD-reduced ESN tends to be superior to a normal ESN of the same size. Also, the POD-reduced network achieves speedups of around $80\%$ compared to the original ESN.
翻訳日:2023-05-29 23:08:33 公開日:2023-05-26
# 言語生成のロバスト適応のためのソフトアライメント目標

Soft Alignment Objectives for Robust Adaptation of Language Generation ( http://arxiv.org/abs/2211.16550v2 )

ライセンス: Link先を確認
Michal \v{S}tef\'anik and Marek Kadl\v{c}\'ik and Petr Sojka(参考訳) ドメイン適応により、生成言語モデルは、アプリケーションのドメインシフトに起因する特定の欠陥に対処できる。 しかし、ドメイン内のデータに対するさらなるトレーニングによる従来の適応は、モデルを他のドメインに一般化する能力を急速に弱め、適応モデルのオープンな配置はエラーを起こしやすい。 本研究は,予測されたトークンと参照との意味的類似性に基づく新しい学習目標を提案する。 その結果,(1)トークンのセマンティックな類似性からトレーニングターゲットを構築することで,単一の正しい予測の共通仮定を回避することにより,ドメイン適応時の破滅的な忘れを軽減し,(2)適応の質を保ちながら,(3)計算コストに無視できる加算を加えることができることがわかった。 幅広い文脈において、連続的なトークン類似性に基づく目的は、効率的だが正確なマッチしたトークンレベルの目的と、表現的かつ計算量の多い連続的な目的との中間的基盤の探索の先駆者である。

Domain adaptation allows generative language models to address specific flaws caused by the domain shift of their application. However, the traditional adaptation by further training on in-domain data rapidly weakens the model's ability to generalize to other domains, making the open-ended deployments of the adapted models prone to errors. This work introduces novel training objectives built upon a semantic similarity of the predicted tokens to the reference. Our results show that (1) avoiding the common assumption of a single correct prediction by constructing the training target from tokens' semantic similarity can mitigate catastrophic forgetting during domain adaptation, while (2) preserving the quality of the adaptation, (3) with negligible additions to compute costs. In the broader context, the objectives grounded in a continuous token similarity pioneer the exploration of the middle ground between the efficient but na\"{\i}ve exact-match token-level objectives and expressive but computationally- and resource-intensive sequential objectives.
翻訳日:2023-05-29 23:08:05 公開日:2023-05-26
# DIONYSUS:低リソース対話要約のための事前学習モデル

DIONYSUS: A Pre-trained Model for Low-Resource Dialogue Summarization ( http://arxiv.org/abs/2212.10018v2 )

ライセンス: Link先を確認
Yu Li, Baolin Peng, Pengcheng He, Michel Galley, Zhou Yu and Jianfeng Gao(参考訳) ダイアログの要約は、その幅広い応用により、近年大きな注目を集めている。 しかし,既存の対話を要約する手法には,対話の本来の構造を考慮せず,ラベル付きデータに大きく依存しているため,新たなドメインのパフォーマンスが低下する可能性があるため,制限がある。 本研究では,任意の領域における対話を要約するプリトレーニングエンコーダ・デコーダモデルであるdionysus (dynamic input optimization in pre-training for dialogue summarization)を提案する。 DIONYSUSを事前訓練するために、各対話例に対して2つの擬似要約を作成する:1つは微調整の要約モデルで作成され、もう1つは重要な情報を伝える対話のターンのコレクションである。 次に,これらの疑似要約の1つを,異なる種類の対話における情報分布の違いに基づいて選択する。 この選択された擬似要約は、大きな対話コーパスに自己教師付きアプローチを用いてディオニューソスを事前学習する目的である。 我々の実験によると、DIONYSUSは、ROUGEスコアがゼロショットと少数ショット設定で示すように、6つのデータセット上の既存の手法よりも優れている。

Dialogue summarization has recently garnered significant attention due to its wide range of applications. However, existing methods for summarizing dialogues have limitations because they do not take into account the inherent structure of dialogue and rely heavily on labeled data, which can lead to poor performance in new domains. In this work, we propose DIONYSUS (dynamic input optimization in pre-training for dialogue summarization), a pre-trained encoder-decoder model for summarizing dialogues in any new domain. To pre-train DIONYSUS, we create two pseudo summaries for each dialogue example: one is produced by a fine-tuned summarization model, and the other is a collection of dialogue turns that convey important information. We then choose one of these pseudo summaries based on the difference in information distribution across different types of dialogues. This selected pseudo summary serves as the objective for pre-training DIONYSUS using a self-supervised approach on a large dialogue corpus. Our experiments show that DIONYSUS outperforms existing methods on six datasets, as demonstrated by its ROUGE scores in zero-shot and few-shot settings.
翻訳日:2023-05-29 23:02:08 公開日:2023-05-26
# 明確化質問によるpythonコード生成

Python Code Generation by Asking Clarification Questions ( http://arxiv.org/abs/2212.09885v2 )

ライセンス: Link先を確認
Haau-Sing Li, Mohsen Mesgar, Andr\'e F. T. Martins, Iryna Gurevych(参考訳) テキストからコードを生成するには、自然言語記述からユーザの意図を理解し、この意図を満たす実行可能なコードスニペットを生成する必要がある。 最近の事前学習された言語モデルは、このタスクに顕著な性能を示すが、与えられた自然言語記述が不特定である場合、これらのモデルは失敗する。 本稿では,この課題に対する新しい,より現実的な設定を提案する。 我々は、自然言語記述の過小評価は、明確化を問うことで解決できると仮定する。 そこで我々は,生成した合成明確化質問と回答を含む自然言語記述とコードを含む,CodeClarQAという新しいデータセットを収集,導入した。 コード生成における事前学習された言語モデルの性能評価の結果から,すべての評価指標におけるモデル性能の大幅な向上が示すように,より正確に生成されたコードが得られることがわかった。 これと並行して、私たちのタスクとデータセットは、いつ、どんな明確な質問をすべきなのかを含む、コミュニティに新しい課題を導入します。 コードとデータセットはGitHubで入手可能です。

Code generation from text requires understanding the user's intent from a natural language description and generating an executable code snippet that satisfies this intent. While recent pretrained language models demonstrate remarkable performance for this task, these models fail when the given natural language description is under-specified. In this work, we introduce a novel and more realistic setup for this task. We hypothesize that the under-specification of a natural language description can be resolved by asking clarification questions. Therefore, we collect and introduce a new dataset named CodeClarQA containing pairs of natural language descriptions and code with created synthetic clarification questions and answers. The empirical results of our evaluation of pretrained language model performance on code generation show that clarifications result in more precisely generated code, as shown by the substantial improvement of model performance in all evaluation metrics. Alongside this, our task and dataset introduce new challenges to the community, including when and what clarification questions should be asked. Our code and dataset are available on GitHub.
翻訳日:2023-05-29 23:01:49 公開日:2023-05-26
# 教師なし要約の再評価

Unsupervised Summarization Re-ranking ( http://arxiv.org/abs/2212.09593v3 )

ライセンス: Link先を確認
Mathieu Ravaut, Shafiq Joty, Nancy Chen(参考訳) PEGASUSのような抽象的な要約モデルは、タスク固有の事前学習目標の増大に伴い、下流の要約タスクにおいて魅力的なゼロショットパフォーマンスを提供する。 しかし、そのような教師なしモデルの性能は教師なしモデルよりもかなり遅れている。 教師付き設定と同様に,サマリ候補間の品質のばらつきが極めて高いのに対して,サマリ出力として保持される候補は1つのみである。 本稿では,教師なしモデルと教師なしモデルの性能差を縮めるために,教師なし方式で要約候補をランク付けすることを提案する。 提案手法では,非教師付きペガサスを最大7.27%,chatgptを6.86%,広く採用されている4つの要約ベンチマークで平均平均ルージュを最大6.86%改善し,平均値が7.1%(xsumからwikihowまで最大23.73%)となり,30以上のゼロショット転送セットアップ(データセットの細調整,評価)を達成した。

With the rise of task-specific pre-training objectives, abstractive summarization models like PEGASUS offer appealing zero-shot performance on downstream summarization tasks. However, the performance of such unsupervised models still lags significantly behind their supervised counterparts. Similarly to the supervised setup, we notice a very high variance in quality among summary candidates from these models while only one candidate is kept as the summary output. In this paper, we propose to re-rank summary candidates in an unsupervised manner, aiming to close the performance gap between unsupervised and supervised models. Our approach improves the unsupervised PEGASUS by up to 7.27% and ChatGPT by up to 6.86% relative mean ROUGE across four widely-adopted summarization benchmarks ; and achieves relative gains of 7.51% (up to 23.73% from XSum to WikiHow) averaged over 30 zero-shot transfer setups (finetuning on a dataset, evaluating on another).
翻訳日:2023-05-29 23:01:34 公開日:2023-05-26
# 教師なし共同モデリングによる問合せ強化型知識集約会話

Query Enhanced Knowledge-Intensive Conversation via Unsupervised Joint Modeling ( http://arxiv.org/abs/2212.09588v2 )

ライセンス: Link先を確認
Mingzhu Cai, Siqi Bao, Xin Tian, Huang He, Fan Wang, Hua Wu(参考訳) 本稿では,知識集約型会話,すなわちQKConvに対する教師なしクエリ強化手法を提案する。 QKConvには、クエリジェネレータ、既製の知識セレクタ、レスポンスジェネレータの3つのモジュールがある。 QKConvは共同トレーニングによって最適化され、複数の候補クエリを探索し、対応する選択された知識を活用することで応答を生成する。 共同トレーニングは、対話コンテキストとターゲット応答にのみ依存し、追加のクエリアノテーションや知識証明から除外される。 提案したQKConvの有効性を評価するために,対話型質問応答,タスク指向対話,知識ベース会話という3つの代表的な知識集約型会話データセットの実験を行った。 実験結果から,QKConvは3つのデータセットにまたがるすべての教師なし手法よりも優れており,教師付き手法と比較して競争性能が高いことがわかった。

In this paper, we propose an unsupervised query enhanced approach for knowledge-intensive conversations, namely QKConv. There are three modules in QKConv: a query generator, an off-the-shelf knowledge selector, and a response generator. QKConv is optimized through joint training, which produces the response by exploring multiple candidate queries and leveraging corresponding selected knowledge. The joint training solely relies on the dialogue context and target response, getting exempt from extra query annotations or knowledge provenances. To evaluate the effectiveness of the proposed QKConv, we conduct experiments on three representative knowledge-intensive conversation datasets: conversational question-answering, task-oriented dialogue, and knowledge-grounded conversation. Experimental results reveal that QKConv performs better than all unsupervised methods across three datasets and achieves competitive performance compared to supervised methods.
翻訳日:2023-05-29 23:01:11 公開日:2023-05-26
# I2D2:神経論理と自己刺激による誘導的知識蒸留

I2D2: Inductive Knowledge Distillation with NeuroLogic and Self-Imitation ( http://arxiv.org/abs/2212.09246v3 )

ライセンス: Link先を確認
Chandra Bhagavatula, Jena D. Hwang, Doug Downey, Ronan Le Bras, Ximing Lu, Lianhui Qin, Keisuke Sakaguchi, Swabha Swayamdipta, Peter West, Yejin Choi(参考訳) 事前訓練された言語モデルの常識的能力は、スケールによって劇的に向上し、スケールが唯一の勝利レシピであると多くの人が信じている。 しかし、それは? より小さな言語モデル(例: GPT-2)が、新しいコモンセンス蒸留アルゴリズムを駆使すれば、桁違いに大きいモデル(例: GPT-3)に勝てるのか? 重要な知的課題は、スケールの利点に頼ることなく、競争レベルのコモンセンス獲得を達成する学習アルゴリズムを設計することである。 特に,コモンセンス知識の生成モデルについて検討し,ジェネリクス生成の課題,鳥類が飛べるような日常概念に関するコモンセンス事実のステートメントに着目した。 I2D2は、西欧のシンボリック知識蒸留を緩やかに追従する新しいコモンセンス蒸留フレームワークであるが、2つの革新によって極規模の教師モデルへの依存を断ち切る。(1)弱い、既製の言語モデルの生成品質を高めるための神経論理復号の新しい適応、(2)モデルの強化されたコモンセンス獲得能力から反復的に学習するための自己シミュレーション学習である。 実験的な結果は、新しいアルゴリズムが有望な代替手段となるため、スケールが唯一の方法ではないことを示唆している。 さらに本研究では,これまでで最大かつ最高品質のジェネリックコーパスであるGen-A-tomicについて検討した。

Commonsense capabilities of pre-trained language models dramatically improve with scale, leading many to believe that scale is the only winning recipe. But is it? Here, we investigate an alternative that a priori seems impossible: can smaller language models (e.g., GPT-2) win over models that are orders of magnitude larger and better (e.g., GPT-3), if powered with novel commonsense distillation algorithms? The key intellectual challenge is to design a learning algorithm that achieve a competitive level of commonsense acquisition, without relying on the benefits of scale. In particular, we study generative models of commonsense knowledge, focusing on the task of generating generics, statements of commonsense facts about everyday concepts, e.g., birds can fly. We introduce I2D2, a novel commonsense distillation framework that loosely follows the Symbolic Knowledge Distillation of West et al. but breaks the dependence on the extreme-scale teacher model with two innovations: (1) the novel adaptation of NeuroLogic Decoding to enhance the generation quality of the weak, off-the-shelf language models, and (2) self-imitation learning to iteratively learn from the model's own enhanced commonsense acquisition capabilities. Empirical results suggest that scale is not the only way, as novel algorithms can be a promising alternative. Moreover, our study leads to a new corpus of generics, Gen-A-tomic, that is the largest and highest quality available to date.
翻訳日:2023-05-29 23:00:55 公開日:2023-05-26
# abcを忘れるな:チャット指向対話システムにおける最先端の評価

Don't Forget Your ABC's: Evaluating the State-of-the-Art in Chat-Oriented Dialogue Systems ( http://arxiv.org/abs/2212.09180v2 )

ライセンス: Link先を確認
Sarah E. Finch, James D. Finch, and Jinho D. Choi(参考訳) 近年、人間とコンピュータのチャットが進歩している。 しかし、現在の適切な評価には、本質的な主観性から高い分散度を生じる悪名高い人間の判断が必要である。 さらに,評価に使用する手法やラベルにはほとんど標準化がなく,様々な評価手法の有効性を比較し評価する作業が全般的に不足している。 その結果、既存の評価結果は、オープンドメインチャットボットの長所と短所を不完全なままにしている可能性が高い。 我々は,チャット品質の異なる複数の側面を確実に測定できるヒューマンコンピュータチャットの次元評価を目指している。 そこで本研究では,複数の品質関連チャットボットの動作を定量化する新しい評価手法を提案する。 本手法は,likert方式や比較手法よりも,次元的チャット評価に適していることを示す。 検証済みの方法と既存の方法を用いて、最近の文献から4つのオープンドメインチャットモデルを評価する。

There has been great recent advancement in human-computer chat. However, proper evaluation currently requires human judgements that produce notoriously high-variance metrics due to their inherent subjectivity. Furthermore, there is little standardization in the methods and labels used for evaluation, with an overall lack of work to compare and assess the validity of various evaluation approaches. As a consequence, existing evaluation results likely leave an incomplete picture of the strengths and weaknesses of open-domain chatbots. We aim towards a dimensional evaluation of human-computer chat that can reliably measure several distinct aspects of chat quality. To this end, we present our novel human evaluation method that quantifies the rate of several quality-related chatbot behaviors. Our results demonstrate our method to be more suitable for dimensional chat evaluation than alternative likert-style or comparative methods. We then use our validated method and existing methods to evaluate four open-domain chat models from the recent literature.
翻訳日:2023-05-29 23:00:04 公開日:2023-05-26
# めったに問題ない? 言語モデルは数種類の量化器の後にその予測に逆スケーリングを示す

Rarely a problem? Language models exhibit inverse scaling in their predictions following few-type quantifiers ( http://arxiv.org/abs/2212.08700v2 )

ライセンス: Link先を確認
James A. Michaelov, Benjamin K. Bergen(参考訳) 言語モデルは定量化にどの程度順応するか? 本研究では,「おもちゃのような子供」のように,「おもちゃのような子供」のような「フェウ型」の定量化に焦点をあてるが,文成分が共起する可能性が高く,「フェウ型」の定量化は稀である。 2つの人間の神経言語実験から、異なる大きさの22の自己回帰トランスフォーマーモデルに960個の英語文刺激を与える。 すべてのモデルが'few'型量子化器の性能を損なうだけでなく、全体としてはモデルが大きくなればなるほどパフォーマンスが悪くなる。 この逆スケーリングは、より大きなモデルがオフラインのヒューマンプロセッシングよりもオンラインに反映されていくことを示唆する以前の研究と一致しており、より大きいモデルのパフォーマンス低下は、自然言語システムの基礎として言語モデルの使用に挑戦する可能性があると論じている。

How well do language models deal with quantification? In this study, we focus on 'few'-type quantifiers, as in 'few children like toys', which might pose a particular challenge for language models because the sentence components with out the quantifier are likely to co-occur, and 'few'-type quantifiers are rare. We present 960 English sentence stimuli from two human neurolinguistic experiments to 22 autoregressive transformer models of differing sizes. Not only do all the models perform poorly on 'few'-type quantifiers, but overall the larger the model, the worse its performance. This inverse scaling is consistent with previous work suggesting that larger models increasingly reflect online rather than offline human processing, and we argue that the decreasing performance of larger models may challenge uses of language models as the basis for natural language systems.
翻訳日:2023-05-29 22:59:50 公開日:2023-05-26
# UnitY: 離散単位を用いた2パス直接音声合成

UnitY: Two-pass Direct Speech-to-speech Translation with Discrete Units ( http://arxiv.org/abs/2212.08055v2 )

ライセンス: Link先を確認
Hirofumi Inaguma, Sravya Popuri, Ilia Kulikov, Peng-Jen Chen, Changhan Wang, Yu-An Chung, Yun Tang, Ann Lee, Shinji Watanabe, Juan Pino(参考訳) 全てのコンポーネントを共同で最適化できるdirect speech-to-speech translation (s2st)は、単純なパイプラインで高速な推論を実現するためにカスケードされたアプローチよりも有利である。 本稿では,まずテキスト表現を生成し,その後に離散音響単位を予測する2パス直接S2STアーキテクチャであるUnitYを提案する。 我々は,第1パスデコーダのサブワード予測,高度な2パスデコーダアーキテクチャ設計と探索戦略,正規化の訓練によりモデル性能を向上させる。 ラベルなしテキストデータを大量に活用するために,自己教師付きデノイジング自動エンコーディングタスクに基づいて,第1パステキストデコーダを事前学習する。 様々なデータスケールでのベンチマークデータセットの実験的評価により、UnitYは2.5-4.2 ASR-BLEUと2.83倍のデコード速度で単一パスの音声-単位翻訳モデルより優れていることが示された。 提案手法は,第2パスのスペクトルを予測しても性能が向上することを示す。 しかし、離散単位の予測は2.51倍の速度アップを達成している。

Direct speech-to-speech translation (S2ST), in which all components can be optimized jointly, is advantageous over cascaded approaches to achieve fast inference with a simplified pipeline. We present a novel two-pass direct S2ST architecture, UnitY, which first generates textual representations and predicts discrete acoustic units subsequently. We enhance the model performance by subword prediction in the first-pass decoder, advanced two-pass decoder architecture design and search strategy, and better training regularization. To leverage large amounts of unlabeled text data, we pre-train the first-pass text decoder based on the self-supervised denoising auto-encoding task. Experimental evaluations on benchmark datasets at various data scales demonstrate that UnitY outperforms a single-pass speech-to-unit translation model by 2.5-4.2 ASR-BLEU with 2.83x decoding speed-up. We show that the proposed methods boost the performance even when predicting spectrogram in the second pass. However, predicting discrete units achieves 2.51x decoding speed-up compared to that case.
翻訳日:2023-05-29 22:59:34 公開日:2023-05-26
# DAMP:タスク指向対話のための多言語パーザ

DAMP: Doubly Aligned Multilingual Parser for Task-Oriented Dialogue ( http://arxiv.org/abs/2212.08054v2 )

ライセンス: Link先を確認
William Held, Christopher Hidey, Fei Liu, Eric Zhu, Rahul Goel, Diyi Yang, Rushin Shah(参考訳) 現代の仮想アシスタントは、ユーザの発話をアクション可能なコマンドに変換するために、内部セマンティックパーシングエンジンを使用する。 しかし、以前の研究では、意味解析は他のタスクに比べて転送効率が低い、難しい多言語転送タスクであることが示された。 インドやラテンアメリカのようなグローバル市場では、言語間の切り替えがバイリンガルユーザに普及しているため、これは重要な問題である。 本研究では,2段階の多言語アライメントを用いて,多言語・コード切替型意味解析システムのゼロショット性能を劇的に改善する。 まず,コンストラッシブアライメントの事前学習により,英語のパフォーマンスと転送効率が向上することを示す。 次に,微調整時の超パラメータフリー対向アライメントに対する制約付き最適化手法を提案する。 我々のDAMP(Douubly Aligned Multilingual Parser)は,Spanglish,Hinglish,Multilingual Task Oriented ParsingベンチマークでmBERT転送性能を3倍,6倍,81倍改善し,XLM-RおよびmT5-Largeよりも3.2倍少ないパラメータで性能を向上する。

Modern virtual assistants use internal semantic parsing engines to convert user utterances to actionable commands. However, prior work has demonstrated that semantic parsing is a difficult multilingual transfer task with low transfer efficiency compared to other tasks. In global markets such as India and Latin America, this is a critical issue as switching between languages is prevalent for bilingual users. In this work we dramatically improve the zero-shot performance of a multilingual and codeswitched semantic parsing system using two stages of multilingual alignment. First, we show that constrastive alignment pretraining improves both English performance and transfer efficiency. We then introduce a constrained optimization approach for hyperparameter-free adversarial alignment during finetuning. Our Doubly Aligned Multilingual Parser (DAMP) improves mBERT transfer performance by 3x, 6x, and 81x on the Spanglish, Hinglish and Multilingual Task Oriented Parsing benchmarks respectively and outperforms XLM-R and mT5-Large using 3.2x fewer parameters.
翻訳日:2023-05-29 22:59:16 公開日:2023-05-26
# 半教師付き医用画像セグメンテーションのための高信頼擬似ラベルを用いた共同学習

Co-training with High-Confidence Pseudo Labels for Semi-supervised Medical Image Segmentation ( http://arxiv.org/abs/2301.04465v3 )

ライセンス: Link先を確認
Zhiqiang Shen, Peng Cao, Hua Yang, Xiaoli Liu, Jinzhu Yang, Osmar R. Zaiane(参考訳) 一貫性正規化と擬似ラベリングに基づく半教師付き手法は,多視点入力から擬似ラベルを用いて協調学習を行う。 しかし、そのようなコトレーニングモデルは、早期にコンセンサスに収束し、自己学習モデルに縮退し、トレーニング中に摂動入力から低信頼の擬似ラベルを生成する傾向にある。 これらの課題に対処するために,疑似ラベルを用いた半教師付きセマンティックセマンティックセグメンテーションのためのUncertainty-Guided Collaborative Mean-Teacher (UCMT)を提案する。 具体的にはUCMTは2つの主要コンポーネントから構成される。 1)モデル不一致を奨励し、サブネットワーク間の協調訓練を行うための協力的平均教師(CMT) 2)CMTの不確実性マップに従って入力画像を操作するための不確実性誘導領域混合(UMIX)により、CMTは高信頼な擬似ラベルを生成する。 UMIXとCMTの強度を組み合わせることで、UCMTはモデル不一致を維持し、コトレーニングセグメンテーションのための擬似ラベルの品質を高めることができる。 2Dおよび3Dモダリティを含む4つの公開医療画像データセットに対する大規模な実験は、UCMTが最先端技術よりも優れていることを示す。 コードは、https://github.com/Senyh/UCMT.comで入手できる。

Consistency regularization and pseudo labeling-based semi-supervised methods perform co-training using the pseudo labels from multi-view inputs. However, such co-training models tend to converge early to a consensus, degenerating to the self-training ones, and produce low-confidence pseudo labels from the perturbed inputs during training. To address these issues, we propose an Uncertainty-guided Collaborative Mean-Teacher (UCMT) for semi-supervised semantic segmentation with the high-confidence pseudo labels. Concretely, UCMT consists of two main components: 1) collaborative mean-teacher (CMT) for encouraging model disagreement and performing co-training between the sub-networks, and 2) uncertainty-guided region mix (UMIX) for manipulating the input images according to the uncertainty maps of CMT and facilitating CMT to produce high-confidence pseudo labels. Combining the strengths of UMIX with CMT, UCMT can retain model disagreement and enhance the quality of pseudo labels for the co-training segmentation. Extensive experiments on four public medical image datasets including 2D and 3D modalities demonstrate the superiority of UCMT over the state-of-the-art. Code is available at: https://github.com/Senyh/UCMT.
翻訳日:2023-05-29 22:51:34 公開日:2023-05-26
# 超目的視点からの低レベル強い凸性のない二値最適化

Bilevel Optimization without Lower-level Strong Convexity from the Hyper-Objective Perspective ( http://arxiv.org/abs/2301.00712v2 )

ライセンス: Link先を確認
Lesi Chen, Jing Xu and Jingzhao Zhang(参考訳) 双レベル最適化は、ハイパーパラメータチューニングやメタラーニングのような、他の斜め最適化問題の内部構造を明らかにする。 双レベル最適化の共通の目標は、超目的関数の定常点を見つけることである。 この超対象的アプローチは広く用いられているが、下層関数が強い凸性を持たない場合、その理論的性質は十分には研究されていない。 本研究では,従来の低レベルの強い凸性仮定を使わずに,超対象的アプローチを一歩進めて検討する。 その結果, 一般凸下層関数の超対象物は, 評価や最適化に難渋することが示唆された。 この課題に取り組むために, 勾配支配条件を導入し, 低レベル解集合を非シングルトンにすることで, 強い凸性仮定を厳密に緩和する。 勾配支配条件下では, スイッチンググラディエント法 (SGM) を第0次オラクルとして用い, 超対象の近似定常点を求める不正確なグラディエント・フリー・メソッド (IGFM) を提案する。 また, 弱シャープ最小条件下では, 非スムース低レベル関数に結果を拡張する。

Bilevel optimization reveals the inner structure of otherwise oblique optimization problems, such as hyperparameter tuning and meta-learning. A common goal in bilevel optimization is to find stationary points of the hyper-objective function. Although this hyper-objective approach is widely used, its theoretical properties have not been thoroughly investigated in cases where the lower-level functions lack strong convexity. In this work, we take a step forward and study the hyper-objective approach without the typical lower-level strong convexity assumption. Our hardness results show that the hyper-objective of general convex lower-level functions can be intractable either to evaluate or to optimize. To tackle this challenge, we introduce the gradient dominant condition, which strictly relaxes the strong convexity assumption by allowing the lower-level solution set to be non-singleton. Under the gradient dominant condition, we propose the Inexact Gradient-Free Method (IGFM), which uses the Switching Gradient Method (SGM) as the zeroth order oracle, to find an approximate stationary point of the hyper-objective. We also extend our results to nonsmooth lower-level functions under the weak sharp minimum condition.
翻訳日:2023-05-29 22:51:11 公開日:2023-05-26
# S-Graphs+:階層表現を利用したリアルタイムローカライゼーションとマッピング

S-Graphs+: Real-time Localization and Mapping leveraging Hierarchical Representations ( http://arxiv.org/abs/2212.11770v3 )

ライセンス: Link先を確認
Hriday Bavle, Jose Luis Sanchez-Lopez, Muhammad Shaheer, Javier Civera and Holger Voos(参考訳) 本稿では,1つの最適化可能な因子グラフと1つのポーズグラフを関連する測定とロボットのポーズからなるロボットキーフレームの集合として,そして2つの3次元シーングラフを,意味的属性とそれらの間の関係情報をエンコードする環境の高レベルな表現として,共同でモデル化した状況グラフの進化版を提案する。 具体的には,(1)ロボットのポーズを推定したキーフレーム層,(2)壁面を表す壁層,(3)壁面を包含する部屋層,(4)床層を所定の階内に集める床層からなる,新しい4層係数グラフである。 上記のグラフはリアルタイムで最適化され、ロボットのポーズとその地図のロバストで正確な推定を行い、同時に環境の高レベル情報を構築し、活用する。 このハイレベルな情報を抽出するために,マップされた壁面と自由空間クラスタを用いた新しい部屋と床のセグメンテーションアルゴリズムを提案する。 各種建設現場からの室内環境のシミュレーションデータや実際の屋内オフィスエリアの公開データセットなど,複数のデータセットでS-Graphs+を検証した。 我々のデータセットを平均して、S-Graphs+は、よりリッチなシーンモデルによってロボットの状況認識を拡張しながら、第2のベストメソッドの精度を10.67%向上させる。 さらに、ソフトウェアをdockerファイルとして利用できるようにする。

In this paper, we present an evolved version of Situational Graphs, which jointly models in a single optimizable factor graph (1) a pose graph, as a set of robot keyframes comprising associated measurements and robot poses, and (2) a 3D scene graph, as a high-level representation of the environment that encodes its different geometric elements with semantic attributes and the relational information between them. Specifically, our S-Graphs+ is a novel four-layered factor graph that includes: (1) a keyframes layer with robot pose estimates, (2) a walls layer representing wall surfaces, (3) a rooms layer encompassing sets of wall planes, and (4) a floors layer gathering the rooms within a given floor level. The above graph is optimized in real-time to obtain a robust and accurate estimate of the robots pose and its map, simultaneously constructing and leveraging high-level information of the environment. To extract this high-level information, we present novel room and floor segmentation algorithms utilizing the mapped wall planes and free-space clusters. We tested S-Graphs+ on multiple datasets, including simulated and real data of indoor environments from varying construction sites, and on a real public dataset of several indoor office areas. On average over our datasets, S-Graphs+ outperforms the accuracy of the second-best method by a margin of 10.67%, while extending the robot situational awareness by a richer scene model. Moreover, we make the software available as a docker file.
翻訳日:2023-05-29 22:50:53 公開日:2023-05-26
# 量子双局所シナリオのためのインフレーション階層と偏極階層は完全である

The inflation hierarchy and the polarization hierarchy are complete for the quantum bilocal scenario ( http://arxiv.org/abs/2212.11299v2 )

ライセンス: Link先を確認
Laurens T. Ligthart and David Gross(参考訳) 量子力学系で測定を行うことで得られる相関の集合を特徴付けるのは、基本的なが難しい問題である。 この問題は、量子状態の準備手順が与えられた因果構造に従うと仮定される場合、特に困難である。 近年、いわゆる量子インフレーション技術に基づいて、この量子因果整合問題に対する最初の完全性結果が与えられている。 しかし、完全性は観測対象のシュミット階の上限のような追加の技術的制約を課すことで達成された。 そこで本研究では, 量子双局所シナリオにおいて, エンタングルメントスワッピング実験のよく研究された抽象モデルにおいて, これらの合併症は不要であることを示す。 量子インフレーション階層は、可換な局所性モデルにおけるバイローカライズシナリオに対して完備であることを示す。 また、tsirelson による観測の双局所バージョン、すなわち有限次元において、可換可観測モデルと局所性のテンソル積モデルが一致することを述べる。 これらの結果は、renouとxuが最近提起した疑問に答える。 最後に,本手法は,生成元と関係によって定義される作用素代数の状態における多項式関数の最適化問題に対して完結したsdp階層を生じさせるものとして,より一般に解釈できることを示す。 この偏極階層の完全性は、最大$C^*$-テンソル積上の状態に対する量子デ・フィネッティの定理から従う。

It is a fundamental but difficult problem to characterize the set of correlations that can be obtained by performing measurements on quantum mechanical systems. The problem is particularly challenging when the preparation procedure for the quantum states is assumed to comply with a given causal structure. Recently, a first completeness result for this quantum causal compatibility problem has been given, based on the so-called quantum inflation technique. However, completeness was achieved by imposing additional technical constraints, such as an upper bound on the Schmidt rank of the observables. Here, we show that these complications are unnecessary in the quantum bilocal scenario, a much-studied abstract model of entanglement swapping experiments. We prove that the quantum inflation hierarchy is complete for the bilocal scenario in the commuting observables model of locality. We also give a bilocal version of an observation by Tsirelson, namely that in finite dimensions, the commuting observables model and the tensor product model of locality coincide. These results answer questions recently posed by Renou and Xu. Finally, we point out that our techniques can be interpreted more generally as giving rise to an SDP hierarchy that is complete for the problem of optimizing polynomial functions in the states of operator algebras defined by generators and relations. The completeness of this polarization hierarchy follows from a quantum de Finetti theorem for states on maximal $C^*$-tensor products.
翻訳日:2023-05-29 22:50:26 公開日:2023-05-26
# MoralDial: モラルディスカッションによるモラル対話システムの訓練と評価のためのフレームワーク

MoralDial: A Framework to Train and Evaluate Moral Dialogue Systems via Moral Discussions ( http://arxiv.org/abs/2212.10720v2 )

ライセンス: Link先を確認
Hao Sun, Zhexin Zhang, Fei Mi, Yasheng Wang, Wei Liu, Jianwei Cui, Bin Wang, Qun Liu, Minlie Huang(参考訳) 対話システムにおける道徳性は近年研究において大きな注目を集めている。 ユーザの価値観に合わせた道徳的対話システムは、会話のエンゲージメントとユーザ接続を高めることができる。 本稿では,道徳的対話システムの訓練と評価を行うためのフレームワークであるMoralDialを提案する。 本研究の枠組みでは,まずモラルのコミュニケーションメカニズムを考察し,モラル対話システム構築のロードマップを示す3つの部分に分けた。 そこで我々は,シミュレーションされた特定のユーザと対話システム間の道徳的議論を構築する,シンプルで効果的な手法を設計する。 構築された議論は、対話交換における道徳観を表現し、説明し、修正し、推論することにより、会話モデルが自然に道徳をよく学習する。 さらに,本フレームワークに基づく新しい評価手法を提案する。 道徳の多面的な性質が特に考慮される議論において,対話応答と人的価値の関係を判断することにより,道徳の多面的側面を評価する。 自動的および手動的な実験により、我々のフレームワークは道徳的対話システムの訓練と評価を約束している。

Morality in dialogue systems has raised great attention in research recently. A moral dialogue system aligned with users' values could enhance conversation engagement and user connections. In this paper, we propose a framework, MoralDial to train and evaluate moral dialogue systems. In our framework, we first explore the communication mechanisms of morality and resolve expressed morality into three parts, which indicate the roadmap for building a moral dialogue system. Based on that, we design a simple yet effective method: constructing moral discussions between simulated specific users and the dialogue system. The constructed discussions consist of expressing, explaining, revising, and inferring moral views in dialogue exchanges, which makes conversational models learn morality well in a natural manner. Furthermore, we propose a novel evaluation method under the framework. We evaluate the multiple aspects of morality by judging the relation between dialogue responses and human values in discussions, where the multifaceted nature of morality is particularly considered. Automatic and manual experiments demonstrate that our framework is promising to train and evaluate moral dialogue systems.
翻訳日:2023-05-29 22:49:40 公開日:2023-05-26
# 大規模言語モデルの推論に向けて:調査

Towards Reasoning in Large Language Models: A Survey ( http://arxiv.org/abs/2212.10403v2 )

ライセンス: Link先を確認
Jie Huang and Kevin Chen-Chuan Chang(参考訳) 推論は人間の知性の基本的側面であり、問題解決、意思決定、批判的思考といった活動において重要な役割を果たす。 近年,大規模言語モデル (LLM) は自然言語処理において顕著な進歩を遂げており,これらのモデルが十分に大きければ推論能力を示す可能性がある。 しかし、LLMがどの程度推論できるのかは、まだ明らかになっていない。 本稿では, LLMにおける推論に関する知識の現状を概観するとともに, これらのモデルにおける推論を改善する技術, 推論能力を評価する方法とベンチマーク, この分野におけるこれまでの研究成果と含意, 今後の方向性を提案する。 我々の目標は、このトピックの詳細と最新のレビューを提供し、有意義な議論と今後の作業を促進することです。

Reasoning is a fundamental aspect of human intelligence that plays a crucial role in activities such as problem solving, decision making, and critical thinking. In recent years, large language models (LLMs) have made significant progress in natural language processing, and there is observation that these models may exhibit reasoning abilities when they are sufficiently large. However, it is not yet clear to what extent LLMs are capable of reasoning. This paper provides a comprehensive overview of the current state of knowledge on reasoning in LLMs, including techniques for improving and eliciting reasoning in these models, methods and benchmarks for evaluating reasoning abilities, findings and implications of previous research in this field, and suggestions on future directions. Our aim is to provide a detailed and up-to-date review of this topic and stimulate meaningful discussion and future work.
翻訳日:2023-05-29 22:48:36 公開日:2023-05-26
# 画像による曖昧さの解消:マルチモーダル機械翻訳の改善とコントラスト評価

Tackling Ambiguity with Images: Improved Multimodal Machine Translation and Contrastive Evaluation ( http://arxiv.org/abs/2212.10140v2 )

ライセンス: Link先を確認
Matthieu Futeral, Cordelia Schmid, Ivan Laptev, Beno\^it Sagot, Rachel Bawden(参考訳) 機械翻訳(mt)の最大の課題の1つは曖昧さであり、画像などのコンテキストを伴って解決できる場合もある。 しかし、近年のマルチモーダルMT(MMT)の研究は、画像から改善を得ることが困難であることを示しており、効果的なクロスモーダル表現を構築することの難しさだけでなく、特定の評価やトレーニングデータの欠如によって制限されている。 本稿では, ニューラルアダプター, ガイド付き自己注意機構, 視覚条件のマスキングとMTの両面を併用した, 強力なテキストのみのMTモデルに基づく新しいMT手法を提案する。 また,不明瞭な文とその可能な翻訳の対比多言語多モーダル翻訳評価セットであるcommutと,各翻訳に対応する画像の曖昧化を伴って紹介する。 提案手法は,標準の英語-フランス語,英語-ドイツ語,英語-チェコ語のベンチマークにおける強いテキストのみのモデルと比較して,競争力のある結果が得られる。 私たちのコードと通勤は無料で利用できる。

One of the major challenges of machine translation (MT) is ambiguity, which can in some cases be resolved by accompanying context such as images. However, recent work in multimodal MT (MMT) has shown that obtaining improvements from images is challenging, limited not only by the difficulty of building effective cross-modal representations, but also by the lack of specific evaluation and training data. We present a new MMT approach based on a strong text-only MT model, which uses neural adapters, a novel guided self-attention mechanism and which is jointly trained on both visually-conditioned masking and MMT. We also introduce CoMMuTE, a Contrastive Multilingual Multimodal Translation Evaluation set of ambiguous sentences and their possible translations, accompanied by disambiguating images corresponding to each translation. Our approach obtains competitive results compared to strong text-only models on standard English-to-French, English-to-German and English-to-Czech benchmarks and outperforms baselines and state-of-the-art MMT systems by a large margin on our contrastive test set. Our code and CoMMuTE are freely available.
翻訳日:2023-05-29 22:48:22 公開日:2023-05-26
# エンド・ツー・エンドフル原子抗体設計

End-to-End Full-Atom Antibody Design ( http://arxiv.org/abs/2302.00203v3 )

ライセンス: Link先を確認
Xiangzhe Kong, Wenbing Huang, Yang Liu(参考訳) 抗体の設計は治療や生物学といった様々な分野において必須だが困難な課題である。 現在の学習手法には2つの大きな欠陥がある。 1) 抗体設計パイプライン全体の特定のサブタスクのみに取り組むことで, 最適あるいは資源集約化を実現した。 2) フレームワーク領域またはサイドチェーンのどちらかを省略することで、フル原子の形状を捉えることができない。 これらの落とし穴に対処するために, エピトープと不完全配列を付与したE(3)-equivariant 抗体設計のためのエンド・ツー・エンドフル原子モデルである動的マルチチャネル等価型graAph Network (dyMEAN)を提案する。 具体的には、まず、抗体構造の知識に富んだ推測として構造初期化を探求し、エピトープ-抗体結合をブリッジするシャドーパラトープを提案する。 1D配列と3D構造は、完全な原子を考える際に、可変サイズのタンパク質残基を処理できる適応型多チャンネル同変エンコーダによって更新される。 最後に、更新された抗体は、シャドウパラトープのアライメントを介してエピトープにドッキングされる。 エピトープ結合型cdr-h3設計、複雑な構造予測、親和性最適化の実験は、エンドツーエンドフレームワークとフルアトムモデリングの優位性を示しています。

Antibody design is an essential yet challenging task in various domains like therapeutics and biology. There are two major defects in current learning-based methods: 1) tackling only a certain subtask of the whole antibody design pipeline, making them suboptimal or resource-intensive. 2) omitting either the framework regions or side chains, thus incapable of capturing the full-atom geometry. To address these pitfalls, we propose dynamic Multi-channel Equivariant grAph Network (dyMEAN), an end-to-end full-atom model for E(3)-equivariant antibody design given the epitope and the incomplete sequence of the antibody. Specifically, we first explore structural initialization as a knowledgeable guess of the antibody structure and then propose shadow paratope to bridge the epitope-antibody connections. Both 1D sequences and 3D structures are updated via an adaptive multi-channel equivariant encoder that is able to process protein residues of variable sizes when considering full atoms. Finally, the updated antibody is docked to the epitope via the alignment of the shadow paratope. Experiments on epitope-binding CDR-H3 design, complex structure prediction, and affinity optimization demonstrate the superiority of our end-to-end framework and full-atom modeling.
翻訳日:2023-05-29 21:03:09 公開日:2023-05-26
# マルチモーダル入力と出力のための画像への接地言語モデル

Grounding Language Models to Images for Multimodal Inputs and Outputs ( http://arxiv.org/abs/2301.13823v2 )

ライセンス: Link先を確認
Jing Yu Koh, Ruslan Salakhutdinov, Daniel Fried(参考訳) 本研究では,事前学習したテキストのみの言語モデルを視覚領域に最適化し,任意にインターリーブされた画像とテキストデータを処理し,検索した画像でインターリーブされたテキストを生成する。 本手法は,インコンテキスト学習やフリーフォームテキスト生成など,大規模テキストのみの事前学習から学習した言語モデルの能力を活用する。 我々は、言語モデルを凍結させ、相互モダリティ相互作用を可能にするために、入出力線形層を微調整する。 これにより、任意にインターリーブされた画像とテキストの入力を処理し、検索した画像でインターリーブされた自由形式のテキストを生成することができる。 本研究では,コンテキスト画像検索やマルチモーダル対話などの接地タスクにおいて,強いゼロショット性能を実現し,魅力的な対話能力を示す。 当社のアプローチは市販の言語モデルと連携し,事前学習した言語モデルを視覚的に基盤とした環境で活用するための,効果的で汎用的なソリューションへの道を開く。

We propose an efficient method to ground pretrained text-only language models to the visual domain, enabling them to process arbitrarily interleaved image-and-text data, and generate text interleaved with retrieved images. Our method leverages the abilities of language models learnt from large scale text-only pretraining, such as in-context learning and free-form text generation. We keep the language model frozen, and finetune input and output linear layers to enable cross-modality interactions. This allows our model to process arbitrarily interleaved image-and-text inputs, and generate free-form text interleaved with retrieved images. We achieve strong zero-shot performance on grounded tasks such as contextual image retrieval and multimodal dialogue, and showcase compelling interactive abilities. Our approach works with any off-the-shelf language model and paves the way towards an effective, general solution for leveraging pretrained language models in visually grounded settings.
翻訳日:2023-05-29 21:02:48 公開日:2023-05-26
# STEEL:特異性を考慮した強化学習

STEEL: Singularity-aware Reinforcement Learning ( http://arxiv.org/abs/2301.13152v3 )

ライセンス: Link先を確認
Xiaohong Chen, Zhengling Qi, Runzhe Wan(参考訳) バッチ強化学習(rl)は、事前に収集したデータを活用して、動的環境で期待される総報酬を最大化する最適なポリシーを見つけることを目的としている。 既存のアルゴリズムのほとんどすべてが、データ分散に関してターゲットポリシーによって引き起こされる分布の絶対的な連続的な仮定に依存しているため、バッチデータは測定値の変更を通じてターゲットポリシーの校正に使用できる。 しかし、絶対連続性仮定は実際には違反する可能性があり(例えば、非オーバーラップサポート)、特に状態作用空間が大きく連続している場合である。 本稿では,連続状態と動作を伴う無限水平マルコフ決定過程の設定において絶対連続性を必要としない新しいバッチRLアルゴリズムを提案する。 我々はアルゴリズムをSTEEL: SingulariTy-awarE rEinforcement Learningと呼んでいる。 このアルゴリズムは,最大平均不一致と分布的ロバストな最適化を併用し,特異性に起因するオフポリス評価の誤りを特徴付け,モデルの補間を可能にするオフポリシー評価の新しい誤り解析に動機づけられている。 悲観主義の考え方を利用して、いくつかの穏やかな条件下では、絶対連続性を課さずに提案したアルゴリズムに対する有限サンプル後悔保証を導出する。 既存のアルゴリズムと比較して、STEELは最小限のデータカバレッジ仮定しか必要とせず、バッチRLの適用性と堅牢性を大幅に改善する。 拡張シミュレーション研究とパーソナライズ価格に関する実実験は,バッチrlにおける特異性に対処する上で,提案手法の優れた性能を示すものである。

Batch reinforcement learning (RL) aims at leveraging pre-collected data to find an optimal policy that maximizes the expected total rewards in a dynamic environment. Nearly all existing algorithms rely on the absolutely continuous assumption on the distribution induced by target policies with respect to the data distribution, so that the batch data can be used to calibrate target policies via the change of measure. However, the absolute continuity assumption could be violated in practice (e.g., no-overlap support), especially when the state-action space is large or continuous. In this paper, we propose a new batch RL algorithm without requiring absolute continuity in the setting of an infinite-horizon Markov decision process with continuous states and actions. We call our algorithm STEEL: SingulariTy-awarE rEinforcement Learning. Our algorithm is motivated by a new error analysis on off-policy evaluation, where we use maximum mean discrepancy, together with distributionally robust optimization, to characterize the error of off-policy evaluation caused by the possible singularity and to enable model extrapolation. By leveraging the idea of pessimism and under some mild conditions, we derive a finite-sample regret guarantee for our proposed algorithm without imposing absolute continuity. Compared with existing algorithms, by requiring only minimal data-coverage assumption, STEEL significantly improves the applicability and robustness of batch RL. Extensive simulation studies and one real experiment on personalized pricing demonstrate the superior performance of our method in dealing with possible singularity in batch RL.
翻訳日:2023-05-29 21:02:29 公開日:2023-05-26
# 一般変数条件下での分散確率最適化

Distributed Stochastic Optimization under a General Variance Condition ( http://arxiv.org/abs/2301.12677v2 )

ライセンス: Link先を確認
Kun Huang, Xiao Li, Shi Pu(参考訳) 分散確率最適化は,大規模機械学習問題の解法としての有効性から,近年大きな注目を集めている。 多くのアルゴリズムが提案され、一般的な実用的な問題に適用されているが、理論上の保証は主に確率勾配上の有界性条件に依存しており、一様有界性から緩やかな成長条件まで様々である。 さらに,エージェント間のデータの不均一性を特徴付ける方法や,そのアルゴリズム性能への影響も課題として残されている。 このようなモチベーションを考慮して、分散確率最適化問題を解くための古典的フェデレーション平均化(FedAvg)アルゴリズムを再検討し、滑らかな非凸目的関数に対する確率勾配上の緩やかな分散条件下で収束結果を確立する。 ほぼ確実に定常点への収束も条件の下で確立される。 さらに,データの不均一性およびその意義について,より情報的な測定について考察する。

Distributed stochastic optimization has drawn great attention recently due to its effectiveness in solving large-scale machine learning problems. Though numerous algorithms have been proposed and successfully applied to general practical problems, their theoretical guarantees mainly rely on certain boundedness conditions on the stochastic gradients, varying from uniform boundedness to the relaxed growth condition. In addition, how to characterize the data heterogeneity among the agents and its impacts on the algorithmic performance remains challenging. In light of such motivations, we revisit the classical Federated Averaging (FedAvg) algorithm for solving the distributed stochastic optimization problem and establish the convergence results under only a mild variance condition on the stochastic gradients for smooth nonconvex objective functions. Almost sure convergence to a stationary point is also established under the condition. Moreover, we discuss a more informative measurement for data heterogeneity as well as its implications.
翻訳日:2023-05-29 21:02:03 公開日:2023-05-26
# FedEBA+:エントロピーモデルによる公正かつ効果的なフェデレーション学習を目指して

FedEBA+: Towards Fair and Effective Federated Learning via Entropy-Based Model ( http://arxiv.org/abs/2301.12407v3 )

ライセンス: Link先を確認
Lin Wang, Zhichao Wang and Xiaoying Tang(参考訳) 公平性を確保することは、モデルがすべてのクライアントで一貫した実行を可能にする連合学習(fl)の重要な側面である。 しかしながら、グローバルモデルのパフォーマンスを向上し公平性を促進するflアルゴリズムの設計は、しばしば前者とのトレードオフを必要とするため、依然として大きな課題である。 そこで本研究では,グローバルモデルの性能向上と同時に公平性を高める新しいflアルゴリズムfedeba+を提案する。 FedEBA+には、パフォーマンスの低いクライアントにより高い重みを割り当てる公平なアグリゲーションスキームとアライメント更新メソッドが組み込まれている。 さらに、理論的収束解析を行い、FedEBA+の公正性を示す。 大規模な実験により、フェデバ+は他のSOTAフェアネスFL法よりもフェアネスとグローバルモデルの性能の両面で優れていることが示された。

Ensuring fairness is a crucial aspect of Federated Learning (FL), which enables the model to perform consistently across all clients. However, designing an FL algorithm that simultaneously improves global model performance and promotes fairness remains a formidable challenge, as achieving the latter often necessitates a trade-off with the former. To address this challenge, we propose a new FL algorithm, FedEBA+, which enhances fairness while simultaneously improving global model performance. FedEBA+ incorporates a fair aggregation scheme that assigns higher weights to underperforming clients and an alignment update method. In addition, we provide theoretical convergence analysis and show the fairness of FedEBA+. Extensive experiments demonstrate that FedEBA+ outperforms other SOTA fairness FL methods in terms of both fairness and global model performance.
翻訳日:2023-05-29 21:01:47 公開日:2023-05-26
# フェデレーション学習は本当にバックプロパゲーションを必要とするか?

Does Federated Learning Really Need Backpropagation? ( http://arxiv.org/abs/2301.12195v2 )

ライセンス: Link先を確認
Haozhe Feng, Tianyu Pang, Chao Du, Wei Chen, Shuicheng Yan, Min Lin(参考訳) フェデレートラーニング(FL)は、分散クライアントがローカルデータを共有せずにサーバモデルをまとめて訓練する一般的な原則である。 flは実用的なアプリケーションを持つ有望なフレームワークだが、標準的なトレーニングパラダイムでは、クライアントがモデルをバックプロパゲートして勾配を計算する必要がある。 これらのクライアントは一般的にエッジデバイスであり、完全に信頼されていないため、バックプロパゲーションを実行すると、計算やストレージのオーバーヘッドやホワイトボックスの脆弱性が発生する。 これを踏まえ、バックプロパゲーションを複数のフォワードプロセスに置き換えて勾配を推定する、BAFFLEと呼ばれるバックプロパゲーションフリーなフェデレーション学習を開発する。 BAFFLEは 1) メモリ効率が高く,アップロード帯域幅に適合する。 2 推論のみのハードウェア最適化及びモデル量子化又はプルーニングとの互換性 3) baffleのクライアントは前方の伝搬のみを実行し、サーバにスカラーのセットを返すため、信頼できる実行環境に適しています。 実証的には、BAFFLEを使用して、深いモデルをスクラッチからトレーニングしたり、事前訓練されたモデルを微調整して、許容可能な結果を達成する。 コードはhttps://github.com/FengHZ/BAFFLEで入手できる。

Federated learning (FL) is a general principle for decentralized clients to train a server model collectively without sharing local data. FL is a promising framework with practical applications, but its standard training paradigm requires the clients to backpropagate through the model to compute gradients. Since these clients are typically edge devices and not fully trusted, executing backpropagation on them incurs computational and storage overhead as well as white-box vulnerability. In light of this, we develop backpropagation-free federated learning, dubbed BAFFLE, in which backpropagation is replaced by multiple forward processes to estimate gradients. BAFFLE is 1) memory-efficient and easily fits uploading bandwidth; 2) compatible with inference-only hardware optimization and model quantization or pruning; and 3) well-suited to trusted execution environments, because the clients in BAFFLE only execute forward propagation and return a set of scalars to the server. Empirically we use BAFFLE to train deep models from scratch or to finetune pretrained models, achieving acceptable results. Code is available in https://github.com/FengHZ/BAFFLE.
翻訳日:2023-05-29 21:01:12 公開日:2023-05-26
# 包括的機械翻訳のためのジェンダー中立化:理論基礎からオープンチャレンジへ

Gender Neutralization for an Inclusive Machine Translation: from Theoretical Foundations to Open Challenges ( http://arxiv.org/abs/2301.10075v2 )

ライセンス: Link先を確認
Andrea Piergentili, Dennis Fucci, Beatrice Savoldi, Luisa Bentivogli, Matteo Negri(参考訳) 言語技術における男女排他性は、重要な研究テーマとなっている。 本研究では,性中立翻訳(gnt)を,性別偏差と差別を継続する機械翻訳(mt)モデルによって達成される目的として,性中立翻訳(gnt)について検討する。 具体的には、ジェンダー関連言語移行問題を表す言語対である、英語からイタリア語への翻訳に焦点を当てる。 GNTの定義には,ジェンダーを包摂する言語に関する制度的ガイドラインの選択,利用シナリオの議論,MTにおけるGNTの実行に関する技術的課題について検討し,MTにおけるより大きな傾きへの発展を促すための潜在的な解決策について議論する。

Gender inclusivity in language technologies has become a prominent research topic. In this study, we explore gender-neutral translation (GNT) as a form of gender inclusivity and a goal to be achieved by machine translation (MT) models, which have been found to perpetuate gender bias and discrimination. Specifically, we focus on translation from English into Italian, a language pair representative of salient gender-related linguistic transfer problems. To define GNT, we review a selection of relevant institutional guidelines for gender-inclusive language, discuss its scenarios of use, and examine the technical challenges of performing GNT in MT, concluding with a discussion of potential solutions to encourage advancements toward greater inclusivity in MT.
翻訳日:2023-05-29 21:00:50 公開日:2023-05-26
# 連続測定下における乱れ量子多体ダイナミクスの局在特性

Localization properties in disordered quantum many-body dynamics under continuous measurement ( http://arxiv.org/abs/2301.07290v2 )

ライセンス: Link先を確認
Kazuki Yamamoto, Ryusuke Hamazaki(参考訳) 量子軌道法に基づく乱れ量子多体系における連続監視力学とそれに伴う測定誘起相転移の局在特性について検討した。 ランダムな量子軌道間の忠実性を計算することで、乱れと測定が互いに異なる力学特性をもたらすことが証明されるが、両者とも絡み合いの広がりを抑制する力を持っている。 特に, 測度が弱い大規模不規則系では, 定常値に飽和する前に, 忠実度が異常なパワーロー減衰を示すことを解明する。 さらに,ポストセレクションに頼らずに連続的に監視される動的力学において,量子軌道の物理量にアクセスする方法を提案する。 このスキームは実験のコストを大幅に削減することを示した。 この結果は, 連続測定対象の超低温原子で試験でき, エンタングルメントエントロピーの定常特性から理解できない局所化の動的性質を研究するための道を開くことができる。

We study localization properties of continuously monitored dynamics and associated measurement-induced phase transitions in disordered quantum many-body systems on the basis of the quantum trajectory approach. By calculating the fidelity between random quantum trajectories, we demonstrate that the disorder and the measurement can lead to dynamical properties distinct from each other, although both have a power to suppress the entanglement spreading. In particular, in the large-disorder regime with weak measurement, we elucidate that the fidelity exhibits an anomalous power-law decay before saturating to the steady-state value. Furthermore, we propose a general method to access physical quantities for quantum trajectories in continuously monitored dynamics without resorting to postselection. It is demonstrated that this scheme drastically reduces the cost of experiments. Our results can be tested in ultracold atoms subject to continuous measurement and open the avenue to study dynamical properties of localization, which cannot be understood from the stationary properties of the entanglement entropy.
翻訳日:2023-05-29 21:00:11 公開日:2023-05-26
# I$^2$SB: Image-to-Image Schr\"odinger Bridge

I$^2$SB: Image-to-Image Schr\"odinger Bridge ( http://arxiv.org/abs/2302.05872v3 )

ライセンス: Link先を確認
Guan-Horng Liu, Arash Vahdat, De-An Huang, Evangelos A. Theodorou, Weili Nie, Anima Anandkumar(参考訳) 本研究では,2つの分布間の非線形拡散過程を直接学習する新しい条件拡散モデルであるschr\"odinger bridge (i$^2$sb)を提案する。 これらの拡散橋は、劣化した画像がクリーンな画像の再構築に構造的に有益であるため、画像復元に特に有用である。 I$^2$SBは、スコアベースモデルへの非線形拡張であるSchr\"odinger Bridgeの抽出可能なクラスに属し、その限界分布は解析的に与えられた境界対を計算できる。 これにより、I$^2$SBトレーニングが標準拡散モデルで使用される実践的手法を採用することにより、非線形拡散のシミュレーション不要なフレームワークがスケーラブルになる。 I$^2$SB は、画像Net 256x256 上での塗り絵、超解像、デブロアリング、JPEG 復元などの様々な画像復元タスクの解決において有効であり、I$^2$SB は、より解釈可能な生成過程を持つ標準条件拡散モデルを超えることを示す。 さらに、I$^2$SBは、汚職演算子の知識を必要とする逆メソッドのパフォーマンスと一致する。 我々の研究は、大規模に効率的な非線形拡散モデルを開発するための新しいアルゴリズムの機会を開く。 スケール。 プロジェクトページとコード: https://i2sb.github.io/

We propose Image-to-Image Schr\"odinger Bridge (I$^2$SB), a new class of conditional diffusion models that directly learn the nonlinear diffusion processes between two given distributions. These diffusion bridges are particularly useful for image restoration, as the degraded images are structurally informative priors for reconstructing the clean images. I$^2$SB belongs to a tractable class of Schr\"odinger bridge, the nonlinear extension to score-based models, whose marginal distributions can be computed analytically given boundary pairs. This results in a simulation-free framework for nonlinear diffusions, where the I$^2$SB training becomes scalable by adopting practical techniques used in standard diffusion models. We validate I$^2$SB in solving various image restoration tasks, including inpainting, super-resolution, deblurring, and JPEG restoration on ImageNet 256x256 and show that I$^2$SB surpasses standard conditional diffusion models with more interpretable generative processes. Moreover, I$^2$SB matches the performance of inverse methods that additionally require the knowledge of the corruption operators. Our work opens up new algorithmic opportunities for developing efficient nonlinear diffusion models on a large scale. scale. Project page and codes: https://i2sb.github.io/
翻訳日:2023-05-29 20:52:27 公開日:2023-05-26
# 境界量子ストレージモデルにおける強力なプリミティブ

Powerful Primitives in the Bounded Quantum Storage Model ( http://arxiv.org/abs/2302.05724v2 )

ライセンス: Link先を確認
Mohammed Barhoush and Louis Salvail(参考訳) 有界量子記憶モデルは、その量子記憶に関してのみ制限される計算上の非有界敵に対するセキュリティを達成することを目的としている。 本研究では,(1) CCA1-Secure symmetric key encryption, メッセージ認証符号, ワンタイムプログラムなどの強力なプリミティブに対して, 情報理論によるセキュアな構成を提供する。 これらのスキームは、正直なユーザのために量子メモリを必要としないが、送信長を十分に増やすことで、任意に大きなメモリを持つ敵に対してセキュアにすることができる。 2) CCA1-Secure 非対称鍵暗号、暗号化トークン、署名、署名トークン、プログラムブロードキャスト。 これらのスキームは、約$e^{\sqrt{m}}$量子メモリを持つ敵に対して安全である。 建設物はすべて、消失と不可避のセキュリティの概念を満足している。

The bounded quantum storage model aims to achieve security against computationally unbounded adversaries that are restricted only with respect to their quantum memories. In this work, we provide information-theoretic secure constructions in this model for the following powerful primitives: (1) CCA1-secure symmetric key encryption, message authentication codes, and one-time programs. These schemes require no quantum memory for the honest user, while they can be made secure against adversaries with arbitrarily large memories by increasing the transmission length sufficiently. (2) CCA1-secure asymmetric key encryption, encryption tokens, signatures, signature tokens, and program broadcast. These schemes are secure against adversaries with roughly $e^{\sqrt{m}}$ quantum memory where $m$ is the quantum memory required for the honest user. All of the constructions additionally satisfy notions of disappearing and unclonable security.
翻訳日:2023-05-29 20:52:01 公開日:2023-05-26
# 騒音勾配によらず加速を達成する

Achieving acceleration despite very noisy gradients ( http://arxiv.org/abs/2302.05515v2 )

ライセンス: Link先を確認
Kanan Gupta, Jonathan Siegel, Stephan Wojtowytsch(参考訳) 我々はネステロフの加速勾配降下アルゴリズムの一般化を提案する。 本アルゴリズム(agnes)は,ノイズ強度が勾配の大きさに比例する場合,ノイズ勾配推定を伴う滑らかな凸最小化タスクの高速化を実現する。 ネステロフの加速度勾配降下は、比例定数が1を超えるとこのノイズモデルの下で収束しない。 AGNESはこの欠陥を修正し、勾配推定における信号と雑音の比がどれほど小さくても、確実に加速収束率を達成する。 経験的に、これは過パラメータ深層学習におけるミニバッチ勾配の適切なモデルであることを示す。 最後に,AGNESは,CNNのトレーニングにおいて運動量とネステロフ法により確率勾配勾配よりも優れることを示す。

We present a generalization of Nesterov's accelerated gradient descent algorithm. Our algorithm (AGNES) provably achieves acceleration for smooth convex minimization tasks with noisy gradient estimates if the noise intensity is proportional to the magnitude of the gradient. Nesterov's accelerated gradient descent does not converge under this noise model if the constant of proportionality exceeds one. AGNES fixes this deficiency and provably achieves an accelerated convergence rate no matter how small the signal to noise ratio in the gradient estimate. Empirically, we demonstrate that this is an appropriate model for mini-batch gradients in overparameterized deep learning. Finally, we show that AGNES outperforms stochastic gradient descent with momentum and Nesterov's method in the training of CNNs.
翻訳日:2023-05-29 20:51:46 公開日:2023-05-26
# 差動小数点画像分類の有効性について

On the Efficacy of Differentially Private Few-shot Image Classification ( http://arxiv.org/abs/2302.01190v2 )

ライセンス: Link先を確認
Marlon Tobaben, Aliaksandra Shysheya, John Bronskill, Andrew Paverd, Shruti Tople, Santiago Zanella-Beguelin, Richard E Turner, Antti Honkela(参考訳) 最良の非プライベートモデルにアプローチする精度を達成するための差分プライベート(DP)モデルのトレーニングが、近年著しく進歩している。 これらのdpモデルは通常、大きなパブリックデータセットで事前トレーニングされ、その後、比較的大きく、プリトレーニングデータと分布が似ているプライベートなダウンストリームデータセットで微調整される。 しかし、パーソナライゼーションや連合学習など多くのアプリケーションでは、うまく機能することが重要である。 (i) 少ないショット設定では、大量のラベル付きデータの取得が問題となる場合があり得る。 (ii)様々な専門分野のデータセットについて。 少数ショットdpが効果的である条件を理解するために,クラス毎のショット数,プライバシレベル,モデルアーキテクチャ,ダウンストリームデータセット,モデルの学習可能なパラメータのサブセットなどによって,少数ショットdpイメージ分類モデルの攻撃の正確性と脆弱性がどう影響するかを明らかにするため,徹底的な実験を行う。 非プライベートモデルと同等のdp精度を達成するためには,プライバシレベルが最大20~35$\times$で$\epsilon=1$となるため,クラス毎のショットを増加させる必要がある。 また、DP下での学習パラメータ効率のよいFiLMアダプタは、最終分類器層のみの学習やネットワークパラメータの学習よりも優れていることを示す。 最後に,dpフェデレート学習システムを評価し,難解なflairベンチマークで最先端のパフォーマンスを確立する。

There has been significant recent progress in training differentially private (DP) models which achieve accuracy that approaches the best non-private models. These DP models are typically pretrained on large public datasets and then fine-tuned on private downstream datasets that are relatively large and similar in distribution to the pretraining data. However, in many applications including personalization and federated learning, it is crucial to perform well (i) in the few-shot setting, as obtaining large amounts of labeled data may be problematic; and (ii) on datasets from a wide variety of domains for use in various specialist settings. To understand under which conditions few-shot DP can be effective, we perform an exhaustive set of experiments that reveals how the accuracy and vulnerability to attack of few-shot DP image classification models are affected as the number of shots per class, privacy level, model architecture, downstream dataset, and subset of learnable parameters in the model vary. We show that to achieve DP accuracy on par with non-private models, the shots per class must be increased as the privacy level increases by as much as 20 - 35$\times$ at $\epsilon=1$. We also show that learning parameter-efficient FiLM adapters under DP is competitive with and often superior to learning just the final classifier layer or learning all of the network parameters. Finally, we evaluate DP federated learning systems and establish state-of-the-art performance on the challenging FLAIR benchmark.
翻訳日:2023-05-29 20:51:17 公開日:2023-05-26
# SimMTM: Masked Time-Series Modelingのためのシンプルな事前トレーニングフレームワーク

SimMTM: A Simple Pre-Training Framework for Masked Time-Series Modeling ( http://arxiv.org/abs/2302.00861v3 )

ライセンス: Link先を確認
Jiaxiang Dong, Haixu Wu, Haoran Zhang, Li Zhang, Jianmin Wang, Mingsheng Long(参考訳) 時系列分析は広範囲で広く使われている。 近年,ラベリング費用を削減し,様々な業務に利益をもたらすために,自己監督型事前研修が注目されている。 メインストリームのパラダイムはマスクモデリングであり、マスクされていない部分に基づいてマスクされたコンテンツを再構築するために学習することで、深層モデルを事前学習することに成功している。 しかし、時系列の意味情報は時間的変動に主に含まれているため、時間的変化をランダムにマスキングする標準的な方法は、時系列の重要な時間的変動を著しく損なうことになり、表現学習の指導が困難になる。 そこで我々は,マスク付き時系列モデリングのための簡易事前学習フレームワークSimMTMを提案する。 マスク付きモデリングと多様体学習を関連づけることで、SimMTMは、複数の隣人の重み付けによるマスク付き時間点の復元を提案する。 SimMTMはさらに、マスク付きモデリングに役立つ多様体の局所構造を明らかにすることを学ぶ。 実験により、SimMTMは2つの標準時系列解析タスク(予測と分類)において、最も先進的な時系列事前学習手法と比較して、最先端の微調整性能を達成する。

Time series analysis is widely used in extensive areas. Recently, to reduce labeling expenses and benefit various tasks, self-supervised pre-training has attracted immense interest. One mainstream paradigm is masked modeling, which successfully pre-trains deep models by learning to reconstruct the masked content based on the unmasked part. However, since the semantic information of time series is mainly contained in temporal variations, the standard way of randomly masking a portion of time points will seriously ruin vital temporal variations of time series, making the reconstruction task too difficult to guide representation learning. We thus present SimMTM, a Simple pre-training framework for Masked Time-series Modeling. By relating masked modeling to manifold learning, SimMTM proposes to recover masked time points by the weighted aggregation of multiple neighbors outside the manifold, which eases the reconstruction task by assembling ruined but complementary temporal variations from multiple masked series. SimMTM further learns to uncover the local structure of the manifold, which is helpful for masked modeling. Experimentally, SimMTM achieves state-of-the-art fine-tuning performance compared to the most advanced time series pre-training methods in two canonical time series analysis tasks: forecasting and classification, covering both in- and cross-domain settings.
翻訳日:2023-05-29 20:50:50 公開日:2023-05-26
# 蒸留政策最適化

Distillation Policy Optimization ( http://arxiv.org/abs/2302.00533v4 )

ライセンス: Link先を確認
Jianfei Ma(参考訳) しかし、オン・ポリシーのアルゴリズムはまだ安定しているはずだ。 過去の経験を利用したオフポリシーアルゴリズムは、一般的にはサンプル効率だが不安定であると考えられている。 法外データを活用するアルゴリズムを設計できる一方で、法外通路に沿って航行することで安定した学習を活用できるだろうか? 本稿では,評価と制御の両面から2つのデータソースを交互に作成し,高速な学習を可能にし,オンラインアルゴリズムのセットに適用可能なアクタ批判学習フレームワークを提案する。 そのバックボーンでは、unified advantage estimator(uae)や学習されたベースラインといった分散低減メカニズムによって、長期的なノイズと瞬時に発生するノイズの両方を軽減できる。 実験の結果、サンプル効率が大幅に向上し、新しい学習パラダイムとして提案手法が提案されている。

On-policy algorithms are supposed to be stable, however, sample-intensive yet. Off-policy algorithms utilizing past experiences are deemed to be sample-efficient, nevertheless, unstable in general. Can we design an algorithm that can employ the off-policy data, while exploit the stable learning by sailing along the course of the on-policy walkway? In this paper, we present an actor-critic learning framework that cross-breeds two sources of the data for both evaluation and control, which enables fast learning and can be applied to a set of on-policy algorithms. In its backbone, the variance reduction mechanisms, such as unified advantage estimator (UAE) and a learned baseline, are able to mitigate both the long-term and instantaneous noise, which can even be incorporated into the off-policy learning. Empirical results demonstrate significant improvements in sample efficiency, suggesting our method as a promising new learning paradigm.
翻訳日:2023-05-29 20:50:15 公開日:2023-05-26
# 暗黙の正規化はスパース線形回帰の良性過剰をもたらす

Implicit Regularization Leads to Benign Overfitting for Sparse Linear Regression ( http://arxiv.org/abs/2302.00257v2 )

ライセンス: Link先を確認
Mo Zhou, Rong Ge(参考訳) ディープラーニングでは、しばしばトレーニングプロセスは補間子(トレーニング損失0のソリューション)を見つけるが、テスト損失は依然として低い。 この現象は良心過剰とよばれるもので、近年多くの注目を集めた大きな謎である。 良性オーバーフィッティングの一般的なメカニズムは暗黙の正則化であり、そこでは、トレーニングプロセスが補間器のさらなる性質につながり、しばしば特定のノルムを最小化する。 しかし、単純なスパース線型回帰問題 $y = \beta^{*\top} x +\xi$ with sparse $\beta^*$, both minimum $\ell_1$ or $\ell_2$ norm interpolator は最適なテスト損失を与える。 この研究では、モデルの異なるパラメータ化を行い、$\ell_1$ と $\ell_2$ の補間器の利点を組み合わせた新しい暗黙的正規化効果をもたらす。 勾配降下による新しいモデルの訓練は, ほぼ最適試験損失を伴う補間器につながることを示す。 この結果はトレーニング力学を慎重に分析し,ノルム最小化を超える暗黙の正規化効果の別の例を提供する。

In deep learning, often the training process finds an interpolator (a solution with 0 training loss), but the test loss is still low. This phenomenon, known as benign overfitting, is a major mystery that received a lot of recent attention. One common mechanism for benign overfitting is implicit regularization, where the training process leads to additional properties for the interpolator, often characterized by minimizing certain norms. However, even for a simple sparse linear regression problem $y = \beta^{*\top} x +\xi$ with sparse $\beta^*$, neither minimum $\ell_1$ or $\ell_2$ norm interpolator gives the optimal test loss. In this work, we give a different parametrization of the model which leads to a new implicit regularization effect that combines the benefit of $\ell_1$ and $\ell_2$ interpolators. We show that training our new model via gradient descent leads to an interpolator with near-optimal test loss. Our result is based on careful analysis of the training dynamics and provides another example of implicit regularization effect that goes beyond norm minimization.
翻訳日:2023-05-29 20:50:01 公開日:2023-05-26
# スプリットラーニングにおけるサーバサイドバックドアアタックの可能性について

On Feasibility of Server-side Backdoor Attacks on Split Learning ( http://arxiv.org/abs/2302.09578v2 )

ライセンス: Link先を確認
Behrad Tajalli, Oguzhan Ersoy, Stjepan Picek(参考訳) 分割学習は、複数の参加者(クライアント)がデータセットをプライベートに保ちながら共有モデルをトレーニングできる協調学習設計である。 近年の研究では、協調学習モデル、特に連合学習モデルは、モデル推論やバックドア攻撃のようなセキュリティやプライバシ攻撃に弱いことが示されている。 バックドア攻撃(英: backdoor attack)は、攻撃者がモデルのトレーニングプロセスを操作してモデル出力を制御しようとする一連の毒殺攻撃である。 スプリットラーニングに対する推論攻撃に関する研究は行われているが、バックドア攻撃の試験はまだ行われていない。 本稿では,スプリット学習に対する新しいバックドア攻撃を行い,その効果について検討する。 クライアント側での従来のバックドア攻撃にもかかわらず、サーバ側からバックドアトリガーを注入します。 この目的のために、我々は、サロゲートクライアントとオートエンコーダを使用して、入力されたスマッシュデータと、その無実の参加者への流出勾配を介してモデルに毒を与える2つの攻撃方法を提供する。 画像ドメイン内の3つのモデルアーキテクチャと3つの公開データセットを用いて実験を行い、攻撃方法を評価するために合計761の実験を行った。 その結果, 強いパターンと注入法を用いても, スプリットラーニングは非常に堅牢で, 中毒に対する耐性が高いことがわかった。 mnistデータセットの最高の結果として、攻撃成功率は100%だが、他のほとんどのケースでは、カット層を増加させる場合、攻撃成功率はほとんどない。

Split learning is a collaborative learning design that allows several participants (clients) to train a shared model while keeping their datasets private. Recent studies demonstrate that collaborative learning models, specifically federated learning, are vulnerable to security and privacy attacks such as model inference and backdoor attacks. Backdoor attacks are a group of poisoning attacks in which the attacker tries to control the model output by manipulating the model's training process. While there have been studies regarding inference attacks on split learning, it has not yet been tested for backdoor attacks. This paper performs a novel backdoor attack on split learning and studies its effectiveness. Despite traditional backdoor attacks done on the client side, we inject the backdoor trigger from the server side. For this purpose, we provide two attack methods: one using a surrogate client and another using an autoencoder to poison the model via incoming smashed data and its outgoing gradient toward the innocent participants. We did our experiments using three model architectures and three publicly available datasets in the image domain and ran a total of 761 experiments to evaluate our attack methods. The results show that despite using strong patterns and injection methods, split learning is highly robust and resistant to such poisoning attacks. While we get the attack success rate of 100% as our best result for the MNIST dataset, in most of the other cases, our attack shows little success when increasing the cut layer.
翻訳日:2023-05-29 20:43:33 公開日:2023-05-26
# 画像復元のための混合階層ネットワーク

Mixed Hierarchy Network for Image Restoration ( http://arxiv.org/abs/2302.09554v3 )

ライセンス: Link先を確認
Hu Gao and Depeng Dang(参考訳) 画像復元は、デブラリングやデレイニングなど、長期にわたる低レベルの視覚問題である。 画像復元の過程では,空間的詳細や文脈情報だけでなく,システムの複雑さも考慮する必要がある。 画像復元の質を保証できる手法は数多くあるが, 現状技術(SOTA)手法の複雑さも増大している。 この動機付けにより、これらの競合する目標のバランスをとることができる混合階層ネットワークを提案する。 システム複雑性を軽減するためにブロック内の設計を行いながら、劣化した画像からコンテキスト情報と空間詳細を段階的に復元する。 具体的には,まずエンコーダデコーダアーキテクチャを用いて文脈情報を学習し,空間的詳細を保存する高分解能分岐と組み合わせる。 簡易な解析と比較のために、このアーキテクチャのシステムの複雑さを軽減するために、非線形活性化関数を乗法で置き換えたり取り除いたりし、単純なネットワーク構造を使う。 さらに,エンコーダデコーダの中間ブロックに対する空間畳み込みをグローバルな自己注意に置き換える。 その結果、mhnetと呼ばれる密にリンクされた階層アーキテクチャは、画像のデレイニングやデブラリングなど、いくつかの画像復元タスクにおいて強力なパフォーマンス向上をもたらす。

Image restoration is a long-standing low-level vision problem, e.g., deblurring and deraining. In the process of image restoration, it is necessary to consider not only the spatial details and contextual information of restoration to ensure the quality, but also the system complexity. Although many methods have been able to guarantee the quality of image restoration, the system complexity of the state-of-the-art (SOTA) methods is increasing as well. Motivated by this, we present a mixed hierarchy network that can balance these competing goals. Our main proposal is a mixed hierarchy architecture, that progressively recovers contextual information and spatial details from degraded images while we design intra-blocks to reduce system complexity. Specifically, our model first learns the contextual information using encoder-decoder architectures, and then combines them with high-resolution branches that preserve spatial detail. In order to reduce the system complexity of this architecture for convenient analysis and comparison, we replace or remove the nonlinear activation function with multiplication and use a simple network structure. In addition, we replace spatial convolution with global self-attention for the middle block of encoder-decoder. The resulting tightly interlinked hierarchy architecture, named as MHNet, delivers strong performance gains on several image restoration tasks, including image deraining, and deblurring.
翻訳日:2023-05-29 20:43:10 公開日:2023-05-26
# 縮約-連結トレードオフ--変分推論のための因子化ガウス近似の解析

The Shrinkage-Delinkage Trade-off: An Analysis of Factorized Gaussian Approximations for Variational Inference ( http://arxiv.org/abs/2302.09163v3 )

ライセンス: Link先を確認
Charles C. Margossian and Lawrence K. Saul(参考訳) 因子化近似が変分推論(vi)に使用されるとき、それらは近似する分布の不確実性(様々な方法で測定される)を過小評価する傾向がある。 我々は、VIの不確実性を測る2つの一般的な方法を考える。 (i)成分的なばらつきを過小評価する程度 (二)エントロピーを過小評価する程度 これらの効果、およびそれらの関係をよりよく理解するために、これらを明示的に(かつエレガントに)分析できる情報的設定について検討する: 密度共分散行列を持つガウス行列の近似は、対角共分散行列を持つガウス行列(英語版)(gaussian,~$q$)である。 q$は常にコンポーネントごとの分散と$p$, \textit{ but not always to the same degree}のエントロピーの両方を過小評価していることを証明する。 さらに、$q$のエントロピーは、2つの競合する力のトレードオフによって決定され、その成分的分散(我々の最初の不確実性の尺度)の縮小によって減少するが、これはグラフィカルモデルのノードを$p$で切り離す分解近似によって増加する。 特に、問題の次元が大きくなるにつれて、成分ごとのエントロピーギャップが、一定の乗算係数によってすべての成分ごとの分散を過小評価しているにもかかわらず、$p$ と $q$ の間の減少する。 また,問題次元と相関行列の条件数でエントロピーギャップを拘束するために,縮小-デリンジトレードオフを用いる。 最後に、ガウス的目標と非ガウス的目標の両方について実験結果を示し、前者は分析を検証し、後者は限界を探索する。

When factorized approximations are used for variational inference (VI), they tend to underestimate the uncertainty -- as measured in various ways -- of the distributions they are meant to approximate. We consider two popular ways to measure the uncertainty deficit of VI: (i) the degree to which it underestimates the componentwise variance, and (ii) the degree to which it underestimates the entropy. To better understand these effects, and the relationship between them, we examine an informative setting where they can be explicitly (and elegantly) analyzed: the approximation of a Gaussian,~$p$, with a dense covariance matrix, by a Gaussian,~$q$, with a diagonal covariance matrix. We prove that $q$ always underestimates both the componentwise variance and the entropy of $p$, \textit{though not necessarily to the same degree}. Moreover we demonstrate that the entropy of $q$ is determined by the trade-off of two competing forces: it is decreased by the shrinkage of its componentwise variances (our first measure of uncertainty) but it is increased by the factorized approximation which delinks the nodes in the graphical model of $p$. We study various manifestations of this trade-off, notably one where, as the dimension of the problem grows, the per-component entropy gap between $p$ and $q$ becomes vanishingly small even though $q$ underestimates every componentwise variance by a constant multiplicative factor. We also use the shrinkage-delinkage trade-off to bound the entropy gap in terms of the problem dimension and the condition number of the correlation matrix of $p$. Finally we present empirical results on both Gaussian and non-Gaussian targets, the former to validate our analysis and the latter to explore its limitations.
翻訳日:2023-05-29 20:42:48 公開日:2023-05-26
# 逆生成モデルに対するPAC-Bayesian一般化境界

PAC-Bayesian Generalization Bounds for Adversarial Generative Models ( http://arxiv.org/abs/2302.08942v2 )

ライセンス: Link先を確認
Sokhna Diarra Mbacke, Florence Clerc, Pascal Germain(参考訳) PAC-ベイズ理論を生成モデルに拡張し、ワッサーシュタイン距離と全変動距離に基づくモデルに対する一般化境界を開発する。 ワッサーシュタイン距離に関する我々の第一の結果は、インスタンス空間が有界であると仮定し、第二の結果は次元還元を利用する。 我々の結果はワッサースタイン GAN とエネルギーベース GAN に自然に適用され、これらの2つの領域に新たなトレーニング目標が提供される。 本研究は主に理論的だが, 合成データセット上でのワッサーシュタイン GAN の非空一般化境界を示す数値実験を行う。

We extend PAC-Bayesian theory to generative models and develop generalization bounds for models based on the Wasserstein distance and the total variation distance. Our first result on the Wasserstein distance assumes the instance space is bounded, while our second result takes advantage of dimensionality reduction. Our results naturally apply to Wasserstein GANs and Energy-Based GANs, and our bounds provide new training objectives for these two. Although our work is mainly theoretical, we perform numerical experiments showing non-vacuous generalization bounds for Wasserstein GANs on synthetic datasets.
翻訳日:2023-05-29 20:42:13 公開日:2023-05-26
# 不均衡データセットを用いた深層能動学習のためのアルゴリズム選択

Algorithm Selection for Deep Active Learning with Imbalanced Datasets ( http://arxiv.org/abs/2302.07317v2 )

ライセンス: Link先を確認
Jifan Zhang, Shuai Shao, Saurabh Verma, Robert Nowak(参考訳) ラベル効率は、ディープラーニングアプリケーションにおいてますます重要な目標となっている。 アクティブラーニングは、ディープネットワークのトレーニングに必要なラベル付きサンプルの数を減らすことを目的としているが、アクティブラーニングアルゴリズムの実証的パフォーマンスは、データセットやアプリケーションによって劇的に変化する可能性がある。 アクティブな学習戦略が与えられたアプリケーションでうまく機能するか、どれが最善であるかを事前に知るのは難しい。 そこで本研究では,深層アクティブ学習のための適応アルゴリズム選択戦略を提案する。 どんなラベルのないデータセットに対しても、私たちの(メタ)アルゴリズムテーラー(thompson active learning algorithm selection)は、一連の候補アクティブラーニングアルゴリズムの中から反復的かつ適応的に選択します。 tailorはクラスバランスの取れたサンプルの収集を目的とした新しい報酬関数を使用する。 マルチクラスおよびマルチラベルアプリケーションにおける広範囲な実験は、TAILORが最適なアルゴリズムよりも精度が優れていることを示す。

Label efficiency has become an increasingly important objective in deep learning applications. Active learning aims to reduce the number of labeled examples needed to train deep networks, but the empirical performance of active learning algorithms can vary dramatically across datasets and applications. It is difficult to know in advance which active learning strategy will perform well or best in a given application. To address this, we propose the first adaptive algorithm selection strategy for deep active learning. For any unlabeled dataset, our (meta) algorithm TAILOR (Thompson ActIve Learning algORithm selection) iteratively and adaptively chooses among a set of candidate active learning algorithms. TAILOR uses novel reward functions aimed at gathering class-balanced examples. Extensive experiments in multi-class and multi-label applications demonstrate TAILOR's effectiveness in achieving accuracy comparable or better than that of the best of the candidate algorithms.
翻訳日:2023-05-29 20:41:30 公開日:2023-05-26
# Reveal the Unknown: エンティティリンクによるアウトオブ知識ベースメンションディスカバリ

Reveal the Unknown: Out-of-Knowledge-Base Mention Discovery with Entity Linking ( http://arxiv.org/abs/2302.07189v2 )

ライセンス: Link先を確認
Hang Dong, Jiaoyan Chen, Yuan He, Yinan Liu, Ian Horrocks(参考訳) テキストから知識ベース(kb)外にあるエンティティ参照を見つけることは、kbのメンテナンスにおいて重要な役割を果たすが、まだ完全には検討されていない。 現在の手法は主に単純なしきい値に基づくアプローチと特徴に基づく分類に限られており、評価のためのデータセットは比較的稀である。 我々はBERTベースの新しいエンティティリンク(EL)手法であるBLINKoutを提案し、特別なNILエンティティとマッチングすることで、対応するKBエンティティを持たない参照を識別する。 BERT をよりよく活用するために,NIL エンティティの表現と分類を含む新しい手法を提案する。 また、一般的なkb内elデータセットからkb外データセットを自動的に構築するためのkbプルーニングおよびバージョニング戦略も提案する。 臨床ノート, バイオメディカル出版, ウィキペディア記事の5つのデータセットの結果は, 医療オントロジー, UMLS, SNOMED CT, 一般KB, WikiDataの既往の記載を識別する手法よりも, BLINKoutの利点を示している。

Discovering entity mentions that are out of a Knowledge Base (KB) from texts plays a critical role in KB maintenance, but has not yet been fully explored. The current methods are mostly limited to the simple threshold-based approach and feature-based classification, and the datasets for evaluation are relatively rare. We propose BLINKout, a new BERT-based Entity Linking (EL) method which can identify mentions that do not have corresponding KB entities by matching them to a special NIL entity. To better utilize BERT, we propose new techniques including NIL entity representation and classification, with synonym enhancement. We also propose KB Pruning and Versioning strategies to automatically construct out-of-KB datasets from common in-KB EL datasets. Results on five datasets of clinical notes, biomedical publications, and Wikipedia articles in various domains show the advantages of BLINKout over existing methods to identify out-of-KB mentions for the medical ontologies, UMLS, SNOMED CT, and the general KB, WikiData.
翻訳日:2023-05-29 20:41:15 公開日:2023-05-26
# GOATS:カリキュラム強化学習によるスクーピングのためのゴールサンプリング適応

GOATS: Goal Sampling Adaptation for Scooping with Curriculum Reinforcement Learning ( http://arxiv.org/abs/2303.05193v2 )

ライセンス: Link先を確認
Yaru Niu, Shiyu Jin, Zeqing Zhang, Jiacheng Zhu, Ding Zhao, Liangjun Zhang(参考訳) 本研究では,まず,目標条件付き強化学習を用いてロボットウォータースクーピングの問題を定式化する。 この課題は流体の複雑なダイナミクスとマルチモーダル目標を達成する必要性のために特に困難である。 この政策は、位置目標と水量目標の両方をうまく達成するために必要であり、大きな畳み込み目標状態空間に繋がる。 これらの課題を克服するために,ロボットスクープタスクの効果的かつ汎用的な方針を学習可能なカリキュラム強化学習手法であるgoats(goats)の目標サンプリング適応を提案する。 具体的には,ゴール分解報酬の定式化と位置目標分布と量目標分布を補間し,学習過程を通してカリキュラムを作成する。 その結果,提案手法はシミュレーションのベースラインを上回ることができ,ボウルスクーピングとバケットスクーピング作業において,タンク内の初期水状態の1000種類以下で5.46%,8.71%の誤差が達成できた。 本手法は,シミュレーション環境において有効であるだけでなく,様々な物理構成と未認識設定のノイズの多い実ロボット水冷シナリオに効率的に適応し,優れた有効性と汎用性を示す。 この作業のビデオはプロジェクトのページで公開されている。

In this work, we first formulate the problem of robotic water scooping using goal-conditioned reinforcement learning. This task is particularly challenging due to the complex dynamics of fluid and the need to achieve multi-modal goals. The policy is required to successfully reach both position goals and water amount goals, which leads to a large convoluted goal state space. To overcome these challenges, we introduce Goal Sampling Adaptation for Scooping (GOATS), a curriculum reinforcement learning method that can learn an effective and generalizable policy for robot scooping tasks. Specifically, we use a goal-factorized reward formulation and interpolate position goal distributions and amount goal distributions to create curriculum throughout the learning process. As a result, our proposed method can outperform the baselines in simulation and achieves 5.46% and 8.71% amount errors on bowl scooping and bucket scooping tasks, respectively, under 1000 variations of initial water states in the tank and a large goal state space. Besides being effective in simulation environments, our method can efficiently adapt to noisy real-robot water-scooping scenarios with diverse physical configurations and unseen settings, demonstrating superior efficacy and generalizability. The videos of this work are available on our project page: https://sites.google.com/view/goatscooping.
翻訳日:2023-05-29 20:34:30 公開日:2023-05-26
# UniHCP:人間中心の知覚の統一モデル

UniHCP: A Unified Model for Human-Centric Perceptions ( http://arxiv.org/abs/2303.02936v3 )

ライセンス: Link先を確認
Yuanzheng Ci, Yizhou Wang, Meilin Chen, Shixiang Tang, Lei Bai, Feng Zhu, Rui Zhao, Fengwei Yu, Donglian Qi, Wanli Ouyang(参考訳) 人間中心の知覚(ポーズ推定、人間の解析、歩行者検出、人物再同定など)は、視覚モデルの産業応用において重要な役割を果たす。 特定の人間中心のタスクは、それぞれに焦点をあてる意味的な側面を持っているが、同時に、人体の基本的な意味構造も共有している。 しかし、そのような均質性を活かし、人間中心タスクの汎用モデルの設計を試みる研究はほとんどない。 本研究では、人間中心の幅広いタスクを再考し、最小限の方法でそれらを統一する。 そこで我々は,人間中心のタスクを多種多様なタスクに統一したUniHCPを,視覚トランスフォーマアーキテクチャを用いて簡易なエンド・ツー・エンド方式で提案する。 33の人間中心のデータセットで大規模な共同トレーニングを行うことで、UniHCPはいくつかのドメイン内および下流タスクにおいて、直接評価によって強力なベースラインを達成できる。 特定のタスクに適応すると、UniHCPは、人間解析用のCIHPの69.8 mIoU、属性予測用のPA-100Kの86.18 mA、ReID用のMarket1501の90.3 mAP、歩行者検出用のCrowdHumanの85.8 JIなど、幅広い人間中心のタスクで新しいSOTAを達成し、各タスク用に調整された特別モデルよりも優れたパフォーマンスを発揮する。

Human-centric perceptions (e.g., pose estimation, human parsing, pedestrian detection, person re-identification, etc.) play a key role in industrial applications of visual models. While specific human-centric tasks have their own relevant semantic aspect to focus on, they also share the same underlying semantic structure of the human body. However, few works have attempted to exploit such homogeneity and design a general-propose model for human-centric tasks. In this work, we revisit a broad range of human-centric tasks and unify them in a minimalist manner. We propose UniHCP, a Unified Model for Human-Centric Perceptions, which unifies a wide range of human-centric tasks in a simplified end-to-end manner with the plain vision transformer architecture. With large-scale joint training on 33 human-centric datasets, UniHCP can outperform strong baselines on several in-domain and downstream tasks by direct evaluation. When adapted to a specific task, UniHCP achieves new SOTAs on a wide range of human-centric tasks, e.g., 69.8 mIoU on CIHP for human parsing, 86.18 mA on PA-100K for attribute prediction, 90.3 mAP on Market1501 for ReID, and 85.8 JI on CrowdHuman for pedestrian detection, performing better than specialized models tailored for each task.
翻訳日:2023-05-29 20:34:06 公開日:2023-05-26
# 偏光状態を超えた量子状態試験と量子三角偏差

Quantum state testing beyond the polarizing regime and quantum triangular discrimination ( http://arxiv.org/abs/2303.01952v2 )

ライセンス: Link先を確認
Yupan Liu(参考訳) 複雑性クラスQuantum Statistical Zero-Knowledge ($\mathsf{QSZK}$)は、Watrous (FOCS 2002) が導入した、効率的に準備可能な混合状態(QSDP)のトレース距離に関する量子状態テストの計算困難を捉えている。 しかし、このクラスは、Sahai と Vadhan (JACM, 2003) が示すように、QSDP(偏極補題)の誤差の低減のため、古典的なクラスと同じパラメータ問題に直面している。 本稿では、$\chi^2$分散の対称版である三角偏差の量子アナログを紹介し、量子三角偏差と量子Jensen-Shannon分散(量子相対エントロピーの対称版)の量子状態試験問題について検討する。 これらの新たな$\mathsf{QSZK}$-complete問題により、トレース距離で量子状態をテストするためのパラメータ体系を改善し、偏極に対する既存のアプローチの限界を調べることができる。 さらに、無視可能な誤差を持つトレース距離の量子状態テストは$\mathsf{pp}$であり、エラーのない同じ問題は$\mathsf{bqp}_1$であることが証明される。 この結果は、QSDP の長周期保存分極を達成することは、$\mathsf{QSZK}$ が$\mathsf{PP}$ でない限り、あり得ないことを示唆している。

The complexity class Quantum Statistical Zero-Knowledge ($\mathsf{QSZK}$) captures computational difficulties of quantum state testing with respect to the trace distance for efficiently preparable mixed states (Quantum State Distinguishability Problem, QSDP), as introduced by Watrous (FOCS 2002). However, this class faces the same parameter issue as its classical counterpart, because of error reduction for the QSDP (the polarization lemma), as demonstrated by Sahai and Vadhan (JACM, 2003). In this paper, we introduce quantum analogues of triangular discrimination, which is a symmetric version of the $\chi^2$ divergence, and investigate the quantum state testing problems for quantum triangular discrimination and quantum Jensen-Shannon divergence (a symmetric version of the quantum relative entropy). These new $\mathsf{QSZK}$-complete problems allow us to improve the parameter regime for testing quantum states in trace distance and examine the limitations of existing approaches to polarization. Additionally, we prove that the quantum state testing for trace distance with negligible errors is in $\mathsf{PP}$ while the same problem without error is in $\mathsf{BQP}_1$. This result suggests that achieving length-preserving polarization for QSDP seems implausible unless $\mathsf{QSZK}$ is in $\mathsf{PP}$.
翻訳日:2023-05-29 20:33:20 公開日:2023-05-26
# 量子状態合成のための量子マーリン・アーサー証明系

Quantum Merlin-Arthur proof systems for synthesizing quantum states ( http://arxiv.org/abs/2303.01877v2 )

ライセンス: Link先を確認
Hugo Delavenne, Fran\c{c}ois Le Gall, Yupan Liu, and Masayuki Miyamoto(参考訳) 複雑性理論は典型的には古典的な入力と出力を用いて計算問題を解くことの難しさに焦点を当てる。 量子の世界では、異なる複雑性の概念、すなわち量子状態の合成の複雑さを適用することは自然である。 我々は,多項式時間量子検証器を用いて,全能だが信頼できない証明器からの単一量子メッセージの助けを借りて,特定の量子状態を作成することに関心を持つNPクラスである状態QMAについて検討する。 これは最近Rosenthal and Yuen (ITCS 2022)によって導入されたクラス状態QIPのサブクラスであり、証明子と検証子の間の多項式的に多くの相互作用を可能にする。 我々の主な成果は、指数的に小さなギャップや有界空間を持つクラスと、このクラスが他の基本状態合成クラス、すなわち、一様多項式時間量子回路(stateBQP)と空間一様多項式空間量子回路(statePSPACE)によって生成される状態とどのように関連しているかの誤差の低減である。 さらに、状態QCMAは完全完全性の下で閉じていることを示す。 我々の証明技術は、Gily\'en, Su, Low, Wiebe (STOC 2019) によって導入された量子特異値変換と、有界空間で指数的精度を達成するための適応に基づいている。

Complexity theory typically focuses on the difficulty of solving computational problems using classical inputs and outputs, even with a quantum computer. In the quantum world, it is natural to apply a different notion of complexity, namely the complexity of synthesizing quantum states. We investigate a state-synthesizing counterpart of the class NP, referred to as stateQMA, which is concerned with preparing certain quantum states through a polynomial-time quantum verifier with the aid of a single quantum message from an all-powerful but untrusted prover. This is a subclass of the class stateQIP recently introduced by Rosenthal and Yuen (ITCS 2022), which permits polynomially many interactions between the prover and the verifier. Our main result consists of error reduction of this class and its variants with an exponentially small gap or a bounded space, as well as how this class relates to other fundamental state synthesizing classes, i.e., states generated by uniform polynomial-time quantum circuits (stateBQP) and space-uniform polynomial-space quantum circuits (statePSPACE). Additionally, we demonstrate that stateQCMA is closed under perfect completeness. Our proof techniques are based on the quantum singular value transformation introduced by Gily\'en, Su, Low, and Wiebe (STOC 2019), and its adaption to achieve exponential precision with a bounded space.
翻訳日:2023-05-29 20:32:46 公開日:2023-05-26
# 保守的オフライン政策評価のための幻覚的adversarial control

Hallucinated Adversarial Control for Conservative Offline Policy Evaluation ( http://arxiv.org/abs/2303.01076v2 )

ライセンス: Link先を確認
Jonas Rothfuss, Bhavya Sukhija, Tobias Birchler, Parnian Kassraie, Andreas Krause(参考訳) 本研究では,他のエージェントが収集した環境相互作用のオフラインデータセットが与えられた場合,政策のパフォーマンスを低く抑えることを目的とした,保守的非政治評価(COPE)の問題について検討する。 これは、特定のポリシーが実際の世界にデプロイされる前に、パフォーマンス/安全性の基準をある程度満たすかどうかを決める場合に重要である。 この目的のために,遷移力学の不確実性を考慮した学習モデルに基づくHAMBOを導入する。 政策のパフォーマンスを保守的に見積もるために、HAMBOは、モデルがエピステマ性信頼領域のマージン内において、政策が取るであろう最悪の事例の軌跡を幻覚する。 結果のCOPE推定値が妥当な下界であることを証明し、正則性条件下では、真に期待された戻り値への収束を示す。 最後に,ベイズ型ニューラルネットワークに基づくスケーラブルなアプローチの変種について考察し,様々な連続制御環境において信頼性と厳密な下界をもたらすことを実証的に示す。

We study the problem of conservative off-policy evaluation (COPE) where given an offline dataset of environment interactions, collected by other agents, we seek to obtain a (tight) lower bound on a policy's performance. This is crucial when deciding whether a given policy satisfies certain minimal performance/safety criteria before it can be deployed in the real world. To this end, we introduce HAMBO, which builds on an uncertainty-aware learned model of the transition dynamics. To form a conservative estimate of the policy's performance, HAMBO hallucinates worst-case trajectories that the policy may take, within the margin of the models' epistemic confidence regions. We prove that the resulting COPE estimates are valid lower bounds, and, under regularity conditions, show their convergence to the true expected return. Finally, we discuss scalable variants of our approach based on Bayesian Neural Networks and empirically demonstrate that they yield reliable and tight lower bounds in various continuous control environments.
翻訳日:2023-05-29 20:32:13 公開日:2023-05-26
# ベイズ最適化のためのサロゲートとしてのベイズ核化テンソル分解

Bayesian Kernelized Tensor Factorization as Surrogate for Bayesian Optimization ( http://arxiv.org/abs/2302.14510v2 )

ライセンス: Link先を確認
Mengying Lei and Lijun Sun(参考訳) ベイズ最適化(BO)は、主にガウス過程(GP)をキーサロゲートモデルとして用いており、主に2乗述語カーネル(SE-ARD)のような固定的で分離可能なカーネル関数を持つ。 しかし、そのような単純なカーネル仕様は、非定常性、非分離性、マルチモーダルといった複雑な特徴を持つ学習機能に欠けている。 このような関数を局所gpを用いて近似するには、低次元空間であっても、高次元の設定では言及されない大量のサンプルが必要となる。 本稿では,BKTF (Bayesian Kernelized Tensor Factorization) を新しい代理モデルとして,D$D次元カルテシアン積空間におけるBOに対して用いることを提案する。 我々の重要なアイデアは、完全にベイジアンな低ランクテンソルcp分解を持つ、基礎となる$d$-dimensional solidを近似することであり、gp を各次元の潜在基底関数に前置して局所的一貫性と滑らかさを符号化する。 この定式化により、各サンプルからの情報は隣人だけでなく、次元にわたって共有できる。 BKTFはもはや分析後部を持たないが、マルコフ連鎖モンテカルロ(MCMC)による後部分布を効率的に近似し、予測と完全不確実量化(UQ)を得ることができる。 我々は,標準的なBOテスト関数と機械学習ハイパーパラメータチューニング問題の両方について数値実験を行い,BKTFは,特に初期サンプルサイズと予算が著しく制限された場合に,複雑な関数をUQで特徴づけるための柔軟かつ高効率なアプローチを提供することを示した。

Bayesian optimization (BO) primarily uses Gaussian processes (GP) as the key surrogate model, mostly with a simple stationary and separable kernel function such as the squared-exponential kernel with automatic relevance determination (SE-ARD). However, such simple kernel specifications are deficient in learning functions with complex features, such as being nonstationary, nonseparable, and multimodal. Approximating such functions using a local GP, even in a low-dimensional space, requires a large number of samples, not to mention in a high-dimensional setting. In this paper, we propose to use Bayesian Kernelized Tensor Factorization (BKTF) -- as a new surrogate model -- for BO in a $D$-dimensional Cartesian product space. Our key idea is to approximate the underlying $D$-dimensional solid with a fully Bayesian low-rank tensor CP decomposition, in which we place GP priors on the latent basis functions for each dimension to encode local consistency and smoothness. With this formulation, information from each sample can be shared not only with neighbors but also across dimensions. Although BKTF no longer has an analytical posterior, we can still efficiently approximate the posterior distribution through Markov chain Monte Carlo (MCMC) and obtain prediction and full uncertainty quantification (UQ). We conduct numerical experiments on both standard BO test functions and machine learning hyperparameter tuning problems, and our results show that BKTF offers a flexible and highly effective approach for characterizing complex functions with UQ, especially in cases where the initial sample size and budget are severely limited.
翻訳日:2023-05-29 20:31:52 公開日:2023-05-26
# 測定専用量子回路における格子ゲージヒッグス位相状態の生成

Production of lattice gauge-Higgs topological states in measurement-only quantum circuit ( http://arxiv.org/abs/2302.13692v2 )

ライセンス: Link先を確認
Yoshihito Kuno, Ikuo Ichinose(参考訳) ハミルトニアンによる想像上の時間発展により、任意の状態が系の基底状態に到達する。 本研究では,このダイナミクスを,各射影計測を適切な方法で設定した測定専用回路(MoC)でシミュレートできると予想する。 そこで,ハミルトニアンの項とパラメータの比(共効率性)に基づいて,安定化器と呼ばれる測定演算子の選択とmocにおける射影計測の確率の誘導原理を提案する。 このパラメータ比と確率比の対応を実際的に検証するために、対称性が保護された位相位相相、デコンビネーション相などを含む位相図が非常に豊富である一般化された(1+1)次元のz_2$格子ゲージヒッグスモデルについて検討する。 誘導原理によって構成されたMoCは、ゲージ・ヒッグス・ハミルトニアンの基底状態と非常によく似た位相図を再現する。 本研究は、MoCが興味深い物質相を生成するのに広く用いられることを示し、これは安定化子型項からなる通常のハミルトン系でシミュレートすることが困難である。

By imaginary-time evolution with Hamiltonian, an arbitrary state arrives in the system's ground state. In this work, we conjecture that this dynamics can be simulated by measurement-only circuit (MoC), where each projective measurement is set in a suitable way. Based on terms in the Hamiltonian and ratios of their parameters (coefficients), we propose a guiding principle for the choice of the measured operators called stabilizers and also the probability of projective measurement in the MoC. In order to examine and verify this conjecture of the parameter ratio and probability ratio correspondence in a practical way, we study a generalized (1+1)-dimensional $Z_2$ lattice gauge-Higgs model, whose phase diagram is very rich including symmetry-protected topological phase, deconfinement phase, etc. We find that the MoC constructed by the guiding principle reproduces phase diagram very similar to that of the ground state of the gauge-Higgs Hamiltonian. The present work indicates that the MoC can be broadly used to produce interesting phases of matter, which are difficult to be simulated by ordinary Hamiltonian systems composed of stabilizer-type terms.
翻訳日:2023-05-29 20:31:21 公開日:2023-05-26
# エネルギー効率の良い深層学習のための軽量パラメータプランニング:二元化ゲーティングモジュールアプローチ

Lightweight Parameter Pruning for Energy-Efficient Deep Learning: A Binarized Gating Module Approach ( http://arxiv.org/abs/2302.10798v2 )

ライセンス: Link先を確認
Xiaoying Zhi, Varun Babbar, Pheobe Sun, Fran Silavong, Ruibo Shi, Sean Moran(参考訳) 最近の大規模で複雑なニューラルネットワークモデルの動向を考えると、グリーンAIの主題はディープラーニングコミュニティ内で注目を集めている。 推論時のトレーニングの計算負荷を削減する既存のソリューションは、通常ネットワークパラメータの刈り込みを伴う。 プルーニングスキームは、反復的なトレーニングと静的プルーニングの微調整、動的プルーニンググラフの反復計算によって余分なオーバーヘッドを生み出す。 そこで本研究では, 省エネコストを最小にしつつ, 下流タスクの完全パラメータ化ネットワークと同等の性能を維持する軽量サブネットワークを学習するための新しいパラメータプルーニング手法を提案する。 提案手法はグリーン指向であり,動的プルーニング法により最適な静的サブネットワークを発見するためには,ワンオフトレーニングのみを必要とする。 プルーニング方式は、二分ゲーティングモジュールと、ユーザが定義した間隔でサブネットワークを探索する新しい損失関数から構成される。 提案手法は,訓練段階と推論段階の両方でエネルギーを節約し,演算オーバーヘッドの増大を回避し,同時に刈り取り訓練を可能にする。 CIFAR-10 と CIFAR-100 では,分類精度を1% 削減したディープネットワークの接続を50% 削減できる可能性が示唆された。 本手法は他のプルーニング法と比較して,計算コストの等価な削減のための精度の低下を示す。

The subject of green AI has been gaining attention within the deep learning community given the recent trend of ever larger and more complex neural network models. Existing solutions for reducing the computational load of training at inference time usually involve pruning the network parameters. Pruning schemes often create extra overhead either by iterative training and fine-tuning for static pruning or repeated computation of a dynamic pruning graph. We propose a new parameter pruning strategy for learning a lighter-weight sub-network that minimizes the energy cost while maintaining comparable performance to the fully parameterised network on given downstream tasks. Our proposed pruning scheme is green-oriented, as it only requires a one-off training to discover the optimal static sub-networks by dynamic pruning methods. The pruning scheme consists of a binary gating module and a novel loss function to uncover sub-networks with user-defined sparsity. Our method enables pruning and training simultaneously, which saves energy in both the training and inference phases and avoids extra computational overhead from gating modules at inference time. Our results on CIFAR-10 and CIFAR-100 suggest that our scheme can remove 50% of connections in deep networks with 1% reduction in classification accuracy. Compared to other related pruning methods, our method demonstrates a lower drop in accuracy for equivalent reductions in computational cost.
翻訳日:2023-05-29 20:31:02 公開日:2023-05-26
# 拡散確率モデルの校正について

On Calibrating Diffusion Probabilistic Models ( http://arxiv.org/abs/2302.10688v2 )

ライセンス: Link先を確認
Tianyu Pang, Cheng Lu, Chao Du, Min Lin, Shuicheng Yan, Zhijie Deng(参考訳) 近年,拡散確率モデル (DPM) は様々な生成タスクにおいて有望な結果を得た。 典型的なDPMフレームワークは、データ分散を徐々に拡散するフォワードプロセスと、時間依存のデータスコアからデータ分散を回復するリバースプロセスを含む。 本研究では,データスコアの確率的逆過程がマルティンゲールであり,そこからデータスコアに対する濃度境界と任意の停止定理が導出できることを示す。 そして、任意の事前学習DPMを校正する簡単な方法を見つけ、その結果、スコアマッチング損失を低減し、その結果、モデル確率の低い境界を増大させることができる。 各種モデルパラメトリゼーションの一般的な校正ガイドラインを提供する。 キャリブレーション法は1回だけ行い, 得られたモデルをサンプリングに繰り返し使用することができる。 複数のデータセットで実験を行い、提案を実証的に検証する。 私たちのコードはhttps://github.com/thudzj/Calibrated-DPMsにあります。

Recently, diffusion probabilistic models (DPMs) have achieved promising results in diverse generative tasks. A typical DPM framework includes a forward process that gradually diffuses the data distribution and a reverse process that recovers the data distribution from time-dependent data scores. In this work, we observe that the stochastic reverse process of data scores is a martingale, from which concentration bounds and the optional stopping theorem for data scores can be derived. Then, we discover a simple way for calibrating an arbitrary pretrained DPM, with which the score matching loss can be reduced and the lower bounds of model likelihood can consequently be increased. We provide general calibration guidelines under various model parametrizations. Our calibration method is performed only once and the resulting models can be used repeatedly for sampling. We conduct experiments on multiple datasets to empirically validate our proposal. Our code is at https://github.com/thudzj/Calibrated-DPMs.
翻訳日:2023-05-29 20:30:37 公開日:2023-05-26
# 辞書学習における交互最小化アルゴリズムの収束

Convergence of alternating minimisation algorithms for dictionary learning ( http://arxiv.org/abs/2304.01768v2 )

ライセンス: Link先を確認
Simon Ruetz and Karin Schnass(参考訳) 本稿では,辞書学習のための2つの交互最小化アルゴリズム - 最適方向法 (mod) とオンライン辞書学習 (odl) - が収束するのに十分な条件を導出する。 1/\log(k)$以上で生成辞書との距離内にあるよく整備された初期化が与えられた場合、または、初期化の各要素が1つの生成要素のみを指し示すように特別な構造を持つ場合、どちらのアルゴリズムも生成辞書への幾何収束率で収束する。 これはスパース係数の支持に一様でない分布を持つデータモデルに対しても行われる。 これにより辞書要素の出現頻度が大きく変化し、実データをより密接にモデル化することができる。

In this paper we derive sufficient conditions for the convergence of two popular alternating minimisation algorithms for dictionary learning - the Method of Optimal Directions (MOD) and Online Dictionary Learning (ODL), which can also be thought of as approximative K-SVD. We show that given a well-behaved initialisation that is either within distance at most $1/\log(K)$ to the generating dictionary or has a special structure ensuring that each element of the initialisation only points to one generating element, both algorithms will converge with geometric convergence rate to the generating dictionary. This is done even for data models with non-uniform distributions on the supports of the sparse coefficients. These allow the appearance frequency of the dictionary elements to vary heavily and thus model real data more closely.
翻訳日:2023-05-29 20:24:38 公開日:2023-05-26
# ドメイン固有機械読解データセット改善のためのデータ中心フレームワーク

A Data-centric Framework for Improving Domain-specific Machine Reading Comprehension Datasets ( http://arxiv.org/abs/2304.00483v2 )

ライセンス: Link先を確認
Iva Bojic, Josef Halim, Verena Suharman, Sreeja Tar, Qi Chwen Ong, Duy Phung, Mathieu Ravaut, Shafiq Joty, Josip Car(参考訳) 低品質のデータは、高スループットアプリケーションで下流の問題を引き起こす可能性がある。 データ中心のアプローチでは、データセットの品質向上とモデルパフォーマンスの向上が重視される。 汎用の大規模言語モデル(llm)トレーニングやドメイン固有のモデルには、高品質なデータセットが必要です。 したがって、高品質なドメイン固有のトレーニングデータを確保することが不可欠である。 本稿では,オリジナルデータセットのデータ品質向上のためのフレームワークを提案する。 提案手法を4つのバイオメディカルデータセットに適用し,BioASQデータセット上での検索/読み出しモデルの微調整において,元のデータセット品質を向上させるためにバック翻訳を用いた場合,最大33%/40%の改善を示した。

Low-quality data can cause downstream problems in high-stakes applications. Data-centric approach emphasizes on improving dataset quality to enhance model performance. High-quality datasets are needed for general-purpose Large Language Models (LLMs) training, as well as for domain-specific models, which are usually small in size as it is costly to engage a large number of domain experts for their creation. Thus, it is vital to ensure high-quality domain-specific training data. In this paper, we propose a framework for enhancing the data quality of original datasets. We applied the proposed framework to four biomedical datasets and showed relative improvement of up to 33%/40% for fine-tuning of retrieval/reader models on the BioASQ dataset when using back translation to enhance the original dataset quality.
翻訳日:2023-05-29 20:24:10 公開日:2023-05-26
# ASR誤り訂正のための視覚情報

Visual Information Matters for ASR Error Correction ( http://arxiv.org/abs/2303.10160v2 )

ライセンス: Link先を確認
Vanya Bannihatti Kumar, Shanbo Cheng, Ningxin Peng, Yuchen Zhang(参考訳) 処理後のステップで自動音声認識(ASR)出力を改善するため,並列テキストデータの利用効率から,ASR誤り訂正(EC)技術が広く開発されている。 従来の著作は主にテキストや/および音声データの使用に焦点を当てており、テキストや音声情報だけでなく、視覚情報などの他のモダリティもecにとって重要である。 ひとつは、以前の作業が視覚的情報を強調しないため、希少な探索が研究されていることである。 もうひとつは、ECモデルに視覚情報が重要となる高品質なベンチマークが、コミュニティに欠けていることです。 ですから この論文は 1) 簡易かつ効果的な方法,すなわち,視覚情報をECに組み込むためのプロンプトとしてのゲート融合とイメージキャプション 2) 大規模なベンチマークデータセット,すなわちVisual-ASR-ECでは,トレーニングデータの各項目は視覚,音声,テキスト情報で構成され,テストデータは人間のアノテータによって慎重に選択され,視覚情報の欠落時に人間がミスを犯すことが保証される。 実験結果から,字幕をプロンプトとして使用すれば,視覚情報の有効利用が可能であり,単語誤り率(WER)が最大1.2%向上し,視覚情報がVisual-ASR-ECデータセットに必須であることが示唆された。

Aiming to improve the Automatic Speech Recognition (ASR) outputs with a post-processing step, ASR error correction (EC) techniques have been widely developed due to their efficiency in using parallel text data. Previous works mainly focus on using text or/ and speech data, which hinders the performance gain when not only text and speech information, but other modalities, such as visual information are critical for EC. The challenges are mainly two folds: one is that previous work fails to emphasize visual information, thus rare exploration has been studied. The other is that the community lacks a high-quality benchmark where visual information matters for the EC models. Therefore, this paper provides 1) simple yet effective methods, namely gated fusion and image captions as prompts to incorporate visual information to help EC; 2) large-scale benchmark datasets, namely Visual-ASR-EC, where each item in the training data consists of visual, speech, and text information, and the test data are carefully selected by human annotators to ensure that even humans could make mistakes when visual information is missing. Experimental results show that using captions as prompts could effectively use the visual information and surpass state-of-the-art methods by upto 1.2% in Word Error Rate(WER), which also indicates that visual information is critical in our proposed Visual-ASR-EC dataset
翻訳日:2023-05-29 20:23:16 公開日:2023-05-26
# ZeroQuant-V2: 総合的研究から低ランク補償へ

ZeroQuant-V2: Exploring Post-training Quantization in LLMs from Comprehensive Study to Low Rank Compensation ( http://arxiv.org/abs/2303.08302v3 )

ライセンス: Link先を確認
Zhewei Yao, Xiaoxia Wu, Cheng Li, Stephen Youn, Yuxiong He(参考訳) 学習後量子化(PTQ)は、大規模言語モデル(LLM)におけるメモリ消費と計算コストを緩和する有望な手法として登場した。 しかし、様々な量子化スキーム、モデルファミリー、および量子化ビット精度の体系的な検証は文献からは欠落している。 本稿では, PTQが重量のみ, アクティベーションのみ, および重量・活動量量化に与える影響を, ラウンド・トゥ・アレスト(RTN), GPTQ, ZeroQuant, およびそれらの変種を用いた包括的解析により検討した。 これらの手法を125Mから176Bのパラメータを持つ2つの異なるモデル群に適用する。 Our contributions include: (1) a sensitivity analysis revealing that activation quantization is generally more susceptible to weight quantization, with smaller models often outperforming larger models in terms of activation quantization; (2) an evaluation and comparison of existing PTQ methods to optimize model size reduction while minimizing the impact on accuracy, revealing that none of the current methods can achieve the original model quality for quantization with either INT4-weight or INT4-weight-and-INT8-activation; (3) based on these insights, we propose an optimized method called Low-Rank Compensation (LoRC), which employs low-rank matrices to enhance model quality recovery with a minimal increase in model size.

Post-training quantization (PTQ) has emerged as a promising technique for mitigating memory consumption and computational costs in large language models (LLMs). However, a systematic examination of various quantization schemes, model families, and quantization bit precision has been absent from the literature. In this paper, we conduct a comprehensive analysis of these factors by investigating the effects of PTQ on weight-only, activation-only, and weight-and-activation quantization using diverse methods such as round-to-nearest (RTN), GPTQ, ZeroQuant, and their variants. We apply these methods to two distinct model families with parameters ranging from 125M to 176B. Our contributions include: (1) a sensitivity analysis revealing that activation quantization is generally more susceptible to weight quantization, with smaller models often outperforming larger models in terms of activation quantization; (2) an evaluation and comparison of existing PTQ methods to optimize model size reduction while minimizing the impact on accuracy, revealing that none of the current methods can achieve the original model quality for quantization with either INT4-weight or INT4-weight-and-INT8-activation; (3) based on these insights, we propose an optimized method called Low-Rank Compensation (LoRC), which employs low-rank matrices to enhance model quality recovery with a minimal increase in model size.
翻訳日:2023-05-29 20:22:21 公開日:2023-05-26
# 疑似目標訓練による自然言語生成のための知識蒸留の体系的研究

A Systematic Study of Knowledge Distillation for Natural Language Generation with Pseudo-Target Training ( http://arxiv.org/abs/2305.02031v2 )

ライセンス: Link先を確認
Nitay Calderon, Subhabrata Mukherjee, Roi Reichart and Amir Kantor(参考訳) 現代の自然言語生成(NLG)モデルには、膨大な計算とストレージの要求がある。 本研究では,数百万のユーザを対象とした実世界のアプリケーションにとって重要な圧縮の可能性について検討する。 我々は,小学生が大きな教師モデルに模倣することを学習し,教師から生徒に知識を伝達する,知識蒸留(KD)技術に注目した。 これまでの多くの作業とは対照的に、私たちの目標は特定のnlgタスクと特定のデータセットのモデルを最適化することです。 通常、現実世界のアプリケーションでは、ラベル付きデータに加えて、ラベル付けされていないタスク固有のデータが豊富に存在する。 本研究では,現実的な仮定の下で,様々なNLGタスクに対するタスク固有KD手法の体系的研究を行う。 nlg蒸留の特殊特性,特に露出バイアス問題について考察する。 次に, Pseudo-Target (PT) 拡張手法のファミリーを導出し, 配列レベルのKDに関する先行研究を大幅に延長する。 教師と学生の両方が生成する複数のPTに対して単語レベルKDを適用するジョイント・ティーチング法を提案する。 最後に, GPT-4を教師として用いたラベル付き例を伴わず, 極端に評価した。 本研究は,実用的なモデル設計観察を提供し,nlgにおけるタスク固有kdに対するptトレーニングの有効性を示す。

Modern Natural Language Generation (NLG) models come with massive computational and storage requirements. In this work, we study the potential of compressing them, which is crucial for real-world applications serving millions of users. We focus on Knowledge Distillation (KD) techniques, in which a small student model learns to imitate a large teacher model, allowing to transfer knowledge from the teacher to the student. In contrast to much of the previous work, our goal is to optimize the model for a specific NLG task and a specific dataset. Typically in real-world applications, in addition to labeled data there is abundant unlabeled task-specific data, which is crucial for attaining high compression rates via KD. In this work, we conduct a systematic study of task-specific KD techniques for various NLG tasks under realistic assumptions. We discuss the special characteristics of NLG distillation and particularly the exposure bias problem. Following, we derive a family of Pseudo-Target (PT) augmentation methods, substantially extending prior work on sequence-level KD. We propose the Joint-Teaching method, which applies word-level KD to multiple PTs generated by both the teacher and the student. Finally, we validate our findings in an extreme setup with no labeled examples using GPT-4 as the teacher. Our study provides practical model design observations and demonstrates the effectiveness of PT training for task-specific KD in NLG.
翻訳日:2023-05-29 20:13:47 公開日:2023-05-26
# FIREBALL:構造化されたゲーム状態情報を備えたダンジョンとドラゴンの実際のプレイデータセット

FIREBALL: A Dataset of Dungeons and Dragons Actual-Play with Structured Game State Information ( http://arxiv.org/abs/2305.01528v3 )

ライセンス: Link先を確認
Andrew Zhu and Karmanya Aggarwal and Alexander Feng and Lara J. Martin and Chris Callison-Burch(参考訳) Dungeons & Dragons(ダンジョンズ&ドラゴンズ、D&D)は、プレイヤー間の複雑な自然言語インタラクションと隠れ状態情報を備えたテーブルトップロールプレイングゲームである。 近年の研究では、状態情報にアクセス可能な大規模言語モデル(LLM)が、ダイアログ履歴のみを使用するLLMよりも高品質なゲームターンを生成できることが示されている。 しかし、前作ではヒューリスティックに作成され、真の金の標準的なゲーム状態ではなかったゲーム状態情報を使用していた。 fireballは,実際のd&dゲームプレイから,真のゲーム状態情報とともに25,000近いユニークなセッションを含む,大規模なデータセットです。 Avraeボットは、人々がD&Dをオンラインでプレイし、言語、ゲームコマンド、そして基礎となるゲーム状態情報をキャプチャするのを助けるために開発された。 本稿では,avrae状態情報を用いて,自動計測と品質判断の両方を改善し,自然言語生成(nlg)を改善できることを実証する。 さらに,LLMは,特に微調整後に実行可能なAvraeコマンドを生成することができることを示す。

Dungeons & Dragons (D&D) is a tabletop roleplaying game with complex natural language interactions between players and hidden state information. Recent work has shown that large language models (LLMs) that have access to state information can generate higher quality game turns than LLMs that use dialog history alone. However, previous work used game state information that was heuristically created and was not a true gold standard game state. We present FIREBALL, a large dataset containing nearly 25,000 unique sessions from real D&D gameplay on Discord with true game state info. We recorded game play sessions of players who used the Avrae bot, which was developed to aid people in playing D&D online, capturing language, game commands and underlying game state information. We demonstrate that FIREBALL can improve natural language generation (NLG) by using Avrae state information, improving both automated metrics and human judgments of quality. Additionally, we show that LLMs can generate executable Avrae commands, particularly after finetuning.
翻訳日:2023-05-29 20:13:27 公開日:2023-05-26
# ヤンミルズ方程式に基づく角運動波の予測

Predicting Angular-Momentum Waves Based on Yang-Mills Equation ( http://arxiv.org/abs/2304.12625v2 )

ライセンス: Link先を確認
Xing-Yan Fan, Xiang-Ru Xie, and Jing-Ling Chen(参考訳) 物理学における最もエレガントな理論の1つとして、ヤン=ミルズ理論は古典的な電磁現象を統一するマクスウェルの方程式を取り入れるだけでなく、電弱と強い相互作用を簡潔に説明する標準模型を基礎としている。 アービアン$U(1)$の場合、電磁場はヤン・ミルズ方程式の最も単純な古典解である。 それにもかかわらず、最も単純な量子状態、すなわち、マクスウェルの非可換ポテンシャルを持つ方程式における「磁気」と「電気」の場の考察について、多くの研究がなされている。 マクスウェル方程式によって予測される電磁波と同様に、最も単純なyang-mills方程式の量子解はsu(2)角運動量波を予測できる。 このような角運動量波は、スピン角運動量(ディラック電子の'spin zitterbewegung''のような)の振動の実験で実現可能である。

As one of the most elegant theories in physics, Yang-Mills theory not only incorporates Maxwell's equations unifying the classical electromagnetic phenomena, but also underpins the standard model explaining the electroweak and strong interactions in a succinct way. As an Abelian $U(1)$ case, the electromagnetic field is the simplest classical solution of Yang-Mills equation. Notwithstanding, there is a paucity of studies about the simplest quantum situation, namely the consideration of the ``magnetic'' and ``electric'' fields in Maxwell's equations with non-Abelian potentials, which is exactly the staple of our present work. Akin to the electromagnetic waves predicted by Maxwell's equations, the quantum solution of the simplest Yang-Mills equation may predict the SU(2) angular-momentum waves. Such angular-momentum waves can be possibly realized in the experiments with oscillations of the spin angular momentum (such as the ``spin Zitterbewegung'' of Dirac's electron).
翻訳日:2023-05-29 20:13:10 公開日:2023-05-26
# 深層学習は純粋数学者にとって有用なツールか?

Is deep learning a useful tool for the pure mathematician? ( http://arxiv.org/abs/2304.12602v2 )

ライセンス: Link先を確認
Geordie Williamson(参考訳) 純粋数学者がディープラーニングのツールを研究で使う際に期待するものを、個人的および非公式に説明します。

A personal and informal account of what a pure mathematician might expect when using tools from deep learning in their research.
翻訳日:2023-05-29 20:12:53 公開日:2023-05-26
# 木構造型パーゼン推定器:アルゴリズム成分の理解と経験的性能向上への役割

Tree-Structured Parzen Estimator: Understanding Its Algorithm Components and Their Roles for Better Empirical Performance ( http://arxiv.org/abs/2304.11127v3 )

ライセンス: Link先を確認
Shuhei Watanabe(参考訳) 多くの領域における最近の進歩は、より複雑な実験設計を必要とする。 このような複雑な実験は、しばしばパラメータチューニングを必要とする多くのパラメータを持つ。 ベイズ最適化手法であるTPE(Tree-structured Parzen estimator)は,最近のパラメータチューニングフレームワークで広く利用されている。 その人気にもかかわらず、制御パラメータとアルゴリズム直観の役割については議論されていない。 本チュートリアルでは,多種多様なベンチマークを用いて,各制御パラメータの役割とハイパーパラメータ最適化への影響を明らかにする。 アブレーション研究から得られた推奨設定とベースライン手法を比較し,提案設定がTPEの性能を向上させることを示す。 tpeの実装はhttps://github.com/nabenabe0928/tpe/tree/single-optで利用可能です。

Recent advances in many domains require more and more complicated experiment design. Such complicated experiments often have many parameters, which necessitate parameter tuning. Tree-structured Parzen estimator (TPE), a Bayesian optimization method, is widely used in recent parameter tuning frameworks. Despite its popularity, the roles of each control parameter and the algorithm intuition have not been discussed so far. In this tutorial, we will identify the roles of each control parameter and their impacts on hyperparameter optimization using a diverse set of benchmarks. We compare our recommended setting drawn from the ablation study with baseline methods and demonstrate that our recommended setting improves the performance of TPE. Our TPE implementation is available at https://github.com/nabenabe0928/tpe/tree/single-opt.
翻訳日:2023-05-29 20:12:50 公開日:2023-05-26
# PED-ANOVA:任意部分空間におけるハイパーパラメータの重要性の効率的な定量化

PED-ANOVA: Efficiently Quantifying Hyperparameter Importance in Arbitrary Subspaces ( http://arxiv.org/abs/2304.10255v4 )

ライセンス: Link先を確認
Shuhei Watanabe, Archit Bansal, Frank Hutter(参考訳) 近年のディープラーニングにおけるハイパーパラメータ最適化(hpo)の普及は、優れたハイパーパラメータ(hp)空間設計が強力なモデルのトレーニングに果たす役割を強調している。 逆に、優れたHP空間を設計することは、異なるHPの役割を理解することに依存する。 これはHP Importance (HPI)の研究を動機付けており、例えば、機能的ANOVA(f-ANOVA)の一般的な方法である。 しかし、オリジナルのf-アノヴァの定式化はアルゴリズム設計に最も関係のある部分空間、例えばトップパフォーマンスで定義された部分空間には適用できない。 この問題を解決するために、任意の部分空間に対するf-ANOVAの新たな定式化を導き、ピアソン発散(PED)を用いてHPIの閉形式計算を可能にするアルゴリズムを提案する。 PED-ANOVAと呼ばれるこの新しいアルゴリズムは,異なる部分空間における重要なHPの同定に成功し,計算効率も極めて高いことを示す。

The recent rise in popularity of Hyperparameter Optimization (HPO) for deep learning has highlighted the role that good hyperparameter (HP) space design can play in training strong models. In turn, designing a good HP space is critically dependent on understanding the role of different HPs. This motivates research on HP Importance (HPI), e.g., with the popular method of functional ANOVA (f-ANOVA). However, the original f-ANOVA formulation is inapplicable to the subspaces most relevant to algorithm designers, such as those defined by top performance. To overcome this issue, we derive a novel formulation of f-ANOVA for arbitrary subspaces and propose an algorithm that uses Pearson divergence (PED) to enable a closed-form calculation of HPI. We demonstrate that this new algorithm, dubbed PED-ANOVA, is able to successfully identify important HPs in different subspaces while also being extremely computationally efficient.
翻訳日:2023-05-29 20:12:37 公開日:2023-05-26
# クリフォード回路の時空間符号

Spacetime codes of Clifford circuits ( http://arxiv.org/abs/2304.05943v2 )

ライセンス: Link先を確認
Nicolas Delfosse and Adam Paetznick(参考訳) 我々は,clifford回路における故障の検出と修正を行う手法を提案する。 このスキームは、クリフォード回路の可能なすべての結果ビット列のセットが線形コードであるという観測に基づいており、これを結果コードと呼ぶ。 結果コードから、時空コードに対応する安定化器コードを構築します。 我々の構成は、最近Gottesman [16] が再検討したBacon, Flammia, Harrow and Shi [2] の回路対符号構成を拡張し、中間および多ビットの測定を含む。 この対応により、安定化器符号の誤りを訂正するよく検討された問題に対して、回路の故障を補正する問題を低減させる。 より正確には、時空符号の最も可能性の高いエラーデコーダを回路の最も可能性の高いフォールトデコーダに変換することができる。 結果と時空コードを構築するための効率的なアルゴリズムを提供する。 また、これらの符号がLDPCである条件を特定し、低ウェイトチェックを生成するアルゴリズムを与え、効率的なLDPCコードデコーダと組み合わせることができる。

We propose a scheme for detecting and correcting faults in any Clifford circuit. The scheme is based on the observation that the set of all possible outcome bit-strings of a Clifford circuit is a linear code, which we call the outcome code. From the outcome code we construct a corresponding stabilizer code, the spacetime code. Our construction extends the circuit-to-code construction of Bacon, Flammia, Harrow and Shi [2], revisited recently by Gottesman [16], to include intermediate and multi-qubit measurements. With this correspondence, we reduce the problem of correcting faults in a circuit to the well-studied problem of correcting errors in a stabilizer code. More precisely, a most likely error decoder for the spacetime code can be transformed into a most likely fault decoder for the circuit. We give efficient algorithms to construct the outcome and spacetime codes. We also identify conditions under which these codes are LDPC, and give an algorithm to generate low-weight checks, which can then be combined with effcient LDPC code decoders.
翻訳日:2023-05-29 20:12:18 公開日:2023-05-26
# 格子ゲージ理論とサブシステム符号の相互作用

Interplay between lattice gauge theory and subsystem codes ( http://arxiv.org/abs/2304.05718v2 )

ライセンス: Link先を確認
Yoshihito Kuno, Ikuo Ichinose(参考訳) トーリック符号は、トポロジカル順序を持つ射影ハミルトニアンによって支配される純粋ゲージ理論モデルであると広く認識されている。 本研究では,量子情報システムとゲージ理論モデルとの相互作用をサブシステムコードの観点から拡張する。 例えば、特定の開境界条件を持つ(2+1)次元のZ_2$格子ゲージ-ヒッグスモデルが、一種のサブシステムコードであることを示す。 システムでは、ガウス・ロー制約は安定化子であり、ヒッグスと閉じ込めフェーズを識別する順序パラメータが存在し、境界上に位置するサブシステム符号の論理演算子である。 混合異常は境界零モードの存在を規定しており、これはヒッグスと閉じ込め相における対称性で保護された位相秩序の直接的な結果である。 位相図を識別した後、サブシステムはhiggsとcloinementフェーズに埋め込まれる。 主な知見として、higgsとcloinementフェーズでコード(エンコードされたqubit)を明確に記述し、higgsとcloinementフェーズの双対性を明確にする。 ヒッグスおよび閉じ込め相のサブシステムの縮退構造は、いくつかの興味深い凝縮マッター系で観測される強零モードの概念に類似した非常に高エネルギーレベルでも残っている。 数値解析手法を用いて解析的に得られた結果を相関させ,得られたスペクトル構造はゲージ理論相における様々なサブシステムの解析的記述をサポートする。

It is now widely recognized that the toric code is a pure gauge-theory model governed by a projective Hamiltonian with topological orders. In this work, we extend the interplay between quantum information system and gauge-theory model from the view point of subsystem code, which is suitable for \textit{gauge systems including matter fields}. As an example, we show that $Z_2$ lattice gauge-Higgs model in (2+1)-dimensions with specific open boundary conditions is noting but a kind of subsystem code. In the system, Gauss-law constraints are stabilizers, and order parameters identifying Higgs and confinement phases exist and they are nothing but logical operators in subsystem codes residing on the boundaries. Mixed anomaly of them dictates the existence of boundary zero modes, which is a direct consequence of symmetry-protected topological order in Higgs and confinement phases. After identifying phase diagram, subsystem codes are embedded in the Higgs and confinement phases. As our main findings, we give an explicit description of the code (encoded qubit) in the Higgs and confinement phases, which clarifies duality between Higgs and confinement phases. The degenerate structure of subsystem code in the Higgs and confinement phases remains even in very high-energy levels, which is analogous to notion of strong-zero modes observed in some interesting condensed-matter systems. Numerical methods are used to corroborate analytically-obtained results and the obtained spectrum structure supports the analytical description of various subsystem codes in the gauge theory phases.
翻訳日:2023-05-29 20:12:01 公開日:2023-05-26
# echo of neighbors: シャッフルモデルによる個人学習のためのプライバシー強化

Echo of Neighbors: Privacy Amplification for Personalized Private Federated Learning with Shuffle Model ( http://arxiv.org/abs/2304.05516v2 )

ライセンス: Link先を確認
Yixuan Liu, Suyun Zhao, Li Xiong, Yuhan Liu, Hong Chen(参考訳) 協調トレーニングの一般的なパラダイムであるフェデレーション学習は、プライバシ攻撃に対して脆弱である。 ユーザの態度に関するプライバシレベルはローカルで満足する必要があるが、グローバルモデルに対する厳格なプライバシ保証も一元的に必要だ。 パーソナライズされたローカルディファレンシャルプライバシ(pldp)は、ユーザのさまざまなローカルプライバシを維持するのに適しているが、最悪のローカルプライバシレベルに相当する中央のプライバシ保証のみを提供する。 したがって、強力な集中型プライバシと、ユーティリティプロミージングモデルによるパーソナライズされたローカルプライバシを実現することは、難しい問題である。 本研究では,シャッフルモデルのプライバシー増幅効果を利用して,パーソナライズされたローカルプライバシの下でのモデルプライバシを強化する汎用フレームワーク(apes)を構築した。 プライバシバウンダリを締めくくるために,中央のプライバシユーザに対するユーザによる異種貢献度を定量化する。 このコントリビューションは,各ユーザの摂動から"エチョス"を生成する能力によって特徴づけられ,提案手法であるNorbor DivergenceとClip-Laplace Mechanismによって慎重に測定される。 さらに,高次元シナリオにおけるプライバシ損失を低減するために,分離後の手法を用いた改良フレームワーク(s-apes)を提案する。 私たちの知る限りでは、シャッフルがパーソナライズされたローカルプライバシに与える影響が初めて考慮される。 我々は、プライバシーの強化効果が強く、その境界は、ローカルプライバシを統一する既存の方法に基づくベースライン結果よりも厳密である。 実験により、我々のフレームワークがグローバルモデルに匹敵する、あるいは高い精度を保証することが示された。

Federated Learning, as a popular paradigm for collaborative training, is vulnerable against privacy attacks. Different privacy levels regarding users' attitudes need to be satisfied locally, while a strict privacy guarantee for the global model is also required centrally. Personalized Local Differential Privacy (PLDP) is suitable for preserving users' varying local privacy, yet only provides a central privacy guarantee equivalent to the worst-case local privacy level. Thus, achieving strong central privacy as well as personalized local privacy with a utility-promising model is a challenging problem. In this work, a general framework (APES) is built up to strengthen model privacy under personalized local privacy by leveraging the privacy amplification effect of the shuffle model. To tighten the privacy bound, we quantify the heterogeneous contributions to the central privacy user by user. The contributions are characterized by the ability of generating "echos" from the perturbation of each user, which is carefully measured by proposed methods Neighbor Divergence and Clip-Laplace Mechanism. Furthermore, we propose a refined framework (S-APES) with the post-sparsification technique to reduce privacy loss in high-dimension scenarios. To the best of our knowledge, the impact of shuffling on personalized local privacy is considered for the first time. We provide a strong privacy amplification effect, and the bound is tighter than the baseline result based on existing methods for uniform local privacy. Experiments demonstrate that our frameworks ensure comparable or higher accuracy for the global model.
翻訳日:2023-05-29 20:11:35 公開日:2023-05-26
# geotmi:位置割り込みによる観測容易な幾何学による量子化学特性の予測

GeoTMI:Predicting quantum chemical property with easy-to-obtain geometry via positional denoising ( http://arxiv.org/abs/2304.03724v2 )

ライセンス: Link先を確認
Hyeonsu Kim, Jeheon Woo, Seonghwan Kim, Seokhyun Moon, Jun Hyeong Kim, Woo Youn Kim(参考訳) 量子化学特性はジオメトリに依存するため、3次元幾何情報を用いたグラフニューラルネットワーク(gnns)は多くのタスクで高い予測精度を達成している。 しかし、それらはしばしば高レベルの量子力学計算から得られる3次元測度を必要とし、実際は不可能であり、実世界の問題に適用可能である。 そこで本稿では, 簡易な測地(低レベルの計算から得られた測地など, 正確な測地が破損したバージョン) を用いて, 特性を正確に予測する手法であるGeoTMIを提案する。 我々の出発点は、正しい幾何学が対象プロパティの最良の記述であるという考えであった。 したがって、GeoTMIは、正しい情報と腐敗したジオメトリとプロパティの3変数間の相互情報を最大化することを目的としている。 GeoTMIはまた、破損した入力を明示的に更新し、GNN層を通過するときに正しい幾何学にアプローチし、より効果的な復調に寄与する。 分子特性, 化学反応特性, 不均一触媒系における緩和エネルギーの3つの予測課題に対して, 3次元GNNを用いて提案手法の性能を検討した。 その結果,GeoTMIの有効性とロバスト性を示した。

As quantum chemical properties have a dependence on their geometries, graph neural networks (GNNs) using 3D geometric information have achieved high prediction accuracy in many tasks. However, they often require 3D geometries obtained from high-level quantum mechanical calculations, which are practically infeasible, limiting their applicability to real-world problems. To tackle this, we propose a new training framework, GeoTMI, that employs denoising process to predict properties accurately using easy-to-obtain geometries (corrupted versions of correct geometries, such as those obtained from low-level calculations). Our starting point was the idea that the correct geometry is the best description of the target property. Hence, to incorporate information of the correct, GeoTMI aims to maximize mutual information between three variables: the correct and the corrupted geometries and the property. GeoTMI also explicitly updates the corrupted input to approach the correct geometry as it passes through the GNN layers, contributing to more effective denoising. We investigated the performance of the proposed method using 3D GNNs for three prediction tasks: molecular properties, a chemical reaction property, and relaxed energy in a heterogeneous catalytic system. Our results showed consistent improvements in accuracy across various tasks, demonstrating the effectiveness and robustness of GeoTMI.
翻訳日:2023-05-29 20:11:06 公開日:2023-05-26
# 人工コード切替データの学習によるゼロショット言語間検索の促進

Boosting Zero-shot Cross-lingual Retrieval by Training on Artificially Code-Switched Data ( http://arxiv.org/abs/2305.05295v2 )

ライセンス: Link先を確認
Robert Litschko, Ekaterina Artemova, Barbara Plank(参考訳) ゼロショット方式で高リソース言語(典型的には英語)から他言語への情報検索(IR)モデル転送が広く採用されている。 本研究では,異なる言語にクエリや文書が存在する場合,ゼロショットローダの有効性が低下することを示す。 そこで本研究では,バイリンガルレキシコンを利用して生成する,人工的なコード切替データに基づくランキングモデルのトレーニングを提案する。 この目的のために,(1)言語間単語埋め込みと(2)ウィキペディアのパラレルページタイトルから誘導される語彙を実験した。 我々はmMARCOデータセットを用いて、モノリンガルIR(MoIR)、クロスリンガルIR(CLIR)、マルチリンガルIR(MLIR)にまたがる36言語対のモデルを再評価する。 この結果から,CLIRでは5.1MRR@10,MLIRでは3.9MRR@10,MoIRでは安定な性能を維持しつつ,コードスイッチングが一貫した実質的なゲインが得られることがわかった。 特に遠方の言語(絶対利得の最大2倍)では利得が顕著である。 さらに,このアプローチは,コード切り換えトークンの比率に対して堅牢であり,未認識言語にも拡張できることを示す。 この結果から,コード切替データの学習は,言語間・多言語検索のためのゼロショットローダを安価かつ効果的に一般化する方法であることが示唆された。

Transferring information retrieval (IR) models from a high-resource language (typically English) to other languages in a zero-shot fashion has become a widely adopted approach. In this work, we show that the effectiveness of zero-shot rankers diminishes when queries and documents are present in different languages. Motivated by this, we propose to train ranking models on artificially code-switched data instead, which we generate by utilizing bilingual lexicons. To this end, we experiment with lexicons induced from (1) cross-lingual word embeddings and (2) parallel Wikipedia page titles. We use the mMARCO dataset to extensively evaluate reranking models on 36 language pairs spanning Monolingual IR (MoIR), Cross-lingual IR (CLIR), and Multilingual IR (MLIR). Our results show that code-switching can yield consistent and substantial gains of 5.1 MRR@10 in CLIR and 3.9 MRR@10 in MLIR, while maintaining stable performance in MoIR. Encouragingly, the gains are especially pronounced for distant languages (up to 2x absolute gain). We further show that our approach is robust towards the ratio of code-switched tokens and also extends to unseen languages. Our results demonstrate that training on code-switched data is a cheap and effective way of generalizing zero-shot rankers for cross-lingual and multilingual retrieval.
翻訳日:2023-05-29 20:05:38 公開日:2023-05-26
# 制約言語計画のための大規模言語モデルからのスクリプト知識の蒸留

Distilling Script Knowledge from Large Language Models for Constrained Language Planning ( http://arxiv.org/abs/2305.05252v5 )

ライセンス: Link先を確認
Siyu Yuan, Jiangjie Chen, Ziquan Fu, Xuyang Ge, Soham Shah, Charles Robert Jankowski, Yanghua Xiao, Deqing Yang(参考訳) 日常生活において、人間はしばしば目標指向のスクリプトの形でステップバイステップの指示に従うことで行動計画を行う。 以前の研究では、言語モデル(lms)を利用して立体的活動の抽象的な目標(例:「ケーキを作る」)を計画しているが、マルチフェイスの制約の下でより具体的な目標(例:「糖尿病のためのケーキを作る」)を残している。 本稿では,制約付き言語計画のタスクを初めて定義する。 我々は,このタスクで大規模言語モデル(llms)を改善し,55,000のスクリプトからなる新しい制約付き言語計画データセットであるcoscriptを蒸留するために,過剰に生成する手法を提案する。 実験結果から,LLMの制約言語計画能力,特に制約忠実性において,本手法が著しく向上することが示された。 さらに、CoScriptは制約のある言語計画能力を持つ小さなLMを実現するのに非常に効果的であることが示されている。

In everyday life, humans often plan their actions by following step-by-step instructions in the form of goal-oriented scripts. Previous work has exploited language models (LMs) to plan for abstract goals of stereotypical activities (e.g., "make a cake"), but leaves more specific goals with multi-facet constraints understudied (e.g., "make a cake for diabetics"). In this paper, we define the task of constrained language planning for the first time. We propose an overgenerate-then-filter approach to improve large language models (LLMs) on this task, and use it to distill a novel constrained language planning dataset, CoScript, which consists of 55,000 scripts. Empirical results demonstrate that our method significantly improves the constrained language planning ability of LLMs, especially on constraint faithfulness. Furthermore, CoScript is demonstrated to be quite effective in endowing smaller LMs with constrained language planning ability.
翻訳日:2023-05-29 20:05:13 公開日:2023-05-26
# 説明に基づく微調整でモデルがより堅牢になる

Explanation-based Finetuning Makes Models More Robust to Spurious Cues ( http://arxiv.org/abs/2305.04990v2 )

ライセンス: Link先を確認
Josh Magnus Ludan, Yixuan Meng, Tai Nguyen, Saurabh Shah, Qing Lyu, Marianna Apidianaki, Chris Callison-Burch(参考訳) 大規模言語モデル(llm)は非常に強力であり、時としてそのタスクとは無関係なラベルと特徴の間の相関を学習し、分散データの一般化が不十分になる。 llmsのスプリアス相関への依存を緩和するための一般的なアプローチとして,説明に基づく微調整を提案する。 モデルが入力に対してのみ応答を予測する標準的な微調整とは異なり、我々はモデルにその応答をサポートする自由文説明を付加するように微調整する。 提案手法を評価するため, 異なる種類の刺激的手がかりを含む人工的に構築したトレーニングセット上でモデルを微調整し, テストセット上でテストする。 標準的な微調整と比較して,本手法は, ComVE (+1.2), CREAK (+9.1), e-SNLI (+15.4), SBIC (+6.5) の4つの分類課題において, GPT-3 (davinci) の精度低下を著しく抑制する。 有効性は、複数のモデルファミリーとスケールにまたがって一般化し、より大きなモデルに対してより大きな利益をもたらす。 最後に,本手法はモデルが生成する説明にもうまく対応し,人間が記述した説明を使わずにより多くのデータセットに適用できることを示す。

Large Language Models (LLMs) are so powerful that they sometimes learn correlations between labels and features that are irrelevant to the task, leading to poor generalization on out-of-distribution data. We propose explanation-based finetuning as a general approach to mitigate LLMs' reliance on spurious correlations. Unlike standard finetuning where the model only predicts the answer given the input, we finetune the model to additionally generate a free-text explanation supporting its answer. To evaluate our method, we finetune the model on artificially constructed training sets containing different types of spurious cues, and test it on a test set without these cues. Compared to standard finetuning, our method makes GPT-3 (davinci) remarkably more robust against spurious cues in terms of accuracy drop across four classification tasks: ComVE (+1.2), CREAK (+9.1), e-SNLI (+15.4), and SBIC (+6.5). The efficacy generalizes across multiple model families and scales, with greater gains for larger models. Finally, our method also works well with explanations generated by the model, implying its applicability to more datasets without human-written explanations.
翻訳日:2023-05-29 20:04:35 公開日:2023-05-26
# GRADEを用いた合成データからの学習

Learning from synthetic data generated with GRADE ( http://arxiv.org/abs/2305.04282v2 )

ライセンス: Link先を確認
Elia Bonetto and Chenghao Xu and Aamir Ahmad(参考訳) 近年、合成データ生成とリアルレンダリングは、目標追跡や人間のポーズ推定といった高度なタスクをこなしている。 ほとんどのロボティクス応用のシミュレーションは、(半)静電環境において、特定のセンサーと低い視力で得られる。 そこで本稿では,ロボット研究のためのリアルなアニメーション動的環境(グレード)を生成するための完全カスタマイズ可能なフレームワークについて紹介する。 GRADEは、完全なシミュレーション制御、ROS統合、現実的な物理をサポートし、高解像度画像と地上真実データを生成するエンジン内にある。 グレードを使って屋内の動的シーンに焦点を当てたデータセットを生成します。 そこで本研究では, YOLO と Mask R-CNN の性能評価を行った。 この結果から,GRADEで生成されたデータを使うことで,事前学習ステップで使用する場合のモデル性能が向上することを示す。 また,合成データのみを用いたトレーニングであっても,TUM-RGBDデータセットのような同一アプリケーション領域における実世界の画像によく対応できることを示す。 コード、結果、トレーニングされたモデル、生成されたデータは、https://eliabntt.github.io/grade-rrでオープンソースとして提供される。

Recently, synthetic data generation and realistic rendering has advanced tasks like target tracking and human pose estimation. Simulations for most robotics applications are obtained in (semi)static environments, with specific sensors and low visual fidelity. To solve this, we present a fully customizable framework for generating realistic animated dynamic environments (GRADE) for robotics research, first introduced in [1]. GRADE supports full simulation control, ROS integration, realistic physics, while being in an engine that produces high visual fidelity images and ground truth data. We use GRADE to generate a dataset focused on indoor dynamic scenes with people and flying objects. Using this, we evaluate the performance of YOLO and Mask R-CNN on the tasks of segmenting and detecting people. Our results provide evidence that using data generated with GRADE can improve the model performance when used for a pre-training step. We also show that, even training using only synthetic data, can generalize well to real-world images in the same application domain such as the ones from the TUM-RGBD dataset. The code, results, trained models, and the generated data are provided as open-source at https://eliabntt.github.io/grade-rr.
翻訳日:2023-05-29 20:04:08 公開日:2023-05-26
# Plan-and-Solve Prompting:大規模言語モデルによるゼロショット連鎖推論の改善

Plan-and-Solve Prompting: Improving Zero-Shot Chain-of-Thought Reasoning by Large Language Models ( http://arxiv.org/abs/2305.04091v3 )

ライセンス: Link先を確認
Lei Wang, Wanyu Xu, Yihuai Lan, Zhiqiang Hu, Yunshi Lan, Roy Ka-Wei Lee and Ee-Peng Lim(参考訳) 大規模言語モデル(LLM)は、最近、様々なNLPタスクで素晴らしいパフォーマンスをもたらすことが示されている。 マルチステップ推論タスクに取り組むために、数発のチェーン・オブ・シークレット(CoT)プロンプトには、LSMが推論ステップを明示的に生成し、推論タスクの正確性を改善するための、手作業によるステップバイステップ推論デモが含まれている。 手作業を排除するため、Zero-shot-CoT は LLM への入力プロンプトとして、ターゲット問題ステートメントを "Let's Think by Step" と結合する。 zero-shot-cotの成功にもかかわらず、計算エラー、欠落ステップエラー、セマンティック誤解エラーという3つの落とし穴に苦しむ。 そこで我々は,Plan-and-Solve (PS) Promptingを提案する。 まず、タスク全体を小さなサブタスクに分割する計画を考案し、次に計画に従ってサブタスクを実行する。 計算誤差に対処し、生成した推論ステップの品質を向上させるため、より詳細な指示でPSプロンプトを拡張し、PS+プロンプトを導出する。 3つの推論問題にまたがる10のデータセットについて提案手法を評価した。 GPT-3に対する実験結果から,提案したゼロショットプロンプトは,全データセットにおいてゼロショットCoTよりも常に優れており,ゼロショットProgram-of-Thought Promptingに匹敵するものか,数学推論問題に対して8ショットCoTに匹敵する性能を有することが示された。 コードはhttps://github.com/AGI-Edgerunners/Plan-and-Solve-Promptingで見ることができる。

Large language models (LLMs) have recently been shown to deliver impressive performance in various NLP tasks. To tackle multi-step reasoning tasks, few-shot chain-of-thought (CoT) prompting includes a few manually crafted step-by-step reasoning demonstrations which enable LLMs to explicitly generate reasoning steps and improve their reasoning task accuracy. To eliminate the manual effort, Zero-shot-CoT concatenates the target problem statement with "Let's think step by step" as an input prompt to LLMs. Despite the success of Zero-shot-CoT, it still suffers from three pitfalls: calculation errors, missing-step errors, and semantic misunderstanding errors. To address the missing-step errors, we propose Plan-and-Solve (PS) Prompting. It consists of two components: first, devising a plan to divide the entire task into smaller subtasks, and then carrying out the subtasks according to the plan. To address the calculation errors and improve the quality of generated reasoning steps, we extend PS prompting with more detailed instructions and derive PS+ prompting. We evaluate our proposed prompting strategy on ten datasets across three reasoning problems. The experimental results over GPT-3 show that our proposed zero-shot prompting consistently outperforms Zero-shot-CoT across all datasets by a large margin, is comparable to or exceeds Zero-shot-Program-of-Thought Prompting, and has comparable performance with 8-shot CoT prompting on the math reasoning problem. The code can be found at https://github.com/AGI-Edgerunners/Plan-and-Solve-Prompting.
翻訳日:2023-05-29 20:03:47 公開日:2023-05-26
# 自己編集:コード生成のためのフォールトアウェアコードエディタ

Self-Edit: Fault-Aware Code Editor for Code Generation ( http://arxiv.org/abs/2305.04087v2 )

ライセンス: Link先を確認
Kechi Zhang, Zhuo Li, Jia Li, Ge Li, Zhi Jin(参考訳) 大規模言語モデル(LLM)は、競合するプログラミングタスクのコードを生成する素晴らしい能力を示している。 しかし、サンプル数が限られているため、LLMは依然として精度が低い。 人間のプログラミングのプロセスにインスパイアされた自己編集手法であるSelf-Editを提案し,LLMから生成されたコードの実行結果を利用して,競合するプログラミングタスクにおけるコード品質を向上させる。 質問に含まれるサンプルテストケースで生成されたコードを実行し、実行結果を補足コメントにラップします。 このコメントをガイダンスとして利用し,フォールトアウェアコードエディタを用いて生成したコードのエラーを訂正する。 我々は、9つの異なるLLMを持つ2つの競合プログラミングデータセットに対して広範な評価を行う。 LLMの直接生成と比較すると、パラメータサイズが110Mから175Bの9つの人気のあるコード生成LLMに対して、APPS-devでは89倍、APPS-testでは31倍、HumanEvalでは48倍の改善が可能である。 本手法は他の後処理法と比較して精度と効率が優れる。

Large language models (LLMs) have demonstrated an impressive ability to generate codes on competitive programming tasks. However, with limited sample numbers, LLMs still suffer from poor accuracy. Inspired by the process of human programming, we propose a generate-and-edit approach named Self-Edit that utilizes execution results of the generated code from LLMs to improve the code quality on the competitive programming task. We execute the generated code on the example test case provided in the question and wrap execution results into a supplementary comment. Utilizing this comment as guidance, our fault-aware code editor is employed to correct errors in the generated code. We perform extensive evaluations across two competitive programming datasets with nine different LLMs. Compared to directly generating from LLMs, our approach can improve the average of pass@1 by 89\% on APPS-dev, 31\% on APPS-test, and 48\% on HumanEval over nine popular code generation LLMs with parameter sizes ranging from 110M to 175B. Compared to other post-processing methods, our method demonstrates superior accuracy and efficiency.
翻訳日:2023-05-29 20:03:15 公開日:2023-05-26
# Chain-of-Skills:オープンドメイン質問回答のための構成可能なモデル

Chain-of-Skills: A Configurable Model for Open-domain Question Answering ( http://arxiv.org/abs/2305.03130v2 )

ライセンス: Link先を確認
Kaixin Ma, Hao Cheng, Yu Zhang, Xiaodong Liu, Eric Nyberg, Jianfeng Gao(参考訳) 検索モデルは現実世界の知識集約的なタスク、例えばオープンドメイン質問応答(ODQA)に必須のコンポーネントである。 異なるデータセットに対して別々の検索スキルがアノテートされるため、最近の研究はカスタマイズされたメソッドに焦点を当て、モデルの転送可能性とスケーラビリティを制限する。 本研究では,各モジュールがデータセット間で再利用可能なキースキルに対応するモジュールレトリバーを提案する。 我々のアプローチは、パフォーマンスを高めるためにターゲットドメインに基づいた柔軟なスキル構成をサポートします。 タスク干渉を軽減するため,スパース変圧器にインスパイアされた新しいモジュラー化パラメータ化を設計する。 我々は,ウィキペディアの自己教師型事前学習と,複数のODQAデータセットを用いた微調整の恩恵を受けることができることを示した。 提案手法は,NQ,HotpotQA,OTT-QAにおけるゼロショット評価において,近年の自己教師型検索よりも優れ,最先端の微調整検索性能を実現している。

The retrieval model is an indispensable component for real-world knowledge-intensive tasks, e.g., open-domain question answering (ODQA). As separate retrieval skills are annotated for different datasets, recent work focuses on customized methods, limiting the model transferability and scalability. In this work, we propose a modular retriever where individual modules correspond to key skills that can be reused across datasets. Our approach supports flexible skill configurations based on the target domain to boost performance. To mitigate task interference, we design a novel modularization parameterization inspired by sparse Transformer. We demonstrate that our model can benefit from self-supervised pretraining on Wikipedia and fine-tuning using multiple ODQA datasets, both in a multi-task fashion. Our approach outperforms recent self-supervised retrievers in zero-shot evaluations and achieves state-of-the-art fine-tuned retrieval performance on NQ, HotpotQA and OTT-QA.
翻訳日:2023-05-29 20:02:54 公開日:2023-05-26
# PeaCoK: 一貫性とエンゲージグナラティブのためのペルソナコモンセンス知識

PeaCoK: Persona Commonsense Knowledge for Consistent and Engaging Narratives ( http://arxiv.org/abs/2305.02364v2 )

ライセンス: Link先を確認
Silin Gao, Beatriz Borges, Soyoung Oh, Deniz Bayazit, Saya Kanno, Hiromi Wakaki, Yuki Mitsufuji, Antoine Bosselut(参考訳) コヒーレントで魅力的な物語を維持するためには、対話やストーリーテリングエージェントが話し手や聞き手のペルソナがどのように物語を担っているかを理解する必要がある。 具体的には、これらのエージェントはリスナーのペルソナを推論し、彼らの興味をひく声明を作成する必要がある。 彼らはまた、物語全体を通して一貫した話者のパーソナラを維持することを学び、彼らの相手が現実的な会話や物語に関与していると感じる必要がある。 しかし、ペルソナは多様で複雑であり、一般的な物語体系において頑丈な表現が難しい豊富な相互接続世界知識(例えば、歌手は歌が得意で、音楽院に通っていたかもしれない)を大量に持っている。 本研究では,約100万個の人格事実を含む大規模ペルソナ常識知識グラフPeaCoKを構築した。 我々の知識グラフは、人間の対話行動の過去の研究で特定された5次元のペルソナ知識をスキーマ化し、既存の常識知識グラフと大規模事前学習言語モデルからこのスキーマの事実を消し去る。 分析の結果、PeaCoKには、より一貫性があり魅力的な物語を生成する下流システムを支援するリッチで正確な世界ペルソナ推論が含まれていることが示唆された。

Sustaining coherent and engaging narratives requires dialogue or storytelling agents to understand how the personas of speakers or listeners ground the narrative. Specifically, these agents must infer personas of their listeners to produce statements that cater to their interests. They must also learn to maintain consistent speaker personas for themselves throughout the narrative, so that their counterparts feel involved in a realistic conversation or story. However, personas are diverse and complex: they entail large quantities of rich interconnected world knowledge that is challenging to robustly represent in general narrative systems (e.g., a singer is good at singing, and may have attended conservatoire). In this work, we construct a new large-scale persona commonsense knowledge graph, PeaCoK, containing ~100K human-validated persona facts. Our knowledge graph schematizes five dimensions of persona knowledge identified in previous studies of human interactive behaviours, and distils facts in this schema from both existing commonsense knowledge graphs and large-scale pretrained language models. Our analysis indicates that PeaCoK contains rich and precise world persona inferences that help downstream systems generate more consistent and engaging narratives.
翻訳日:2023-05-29 20:02:36 公開日:2023-05-26
# 説明可能な機械学習によるシラス雲の理解

Understanding cirrus clouds using explainable machine learning ( http://arxiv.org/abs/2305.02090v2 )

ライセンス: Link先を確認
Kai Jeggle, David Neubauer, Gustau Camps-Valls and Ulrike Lohmann(参考訳) 円雲は地球の気候の鍵となる変調物質である。 気象およびエアロゾル条件への依存は、地球規模の気候モデルにおける最大の不確実性の一つである。 この研究は3年間の衛星データと再分析データを用いて、サイラスドライバと雲の性質の関係を研究する。 我々は,氷水含量と結晶数濃度を予測するため,勾配ブースト機械学習モデルと,注意層を有する長短短期記憶(LSTM)ネットワークを用いた。 モデルによれば、気象条件とエアロゾル条件は、r^2 = 0.49$のシラス特性を予測できる。 特徴属性をSHAP(SHapley Additive ExPlanations)を用いて計算し,気象条件とエアロゾル条件の関連性を定量化する。 例えば、氷結晶数濃度の予測を減少させるのに必要な超微小粒子の最小濃度は、2 \times 10^{-4}$ mg m\textsuperscript{-3}である。 観測の15時間前には、全てのシラスの性質が予測される。

Cirrus clouds are key modulators of Earth's climate. Their dependencies on meteorological and aerosol conditions are among the largest uncertainties in global climate models. This work uses three years of satellite and reanalysis data to study the link between cirrus drivers and cloud properties. We use a gradient-boosted machine learning model and a Long Short-Term Memory (LSTM) network with an attention layer to predict the ice water content and ice crystal number concentration. The models show that meteorological and aerosol conditions can predict cirrus properties with $R^2 = 0.49$. Feature attributions are calculated with SHapley Additive exPlanations (SHAP) to quantify the link between meteorological and aerosol conditions and cirrus properties. For instance, the minimum concentration of supermicron-sized dust particles required to cause a decrease in ice crystal number concentration predictions is $2 \times 10^{-4}$ mg m\textsuperscript{-3}. The last 15 hours before the observation predict all cirrus properties.
翻訳日:2023-05-29 20:02:12 公開日:2023-05-26
# デジタルポンド : 家庭と企業のための新しい形態のお金」に対する反応

Response to "The digital pound: a new form of money for households and businesses" ( http://arxiv.org/abs/2305.09059v3 )

ライセンス: Link先を確認
Geoffrey Goodell(参考訳) この文書は、イングランド銀行とhm財務省が発行した諮問論文「the digital pound: a new form of money for households and business?」に対する回答であり、2020年の「central bank digital currency: opportunities, challenges and design」や2021年の「new forms of digital money」を含むシリーズの最新文書である。 コンサルテーション・ペーパー(Consultation Paper)は、イングランド銀行がイギリスで小売用に採用した中央銀行デジタル通貨(CBDC)に関する文書である。 本書の第3部では、協議質問について直接取り上げなければならない。

This document constitutes a response to a Consultation Paper published by the Bank of England and HM Treasury, "The digital pound: a new form of money for households and businesses?", the latest document in a series that includes "Central Bank Digital Currency: opportunities, challenges and design" in 2020 and "New forms of digital money" in 2021. The Consultation Paper concerns the adoption of central bank digital currency (CBDC) for retail use in the United Kingdom by the Bank of England. We shall address the consultation questions directly in the third section of this document.
翻訳日:2023-05-29 19:55:13 公開日:2023-05-26
# 時間依存密度汎関数理論による断熱ダイソン方程式の数学的解析

A mathematical analysis of the adiabatic Dyson equation from time-dependent density functional theory ( http://arxiv.org/abs/2305.08731v2 )

ライセンス: Link先を確認
Thiago Carvalho Corso(参考訳) 本稿では、線形応答時間依存密度汎関数理論(LR-TDDFT)において中心的な役割を果たす密度密度応答関数(DDRF)に対するダイソン方程式を解析する。 まず,離散系(有限系と無限系)と連続系に対する一般断熱近似を伴うダイソン方程式の統一的な処理を可能にする関数解析集合を提案する。 この設定において、我々はカシダ行列の作用素バージョンの観点からダイソン方程式の解の表現公式を導出する。 カシダ行列は物理学の文献でよく知られているが、N体波動関数空間における(非有界な)作用素としての一般定式化は新しいものと思われる。 さらに、ここで得られた解公式のいくつかの帰結を導き、特に、解の安定性を議論し、フーリエ変換の最大メロモルフィック展開を特徴づける。 次に, 適切なコンパクト性条件を満たす断熱近似について, 初期密度-密度応答関数の正則継続の極大領域とダイソン方程式の解が同一であることを示す。 この結果は, ランダム位相近似 (RPA) や局所密度近似 (ALDA) など, 広く用いられている断熱近似に適用できる。 特にこれらの結果は、いずれの近似もコーン・シャム系のイオン化閾値をシフトできないことを示している。

In this article, we analyze the Dyson equation for the density-density response function (DDRF) that plays a central role in linear response time-dependent density functional theory (LR-TDDFT). First, we present a functional analytic setting that allows for a unified treatment of the Dyson equation with general adiabatic approximations for discrete (finite and infinite) and continuum systems. In this setting, we derive a representation formula for the solution of the Dyson equation in terms of an operator version of the Casida matrix. While the Casida matrix is well-known in the physics literature, its general formulation as an (unbounded) operator in the N-body wavefunction space appears to be new. Moreover, we derive several consequences of the solution formula obtained here; in particular, we discuss the stability of the solution and characterize the maximal meromorphic extension of its Fourier transform. We then show that for adiabatic approximations satisfying a suitable compactness condition, the maximal domains of meromorphic continuation of the initial density-density response function and the solution of the Dyson equation are the same. The results derived here apply to widely used adiabatic approximations such as (but not limited to) the random phase approximation (RPA) and the adiabatic local density approximation (ALDA). In particular, these results show that neither of these approximations can shift the ionization threshold of the Kohn-Sham system.
翻訳日:2023-05-29 19:55:01 公開日:2023-05-26
# 相関解析を超えたnlg評価指標:経験的メトリック選好チェックリスト

NLG Evaluation Metrics Beyond Correlation Analysis: An Empirical Metric Preference Checklist ( http://arxiv.org/abs/2305.08566v4 )

ライセンス: Link先を確認
Iftitahu Ni'mah and Meng Fang and Vlado Menkovski and Mykola Pechenizkiy(参考訳) 本研究では,自然言語生成(NLG)の自動評価指標,特にタスク非依存指標と人間対応指標について分析する。 Perplexity、BLEU、BERTScoreといったタスク非依存のメトリクスは、費用対効果が高く、多様なNLGタスクに適応できるが、人間との相関は弱い。 ヒューマンアライメントメトリクス(CTC、CtrlEval、UniEval)は、望ましい人間的な品質をトレーニング目的として取り入れることで、相関レベルを改善する。 しかし、システムレベルの性能とシステム出力の品質を識別する効果は、まだ不明である。 テキスト要約,対話応答生成,制御生成という3つのNLGタスクにおける自動メトリクスの有効性を評価するためのフレームワークとして,計量選好チェックリストを提案する。 提案するフレームワークは: (i)人間との相関度にかかわらず、自動メトリクスが人間の好みに忠実であるかどうかを検証すること。 (ii) ペアワイズ評価によるnlgシステムの強みと限界を検査する。 自動メトリクスは,テキスト要約と制御された生成タスクにおけるシステムレベルのパフォーマンスを識別する上で,人間よりも優れたガイダンスを提供する。 また,マルチアスペクト・ヒューマンアライメント・メトリック(UniEval)は,特に制御生成タスクにおいて,単一アスペクト・ヒューマンアライメント・メトリック(CTC,CtrlEval)とタスクアライメント・メトリクス(BLEU,BERTScore)に必ずしも支配的ではないことを示す。

In this study, we analyze automatic evaluation metrics for Natural Language Generation (NLG), specifically task-agnostic metrics and human-aligned metrics. Task-agnostic metrics, such as Perplexity, BLEU, BERTScore, are cost-effective and highly adaptable to diverse NLG tasks, yet they have a weak correlation with human. Human-aligned metrics (CTC, CtrlEval, UniEval) improves correlation level by incorporating desirable human-like qualities as training objective. However, their effectiveness at discerning system-level performance and quality of system outputs remain unclear. We present metric preference checklist as a framework to assess the effectiveness of automatic metrics in three NLG tasks: Text Summarization, Dialogue Response Generation, and Controlled Generation. Our proposed framework provides access: (i) for verifying whether automatic metrics are faithful to human preference, regardless of their correlation level to human; and (ii) for inspecting the strengths and limitations of NLG systems via pairwise evaluation. We show that automatic metrics provide a better guidance than human on discriminating system-level performance in Text Summarization and Controlled Generation tasks. We also show that multi-aspect human-aligned metric (UniEval) is not necessarily dominant over single-aspect human-aligned metrics (CTC, CtrlEval) and task-agnostic metrics (BLEU, BERTScore), particularly in Controlled Generation tasks.
翻訳日:2023-05-29 19:54:39 公開日:2023-05-26
# 教師なしメロディ付歌詞生成

Unsupervised Melody-Guided Lyrics Generation ( http://arxiv.org/abs/2305.07760v2 )

ライセンス: Link先を確認
Yufei Tian, Anjali Narayan-Chen, Shereen Oraby, Alessandra Cervone, Gunnar Sigurdsson, Chenyang Tao, Wenbo Zhao, Tagyoung Chung, Jing Huang, Nanyun Peng(参考訳) 自動作曲は重要な実用的関心事である。 しかし、その研究は、著作権上の懸念によるトレーニングデータの欠如と、その創造性によって大きく妨げられている。 最も顕著なことに、先行の作品は、限られた並列データのためにメロディと歌詞の相互関係をモデル化するに足りず、歌いにくい歌詞を生成する。 既存の作品にはコンテンツコントロールのための効果的なメカニズムが欠けており、音楽のバックグラウンドが限られている人々のために楽曲制作を民主化するのに非常に望ましい機能である。 本研究では,メロディ・歌詞アライメントデータを学習することなく,快適に聞き取れる歌詞を生成することを提案する。 代わりに、トレーニング(純粋にテキストに基づく)を推論(メロディ誘導テキスト生成)から切り離す階層的な歌詞生成フレームワークを設計する。 推定時に,メロディと歌詞間の重要なアライメントを利用して,与えられたメロディを制約にコンパイルし,生成プロセスを導く。 評価結果から,並列データを含む強いベースラインよりも,歌声,知能,コヒーレント,韻律に優れた高品質な歌詞を生成できることが示唆された。

Automatic song writing is a topic of significant practical interest. However, its research is largely hindered by the lack of training data due to copyright concerns and challenged by its creative nature. Most noticeably, prior works often fall short of modeling the cross-modal correlation between melody and lyrics due to limited parallel data, hence generating lyrics that are less singable. Existing works also lack effective mechanisms for content control, a much desired feature for democratizing song creation for people with limited music background. In this work, we propose to generate pleasantly listenable lyrics without training on melody-lyric aligned data. Instead, we design a hierarchical lyric generation framework that disentangles training (based purely on text) from inference (melody-guided text generation). At inference time, we leverage the crucial alignments between melody and lyrics and compile the given melody into constraints to guide the generation process. Evaluation results show that our model can generate high-quality lyrics that are more singable, intelligible, coherent, and in rhyme than strong baselines including those supervised on parallel data.
翻訳日:2023-05-29 19:54:10 公開日:2023-05-26
# PALR:レコメンデーションのためのLLMを意識したパーソナライズ

PALR: Personalization Aware LLMs for Recommendation ( http://arxiv.org/abs/2305.07622v2 )

ライセンス: Link先を確認
Zheng Chen(参考訳) 大規模言語モデル(llm)は、最近、その例外的な能力で大きな注目を集めている。 様々な自然言語処理(NLP)タスクに利用できる汎用LLMの開発に多大な努力を払っているが、レコメンデーターシステムにおけるその可能性を探る研究は少ない。 本稿では,ユーザ履歴行動(クリック,購入,評価など)をLCMと組み合わせ,ユーザが好む項目を生成することを目的とした,PALRという新しいフレームワークを提案する。 具体的には,まずユーザ/イテムインタラクションを候補検索のガイダンスとして利用する。 次に、LLMに基づくランキングモデルを用いて推奨項目を生成する。 通常、ゼロ/ファウショットのレコメンデーションテストや、LLMの推論能力を完全に引き出すことができず、リッチアイテムサイドのパラメトリック知識を活用する小さな言語モデル(10億のパラメータ未満)のトレーニングに汎用LLMを採用する既存のアプローチとは異なり、ランク付け目的にLLMを微調整する。 このモデルは自然言語形式の検索候補を入力とし、推論中に入力候補から結果を明示的に選択するように指示する。 実験の結果,提案手法は逐次レコメンデーションタスクにおいて最先端モデルを上回ることがわかった。

Large language models (LLMs) have recently received significant attention for their exceptional capabilities. Despite extensive efforts in developing general-purpose LLMs that can be utilized in various natural language processing (NLP) tasks, there has been less research exploring their potential in recommender systems. In this paper, we propose a novel framework, named PALR, which aiming to combine user history behaviors (such as clicks, purchases, ratings, etc.) with LLMs to generate user preferred items. Specifically, we first use user/item interactions as guidance for candidate retrieval. Then we adopt a LLM-based ranking model to generate recommended items. Unlike existing approaches that typically adopt general-purpose LLMs for zero/few-shot recommendation testing or training on small-sized language models (with less than 1 billion parameters), which cannot fully elicit LLMs' reasoning abilities and leverage rich item side parametric knowledge, we fine-tune a 7 billion parameters LLM for the ranking purpose. This model takes retrieval candidates in natural language format as input, with instruction which explicitly asking to select results from input candidates during inference. Our experimental results demonstrate that our solution outperforms state-of-the-art models on various sequential recommendation tasks.
翻訳日:2023-05-29 19:53:48 公開日:2023-05-26
# BanglaBook: 書籍レビューからの感性分析のための大規模バングラデータセット

BanglaBook: A Large-scale Bangla Dataset for Sentiment Analysis from Book Reviews ( http://arxiv.org/abs/2305.06595v2 )

ライセンス: Link先を確認
Mohsinul Kabir, Obayed Bin Mahfuz, Syed Rifat Raiyan, Hasan Mahmud and Md Kamrul Hasan(参考訳) 消費者感情の分析は、レビューを通じて表現されるように、製品の品質に関する豊富な洞察を提供することができる。 感情分析の研究は多くのポピュラーな言語で広く研究されてきたが、バングラ語への関心は比較的少なかった。 この制限に対処するため、BanglaBookは158,065のサンプルを3つの広いカテゴリ(正、負、中性)に分類した、バングラ書評の大規模なデータセットである。 我々は、データセットの詳細な統計分析を行い、SVM、LSTM、Bangla-BERTなどのベースラインを確立するために、機械学習モデルを用いている。 本研究は,手作業で作成する機能に依存したモデルに対して,事前学習モデルの大幅な性能上の利点を示し,この領域における追加トレーニングリソースの必要性を強調した。 さらに,感情のユニグラムを調べることで詳細な誤り解析を行い,Banglaのような低リソース言語における共通分類誤りの洞察を与えることができる。 私たちのコードとデータはhttps://github.com/mohsinulkabir14/banglabookで公開されている。

The analysis of consumer sentiment, as expressed through reviews, can provide a wealth of insight regarding the quality of a product. While the study of sentiment analysis has been widely explored in many popular languages, relatively less attention has been given to the Bangla language, mostly due to a lack of relevant data and cross-domain adaptability. To address this limitation, we present BanglaBook, a large-scale dataset of Bangla book reviews consisting of 158,065 samples classified into three broad categories: positive, negative, and neutral. We provide a detailed statistical analysis of the dataset and employ a range of machine learning models to establish baselines including SVM, LSTM, and Bangla-BERT. Our findings demonstrate a substantial performance advantage of pre-trained models over models that rely on manually crafted features, emphasizing the necessity for additional training resources in this domain. Additionally, we conduct an in-depth error analysis by examining sentiment unigrams, which may provide insight into common classification errors in under-resourced languages like Bangla. Our codes and data are publicly available at https://github.com/mohsinulkabir14/BanglaBook.
翻訳日:2023-05-29 19:53:24 公開日:2023-05-26
# 量子ゼノダイナミクスによるヒルベルト空間断片化の保護

Protecting Hilbert space fragmentation through quantum Zeno dynamics ( http://arxiv.org/abs/2305.06371v2 )

ライセンス: Link先を確認
Pranay Patil, Ayushi Singhania, and Jad C. Halimeh(参考訳) ヒルベルト空間のフラグメンテーションは、量子多体系と量子情報技術への応用の間の相互作用におけるエルゴード性の破れの興味深いパラダイムであるが、通常摂動の存在下では悪影響を受ける。 本研究では,量子ゼノダイナミクスの概念を用いて,ミラー対称性とヒルベルト空間のフラグメンテーションの組み合わせによって生じる制約付きダイナミクスの保護を実証する。 我々は、慎重に選択された量子ゆらぎを持つイジングスピンはしごに焦点を合わせ、理想の場合、多くの初期条件に対してハミルトン力学の下での完全非絡み合いを保証する。 これはヒルベルト空間の断片化とミラー対称性の相互作用の結果であることが知られており、後者を破る効果を数値的に示す。 この完全不等角化の力を浮き彫りにするために, 微調整モデル周りの一般的な摂動の効果を考察し, はしごのラング上で局所的なイジング相互作用を用いて, 絡み合いエントロピーの望ましくない成長から保護できることを示した。 これにより、rung相互作用の強さを制御することによって、 \textit{arbitrarily} の長い時間に対する小さな値である \textit{arbitrarily} への絡み合いエントロピーを抑制することができる。 我々の研究は、量子情報の熱化に対する保護における量子ゼノダイナミクスの実験的実現可能性を示す。

Hilbert space fragmentation is an intriguing paradigm of ergodicity breaking in interacting quantum many-body systems with applications to quantum information technology, but it is usually adversely compromised in the presence of perturbations. In this work, we demonstrate the protection of constrained dynamics arising due to a combination of mirror symmetry and Hilbert space fragmentation by employing the concept of quantum Zeno dynamics. We focus on an Ising spin ladder with carefully chosen quantum fluctuations, which in the ideal case guarantee a perfect disentanglement under Hamiltonian dynamics for a large class of initial conditions. This is known to be a consequence of the interplay of Hilbert space fragmentation with a mirror symmetry, and we show numerically the effect of breaking the latter. To evince the power of this perfect disentanglement, we study the effect of generic perturbations around the fine-tuned model, and show that we can protect against the undesirable growth of entanglement entropy by using a local Ising interaction on the rungs of the ladder. This allows us to suppress the entanglement entropy to an \textit{arbitrarily} small value for an \textit{arbitrarily} long time by controlling the strength of the rung interaction. Our work demonstrates the experimentally feasible viability of quantum Zeno dynamics in the protection of quantum information against thermalization.
翻訳日:2023-05-29 19:53:03 公開日:2023-05-26
# エピタキシャル量子ドットからガウス様モードへの広帯域単一光子集束用直接波長ポリマーナノワイヤ導波路

Direct-Laser-Written Polymer Nanowire Waveguides for Broadband Single Photon Collection from Epitaxial Quantum Dots into a Gaussian-like Mode ( http://arxiv.org/abs/2305.06333v2 )

ライセンス: Link先を確認
Edgar Perez, Cori Haws, Marcelo Davanco, Jindong Song, Luca Sapienza, and Kartik Srinivasan(参考訳) ナノフォトニックジオメトリーに埋め込まれた単一エピタキシャル量子ドット(QD)は、量子光発生の最先端技術である。 しかし、放射を単一モードのファイバーやガウスビームに効率的に結合することは、しばしば困難である。 ここでは、直流レーザー書き込み(DLW)を用いて、1$\mu$mの直径のポリマーナノワイヤ(PNW)を接触型および垂直型QD含有GaAs層に作製し、この問題に対処する。 QDエミッションはPNWのHE$_{11}$導波路モードに結合され、単モードファイバへの収集効率が向上する。 PNWの製造はQDデバイス層を変えないため、PNWは既存の面内測地を拡大するのに適している。 従来,QD排出量の増加を目的として確立されていた金属ナノリング装置とともに,独立系PNWおよびPNWについて検討した。 我々は,リソグラフィービームの吸収・反射による定常波反射と熱を緩和する手法を報告し,それ以外はPNW製造を阻害する。 我々は,PNWのないナノリングシステムにおいて,PNWを使わずに,PNWを併用したナノリングシステムにおいて,QD放射を導波し,収集効率を同時に向上するPNWの能力を示す因子を観測した。 これらの結果は、既存のトップダウン加工手法との互換性を維持した量子エミッタフォトニクスを用いた新しいDLW機能を示す。

Single epitaxial quantum dots (QDs) embedded in nanophotonic geometries are a leading technology for quantum light generation. However, efficiently coupling their emission into a single mode fiber or Gaussian beam often remains challenging. Here, we use direct laser writing (DLW) to address this challenge by fabricating 1 $\mu$m diameter polymer nanowires (PNWs) in-contact-with and perpendicular-to a QD-containing GaAs layer. QD emission is coupled to the PNW's HE$_{11}$ waveguide mode, enhancing collection efficiency into a single-mode fiber. PNW fabrication does not alter the QD device layer, making PNWs well-suited for augmenting preexisting in-plane geometries. We study standalone PNWs and PNWs in conjunction with metallic nanoring devices that have been previously established for increasing extraction of QD emission. We report methods that mitigate standing wave reflections and heat, caused by GaAs's absorption/reflection of the lithography beam, which otherwise prevent PNW fabrication. We observe a factor of $(3.0 \pm 0.7)\times$ improvement in a nanoring system with a PNW compared to the same system without a PNW, in line with numerical results, highlighting the PNW's ability to waveguide QD emission and increase collection efficiency simultaneously. These results demonstrate new DLW functionality in service of quantum emitter photonics that maintains compatibility with existing top-down fabrication approaches.
翻訳日:2023-05-29 19:52:41 公開日:2023-05-26
# 多言語LLMは、アライメントを持つ言語間インコンテキスト学習者より優れている

Multilingual LLMs are Better Cross-lingual In-context Learners with Alignment ( http://arxiv.org/abs/2305.05940v2 )

ライセンス: Link先を確認
Eshaan Tanwar, Subhabrata Dutta, Manish Borthakur, Tanmoy Chakraborty(参考訳) インコンテキスト学習(ICL)は、大規模言語モデルが勾配更新なしでいくつかのラベル付きサンプルに条件付きテストラベルを推測できるようになり、展開される。 ICL対応の大規模言語モデルは、低リソース環境での繰り返しアノテーションコストを回避しようとする有望なステップを提供する。 しかし、一握りの過去の研究がiclを言語横断で探究しており、そこでは、ラベル知識を高いリソース言語から低リソース言語に移す必要性が極めて重要である。 このギャップを埋めるため,クロスリンガルテキスト分類のための icl の詳細な解析を行った。 入力空間と出力空間のアライメントが欠如していることから,言語間ICLの場合,プロンプト・コンテキストを構成するためにランダムな入力-ラベルペアを選択する一般的なモードが著しく制限されていることがわかった。 そこで本稿では,新しいプロンプト構築手法であるx-insta(cross-lingual in-context source-target alignment)を提案する。 入力例のセマンティクスにコヒーレンスを注入し、ソース言語とターゲット言語をまたいだタスクベースのアライメントにより、X-InSTAは44の異なる言語対を用いて3つの異なるタスクに対して大きなマージンでランダムなプロンプト選択を上回ります。

In-context learning (ICL) unfolds as large language models become capable of inferring test labels conditioned on a few labeled samples without any gradient update. ICL-enabled large language models provide a promising step forward toward bypassing recurrent annotation costs in a low-resource setting. Yet, only a handful of past studies have explored ICL in a cross-lingual setting, in which the need for transferring label-knowledge from a high-resource language to a low-resource one is immensely crucial. To bridge the gap, we provide the first in-depth analysis of ICL for cross-lingual text classification. We find that the prevalent mode of selecting random input-label pairs to construct the prompt-context is severely limited in the case of cross-lingual ICL, primarily due to the lack of alignment in the input as well as the output spaces. To mitigate this, we propose a novel prompt construction strategy -- Cross-lingual In-context Source-Target Alignment (X-InSTA). With an injected coherence in the semantics of the input examples and a task-based alignment across the source and target languages, X-InSTA is able to outperform random prompt selection by a large margin across three different tasks using 44 different cross-lingual pairs.
翻訳日:2023-05-29 19:52:08 公開日:2023-05-26
# Restormer-Plus for Real World Image Deraining: The Runner-up Solution to the GT-RAIN Challenge (CVPR 2023 UG2+ Track 3)

Restormer-Plus for Real World Image Deraining: the Runner-up Solution to the GT-RAIN Challenge (CVPR 2023 UG2+ Track 3) ( http://arxiv.org/abs/2305.05454v3 )

ライセンス: Link先を確認
Chaochao Zheng, Luping Wang, Bin Liu(参考訳) 本技術報告では,GT-RAIN Challenge(CVPR 2023 UG$^2$+ Track 3)に提出したRestormer-Plusアプローチについて述べる。 チャレンジの詳細はhttp://cvpr2023.ug2challenge.org/track3.htmlで確認できる。 Restormer-Plusは、ピーク信号対雑音比(PSNR)で他の全ての提案された解よりも優れ、構造的類似性(SSIM)では4位であった。 コンペティション主催者によって準決勝のソリューションとして公式に評価された。 シングルイメージのデライニングモジュール(Restormer-X)、中央フィルタリングモジュール、重み付け平均モジュール、後処理モジュールの4つの主要モジュールで構成されている。 Restormer-Xは雨のそれぞれの画像に適用され、Restormer上に構築される。 中央フィルタリングモジュールは、各シーンに関連する雨画像の中央オペレータとして使用される。 加重平均モジュールは、中央のフィルタリング結果とRestormer-Xのフィルタ結果を組み合わせることで、Restormer-Xのみの使用によるオーバーフィッティングを軽減する。 最後に、後処理モジュールを利用して輝度回復を改善する。 これらのモジュールは、Restormer-PlusをGT-RAIN Challengeの最先端ソリューションの1つにしている。 私たちのコードはhttps://github.com/ZJLAB-AMMI/Restormer-Plusで確認できます。

This technical report presents our Restormer-Plus approach, which was submitted to the GT-RAIN Challenge (CVPR 2023 UG$^2$+ Track 3). Details regarding the challenge are available at http://cvpr2023.ug2challenge.org/track3.html. Restormer-Plus outperformed all other submitted solutions in terms of peak signal-to-noise ratio (PSNR), and ranked 4th in terms of structural similarity (SSIM). It was officially evaluated by the competition organizers as a runner-up solution. It consists of four main modules: the single-image de-raining module (Restormer-X), the median filtering module, the weighted averaging module, and the post-processing module. Restormer-X is applied to each rainy image and built on top of Restormer. The median filtering module is used as a median operator for rainy images associated with each scene. The weighted averaging module combines the median filtering results with those of Restormer-X to alleviate overfitting caused by using only Restormer-X. Finally, the post-processing module is utilized to improve the brightness restoration. These modules make Restormer-Plus one of the state-of-the-art solutions for the GT-RAIN Challenge. Our code can be found at https://github.com/ZJLAB-AMMI/Restormer-Plus.
翻訳日:2023-05-29 19:51:40 公開日:2023-05-26
# 名前付きエンティティ認識のための文脈内学習

Learning In-context Learning for Named Entity Recognition ( http://arxiv.org/abs/2305.11038v3 )

ライセンス: Link先を確認
Jiawei Chen, Yaojie Lu, Hongyu Lin, Jie Lou, Wei Jia, Dai Dai, Hua Wu, Boxi Cao, Xianpei Han and Le Sun(参考訳) 実世界のアプリケーションにおける名前付きエンティティ認識は、エンティティタイプの多様性、新しいエンティティ型の発生、高品質なアノテーションの欠如に苦しむ。 上記の問題に対処するため,本論文では,テキスト内NER能力を PLM に効果的に注入し,いくつかの実証例を用いて新たなタイプのエンティティをオンザフライで認識する,コンテキスト内学習に基づくNERアプローチを提案する。 具体的には、PLMをメタ関数 $\mathcal{ \lambda_ {\text{instruction, demonstrations, text}} としてモデル化する。 新しいエンティティ抽出器は、plm、すなわち$\mathcal{ (\lambda.m}$) に新しい命令とデモンストレーションを適用することで暗黙的に構築できる。 M) }$(インストラクション、デモ)$\to$ $\mathcal{F}$ where $\mathcal{F}$は新しいエンティティ抽出子、すなわち、$\mathcal{F}$: text $\to$エンティティとなる。 そこで本稿では,PLM に記述中の NER 能力を注入するメタ関数事前学習アルゴリズムを提案し,PLM を(指示,実演)初期抽出器と代用ゴールデン抽出器とを比較して事前学習する。 数発のNERデータセットによる実験結果から,本手法はテキスト内NER能力をPLMに効果的に注入し,PLM+fin-tuningよりも優れていた。

Named entity recognition in real-world applications suffers from the diversity of entity types, the emergence of new entity types, and the lack of high-quality annotations. To address the above problems, this paper proposes an in-context learning-based NER approach, which can effectively inject in-context NER ability into PLMs and recognize entities of novel types on-the-fly using only a few demonstrative instances. Specifically, we model PLMs as a meta-function $\mathcal{ \lambda_ {\text{instruction, demonstrations, text}}. M}$, and a new entity extractor can be implicitly constructed by applying new instruction and demonstrations to PLMs, i.e., $\mathcal{ (\lambda . M) }$(instruction, demonstrations) $\to$ $\mathcal{F}$ where $\mathcal{F}$ will be a new entity extractor, i.e., $\mathcal{F}$: text $\to$ entities. To inject the above in-context NER ability into PLMs, we propose a meta-function pre-training algorithm, which pre-trains PLMs by comparing the (instruction, demonstration)-initialized extractor with a surrogate golden extractor. Experimental results on 4 few-shot NER datasets show that our method can effectively inject in-context NER ability into PLMs and significantly outperforms the PLMs+fine-tuning counterparts.
翻訳日:2023-05-29 19:45:05 公開日:2023-05-26
# 文書レベルの距離関係抽出のための不確かさ誘導ラベル

Uncertainty Guided Label Denoising for Document-level Distant Relation Extraction ( http://arxiv.org/abs/2305.11029v2 )

ライセンス: Link先を確認
Qi Sun and Kun Huang and Xiaocui Yang and Pengfei Hong and Kun Zhang and Soujanya Poria(参考訳) 文書レベルの関係抽出(DocRE)は、文書内のエンティティ間の複雑な意味関係を推論することを目的としている。 遠隔監視(DS)は、DocREのパフォーマンスを改善することができる大規模な自動ラベル付きデータを生成することができる。 最近の研究は、DSデータのノイズを低減するために、プレデノジングモデルによって生成された擬似ラベルを活用している。 しかし、信頼できない偽ラベルは、例えば偽の偽ラベルを追加し、正しいDSラベルを失うなど、新しいノイズをもたらす。 したがって、DSデータを識別する効果的な擬似ラベルをどうやって選択するかは、文書レベルの遠隔関係抽出において依然として課題である。 この問題に対処するために,疑似ラベルを信頼できるかどうかを判定する不確実性推定技術を導入する。 本研究では,不確実性誘導ラベルを用いた文書レベルの遠隔関係抽出フレームワークUGDREを提案する。 具体的には,重複関係を持つ擬似ラベルの信頼性を測定する新しいインスタンスレベルの不確実性推定法を提案する。 さらに, ロングテール問題を考えることで, 高信頼擬似ラベルをフィルタするために, 異なる種類の関係に対する動的不確かさしきい値を設計する。 2つの公開データセットで実験を行う。 我々のフレームワークは、RE-DocREDデータセット上で、1.91 F1と2.28 Ign F1の強いベースラインを上回ります。

Document-level relation extraction (DocRE) aims to infer complex semantic relations among entities in a document. Distant supervision (DS) is able to generate massive auto-labeled data, which can improve DocRE performance. Recent works leverage pseudo labels generated by the pre-denoising model to reduce noise in DS data. However, unreliable pseudo labels bring new noise, e.g., adding false pseudo labels and losing correct DS labels. Therefore, how to select effective pseudo labels to denoise DS data is still a challenge in document-level distant relation extraction. To tackle this issue, we introduce uncertainty estimation technology to determine whether pseudo labels can be trusted. In this work, we propose a Document-level distant Relation Extraction framework with Uncertainty Guided label denoising, UGDRE. Specifically, we propose a novel instance-level uncertainty estimation method, which measures the reliability of the pseudo labels with overlapping relations. By further considering the long-tail problem, we design dynamic uncertainty thresholds for different types of relations to filter high-uncertainty pseudo labels. We conduct experiments on two public datasets. Our framework outperforms strong baselines by 1.91 F1 and 2.28 Ign F1 on the RE-DocRED dataset.
翻訳日:2023-05-29 19:44:38 公開日:2023-05-26
# X-IQE:視覚的大言語モデルを用いたテキスト・画像生成のためのeXplainable Image Quality Evaluation

X-IQE: eXplainable Image Quality Evaluation for Text-to-Image Generation with Visual Large Language Models ( http://arxiv.org/abs/2305.10843v2 )

ライセンス: Link先を確認
Yixiong Chen, Li Liu, Chris Ding(参考訳) 本稿では,視覚的大言語モデル(LLM)を活用し,テキスト・画像生成手法の評価を行う,X-IQEと呼ばれる新しい画像品質評価手法を提案する。 X-IQEは、Thoughtの階層的連鎖(CoT)を利用して、MiniGPT-4が人間の評価と非常に相関した、一貫性のない、偏見のないテキストを生成する。 実画像と生成された画像の区別、テキストと画像のアライメントの評価、モデルのトレーニングや微調整を必要とせずに画像の美学を評価する機能など、いくつかの利点がある。 x-iqeは人間の評価よりもコスト効率が高く効率が良いが、深部画像の品質評価モデルの透明性と説明性は著しく向上している。 拡散モデルにより生成された画像を用いて,提案手法の有効性を検証する。 X-IQEはCOCOキャプションにおける最先端(SOTA)評価手法に類似した性能を示し、特に生成画像における曖昧な生成プロンプトやテキスト認識を扱うDrawBenchにおける以前の評価モデルの限界を克服する。 プロジェクトwebサイト: https://github.com/schuture/benchmarking-awesome-diffusion-models

This paper introduces a novel explainable image quality evaluation approach called X-IQE, which leverages visual large language models (LLMs) to evaluate text-to-image generation methods by generating textual explanations. X-IQE utilizes a hierarchical Chain of Thought (CoT) to enable MiniGPT-4 to produce self-consistent, unbiased texts that are highly correlated with human evaluation. It offers several advantages, including the ability to distinguish between real and generated images, evaluate text-image alignment, and assess image aesthetics without requiring model training or fine-tuning. X-IQE is more cost-effective and efficient compared to human evaluation, while significantly enhancing the transparency and explainability of deep image quality evaluation models. We validate the effectiveness of our method as a benchmark using images generated by prevalent diffusion models. X-IQE demonstrates similar performance to state-of-the-art (SOTA) evaluation methods on COCO Caption, while overcoming the limitations of previous evaluation models on DrawBench, particularly in handling ambiguous generation prompts and text recognition in generated images. Project website: https://github.com/Schuture/Benchmarking-Awesome-Diffusion-Models
翻訳日:2023-05-29 19:44:17 公開日:2023-05-26
# MolXPT: 生成前トレーニングのためのテキスト付き分子のラッピング

MolXPT: Wrapping Molecules with Text for Generative Pre-training ( http://arxiv.org/abs/2305.10688v2 )

ライセンス: Link先を確認
Zequn Liu, Wei Zhang, Yingce Xia, Lijun Wu, Shufang Xie, Tao Qin, Ming Zhang and Tie-Yan Liu(参考訳) GPT(Generative Pre-trained Transformer)は、自然言語処理における大きな成功を示し、関連する技術が分子モデリングに応用されている。 本論文では,テキストが科学的発見にとって最も重要な記録であると考え,テキストで包まれたスマイル(分子のシーケンス表現)上に事前学習されたテキストと分子の統一言語モデルmolxptを提案する。 簡単に言えば、各配列の分子名を検知し、対応するSMILESに置き換える。 このようにして、SMILESは周囲のテキストからの情報を活用することができ、その逆もできる。 上記のラップされたシーケンス、PubMedのテキストシーケンス、PubChemのSMILESシーケンスはすべて、事前トレーニングのための言語モデルに入力される。 実験により,MollXPTは分子特性予測の強塩基性よりも優れており,そのパラメータの半分以下を用いてテキスト-分子翻訳の最良のモデルと相容れない性能を示し,微調整なしでゼロショット分子生成を可能にする。

Generative pre-trained Transformer (GPT) has demonstrates its great success in natural language processing and related techniques have been adapted into molecular modeling. Considering that text is the most important record for scientific discovery, in this paper, we propose MolXPT, a unified language model of text and molecules pre-trained on SMILES (a sequence representation of molecules) wrapped by text. Briefly, we detect the molecule names in each sequence and replace them to the corresponding SMILES. In this way, the SMILES could leverage the information from surrounding text, and vice versa. The above wrapped sequences, text sequences from PubMed and SMILES sequences from PubChem are all fed into a language model for pre-training. Experimental results demonstrate that MolXPT outperforms strong baselines of molecular property prediction on MoleculeNet, performs comparably to the best model in text-molecule translation while using less than half of its parameters, and enables zero-shot molecular generation without finetuning.
翻訳日:2023-05-29 19:43:52 公開日:2023-05-26
# Paxion: ビデオ言語基礎モデルにおけるアクション知識のパッチング

Paxion: Patching Action Knowledge in Video-Language Foundation Models ( http://arxiv.org/abs/2305.10683v3 )

ライセンス: Link先を確認
Zhenhailong Wang, Ansel Blume, Sha Li, Genglin Liu, Jaemin Cho, Zineng Tang, Mohit Bansal, Heng Ji(参考訳) 行動知識は、行動のテキスト的、視覚的、時間的側面を理解することを含む。 action dynamics benchmark (actionbench) では,マルチモーダルアライメント機能と時間的理解スキルをそれぞれ対象とするaction antonymとvideo reversalという,注意深く設計された2つのプロビングタスクについて紹介する。 最近のビデオ言語モデル(VidLM)の様々なベンチマークタスクにおける印象的なパフォーマンスにもかかわらず、我々の診断タスクは、アクション知識の驚くべき不足(ほぼランダムなパフォーマンス)を明らかにし、現在のモデルはアクション理解のショートカットとしてオブジェクト認識能力に依存していることを示唆している。 そこで本研究では,DVDM(Dis Discriminative Video Dynamics Modeling)の目的と合わせて,新しいフレームワークPaxionを提案する。 Paxionフレームワークは、Knowledge Patcherネットワークを使用して、新しいアクション知識とKnowledge Fuserコンポーネントをエンコードし、Pacherを凍結したVidLMに統合する。 アクション知識の学習に広く使われているビデオテキストコントラスト(vtc)ロスの制限により,知識パッカーの訓練にdvdm目標を導入する。 DVDMは、アクションテキストとビデオフレームの正しい順序の相関をエンコードするようにモデルを強制する。 広範な分析の結果,paxion と dvdm はともに動作知識理解のギャップ(約50%から80%)を効果的に満たし,オブジェクトと動作中心のダウンストリームタスクの両方において,パフォーマンスを維持あるいは改善できることがわかった。

Action knowledge involves the understanding of textual, visual, and temporal aspects of actions. We introduce the Action Dynamics Benchmark (ActionBench) containing two carefully designed probing tasks: Action Antonym and Video Reversal, which targets multimodal alignment capabilities and temporal understanding skills of the model, respectively. Despite recent video-language models' (VidLM) impressive performance on various benchmark tasks, our diagnostic tasks reveal their surprising deficiency (near-random performance) in action knowledge, suggesting that current models rely on object recognition abilities as a shortcut for action understanding. To remedy this, we propose a novel framework, Paxion, along with a new Discriminative Video Dynamics Modeling (DVDM) objective. The Paxion framework utilizes a Knowledge Patcher network to encode new action knowledge and a Knowledge Fuser component to integrate the Patcher into frozen VidLMs without compromising their existing capabilities. Due to limitations of the widely-used Video-Text Contrastive (VTC) loss for learning action knowledge, we introduce the DVDM objective to train the Knowledge Patcher. DVDM forces the model to encode the correlation between the action text and the correct ordering of video frames. Our extensive analyses show that Paxion and DVDM together effectively fill the gap in action knowledge understanding (~50% to 80%), while maintaining or improving performance on a wide spectrum of both object- and action-centric downstream tasks.
翻訳日:2023-05-29 19:43:36 公開日:2023-05-26
# 量子アルゴリズムを分解する2つの方法

Making the cut: two methods for breaking down a quantum algorithm ( http://arxiv.org/abs/2305.10485v2 )

ライセンス: Link先を確認
Miguel Mur\c{c}a, Duarte Magano, Yasser Omar(参考訳) フォールトトレラント量子コンピュータが古典的に難解な問題を効率的に解くという約束にもかかわらず、今日のノイズの多い小規模量子ハードウェアの時代において、計算の優位に達する量子アルゴリズムを見つけることは依然として大きな課題である。 したがって、深さと空間制限に対応するために、新しい量子アルゴリズム(または既存のアルゴリズムを適応させる)を作成する作業が進行中である。 ハイブリッド・クエリ・パースペクティブを採用することで、``crunch down'' 量子アルゴリズムの2つの方法を低い(クエリ)深さのラウンドに識別し、これらのアプローチを ``parallelization'' と ``interpolation'' と指定する。 私たちの知る限りでは、これらを明示的に識別して比較することはできませんでしたが、文献にはその例があります。 これらを既知の量子スピードアップの2つの問題に適用する:$k$-threshold関数の計算とNANDツリーの計算である。 第1の問題は、並列化が最高のパフォーマンスを提供し、第2の補間はより良い選択であることを示す。 したがって、量子アルゴリズムをハイブリッドな量子古典的アルゴリズムに分解する方法が一つ以上存在する。

Despite the promise that fault-tolerant quantum computers can efficiently solve classically intractable problems, it remains a major challenge to find quantum algorithms that may reach computational advantage in the present era of noisy, small-scale quantum hardware. Thus, there is substantial ongoing effort to create new quantum algorithms (or adapt existing ones) to accommodate depth and space restrictions. By adopting a hybrid query perspective, we identify and characterize two methods of ``breaking down'' quantum algorithms into rounds of lower (query) depth, designating these approaches as ``parallelization'' and ``interpolation''. To the best of our knowledge, these had not been explicitly identified and compared side-by-side, although one can find instances of them in the literature. We apply them to two problems with known quantum speedup: calculating the $k$-threshold function and computing a NAND tree. We show that for the first problem parallelization offers the best performance, while for the second interpolation is the better choice. This illustrates that no approach is strictly better than the other, and so that there is more than one good way to break down a quantum algorithm into a hybrid quantum-classical algorithm.
翻訳日:2023-05-29 19:43:06 公開日:2023-05-26
# 機械学習を用いた生態学者のための9つのヒント

Nine tips for ecologists using machine learning ( http://arxiv.org/abs/2305.10472v2 )

ライセンス: Link先を確認
Marine Desprez, Vincent Miele and Olivier Gimenez(参考訳) 高い予測性能と柔軟性のため、機械学習モデルは生態学者にとって適切かつ効率的なツールである。 しかし、機械学習モデルの実装はまだ簡単な作業ではなく、この分野での経験のない生態学者を脅かすかもしれない。 ここでは、生態学者が機械学習モデルを実装するのに役立つ一連のヒントを提供する。 多くの生態学的研究が、生態状態や生物学的実体などの予め定義されたクラスにデータを割り当てることを目的としているため、分類問題に焦点を当てている。 9つのヒントのそれぞれは、マシンラーニングモデルの開発における一般的なエラー、トラップ、あるいは課題を特定し、生態学的研究での使用を促進するための推奨を提供する。

Due to their high predictive performance and flexibility, machine learning models are an appropriate and efficient tool for ecologists. However, implementing a machine learning model is not yet a trivial task and may seem intimidating to ecologists with no previous experience in this area. Here we provide a series of tips to help ecologists in implementing machine learning models. We focus on classification problems as many ecological studies aim to assign data into predefined classes such as ecological states or biological entities. Each of the nine tips identifies a common error, trap or challenge in developing machine learning models and provides recommendations to facilitate their use in ecological studies.
翻訳日:2023-05-29 19:42:43 公開日:2023-05-26
# 読書中の架空の人物の性格理解

Personality Understanding of Fictional Characters during Book Reading ( http://arxiv.org/abs/2305.10156v2 )

ライセンス: Link先を確認
Mo Yu, Jiangnan Li, Shunyu Yao, Wenjie Pang, Xiaochen Zhou, Zhou Xiao, Fandong Meng and Jie Zhou(参考訳) 登場人物の性格の理解は、物語を読む上で重要な側面である。 読者が物語に携わるにつれて、キャラクターに対する理解は新たな出来事や情報に基づいて進化し、パーソナリティの複数の細かい側面が認識される。 これは、位置と細かなパーソナリティ理解の自然な問題につながる。 この問題は、本を読む過程を模倣する適切なデータセットがないため、nlpの分野では研究されていない。 この問題に対する最初のラベル付きデータセットPersoNetを提示する。 新しいアノテーション戦略は、オンライン読書アプリからユーザーノートをオリジナルの書籍の代理としてアノテートすることを含む。 実験と人間の研究は、データセットの構築が効率的かつ正確であることを示し、我々のタスクは、機械と人間の両方の正確な予測を達成するために、長期的なコンテキストに大きく依存している。 データセットはhttps://github.com/gorov/personet_acl23で入手できる。

Comprehending characters' personalities is a crucial aspect of story reading. As readers engage with a story, their understanding of a character evolves based on new events and information; and multiple fine-grained aspects of personalities can be perceived. This leads to a natural problem of situated and fine-grained personality understanding. The problem has not been studied in the NLP field, primarily due to the lack of appropriate datasets mimicking the process of book reading. We present the first labeled dataset PersoNet for this problem. Our novel annotation strategy involves annotating user notes from online reading apps as a proxy for the original books. Experiments and human studies indicate that our dataset construction is both efficient and accurate; and our task heavily relies on long-term context to achieve accurate predictions for both machines and humans. The dataset is available at https://github.com/Gorov/personet_acl23.
翻訳日:2023-05-29 19:42:34 公開日:2023-05-26
# 予測不能および部分可観測環境におけるマルチロボット協調のためのbanditサブモジュラー最大化

Bandit Submodular Maximization for Multi-Robot Coordination in Unpredictable and Partially Observable Environments ( http://arxiv.org/abs/2305.12795v2 )

ライセンス: Link先を確認
Zirui Xu, Xiaofeng Lin, Vasileios Tzoumas(参考訳) 予測不能かつ部分的に観測可能な環境におけるマルチエージェント協調の問題、すなわち、将来的な進化が未知であり、部分的にしか観測できない環境について検討する。 我々は、動的、非構造化、部分的に観測可能な環境における行動を調整する複数のロボットが、目標追跡、環境マッピング、地域監視といった複雑なタスクを完了するための自律性の未来に動機づけられている。 このようなタスクは、ロボット間での情報重なり合うため、しばしばサブモジュールの最大化調整問題としてモデル化される。 帯域幅フィードバックと有界追跡後悔を伴う最初の部分モジュラコーディネーションアルゴリズムを導入する -- 帯域幅フィードバックは、選択されたアクションの効果のみを後から計算するロボットの能力であり、部分的な可観測性のために選択できるすべての代替アクションではなく、選択されたアクションの効果である。 境界線は環境が逆向きに変化する能力に優雅に低下し、ロボットが行動を再選択して、未来を十分に知っているかのように調整する方法を定量化する。 このアルゴリズムは、フィッシャーらによるセナル・シーケンシャル・グリーディアルゴリズムを、最善のアクションを追跡する問題のためにサブモジュラリティとアルゴリズムを活用し、バンディット設定に一般化する。 本アルゴリズムをマルチターゲット追跡のシミュレーションシナリオで検証する。

We study the problem of multi-agent coordination in unpredictable and partially observable environments, that is, environments whose future evolution is unknown a priori and that can only be partially observed. We are motivated by the future of autonomy that involves multiple robots coordinating actions in dynamic, unstructured, and partially observable environments to complete complex tasks such as target tracking, environmental mapping, and area monitoring. Such tasks are often modeled as submodular maximization coordination problems due to the information overlap among the robots. We introduce the first submodular coordination algorithm with bandit feedback and bounded tracking regret -- bandit feedback is the robots' ability to compute in hindsight only the effect of their chosen actions, instead of all the alternative actions that they could have chosen instead, due to the partial observability; and tracking regret is the algorithm's suboptimality with respect to the optimal time-varying actions that fully know the future a priori. The bound gracefully degrades with the environments' capacity to change adversarially, quantifying how often the robots should re-select actions to learn to coordinate as if they fully knew the future a priori. The algorithm generalizes the seminal Sequential Greedy algorithm by Fisher et al. to the bandit setting, by leveraging submodularity and algorithms for the problem of tracking the best action. We validate our algorithm in simulated scenarios of multi-target tracking.
翻訳日:2023-05-29 19:34:52 公開日:2023-05-26
# 異なるアーキテクチャと音声認識のための訓練方法を用いたエネルギーベース言語モデルの探索

Exploring Energy-based Language Models with Different Architectures and Training Methods for Speech Recognition ( http://arxiv.org/abs/2305.12676v2 )

ライセンス: Link先を確認
Hong Liu, Zhaobiao Lv, Zhijian Ou, Wenbo Zhao, Qing Xiao(参考訳) エネルギーベース言語モデル(elms)は自然文の非正規化分布をパラメータ化し、一般的な自己回帰言語モデル(alms)とは根本的に異なる。 重要な応用として、EMMは音声認識における文のスコアを計算する手段としてうまく使われてきたが、いずれもより現代的なCNNやLSTMネットワークを使用している。 近年の Transformer ネットワークと BERT や GPT2 のような大規模事前学習モデルの発展により,EMM をさらに進化させる新たな可能性が高まっている。 本稿では,エネルギー関数の異なるアーキテクチャと異なる学習手法について検討し,音声認識のためのリコーリングにおけるelmの能力について検討する。

Energy-based language models (ELMs) parameterize an unnormalized distribution for natural sentences and are radically different from popular autoregressive language models (ALMs). As an important application, ELMs have been successfully used as a means for calculating sentence scores in speech recognition, but they all use less-modern CNN or LSTM networks. The recent progress in Transformer networks and large pretrained models such as BERT and GPT2 opens new possibility to further advancing ELMs. In this paper, we explore different architectures of energy functions and different training methods to investigate the capabilities of ELMs in rescoring for speech recognition, all using large pretrained models as backbones.
翻訳日:2023-05-29 19:34:26 公開日:2023-05-26
# Glot500: 多言語コーパスと言語モデルを500言語に拡張

Glot500: Scaling Multilingual Corpora and Language Models to 500 Languages ( http://arxiv.org/abs/2305.12182v2 )

ライセンス: Link先を確認
Ayyoob Imani and Peiqin Lin and Amir Hossein Kargaran and Silvia Severini and Masoud Jalili Sabet and Nora Kassner and Chunlan Ma and Helmut Schmid and Andr\'e F. T. Martins and Fran\c{c}ois Yvon and Hinrich Sch\"utze(参考訳) NLPコミュニティは、主にLLM(Large Language Models)を垂直にスケーリングすることに重点を置いており、約100言語で改善されている。 511の低リソース言語をカバーするLLMであるGlot500-mを作成します。 この取り組みの重要な部分は、これらの511言語をカバーし、Glot500-mのトレーニングを可能にするコーパスであるGlot500-cの収集とクリーン化である。 これらの言語にまたがる5つのタスクについてGlot500-mを評価する。 我々は、XLM-Rベースラインと比較して、高リソース言語と低リソース言語の両方に大きな改善が見られた。 解析の結果,多言語LLM表現の質を説明する要因は存在しないことがわかった。 むしろ、要因の組み合わせは、コーパスサイズ、スクリプト、関連する言語からの"help"、モデルの総容量を含む品質を決定する。 我々の研究は、NLP研究の重要な目標に対処する。我々は、NLPを世界の少数の言語に限らず、可能な限り多くの言語をサポートし、すべての言語や文化にNLP技術の利点をもたらすよう努力すべきである。 コード、データ、モデルはhttps://github.com/cisnlp/glot500で入手できる。

The NLP community has mainly focused on scaling Large Language Models (LLMs) vertically, i.e., making them better for about 100 languages. We instead scale LLMs horizontally: we create, through continued pretraining, Glot500-m, an LLM that covers 511 predominantly low-resource languages. An important part of this effort is to collect and clean Glot500-c, a corpus that covers these 511 languages and allows us to train Glot500-m. We evaluate Glot500-m on five diverse tasks across these languages. We observe large improvements for both high-resource and low-resource languages compared to an XLM-R baseline. Our analysis shows that no single factor explains the quality of multilingual LLM representations. Rather, a combination of factors determines quality including corpus size, script, "help" from related languages and the total capacity of the model. Our work addresses an important goal of NLP research: we should not limit NLP to a small fraction of the world's languages and instead strive to support as many languages as possible to bring the benefits of NLP technology to all languages and cultures. Code, data and models are available at https://github.com/cisnlp/Glot500.
翻訳日:2023-05-29 19:33:09 公開日:2023-05-26
# テラヘルツ系における単一光子源

Single-photon source over the terahertz regime ( http://arxiv.org/abs/2305.11754v2 )

ライセンス: Link先を確認
Caspar Groiseau, Antonio I. Fern\'andez Dom\'inguez, Diego Mart\'in Cano and Carlos S\'anchez Mu\~noz(参考訳) 本稿では,テラヘルツ(THz)体制下で動作する単一光子のチューニング可能なソースを提案する。 このスキームは入射可視光子を1つの極性量子エミッタを光レーザーで駆動することで量子thz放射に変換し、その永久双極子によって共振結合によってキャビティへの着衣thz遷移を可能にする。 この機構は、駆動の強度と周波数を変更することにより、放出の周波数やその量子統計(反ばね状態から絡み合った多光子状態まで)などの特性の光学的チューニング性を提供する。 提案手法の実装は,最新のフォトニクス技術で実現可能であることを示す。

We present a proposal for a tunable source of single photons operating in the terahertz (THz) regime. This scheme transforms incident visible photons into quantum THz radiation by driving a single polar quantum emitter with an optical laser, with its permanent dipole enabling dressed THz transitions enhanced by the resonant coupling to a cavity. This mechanism offers optical tunability of properties such as the frequency of the emission or its quantum statistics (ranging from antibunching to entangled multi-photon states) by modifying the intensity and frequency of the drive. We show that the implementation of this proposal is feasible with state-of-the-art photonics technology.
翻訳日:2023-05-29 19:32:16 公開日:2023-05-26
# openai のささやき asr の評価 : 人文博物館における生活史の時間予測と話題モデリング

Evaluating OpenAI's Whisper ASR for Punctuation Prediction and Topic Modeling of life histories of the Museum of the Person ( http://arxiv.org/abs/2305.14580v2 )

ライセンス: Link先を確認
Lucas Rafael Stefanel Gris and Ricardo Marcacini and Arnaldo Candido Junior and Edresson Casanova and Anderson Soares and Sandra Maria Alu\'isio(参考訳) 自動音声認識(ASR)システムは、人間と機械の相互作用を含むアプリケーションにおいて重要な役割を果たす。 その重要性にもかかわらず、過去10年間に提案されたポルトガル語のASRモデルは、自動転写における句読点の正確な識別に関して制限があり、他のシステム、モデル、さらには人間による転写の使用を妨げる。 しかし,近年のWhisper ASRは,そのような制約に対処する上で大きな期待を抱く汎用音声認識モデルOpenAIによって提案されている。 この章は、ポルトガル語の句読点予測のためのウィスパーのパフォーマンスに関する最初の研究を提示する。 本稿では,ポーズポイント(コマ)と完全アイデア(宣言,質問,フルストップ)の理論的側面と,トランスクリプトベースのトピックモデリング(有望なパフォーマンスのための句読点に依存するアプリケーション)の実践的側面の両方を考慮した実験的評価を行う。 本研究では,人間の生活史を語り,保存することを目的とした仮想博物館「人博物館」のビデオによる実験結果を分析し,現実のシナリオにおけるWhisperの長所と短所について考察した。 実験の結果,Whisperは最先端の結果が得られたが,宣誓供述書,セミコロン,結腸などの句読点には改善が必要であると結論づけた。

Automatic speech recognition (ASR) systems play a key role in applications involving human-machine interactions. Despite their importance, ASR models for the Portuguese language proposed in the last decade have limitations in relation to the correct identification of punctuation marks in automatic transcriptions, which hinder the use of transcriptions by other systems, models, and even by humans. However, recently Whisper ASR was proposed by OpenAI, a general-purpose speech recognition model that has generated great expectations in dealing with such limitations. This chapter presents the first study on the performance of Whisper for punctuation prediction in the Portuguese language. We present an experimental evaluation considering both theoretical aspects involving pausing points (comma) and complete ideas (exclamation, question, and fullstop), as well as practical aspects involving transcript-based topic modeling - an application dependent on punctuation marks for promising performance. We analyzed experimental results from videos of Museum of the Person, a virtual museum that aims to tell and preserve people's life histories, thus discussing the pros and cons of Whisper in a real-world scenario. Although our experiments indicate that Whisper achieves state-of-the-art results, we conclude that some punctuation marks require improvements, such as exclamation, semicolon and colon.
翻訳日:2023-05-29 19:26:09 公開日:2023-05-26
# シーケンスモデリングはオフライン強化学習の強固な候補である

Sequence Modeling is a Robust Contender for Offline Reinforcement Learning ( http://arxiv.org/abs/2305.14550v2 )

ライセンス: Link先を確認
Prajjwal Bhargava, Rohan Chitnis, Alborz Geramifard, Shagun Sodhani, Amy Zhang(参考訳) オフライン強化学習(RL)により、エージェントは静的データセットから効率よく、戻り値の最大化ポリシーを学習できる。 オフラインRLの3つの主要なパラダイムは、Q-Learning、Imitation Learning、Sequence Modelingである。 重要なオープンな疑問は、どの条件でどのパラダイムが望ましいか、ということです。 本稿では、一般的なD4RLおよびロボミミックベンチマークを用いて、代表アルゴリズムである保守的Qラーニング(CQL)、行動クローン(BC)、決定変換(DT)のパフォーマンスを実証的に検討する。 我々は,データ・サブ最適性やタスクの複雑さに関する行動を理解するために,ターゲット実験を設計する。 その結果,(1)Q-LearningよりもQ-Learningよりも多くのデータを必要とするが,より堅牢である,(2)Q-LearningとImitation Learningはスパース・リワードと低品質のデータ設定におけるQ-LearningとImitation Learningのどちらよりもはるかに優れた選択である,(3)タスクの水平方向の増大,あるいは人間のデモストレーターからデータを得る場合には,Sequence ModelingとImitation Learningが望ましい,といった結果を得た。 シーケンスモデリングの全体的な強みに基づいて,atari と d4rl 上で dt のアーキテクチャ選択とスケーリングトレンドを調査し,設計の推奨を行う。 DTのデータ量を5倍にすることで,Atariの平均スコアが2.5倍向上することがわかった。

Offline reinforcement learning (RL) allows agents to learn effective, return-maximizing policies from a static dataset. Three major paradigms for offline RL are Q-Learning, Imitation Learning, and Sequence Modeling. A key open question is: which paradigm is preferred under what conditions? We study this question empirically by exploring the performance of representative algorithms -- Conservative Q-Learning (CQL), Behavior Cloning (BC), and Decision Transformer (DT) -- across the commonly used D4RL and Robomimic benchmarks. We design targeted experiments to understand their behavior concerning data suboptimality and task complexity. Our key findings are: (1) Sequence Modeling requires more data than Q-Learning to learn competitive policies but is more robust; (2) Sequence Modeling is a substantially better choice than both Q-Learning and Imitation Learning in sparse-reward and low-quality data settings; and (3) Sequence Modeling and Imitation Learning are preferable as task horizon increases, or when data is obtained from human demonstrators. Based on the overall strength of Sequence Modeling, we also investigate architectural choices and scaling trends for DT on Atari and D4RL and make design recommendations. We find that scaling the amount of data for DT by 5x gives a 2.5x average score improvement on Atari.
翻訳日:2023-05-29 19:25:44 公開日:2023-05-26
# chakra: 標準化された実行トレースを用いたパフォーマンスベンチマークと共同設計の進歩

Chakra: Advancing Performance Benchmarking and Co-design using Standardized Execution Traces ( http://arxiv.org/abs/2305.14516v2 )

ライセンス: Link先を確認
Srinivas Sridharan, Taekyung Heo, Louis Feng, Zhaodong Wang, Matt Bergeron, Wenyin Fu, Shengbao Zheng, Brian Coutinho, Saeed Rashidi, Changhai Man, Tushar Krishna(参考訳) ベンチマークと共同設計は、MLモデル、MLソフトウェア、次世代ハードウェアに関する最適化と革新を推進する上で不可欠である。 MLPerfのようなフルワークロードベンチマークは、特にシステムが完全に設計されデプロイされると、様々なソフトウェアとハードウェアスタック間で公正な比較を可能にする上で重要な役割を果たす。 しかし、AIイノベーションのペースは、将来のシステム共同設計のためのシミュレータとエミュレータによる作成と使用をベンチマークするためのよりアジャイルな方法論を必要としている。 作業負荷仕様を標準化するためのオープングラフスキーマであるChakraを提案する。 さらに,様々なシミュレータ,エミュレータ,ベンチマークによるChakra ETの収集,生成,導入を可能にするための,補完的なツール/機能セットを提案する。 例えば、生成AIモデルを使用して、何千ものChakra ETの潜在統計特性を学習し、これらのモデルを使用してChakra ETを合成します。 これらの合成etsは、重要なプロプライエタリな情報を隠蔽し、将来のwhat-ifシナリオをターゲットとすることができる。 例として,PyTorch ET を Chakra ET に変換し,これをオープンソーストレーニングシステムシミュレータ (ASTRA-sim) の駆動に利用した概念実証例を示す。 私たちのゴールは、将来のAIシステムの共同設計を推進するために、業界全体のアジャイルベンチマークとツールの活発なエコシステムを構築することです。

Benchmarking and co-design are essential for driving optimizations and innovation around ML models, ML software, and next-generation hardware. Full workload benchmarks, e.g. MLPerf, play an essential role in enabling fair comparison across different software and hardware stacks especially once systems are fully designed and deployed. However, the pace of AI innovation demands a more agile methodology to benchmark creation and usage by simulators and emulators for future system co-design. We propose Chakra, an open graph schema for standardizing workload specification capturing key operations and dependencies, also known as Execution Trace (ET). In addition, we propose a complementary set of tools/capabilities to enable collection, generation, and adoption of Chakra ETs by a wide range of simulators, emulators, and benchmarks. For instance, we use generative AI models to learn latent statistical properties across thousands of Chakra ETs and use these models to synthesize Chakra ETs. These synthetic ETs can obfuscate key proprietary information and also target future what-if scenarios. As an example, we demonstrate an end-to-end proof-of-concept that converts PyTorch ETs to Chakra ETs and uses this to drive an open-source training system simulator (ASTRA-sim). Our end-goal is to build a vibrant industry-wide ecosystem of agile benchmarks and tools to drive future AI system co-design.
翻訳日:2023-05-29 19:25:16 公開日:2023-05-26
# SPEECH:エネルギーに基づくイベント中心超球面による構造予測

SPEECH: Structured Prediction with Energy-Based Event-Centric Hyperspheres ( http://arxiv.org/abs/2305.13617v2 )

ライセンス: Link先を確認
Shumin Deng, Shengyu Mao, Ningyu Zhang, Bryan Hooi(参考訳) イベント中心の構造化予測では、イベントの構造化出力を予測する。 ほとんどのNLPの場合、イベント構造は多様体依存を伴う複雑であり、これらの複雑な構造化イベントを効果的に表現することは困難である。 これらの問題に対処するため,我々はエネルギーベースの事象中心超球(speech)を用いた構造化予測を提案する。 SPEECHは、エネルギーベースモデリングによるイベント構造化コンポーネント間の複雑な依存関係をモデル化し、単純だが効果的なハイパースフィアを持つイベントクラスを表現する。 2つの統合アノテーション付きイベントデータセットの実験は、SPEECHがイベント検出とイベント関連抽出タスクに支配的であることを示している。

Event-centric structured prediction involves predicting structured outputs of events. In most NLP cases, event structures are complex with manifold dependency, and it is challenging to effectively represent these complicated structured events. To address these issues, we propose Structured Prediction with Energy-based Event-Centric Hyperspheres (SPEECH). SPEECH models complex dependency among event structured components with energy-based modeling, and represents event classes with simple but effective hyperspheres. Experiments on two unified-annotated event datasets indicate that SPEECH is predominant in event detection and event-relation extraction tasks.
翻訳日:2023-05-29 19:24:26 公開日:2023-05-26
# 非対称学習率による分離合理化:フレキシブルリプシッツ拘束法

Decoupled Rationalization with Asymmetric Learning Rates: A Flexible Lipschitz Restraint ( http://arxiv.org/abs/2305.13599v2 )

ライセンス: Link先を確認
Wei Liu, Jun Wang, Haozhao Wang, Ruixuan Li, Yang Qiu, YuanKai Zhang, Jie Han, Yixiong Zou(参考訳) 自己説明的合理化モデルは通常、生成者が入力テキストから最も人間的な知性のある断片を論理として選択する協調ゲームで構築され、次に選択された合理性に基づいて予測を行う予測器が続く。 しかし、そのような協調ゲームは、予測者がまだ十分に訓練されていないジェネレータによって生成される非形式的ピースに過度に適合し、その結果、ジェネレータが無意味なピースを選択する傾向にあるサブ最適モデルに収束する、退化問題を引き起こす可能性がある。 本稿では,理論上,予測子のリプシッツ連続性による変性を橋渡しする。 そこで我々は, 予測器のリプシッツ定数を自然かつ柔軟に抑制し, 縮退の問題に対処する, DR という簡単な手法を実証的に提案する。 DRの主な考え方は、ジェネレータと予測器を分離して非対称な学習率で割り当てることである。 2つの広く使われているベンチマークで実施した一連の実験により,提案手法の有効性が検証された。 コード: \href{https://github.com/jugechengzi/Rationalization-DR}{https://github.com/jugechengzi/Rationalization-DR}。

A self-explaining rationalization model is generally constructed by a cooperative game where a generator selects the most human-intelligible pieces from the input text as rationales, followed by a predictor that makes predictions based on the selected rationales. However, such a cooperative game may incur the degeneration problem where the predictor overfits to the uninformative pieces generated by a not yet well-trained generator and in turn, leads the generator to converge to a sub-optimal model that tends to select senseless pieces. In this paper, we theoretically bridge degeneration with the predictor's Lipschitz continuity. Then, we empirically propose a simple but effective method named DR, which can naturally and flexibly restrain the Lipschitz constant of the predictor, to address the problem of degeneration. The main idea of DR is to decouple the generator and predictor to allocate them with asymmetric learning rates. A series of experiments conducted on two widely used benchmarks have verified the effectiveness of the proposed method. Codes: \href{https://github.com/jugechengzi/Rationalization-DR}{https://github.com/jugechengzi/Rationalization-DR}.
翻訳日:2023-05-29 19:24:16 公開日:2023-05-26
# 3次元における分子生成の階層的拡散モデル

Coarse-to-Fine: a Hierarchical Diffusion Model for Molecule Generation in 3D ( http://arxiv.org/abs/2305.13266v2 )

ライセンス: Link先を確認
Bo Qiang, Yuxuan Song, Minkai Xu, Jingjing Gong, Bowen Gao, Hao Zhou, Weiying Ma, Yanyan Lan(参考訳) 3Dで望ましい分子構造を生成することは、薬物発見の根本的な問題である。 私たちが達成した大きな進歩にもかかわらず、既存の方法では通常、原子分解能の分子を生成し、環のような固有の局所構造を無視し、特に大きな分子を生成する際には、生成した構造の質が低下する。 フラグメントに基づく分子生成は有望な戦略であるが, 組み合わせ最適化の問題から3次元非自己回帰世代に適用することは容易ではない。 本稿では,自己回帰モデルに頼らずに局所セグメントの有効性を維持するために階層的拡散モデル(HierDiff)を提案する。 具体的には、ヒアディフはまず、各粗粒のノードが分子の断片を反射する等変拡散過程を通じて粗粒の分子ジオメトリを生成する。 次に、粗粒度ノードを、メッセージパス処理と新しく設計された反復的なサンプリングモジュールにより細粒度フラグメントにデコードする。 最後に、細粒の断片が組み立てられ、完全な原子分子構造が導かれる。 ヒアディフは既存の方法よりも分子生成の質を一貫して改善する

Generating desirable molecular structures in 3D is a fundamental problem for drug discovery. Despite the considerable progress we have achieved, existing methods usually generate molecules in atom resolution and ignore intrinsic local structures such as rings, which leads to poor quality in generated structures, especially when generating large molecules. Fragment-based molecule generation is a promising strategy, however, it is nontrivial to be adapted for 3D non-autoregressive generations because of the combinational optimization problems. In this paper, we utilize a coarse-to-fine strategy to tackle this problem, in which a Hierarchical Diffusion-based model (i.e.~HierDiff) is proposed to preserve the validity of local segments without relying on autoregressive modeling. Specifically, HierDiff first generates coarse-grained molecule geometries via an equivariant diffusion process, where each coarse-grained node reflects a fragment in a molecule. Then the coarse-grained nodes are decoded into fine-grained fragments by a message-passing process and a newly designed iterative refined sampling module. Lastly, the fine-grained fragments are then assembled to derive a complete atomic molecular structure. Extensive experiments demonstrate that HierDiff consistently improves the quality of molecule generation over existing methods
翻訳日:2023-05-29 19:23:05 公開日:2023-05-26
# 進化的サンプリングによるマイズショット学習に基づくタンパク質工学の改善

Improving few-shot learning-based protein engineering with evolutionary sampling ( http://arxiv.org/abs/2305.15441v2 )

ライセンス: Link先を確認
M. Zaki Jawaid and Robin W. Yeo and Aayushma Gautam and T. Blair Gainous and Daniel O. Hart and Timothy P. Daley(参考訳) 新規な機能的タンパク質の設計は、様々なタンパク質工学の課題のために、依然として遅く高価なプロセスであり、特に、与えられたアッセイペールで試験的にテストできるタンパク質変異体の数は、全体の配列空間の広さと比較して、低いヒット率と高価な湿式実験室試験サイクルをもたらす。 本稿では,高価なウェットラボテストサイクルを加速することを目的として,小型かつ歪んだトレーニングデータセット(「10^5$データポイント」,「1\%$ポジティブヒット」)を活用することを目的とした,新規なタンパク質設計のための数発の学習手法を提案する。 提案手法は, 所望のタンパク質機能に対する個別のフィットネスランドスケープを生成するための半教師あり移動学習手法と, フィットネスランドスケープをより効率的に探索するための新しい進化的モンテカルロマルコ・チェインサンプリングアルゴリズムとから構成される。 予測された高適合性遺伝子アクチベーターを実験的にスクリーニングすることにより,本手法の性能を実証し,既存の手法と比較してヒット率を劇的に向上させた。 本手法は他のタンパク質工学や設計問題、特にラベル付きデータ取得に伴うコストが著しく高い場合に容易に適用できる。 我々はこのメソッドのオープンソースコードをhttps:// github.com/SuperSecretBioTech/evolutionary_monte_carlo_searchで提供しました。

Designing novel functional proteins remains a slow and expensive process due to a variety of protein engineering challenges; in particular, the number of protein variants that can be experimentally tested in a given assay pales in comparison to the vastness of the overall sequence space, resulting in low hit rates and expensive wet lab testing cycles. In this paper, we propose a few-shot learning approach to novel protein design that aims to accelerate the expensive wet lab testing cycle and is capable of leveraging a training dataset that is both small and skewed ($\approx 10^5$ datapoints, $< 1\%$ positive hits). Our approach is composed of two parts: a semi-supervised transfer learning approach to generate a discrete fitness landscape for a desired protein function and a novel evolutionary Monte Carlo Markov Chain sampling algorithm to more efficiently explore the fitness landscape. We demonstrate the performance of our approach by experimentally screening predicted high fitness gene activators, resulting in a dramatically improved hit rate compared to existing methods. Our method can be easily adapted to other protein engineering and design problems, particularly where the cost associated with obtaining labeled data is significantly high. We have provided open source code for our method at https:// github.com/SuperSecretBioTech/evolutionary_monte_carlo_search.
翻訳日:2023-05-29 19:12:36 公開日:2023-05-26
# チームワークは常に良いものではない: クラスインクリメンタル情報抽出におけるクラシファイアドリフトの実証的研究

Teamwork Is Not Always Good: An Empirical Study of Classifier Drift in Class-incremental Information Extraction ( http://arxiv.org/abs/2305.16559v1 )

ライセンス: Link先を確認
Minqian Liu, Lifu Huang(参考訳) CIL(Class-incremental Learning)は,データストリームから新しいクラスを継続的に学習する学習システムである。 クラスを漸進的に学習する場合、分類器を常に更新して新しいクラスを組み込まなければならない。 しかし、この根本的な課題は、特に古いクラスのサンプルをリハーサルのために保存しない環境では、まだ広く研究されていない。 In this paper, we take a closer look at how the drift in the classifier leads to forgetting, and accordingly, design four simple yet (super-) effective solutions to alleviate the classifier drift: an Individual Classifiers with Frozen Feature Extractor (ICE) framework where we individually train a classifier for each learning session, and its three variants ICE-PL, ICE-O, and ICE-PL&O which further take the logits of previously learned classes from old sessions or a constant logit of an Other class as a constraint to the learning of new classifiers. 6つのクラスインクリメンタル情報抽出タスクに関する大規模な実験と分析により、我々のソリューション、特にICE-Oは、最大44.7%の絶対的なFスコアゲインを持つ最先端のアプローチに対して、一貫して顕著な改善を示し、クラスインクリメンタルラーニング研究のための強力なベースラインと洞察を提供する。

Class-incremental learning (CIL) aims to develop a learning system that can continually learn new classes from a data stream without forgetting previously learned classes. When learning classes incrementally, the classifier must be constantly updated to incorporate new classes, and the drift in decision boundary may lead to severe forgetting. This fundamental challenge, however, has not yet been studied extensively, especially in the setting where no samples from old classes are stored for rehearsal. In this paper, we take a closer look at how the drift in the classifier leads to forgetting, and accordingly, design four simple yet (super-) effective solutions to alleviate the classifier drift: an Individual Classifiers with Frozen Feature Extractor (ICE) framework where we individually train a classifier for each learning session, and its three variants ICE-PL, ICE-O, and ICE-PL&O which further take the logits of previously learned classes from old sessions or a constant logit of an Other class as a constraint to the learning of new classifiers. Extensive experiments and analysis on 6 class-incremental information extraction tasks demonstrate that our solutions, especially ICE-O, consistently show significant improvement over the previous state-of-the-art approaches with up to 44.7% absolute F-score gain, providing a strong baseline and insights for future research on class-incremental learning.
翻訳日:2023-05-29 17:39:26 公開日:2023-05-26
# ツリーベース拡散シュル・オディンガーブリッジとwasserstein barycentersへの応用

Tree-Based Diffusion Schr\"odinger Bridge with Applications to Wasserstein Barycenters ( http://arxiv.org/abs/2305.16557v1 )

ライセンス: Link先を確認
Maxence Noble, Valentin De Bortoli, Arnaud Doucet, Alain Durmus(参考訳) OTの一般化であるMulti-marginal Optimal Transport (mOT)は,所定の限界を持つ分布に対するコスト関数の積分を最小化することを目的としている。 本稿では,木構造を持つ二次コストを持つモットのエントロピーバージョン,すなわち,木のノード間でのペアワイズコスト関数の和として書ける関数について考察する。 この問題に対処するため,Diffusion Schr\"odinger Bridge (TreeDSB) アルゴリズムを拡張したツリーベースDiffusion Schr\"odinger Bridge (DSB) を開発した。 TreeDSBはマルチマージナルシンクホーンアルゴリズムの動的かつ連続的な状態空間に対応する。 この手法の特筆すべきユースケースは,星型木上のmot問題の解として再キャスト可能なwasserstein barycentersを計算することである。 本手法は画像補間やベイズ融合などの高次元設定に適用可能であることを示す。

Multi-marginal Optimal Transport (mOT), a generalization of OT, aims at minimizing the integral of a cost function with respect to a distribution with some prescribed marginals. In this paper, we consider an entropic version of mOT with a tree-structured quadratic cost, i.e., a function that can be written as a sum of pairwise cost functions between the nodes of a tree. To address this problem, we develop Tree-based Diffusion Schr\"odinger Bridge (TreeDSB), an extension of the Diffusion Schr\"odinger Bridge (DSB) algorithm. TreeDSB corresponds to a dynamic and continuous state-space counterpart of the multimarginal Sinkhorn algorithm. A notable use case of our methodology is to compute Wasserstein barycenters which can be recast as the solution of a mOT problem on a star-shaped tree. We demonstrate that our methodology can be applied in high-dimensional settings such as image interpolation and Bayesian fusion.
翻訳日:2023-05-29 17:38:58 公開日:2023-05-26
# LANISTR: 構造化データと非構造化データによるマルチモーダル学習

LANISTR: Multimodal Learning from Structured and Unstructured Data ( http://arxiv.org/abs/2305.16556v1 )

ライセンス: Link先を確認
Sayna Ebrahimi, Sercan O. Arik, Yihe Dong, Tomas Pfister(参考訳) マルチモーダルな大規模事前学習は、言語、画像、音声、ビデオを含む非構造化データのパフォーマンス向上を示している。 しかし、現実のアプリケーションで最も顕著なシナリオは、構造化された(表型と時系列を含む)データと非構造化データの組み合わせの存在である。 この目的に向けて,言語,画像,構造化データから学ぶための新しい注意に基づくフレームワークであるlanistrを提案する。 LANISTRは,学習時間と試験時間にモダリティが欠如している大規模マルチモーダルデータから,クロスモーダル関係を学習することができる。 MIMIC-IVとAmazon Product Reviewの2つの公開データセットでは、LANISTRは、最先端のマルチモーダルモデルと比較して、それぞれ6.47%(AUROC)と17.69%(精度)の絶対的な改善を実現し、優れた一般化能力を示している。

Multimodal large-scale pretraining has shown impressive performance gains for unstructured data including language, image, audio, and video. Yet, the scenario most prominent in real-world applications is the existence of combination of structured (including tabular and time-series) and unstructured data, and this has so far been understudied. Towards this end, we propose LANISTR, a novel attention-based framework to learn from LANguage, Image, and STRuctured data. We introduce a new multimodal fusion module with a similarity-based multimodal masking loss that enables LANISTR to learn cross-modal relations from large-scale multimodal data with missing modalities during training and test time. On two publicly available challenging datasets, MIMIC-IV and Amazon Product Review, LANISTR achieves absolute improvements of 6.47% (AUROC) and up to 17.69% (accuracy), respectively, compared to the state-of-the-art multimodal models while showing superior generalization capabilities.
翻訳日:2023-05-29 17:38:41 公開日:2023-05-26
# CVB:牛の視覚行動のビデオデータセット

CVB: A Video Dataset of Cattle Visual Behaviors ( http://arxiv.org/abs/2305.16555v1 )

ライセンス: Link先を確認
Ali Zia, Renuka Sharma, Reza Arablouei, Greg Bishop-Hurley, Jody McNally, Neil Bagnall, Vivien Rolland, Brano Kusy, Lars Petersson, Aaron Ingham(参考訳) 牛の行動認識のための既存の画像/ビデオデータセットは、ほとんどが小さく、明確に定義されたラベルがないか、非現実的な制御環境で収集される。 これにより、機械学習(ML)モデルの有用性が制限される。 そこで本研究では,15秒毎に502本の映像クリップからなり,自然照明条件下で撮影され,放牧牛の視覚知覚行動11種類の注釈を付した,新たなデータセットであるcvbを提案する。 アノテーションの収集にはコンピュータビジョンアノテーションツール(cvat)を使用します。 この手法をより効率的にするために, 適切な事前学習モデルを用いて, ビデオ中のウシの初期検出と追跡を行う。 結果は、CVATにおける牛の行動ラベルとともに、ドメインの専門家によって修正される。 事前検出及び追跡ステップは、手動のアノテーションの時間と労力を大幅に削減する。 さらに,CVBをアトミック・ビジュアル・アクション(AVA)フォーマットに変換し,その上で人気のあるSlowFastアクション認識モデルを訓練し,評価する。 関連する予備結果は,牛の局所化と頻発する行動の認識を自信をもって行うことができることを確認した。 本研究の目的は,CVBの作成と共有により,すべての重要な行動を正確に認識できる改良モデルを開発し,ビデオデータを用いた牛の行動分類の新しいMLモデルの開発と評価を支援することである。

Existing image/video datasets for cattle behavior recognition are mostly small, lack well-defined labels, or are collected in unrealistic controlled environments. This limits the utility of machine learning (ML) models learned from them. Therefore, we introduce a new dataset, called Cattle Visual Behaviors (CVB), that consists of 502 video clips, each fifteen seconds long, captured in natural lighting conditions, and annotated with eleven visually perceptible behaviors of grazing cattle. We use the Computer Vision Annotation Tool (CVAT) to collect our annotations. To make the procedure more efficient, we perform an initial detection and tracking of cattle in the videos using appropriate pre-trained models. The results are corrected by domain experts along with cattle behavior labeling in CVAT. The pre-hoc detection and tracking step significantly reduces the manual annotation time and effort. Moreover, we convert CVB to the atomic visual action (AVA) format and train and evaluate the popular SlowFast action recognition model on it. The associated preliminary results confirm that we can localize the cattle and recognize their frequently occurring behaviors with confidence. By creating and sharing CVB, our aim is to develop improved models capable of recognizing all important behaviors accurately and to assist other researchers and practitioners in developing and evaluating new ML models for cattle behavior classification using video data.
翻訳日:2023-05-29 17:38:24 公開日:2023-05-26
# 後視経験の連鎖からの創発性エージェントトランスフォーマー

Emergent Agentic Transformer from Chain of Hindsight Experience ( http://arxiv.org/abs/2305.16554v1 )

ライセンス: Link先を確認
Hao Liu and Pieter Abbeel(参考訳) 多様なデータとモデルスケールを備えた大規模なトランスフォーマーモデルは、自然言語モデリングとコンピュータビジョンを支配し、複数のai分野のフロンティアを押し進めてきた。 しかし、強化学習(RL)では、トランスフォーマーベースのポリシーへの多くの取り組みにもかかわらず、現在のトランスフォーマーベースのポリシーは複数の準最適トライアルからの情報を直接組み合わせて学習できない。 本研究では,最近提案されているrelabel経験に対する後遺症連鎖を用いてこの問題に対処し,その総報酬に応じて,軌道経験の列で変圧器を訓練する。 本手法は,トラジェクタのシーケンス内において,各軌道の目標リターンを最大総報酬にリラベリングし,過去の状態,動作,報酬,目標リターン,タスク完了トークンに条件づけされた動作を予測する自己回帰モデルを訓練することにより,訓練時およびテスト時の両方で改善を学習できる。 私たちがD4RLとExoRLベンチマークで示したように、我々の知る限りでは、単純なトランスフォーマーベースのモデルが、時間差と模倣学習に基づくアプローチの両方と競合するのはこれが初めてである。 Agentic Transformerはまた、大きなモデルが継続的に結果を改善する、有望なスケーリングトレンドを示しています。

Large transformer models powered by diverse data and model scale have dominated natural language modeling and computer vision and pushed the frontier of multiple AI areas. In reinforcement learning (RL), despite many efforts into transformer-based policies, a key limitation, however, is that current transformer-based policies cannot learn by directly combining information from multiple sub-optimal trials. In this work, we address this issue using recently proposed chain of hindsight to relabel experience, where we train a transformer on a sequence of trajectory experience ascending sorted according to their total rewards. Our method consists of relabelling target return of each trajectory to the maximum total reward among in sequence of trajectories and training an autoregressive model to predict actions conditioning on past states, actions, rewards, target returns, and task completion tokens, the resulting model, Agentic Transformer (AT), can learn to improve upon itself both at training and test time. As we show on D4RL and ExoRL benchmarks, to the best our knowledge, this is the first time that a simple transformer-based model performs competitively with both temporal-difference and imitation-learning-based approaches, even from sub-optimal data. Our Agentic Transformer also shows a promising scaling trend that bigger models consistently improve results.
翻訳日:2023-05-29 17:38:02 公開日:2023-05-26
# 対話要約のためのファクチュアルエラーの注釈と検出

Annotating and Detecting Fine-grained Factual Errors for Dialogue Summarization ( http://arxiv.org/abs/2305.16548v1 )

ライセンス: Link先を確認
Rongxin Zhu, Jianzhong Qi, Jey Han Lau(参考訳) ニュース記事のような整形された文書のために生成された要約のために、一連のデータセットとモデルが提案されている。 しかし、対話の要約は検討されている。 本稿では,DIASUMFACTというファクトエラーアノテーションを用いた最初のデータセットを提案する。 文レベルの多ラベル分類問題としてファクト・ファクト・エラー検出を定義し、データセット上で2つの最先端(SOTA)モデルを評価する。 どちらのモデルも準最適であり、マクロ平均F1スコアは6つのエラークラスで約0.25である。 さらに、事前訓練エンコーダデコーダモデルを用いて、候補ランキングによる教師なしモデルENDERANKERを提案する。 我々のモデルは、少ないリソースでSOTAモデルと同等に動作します。 これらの結果から,対話要約から事実誤りを検出する上での課題が確認された。

A series of datasets and models have been proposed for summaries generated for well-formatted documents such as news articles. Dialogue summaries, however, have been under explored. In this paper, we present the first dataset with fine-grained factual error annotations named DIASUMFACT. We define fine-grained factual error detection as a sentence-level multi-label classification problem, and we evaluate two state-of-the-art (SOTA) models on our dataset. Both models yield sub-optimal results, with a macro-averaged F1 score of around 0.25 over 6 error classes. We further propose an unsupervised model ENDERANKER via candidate ranking using pretrained encoder-decoder models. Our model performs on par with the SOTA models while requiring fewer resources. These observations confirm the challenges in detecting factual errors from dialogue summaries, which call for further studies, for which our dataset and results offer a solid foundation.
翻訳日:2023-05-29 17:37:38 公開日:2023-05-26
# 消費電力予測のための長短期記憶(LSTM)と双方向LSTMディープニューラルネットワークの比較

Comparing Long Short-Term Memory (LSTM) and Bidirectional LSTM Deep Neural Networks for power consumption prediction ( http://arxiv.org/abs/2305.16546v1 )

ライセンス: Link先を確認
Davi Guimar\~aes da Silva, Anderson Alvarenga de Moura Meneses(参考訳) 電力消費予測手法は、エネルギー効率に関する意思決定や、エネルギー市場の動態における需要予測など、様々な理由から検討されている。 本研究の目的は、単変量電気消費時系列(TS)の短期予測において、Long Short-Term Memory(LSTM)とBi-directional LSTM(BLSTM)の2つのディープラーニングモデルの比較である。 データセット(DS)は、異なるコンテキストとスケールで選択され、モデルの堅牢性の評価を目的としている。 電力消費に関する4つのDSが使用された。 (a)フランスの世帯 (b)ブラジルのサンタジェムにある大学ビル (c)モロッコの T'etouan city zones、及び (c)シンガポールは電気需要を集約した。 測定値 rmse, mae, mape, r2 をtsクロスバリデーション方式で計算した。 フリードマンの試験は正規化rmse (nrmse) の結果に適用され、blstmは統計的に有意な差(p = 0.0455)を持つlstmよりも優れており、双方向の重み付け更新によって電力消費の異なるスケールでのlstm性能が大幅に向上するという事実を裏付けるものであった。

Electric consumption prediction methods are investigated for many reasons such as decision-making related to energy efficiency as well as for anticipating demand in the energy market dynamics. The objective of the present work is the comparison between two Deep Learning models, namely the Long Short-Term Memory (LSTM) and Bi-directional LSTM (BLSTM) for univariate electric consumption Time Series (TS) short-term forecast. The Data Sets (DSs) were selected for their different contexts and scales, aiming the assessment of the models' robustness. Four DSs were used, related to the power consumption of: (a) a household in France; (b) a university building in Santar\'em, Brazil; (c) the T\'etouan city zones, in Morocco; and (c) the Singapore aggregated electric demand. The metrics RMSE, MAE, MAPE and R2 were calculated in a TS cross-validation scheme. The Friedman's test was applied to normalized RMSE (NRMSE) results, showing that BLSTM outperforms LSTM with statistically significant difference (p = 0.0455), corroborating the fact that bidirectional weight updating improves significantly the LSTM performance concerning different scales of electric power consumption.
翻訳日:2023-05-29 17:37:26 公開日:2023-05-26
# グラフ学習による影響操作の誘導的検出

Inductive detection of Influence Operations via Graph Learning ( http://arxiv.org/abs/2305.16544v1 )

ライセンス: Link先を確認
Nicholas A. Gabriel, David A. Broniatowski, Neil F. Johnson(参考訳) 影響操作は世論を操作するための大規模な取り組みである。 これらの操作の迅速な検出と中断は、健全な公開談話に不可欠である。 創発的なAI技術は、現在の検出方法を避け、より大きな規模、リーチ、特異性を持つソーシャルメディア上の公開談話に影響を与える新しい操作を可能にする。 公衆の意見や出来事を確実に変える前に、これらの新しい操作を特定するために、誘導学習能力を持つ新しい方法が必要である。 私たちは帰納的学習フレームワークを開発しました 1) 操作に特有でない内容及びグラフに基づく指標を決定する。 2) グラフ学習を用いて協調操作の抽象署名を符号化する。 3)ロシア、中国、イランを起源とする運用を横断する訓練および試験モデルにより、一般化能力を評価する。 このフレームワークは、強い相互運用の一般化を可能にすると同時に、有意な指標を$\unicode{x2013}$illustrating a generic approach that direct complements transductive methodologies, which enhance detection coverage。

Influence operations are large-scale efforts to manipulate public opinion. The rapid detection and disruption of these operations is critical for healthy public discourse. Emergent AI technologies may enable novel operations which evade current detection methods and influence public discourse on social media with greater scale, reach, and specificity. New methods with inductive learning capacity will be needed to identify these novel operations before they indelibly alter public opinion and events. We develop an inductive learning framework which: 1) determines content- and graph-based indicators that are not specific to any operation; 2) uses graph learning to encode abstract signatures of coordinated manipulation; and 3) evaluates generalization capacity by training and testing models across operations originating from Russia, China, and Iran. We find that this framework enables strong cross-operation generalization while also revealing salient indicators$\unicode{x2013}$illustrating a generic approach which directly complements transductive methodologies, thereby enhancing detection coverage.
翻訳日:2023-05-29 17:37:05 公開日:2023-05-26
# 循環系における文脈性の測定と負確率測定CNT3

Measures of contextuality in cyclic systems and the negative probabilities measure CNT3 ( http://arxiv.org/abs/2305.16574v1 )

ライセンス: Link先を確認
Giulio Camillo and V\'ictor H. Cervantes(参考訳) 確率変数の一般システム(例えば、一貫性のない連結系)に対して、文脈性に関するいくつかの原則的尺度が提案されている。 その最初の尺度は、負の確率を用いた準カップリングに基づいている(CNT3, Dzhafarov & Kujala, 2016)。 Dzhafarov と Kujala (2019) は文脈性の尺度 CNT2 を導入し、非文脈性の尺度に自然に一般化した。 Dzhafarov と Kujala (2019) は、巡回系のクラスではこれらの2つの測度が比例すると予想した。 ここではその予想が正しいことを証明する。 最近、Cervantes (2023) は、Abramsky, Barbosa, Mansfeld (2017) によって導入された CNT2 と Contextual Fraction measure (CNTF) の比例を示した。 この証明は、循環系に関連するすべての文脈性尺度の相互関係の記述を完成させる。

Several principled measures of contextuality have been proposed for general systems of random variables (i.e. inconsistentlly connected systems). The first of such measures was based on quasi-couplings using negative probabilities (here denoted by CNT3, Dzhafarov & Kujala, 2016). Dzhafarov and Kujala (2019) introduced a measure of contextuality, CNT2, that naturally generalizes to a measure of non-contextuality. Dzhafarov and Kujala (2019) additionally conjectured that in the class of cyclic systems these two measures are proportional. Here we prove that that conjecture is correct. Recently, Cervantes (2023) showed the proportionality of CNT2 and the Contextual Fraction measure (CNTF) introduced by Abramsky, Barbosa, and Mansfeld (2017). The present proof completes the description of the interrelations of all contextuality measures as they pertain to cyclic systems.
翻訳日:2023-05-29 17:31:00 公開日:2023-05-26
# ロングテール認識問題における重みバランスの検討

Exploring Weight Balancing on Long-Tailed Recognition Problem ( http://arxiv.org/abs/2305.16573v1 )

ライセンス: Link先を確認
Naoya Hasegawa, Issei Sato(参考訳) サンプルサイズが意図的に調整されない限り,データセット内のクラス毎のサンプルサイズ分布が一般的に指数関数的であるため,クラス毎のサンプルサイズが重く歪んだ長いデータにおける認識問題は近年重要になっている。 これらの問題に対処するために様々なアプローチが考案された。 近年,有名な古典的正規化手法と二段階訓練を組み合わせた重みバランスが提案されている。 その単純さにもかかわらず、様々な方法で考案された既存の手法に対する高い性能で知られている。 しかし、このアプローチが長期データに有効である理由については理解されていない。 本研究では,各訓練段階における神経崩壊と錐体効果に着目した手法を分析し,重量減少とクロスエントロピー損失による特徴抽出器のフィッシャーの判別比の増加と,体重減少とクラスバランス損失による暗黙のロジット調整に分解できることを見出した。 分析により,精度を高めつつ訓練段階の数を1つに減らすことにより,より簡便な訓練方法が得られた。

Recognition problems in long-tailed data, where the sample size per class is heavily skewed, have recently gained importance because the distribution of the sample size per class in a dataset is generally exponential unless the sample size is intentionally adjusted. Various approaches have been devised to address these problems. Recently, weight balancing, which combines well-known classical regularization techniques with two-stage training, has been proposed. Despite its simplicity, it is known for its high performance against existing methods devised in various ways. However, there is a lack of understanding as to why this approach is effective for long-tailed data. In this study, we analyze the method focusing on neural collapse and cone effect at each training stage and find that it can be decomposed into the increase in Fisher's discriminant ratio of the feature extractor caused by weight decay and cross entropy loss and implicit logit adjustment caused by weight decay and class-balanced loss. Our analysis shows that the training method can be further simplified by reducing the number of training stages to one while increasing accuracy.
翻訳日:2023-05-29 17:30:42 公開日:2023-05-26
# 反事実推論: 言語モデルの仮説的シナリオに対する理解

Counterfactual reasoning: Testing language models' understanding of hypothetical scenarios ( http://arxiv.org/abs/2305.16572v1 )

ライセンス: Link先を確認
Jiaxuan Li, Lang Yu, Allyson Ettinger(参考訳) 現在の事前学習型言語モデルは下流タスクにおいて顕著な改善を実現しているが、実世界の理解に基づくより体系的な論理的推論と統計的相関の影響を区別することは困難である。 我々は, 言語モデルに仮定的提案に基づく異常な結果の予測を強いる, 反事実的条件付けを活用し, それらの要因を区別する。 本稿では,心理言語学実験の一連のテストと大規模に制御されたデータセットを導入し,事前学習された5つの言語モデルからの偽りの予測について検討する。 私たちは、モデルが反事実的なシナリオで現実世界の知識を一貫してオーバーライドすることができ、より強固なベースラインの世界知識の場合、この効果はより強固であることが分かりました。 反事実の言語ニュアンスに関する知識をテストするために世界知識と語彙手がかりの両方の効果を緩和すると、gpt-3のみがこれらのニュアンスに対する感受性を示すことが分かるが、この感受性は語彙連想因子によって非自明に影響を受ける。

Current pre-trained language models have enabled remarkable improvements in downstream tasks, but it remains difficult to distinguish effects of statistical correlation from more systematic logical reasoning grounded on the understanding of real world. We tease these factors apart by leveraging counterfactual conditionals, which force language models to predict unusual consequences based on hypothetical propositions. We introduce a set of tests from psycholinguistic experiments, as well as larger-scale controlled datasets, to probe counterfactual predictions from five pre-trained language models. We find that models are consistently able to override real-world knowledge in counterfactual scenarios, and that this effect is more robust in case of stronger baseline world knowledge -- however, we also find that for most models this effect appears largely to be driven by simple lexical cues. When we mitigate effects of both world knowledge and lexical cues to test knowledge of linguistic nuances of counterfactuals, we find that only GPT-3 shows sensitivity to these nuances, though this sensitivity is also non-trivially impacted by lexical associative factors.
翻訳日:2023-05-29 17:30:22 公開日:2023-05-26
# エッジ支援型モバイル拡張現実のためのデジタルツイン型3dマップ管理

Digital Twin-Based 3D Map Management for Edge-Assisted Mobile Augmented Reality ( http://arxiv.org/abs/2305.16571v1 )

ライセンス: Link先を確認
Conghao Zhou, Jie Gao, Mushu Li, Nan Cheng, Xuemin Shen, Weihua Zhuang(参考訳) 本稿では,エッジサーバにカメラフレームをアップロードする個々のMARデバイスのポーズ推定を支援するために,エッジ支援型モバイル拡張現実(MAR)のための3次元マップ管理手法を設計する。 我々の目的は、3Dマップを更新するためにアップロードするカメラフレームの適切なセットを定期的に選択することで、MARデバイスのポーズ推定の不確実性を最小化することである。 ダイナミックアップリンクデータレートの課題とmarデバイスの時間的変動状況に対処するため,デジタルツイン(dt)ベースの3dマップ管理手法を提案する。 まず、その後のカメラフレームの予測に基づいて、3Dマップ管理をエミュレートするMAR装置用のDTを作成する。 次に,実データとエミュレートデータの両方から収集したデータを利用して3dマップを管理するモデルベース強化学習(mbrl)アルゴリズムを開発した。 dtによって提供される広範なエミュレートデータにより、mbrlアルゴリズムは高度にダイナミックな環境で適応的な地図管理ポリシーを迅速に提供することができる。 シミュレーションの結果,提案したDTベースの3Dマップ管理は,動的環境における低いポーズ推定の不確かさと高いデータ効率を達成することにより,ベンチマークスキームよりも優れていた。

In this paper, we design a 3D map management scheme for edge-assisted mobile augmented reality (MAR) to support the pose estimation of individual MAR device, which uploads camera frames to an edge server. Our objective is to minimize the pose estimation uncertainty of the MAR device by periodically selecting a proper set of camera frames for uploading to update the 3D map. To address the challenges of the dynamic uplink data rate and the time-varying pose of the MAR device, we propose a digital twin (DT)-based approach to 3D map management. First, a DT is created for the MAR device, which emulates 3D map management based on predicting subsequent camera frames. Second, a model-based reinforcement learning (MBRL) algorithm is developed, utilizing the data collected from both the actual and the emulated data to manage the 3D map. With extensive emulated data provided by the DT, the MBRL algorithm can quickly provide an adaptive map management policy in a highly dynamic environment. Simulation results demonstrate that the proposed DT-based 3D map management outperforms benchmark schemes by achieving lower pose estimation uncertainty and higher data efficiency in dynamic environments.
翻訳日:2023-05-29 17:30:02 公開日:2023-05-26
# Anchoringによる価値イテレーションの高速化

Accelerating Value Iteration with Anchoring ( http://arxiv.org/abs/2305.16569v1 )

ライセンス: Link先を確認
Jongmin Lee, Ernest K. Ryu(参考訳) 値反復(VI)は現代の強化学習の理論と実践の基礎であり、$\mathcal{O}(\gamma^k)$-rateで収束することが知られている。 しかし、驚くべきことに、vi設定の最適速度は分かっておらず、一般的な加速機構を見つけることはオープンな問題であった。 本稿ではベルマン整合性演算子と最適性演算子の両方に対する最初の加速VIを示す。 我々の手法は Anc-VI と呼ばれ、nesterov の加速度と区別する) \emph{anchoring} 機構に基づいており、標準 VI よりもベルマン誤差を高速に低減する。 特に、Anc-VI は $\mathcal{O}(1/k)$-rate for $\gamma\approx 1$ あるいは $\gamma=1$ であるのに対して、標準 VI は $\mathcal{O}(1)$ for $\gamma\ge 1-1/k$ である。 また,anc-viの加速速度の最適性を確立するために,上限値が4ドルの定数値まで一致するような複雑性を低減できる。 最後に、アンカー機構が近似 VI とガウス-シーデル VI のセットアップにも同様の利点をもたらすことを示す。

Value Iteration (VI) is foundational to the theory and practice of modern reinforcement learning, and it is known to converge at a $\mathcal{O}(\gamma^k)$-rate, where $\gamma$ is the discount factor. Surprisingly, however, the optimal rate for the VI setup was not known, and finding a general acceleration mechanism has been an open problem. In this paper, we present the first accelerated VI for both the Bellman consistency and optimality operators. Our method, called Anc-VI, is based on an \emph{anchoring} mechanism (distinct from Nesterov's acceleration), and it reduces the Bellman error faster than standard VI. In particular, Anc-VI exhibits a $\mathcal{O}(1/k)$-rate for $\gamma\approx 1$ or even $\gamma=1$, while standard VI has rate $\mathcal{O}(1)$ for $\gamma\ge 1-1/k$, where $k$ is the iteration count. We also provide a complexity lower bound matching the upper bound up to a constant factor of $4$, thereby establishing optimality of the accelerated rate of Anc-VI. Finally, we show that the anchoring mechanism provides the same benefit in the approximate VI and Gauss--Seidel VI setups as well.
翻訳日:2023-05-29 17:29:42 公開日:2023-05-26
# 工学教育における本格的ゲームにおけるゲーミフィケーションと知的指導システムの組み合わせ

Combining Gamification and Intelligent Tutoring Systems in a Serious Game for Engineering Education ( http://arxiv.org/abs/2305.16568v1 )

ライセンス: Link先を確認
Ying Tang and Ryan Hare(参考訳) 本研究は,本格的ゲームに統合したパーソナライズ学習システムの開発から,現在進行中の成果を提供する。 インストラクターのリソースが限られているため、教師の教育にコンピュータシステムを使うことは、より高品質な教育を提供し、教育効果を向上させる手段を提供する。 本論文で提案するパーソナライズドラーニングシステムは、アクセス可能なソリューションを提供する。 さらに、こうしたシステムを本格的なゲームと組み合わせることで、学生はさらにシステムとのインタラクションに携わるようになる。 提案する学習システムは,専門家主導型の構造と授業計画と,コンピュータ知能の手法とゲーミフィケーションを組み合わせることで,学生に楽しい学習体験を提供する。 近年, 学生からのフィードバックや教室での観察をもとに, 多数のデザインイテレーションが実施されている。 計算知を用いて,ゲーム内行動とwebカメラ画像からの感情状態の推定から収集したデータに基づいて,学生に適応的に支援を行う。 評価のために,授業内テストから収集した学生データに着目し,教育効果,結果,学生観察について検討した。 提案システムの効果を実証するために,電気工学初期課程の学生に対して,標準研究室の課題に代えてシステムとのインタラクションを指示した。 そしてシステムは、実験室の割り当てを完了する前に、彼らのバックグラウンド知識を計測し、改善する手助けをする。 ゲーム中、私たちはシステムとのインタラクションを観察し、将来の作業についての洞察を集めました。 また,パーソナライズされた学習システムの有無に関わらずゲームをプレイした学生によるプレテスト結果を通じて,システムの教育効果を示す。

We provide ongoing results from the development of a personalized learning system integrated into a serious game. Given limited instructor resources, the use of computerized systems to help tutor students offers a way to provide higher quality education and to improve educational efficacy. Personalized learning systems like the one proposed in this paper offer an accessible solution. Furthermore, by combining such a system with a serious game, students are further engaged in interacting with the system. The proposed learning system combines expert-driven structure and lesson planning with computational intelligence methods and gamification to provide students with a fun and educational experience. As the project is ongoing from past years, numerous design iterations have been made on the system based on feedback from students and classroom observations. Using computational intelligence, the system adaptively provides support to students based on data collected from both their in-game actions and by estimating their emotional state from webcam images. For our evaluation, we focus on student data gathered from in-classroom testing in relevant courses, with both educational efficacy, results and student observations. To demonstrate the effect of our proposed system, students in an early electrical engineering course were instructed to interact with the system in place of a standard lab assignment. The system would then measure and help them improve their background knowledge before allowing them to complete the lab assignment. As they played through the game, we observed their interactions with the system to gather insights for future work. Additionally, we demonstrate the system's educational efficacy through pre-post-test results from students who played the game with and without the personalized learning system.
翻訳日:2023-05-29 17:29:14 公開日:2023-05-26
# 人工物体相互作用のための構造化潜在変数モデル

Structured Latent Variable Models for Articulated Object Interaction ( http://arxiv.org/abs/2305.16567v1 )

ライセンス: Link先を確認
Emily Liu, Michael Noseworthy, Nicholas Roy(参考訳) 本稿では,ロボットがドアの開閉の映像から,ドアの低次元表現を学習するシナリオについて検討する。 この表現はドア関連のパラメータを推論し、ドアとのインタラクションの結果を予測するのに使うことができる。 現在の機械学習ベースのドアドメインのアプローチは、主にラベル付きデータセットに基づいている。 しかし,利用可能なドアデータの量が多ければ多いほど,事前学習に基づく半教師付きアプローチの可能性も示唆される。 各ドアに複数の関連画像があるデータセットの階層構造を利用するため、ニューラルネットワーク統計学として知られる構造化潜在変数モデルで事前学習する。 ニューラルネットワークは、共有コンテキストレベルの変数(同じドアに関連付けられたすべての画像に共通する)とインスタンスレベルの変数(個々の画像に共通)の分離を強制する。 まず,神経統計学者が現実的なドアイメージの再構成とサンプリングを可能にする埋め込みを学習できることを実証する。 次に、一連の教師付き推論タスクにおいて、人間解釈可能なパラメータに対する学習埋め込みの対応を評価する。 その結果, 事前学習したニューラルネットワークエンコーダは, ドアハンドネス, サイズ, 角度位置, 構成の予測において, 類似の文脈自由ベースラインよりも優れていた。 最後に,様々なドア構成の視覚的バンディットドア開放作業において,ニューラルネットワークによる統計的埋め込みは,文脈のないベースラインよりも後悔度が低いことがわかった。

In this paper, we investigate a scenario in which a robot learns a low-dimensional representation of a door given a video of the door opening or closing. This representation can be used to infer door-related parameters and predict the outcomes of interacting with the door. Current machine learning based approaches in the doors domain are based primarily on labelled datasets. However, the large quantity of available door data suggests the feasibility of a semisupervised approach based on pretraining. To exploit the hierarchical structure of the dataset where each door has multiple associated images, we pretrain with a structured latent variable model known as a neural statistician. The neural satsitician enforces separation between shared context-level variables (common across all images associated with the same door) and instance-level variables (unique to each individual image). We first demonstrate that the neural statistician is able to learn an embedding that enables reconstruction and sampling of realistic door images. Then, we evaluate the correspondence of the learned embeddings to human-interpretable parameters in a series of supervised inference tasks. It was found that a pretrained neural statistician encoder outperformed analogous context-free baselines when predicting door handedness, size, angle location, and configuration from door images. Finally, in a visual bandit door-opening task with a variety of door configuration, we found that neural statistician embeddings achieve lower regret than context-free baselines.
翻訳日:2023-05-29 17:28:49 公開日:2023-05-26
# Pairwise-based Image-Text Retrievalへのリスワイズランキングの統合

Integrating Listwise Ranking into Pairwise-based Image-Text Retrieval ( http://arxiv.org/abs/2305.16566v1 )

ライセンス: Link先を確認
Zheng Li, Caili Guo, Xin Wang, Zerun Feng, Yanjun Wang(参考訳) Image-Text Retrieval (ITR)は基本的にランキング問題である。 クェリキャプションが与えられたら、そのゴールは候補者の画像を、大きなものから小さなものへと、関連性でランク付けすることだ。 現在のITRデータセットは、ペア方式で構築されている。 画像テキストペアは肯定的または否定的に注釈される。 ITRモデルは、主に三重項損失のようなペアワイズ損失を使用してランク付けを学ぶ。 ペアワイズベースITRは負対類似性を無差別に減少させながら正対類似性を増大させる。 しかし、相異なる負の対の関連性は異なる。 ペアワイズアノテーションはこの関連性の違いを反映できない。 現在のデータセットでは、ペアワイズアノテーションは多くの相関を見逃している。 負のラベルが付けられたペアには、潜在的に正のペアが多数存在する。 ペアワイズベースのitrは、負のサンプルの前にのみ正のサンプルをランク付けできるが、関連性によって負のサンプルをランク付けすることはできない。 本稿では,リストワイズランキングを従来のペアワイズ型itrに統合する。 listwise rankingは、適合度スコアに基づいてランキング全体を最適化する。 具体的には、まず、ランクリスト全体の関連スコアを計算するための関連スコア計算(RSC)モジュールを提案する。 次に、最適化目的として、正規化ディスカウント累積ゲイン(ndcg)のランキングメトリックを選択する。 我々は、微分不可能なNDCGをSmooth-NDCG(S-NDCG)という、微分不能なリストワイドロスに変換する。 我々のリストワイズランキングアプローチは、現在のペアワイズベースITRモデルに統合できる。 ITRベンチマーク実験により、リストワイドランキングの統合により、現在のITRモデルの性能が向上し、よりユーザフレンドリな検索結果が得られることが示された。 コードはhttps://github.com/aaa-zheng/listwise_itrで入手できる。

Image-Text Retrieval (ITR) is essentially a ranking problem. Given a query caption, the goal is to rank candidate images by relevance, from large to small. The current ITR datasets are constructed in a pairwise manner. Image-text pairs are annotated as positive or negative. Correspondingly, ITR models mainly use pairwise losses, such as triplet loss, to learn to rank. Pairwise-based ITR increases positive pair similarity while decreasing negative pair similarity indiscriminately. However, the relevance between dissimilar negative pairs is different. Pairwise annotations cannot reflect this difference in relevance. In the current datasets, pairwise annotations miss many correlations. There are many potential positive pairs among the pairs labeled as negative. Pairwise-based ITR can only rank positive samples before negative samples, but cannot rank negative samples by relevance. In this paper, we integrate listwise ranking into conventional pairwise-based ITR. Listwise ranking optimizes the entire ranking list based on relevance scores. Specifically, we first propose a Relevance Score Calculation (RSC) module to calculate the relevance score of the entire ranked list. Then we choose the ranking metric, Normalized Discounted Cumulative Gain (NDCG), as the optimization objective. We transform the non-differentiable NDCG into a differentiable listwise loss, named Smooth-NDCG (S-NDCG). Our listwise ranking approach can be plug-and-play integrated into current pairwise-based ITR models. Experiments on ITR benchmarks show that integrating listwise ranking can improve the performance of current ITR models and provide more user-friendly retrieval results. The code is available at https://github.com/AAA-Zheng/Listwise_ITR.
翻訳日:2023-05-29 17:28:28 公開日:2023-05-26
# 教師なし埋め込み品質評価

Unsupervised Embedding Quality Evaluation ( http://arxiv.org/abs/2305.16562v1 )

ライセンス: Link先を確認
Anton Tsitsulin, Marina Munkhoeva, Bryan Perozzi(参考訳) 教師なし学習は最近、特にディープラーニングベースのアプローチで人気が高まっている。 さまざまな学術ベンチマークで多くの成功と教師レベルパフォーマンスに近づいているにもかかわらず、教師なしの性質のため、SSLモデルを実際にトレーニングし評価することは依然として困難である。 監視された方法でトレーニングされたネットワークであっても、他のドメインに転送されるとうまく機能するかどうかは不明だ。 過去の研究は一般に、深層ニューラルネットワークの自己教師あり学習に最も関係する埋め込みに含まれる情報量を評価することに限定されている。 安定した方法でデータを線形に分離することがいかに容易か、定量化できますか? 文献を調査し,表現の質評価に使用可能な3つの方法を明らかにする。 また,高次元幾何学構造自己教師学習の理解における最近の進歩に基づく新しい手法を提案する。 我々は、これらのメトリクスと、前回の研究で導入されたものの特性について広範な実験を行い、研究する。 その結果,無料のランチは存在しないものの,埋没品質を教師なしの方法で確実に推定できる指標が存在することが示唆された。

Unsupervised learning has recently significantly gained in popularity, especially with deep learning-based approaches. Despite numerous successes and approaching supervised-level performance on a variety of academic benchmarks, it is still hard to train and evaluate SSL models in practice due to the unsupervised nature of the problem. Even with networks trained in a supervised fashion, it is often unclear whether they will perform well when transferred to another domain. Past works are generally limited to assessing the amount of information contained in embeddings, which is most relevant for self-supervised learning of deep neural networks. This works chooses to follow a different approach: can we quantify how easy it is to linearly separate the data in a stable way? We survey the literature and uncover three methods that could be potentially used for evaluating quality of representations. We also introduce one novel method based on recent advances in understanding the high-dimensional geometric structure self-supervised learning. We conduct extensive experiments and study the properties of these metrics and ones introduced in the previous work. Our results suggest that while there is no free lunch, there are metrics that can robustly estimate embedding quality in an unsupervised way.
翻訳日:2023-05-29 17:28:02 公開日:2023-05-26
# 非エルミート量子力学における高速同期のエネルギーコスト

Energetic cost for speedy synchronization in non-Hermitian quantum dynamics ( http://arxiv.org/abs/2305.16560v1 )

ライセンス: Link先を確認
Maxwell Aifer and Juzar Thingna and Sebastian Deffner(参考訳) 量子同期は複雑なダイナミクスを理解する上で重要であり、量子コンピューティングや通信における潜在的な応用を秘めている。 したがって、連続変数系における有限時間同期に必要な熱力学的資源の評価は重要な課題である。 本研究では,これらの資源を大規模システムに適用する。 また、非エルミート反PT対称相互作用を持つ結合振動子における量子同期と古典同期の速度を束縛し、減衰に対する相互作用強度によって同期の速度が制限されることを示す。 古典的極限と比較して、量子同期はエルミート項と反エルミート項の非可換性によって遅くなる。 一般の結果を実験的に検証し,フォトニックシステムへの実装を提案する。

Quantum synchronization is crucial for understanding complex dynamics and holds potential applications in quantum computing and communication. Therefore, assessing the thermodynamic resources required for finite-time synchronization in continuous-variable systems is a critical challenge. In the present work, we find these resources to be extensive for large systems. We also bound the speed of quantum and classical synchronization in coupled damped oscillators with non-Hermitian anti-PT-symmetric interactions, and show that the speed of synchronization is limited by the interaction strength relative to the damping. Compared to the classical limit, we find that quantum synchronization is slowed by the non-commutativity of the Hermitian and anti-Hermitian terms. Our general results could be tested experimentally and we suggest an implementation in photonic systems.
翻訳日:2023-05-29 17:27:45 公開日:2023-05-26
# スパイクニューラルネットワークを用いたパターン認識のためのハイブリッドニューラルコーディング手法

A Hybrid Neural Coding Approach for Pattern Recognition with Spiking Neural Networks ( http://arxiv.org/abs/2305.16594v1 )

ライセンス: Link先を確認
Xinyi Chen, Qu Yang, Jibin Wu, Haizhou Li, and Kay Chen Tan(参考訳) 生物学的神経系は効率と有効性のために生態環境に適応するように進化し、複雑な認知タスクを達成するために不均一な構造とリッチなダイナミクスを持つニューロンを最適化した。 しかしながら、生物にインスパイアされたスパイクニューラルネットワーク(SNN)の現在の研究のほとんどは、精度、レイテンシ、効率、堅牢性などの観点から、全体的なパフォーマンスを制限する均質なニューラルネットワーク方式に基づいている。 本研究では,ネットワークアーキテクチャを体系的に設計し,多様な神経機能とニューラルコーディングスキームを最高の性能に組み込むことを論じる。 この研究の初期の試みとして、神経科学で発見された複数のニューラルコーディングスキームを統合するハイブリッドニューラルコーディングフレームワークを提案しました。 提案手法は,CIFAR-10,CIFAR-100,Tiny-ImageNetデータセット上で,8ステップ未満で3.90倍の計算量で,最先端のSNNと同等の精度を達成できることを実証する。 さらに,SoClasデータセット上での精度,迅速,頑健な音源定位を示す。 本研究は、様々なハイブリッドニューラルネットワーク設計の性能に関する貴重な洞察を与え、高性能SNNの設計に重要な意味を持つ。

The biological neural systems evolved to adapt to ecological environment for efficiency and effectiveness, wherein neurons with heterogeneous structures and rich dynamics are optimized to accomplish complex cognitive tasks. Most of the current research of biologically inspired spiking neural networks (SNNs) are, however, grounded on a homogeneous neural coding scheme, which limits their overall performance in terms of accuracy, latency, efficiency, and robustness, etc. In this work, we argue that one should holistically design the network architecture to incorporate diverse neuronal functions and neural coding schemes for best performance. As an early attempt in this research direction, we put forward a hybrid neural coding framework that integrates multiple neural coding schemes discovered in neuroscience. We demonstrate that the proposed hybrid coding scheme achieves a comparable accuracy with the state-of-the-art SNNs with homogeneous neural coding on CIFAR-10, CIFAR-100, and Tiny-ImageNet datasets with less than eight time steps and at least 3.90x fewer computations. Furthermore, we demonstrate accurate, rapid, and robust sound source localization on SoClas dataset. This study yields valuable insights into the performance of various hybrid neural coding designs and hold significant implications for designing high performance SNNs.
翻訳日:2023-05-29 17:21:00 公開日:2023-05-26
# マルチレゾリューション物理インフォームドリカレントニューラルネットワーク:定式化と筋骨格系への応用

A Multi-Resolution Physics-Informed Recurrent Neural Network: Formulation and Application to Musculoskeletal Systems ( http://arxiv.org/abs/2305.16593v1 )

ライセンス: Link先を確認
Karan Taneja, Xiaolong He, Qizhi He and J. S. Chen(参考訳) 筋骨格運動(MSK)の同時予測とMSKシステムのパラメータ同定のための多分解能物理インフォームド・リカレントニューラルネットワーク(MR PI-RNN)を提案する。 高周波表面筋電図(sEMG)信号をMSKおよび筋収縮動態によって制御される低周波体関節運動にマッピングする際の困難性から,MSK応用はモデル問題として選択された。 提案手法は、高速ウェーブレット変換を用いて、混合周波数入力sEMGを分解し、ジョイントモーション信号をネスト多重解像度信号に出力する。 その後、ゲートリカレントユニット(GRU)を用いて、粗大入力出力信号に基づいて予測モデルを訓練し、その後、訓練されたパラメータをより微細な信号で次のレベルの訓練に転送する。 これらのトレーニングプロセスは、基礎となるダイナミック平衡を満たしつつ、フルスケールのトレーニング(すなわち、フィルタされていない信号)が完了するまで、移行学習方式で繰り返し繰り返される。 実験結果から,MSKシステムの肘屈曲伸展の運動予測において,単スケールトレーニングよりも高精度な物理インフォームド・フォワード・ダイナミックス・サロゲートを生成する上で,提案手法の有効性が示された。 このフレームワークはまた、被験者の運動学データと生理的に整合した筋肉パラメータを識別することも可能である。

This work presents a multi-resolution physics-informed recurrent neural network (MR PI-RNN), for simultaneous prediction of musculoskeletal (MSK) motion and parameter identification of the MSK systems. The MSK application was selected as the model problem due to its challenging nature in mapping the high-frequency surface electromyography (sEMG) signals to the low-frequency body joint motion controlled by the MSK and muscle contraction dynamics. The proposed method utilizes the fast wavelet transform to decompose the mixed frequency input sEMG and output joint motion signals into nested multi-resolution signals. The prediction model is subsequently trained on coarser-scale input-output signals using a gated recurrent unit (GRU), and then the trained parameters are transferred to the next level of training with finer-scale signals. These training processes are repeated recursively under a transfer-learning fashion until the full-scale training (i.e., with unfiltered signals) is achieved, while satisfying the underlying dynamic equilibrium. Numerical examples on recorded subject data demonstrate the effectiveness of the proposed framework in generating a physics-informed forward-dynamics surrogate, which yields higher accuracy in motion predictions of elbow flexion-extension of an MSK system compared to the case with single-scale training. The framework is also capable of identifying muscle parameters that are physiologically consistent with the subject's kinematics data.
翻訳日:2023-05-29 17:20:23 公開日:2023-05-26
# 生成モデルを用いた強化学習における分布ロバストさの検証

The Curious Price of Distributional Robustness in Reinforcement Learning with a Generative Model ( http://arxiv.org/abs/2305.16589v1 )

ライセンス: Link先を確認
Laixi Shi, Gen Li, Yuting Wei, Yuxin Chen, Matthieu Geist, Yuejie Chi(参考訳) 本稿では,強化学習(RL)におけるモデルロバスト性を検討した。 我々は,デプロイ環境が,名目MDPの周囲に規定された不確実性に陥る場合に,最悪の場合のパフォーマンスを最適化する政策の学習を目的とした,分布的に堅牢なマルコフ決定プロセス(RMDP)の枠組みを採用する。 近年の取り組みにもかかわらず、RMDPのサンプルの複雑さは、使用中の不確実性に関わらず、ほとんど未解決のままであった。 分布的ロバスト性が標準rlに対するベンチマークで統計的結果をもたらすかどうかは明らかでない。 名目MDPに基づいてサンプルを描画する生成モデルにアクセスすると、不確実性集合が全変動(TV)距離または$\chi^2$ばらつきによって特定される場合、RMDPのサンプル複雑性を特徴付ける。 ここでのアルゴリズムは、分布的に堅牢な値反復と呼ばれるモデルに基づく手法であり、不確実性レベルの全範囲に対してほぼ最適であることが示されている。 意外なことに、私たちの結果はRMDPが標準のMDPよりも簡単で、学習が難しいとは限らないことを明らかにしました。 堅牢性要求によって引き起こされる統計的結果は、不確実性集合のサイズと形状に大きく依存する: w.r.t.~TV距離の場合、RMDPのミニマックスサンプルの複雑さは標準のMDPよりも常に小さく、w.r.t.~$\chi^2$のばらつきの場合、RMDPのサンプルの複雑さは標準のMDPよりもはるかに大きい。

This paper investigates model robustness in reinforcement learning (RL) to reduce the sim-to-real gap in practice. We adopt the framework of distributionally robust Markov decision processes (RMDPs), aimed at learning a policy that optimizes the worst-case performance when the deployed environment falls within a prescribed uncertainty set around the nominal MDP. Despite recent efforts, the sample complexity of RMDPs remained mostly unsettled regardless of the uncertainty set in use. It was unclear if distributional robustness bears any statistical consequences when benchmarked against standard RL. Assuming access to a generative model that draws samples based on the nominal MDP, we characterize the sample complexity of RMDPs when the uncertainty set is specified via either the total variation (TV) distance or $\chi^2$ divergence. The algorithm studied here is a model-based method called {\em distributionally robust value iteration}, which is shown to be near-optimal for the full range of uncertainty levels. Somewhat surprisingly, our results uncover that RMDPs are not necessarily easier or harder to learn than standard MDPs. The statistical consequence incurred by the robustness requirement depends heavily on the size and shape of the uncertainty set: in the case w.r.t.~the TV distance, the minimax sample complexity of RMDPs is always smaller than that of standard MDPs; in the case w.r.t.~the $\chi^2$ divergence, the sample complexity of RMDPs can often far exceed the standard MDP counterpart.
翻訳日:2023-05-29 17:19:56 公開日:2023-05-26
# ParaAMR: AMRバックトランスレーションによる大規模構文逆パラフレーズデータセット

ParaAMR: A Large-Scale Syntactically Diverse Paraphrase Dataset by AMR Back-Translation ( http://arxiv.org/abs/2305.16585v1 )

ライセンス: Link先を確認
Kuan-Hao Huang, Varun Iyer, I-Hung Hsu, Anoop Kumar, Kai-Wei Chang, Aram Galstyan(参考訳) パラフレーズ生成は自然言語処理(NLP)における長年の課題である。 ヒトの注釈付きパラフレーズペアに依存するスーパービジョン付きパラフレーズ生成モデルは、コスト非効率でスケールアップが困難である。 一方、自動アノテートされた言い換えペア(例えば機械の逆翻訳)は、通常、構文の多様性の欠如に苦しむ -- 生成された言い換え文は、構文の点で、元の文と非常によく似ている。 本稿では,抽象的な表現のバックトランスレーションによって生成した大規模構文的多様パラフレーズデータセットであるParaAMRを提案する。 定量的解析,質的例,人的評価により,既存の大規模paraphraseデータセットに比べてparaamrのパラフラスは構文的に多様であり,意味的類似性は良好であることが示された。 さらに,ParaAMRは文の埋め込みの学習,構文的に制御されたパラフレーズ生成,数ショット学習のためのデータ拡張という3つのNLPタスクの改善に利用できることを示す。 そこで本研究では,NLPアプリケーションの改善に向けたParaAMRの可能性を示す。

Paraphrase generation is a long-standing task in natural language processing (NLP). Supervised paraphrase generation models, which rely on human-annotated paraphrase pairs, are cost-inefficient and hard to scale up. On the other hand, automatically annotated paraphrase pairs (e.g., by machine back-translation), usually suffer from the lack of syntactic diversity -- the generated paraphrase sentences are very similar to the source sentences in terms of syntax. In this work, we present ParaAMR, a large-scale syntactically diverse paraphrase dataset created by abstract meaning representation back-translation. Our quantitative analysis, qualitative examples, and human evaluation demonstrate that the paraphrases of ParaAMR are syntactically more diverse compared to existing large-scale paraphrase datasets while preserving good semantic similarity. In addition, we show that ParaAMR can be used to improve on three NLP tasks: learning sentence embeddings, syntactically controlled paraphrase generation, and data augmentation for few-shot learning. Our results thus showcase the potential of ParaAMR for improving various NLP applications.
翻訳日:2023-05-29 17:19:21 公開日:2023-05-26
# 回帰モデルによる数値データ中の誤差の検出

Detecting Errors in Numerical Data via any Regression Model ( http://arxiv.org/abs/2305.16583v1 )

ライセンス: Link先を確認
Hang Zhou, Jonas Mueller, Mayank Kumar, Jane-Ling Wang and Jing Lei(参考訳) ノイズは多くの数値データセットを悩ませており、データに記録された値は、誤ったセンサー、データ入力/処理ミス、不完全な人間の推定など、真の基礎となる値と一致しない可能性がある。 ここでは,数値列に沿ってデータ値が誤りであることを推定する。 我々は,データセット内の他の変数に基づいて,この列内の値を予測するのに適した,<emph{any} regressor(統計モデルまたは機械学習モデル)を利用するモデル非依存なアプローチを提案する。 様々な不確実性を考慮することで,データセット内の利用可能な情報に基づいて,真の異常と自然データゆらぎを区別する。 本手法の理論的保証を確立し,コンフォメーション推論などの手法が誤り検出に苦慮していることを示す。 また,実世界の数値誤差を含む5つの回帰データセット(真の値も知られている)を含む新しいエラー検出ベンチマークも提案する。 このベンチマークおよび追加シミュレーション研究において,本手法は他の手法よりも精度/リコールが良い不正確な値を同定する。

Noise plagues many numerical datasets, where the recorded values in the data may fail to match the true underlying values due to reasons including: erroneous sensors, data entry/processing mistakes, or imperfect human estimates. Here we consider estimating \emph{which} data values are incorrect along a numerical column. We present a model-agnostic approach that can utilize \emph{any} regressor (i.e.\ statistical or machine learning model) which was fit to predict values in this column based on the other variables in the dataset. By accounting for various uncertainties, our approach distinguishes between genuine anomalies and natural data fluctuations, conditioned on the available information in the dataset. We establish theoretical guarantees for our method and show that other approaches like conformal inference struggle to detect errors. We also contribute a new error detection benchmark involving 5 regression datasets with real-world numerical errors (for which the true values are also known). In this benchmark and additional simulation studies, our method identifies incorrect values with better precision/recall than other approaches.
翻訳日:2023-05-29 17:19:04 公開日:2023-05-26
# 大規模言語モデルにおける連鎖的,効果的なグラフ的推論を超えて

Beyond Chain-of-Thought, Effective Graph-of-Thought Reasoning in Large Language Models ( http://arxiv.org/abs/2305.16582v1 )

ライセンス: Link先を確認
Yao Yao, Zuchao Li, Hai Zhao(参考訳) NLPタスクに大規模言語モデル(LLM)が広く使われるようになると、研究者は中間ステップを生成することで複雑な推論タスクを達成するのにLLMを支援するために、Chain-of-Thought(CoT)の可能性を発見した。 しかし、人間の思考過程は単に思考の逐次連鎖ではなく、しばしば非線形である。 そこで我々は,人間の思考過程をチェーンとしてだけでなく,グラフとしてモデル化するグラフ・オブ・ソート(GoT)推論を提案する。 思考単位をノードとして表現し、それら間の接続をエッジとして表現することで、我々のアプローチは人間の思考の連続しない性質を捉え、思考プロセスのより現実的なモデリングを可能にします。 Multimodal-CoTと同様に、私たちはGoT推論を2段階のフレームワークとしてモデル化し、まず理性を生成し、最後に答えを生成しました。 具体的には、GoT表現学習のための追加のグラフ・オブ・シンクエンコーダを使用し、ゲート融合機構を通じてGoT表現を元の入力表現と融合する。 我々は、T5事前学習モデルにGoT推論モデルを実装し、テキストのみ推論タスク(GSM8K)とマルチモーダル推論タスク(ScienceQA)の性能を評価する。 我々のモデルは,T5ベースとT5大規模アーキテクチャを用いたGSM8Kテストセットにおいて,それぞれ3.41%,5.08%のCoTベースラインに対する大幅な改善を実現している。 さらに,T5ベースモデルでは84.91%から91.54%,ScienceQAテストセットでは最先端のマルチモーダルCoTでは91.68%から92.77%に精度が向上した。 実験の結果、GoTは2億5000万以上のバックボーンモデルパラメータを持つにもかかわらず、700万以上のパラメータを持つMultimodal-CoT(large)に匹敵する結果が得られた。

With the widespread use of large language models (LLMs) in NLP tasks, researchers have discovered the potential of Chain-of-thought (CoT) to assist LLMs in accomplishing complex reasoning tasks by generating intermediate steps. However, human thought processes are often non-linear, rather than simply sequential chains of thoughts. Therefore, we propose Graph-of-Thought (GoT) reasoning, which models human thought processes not only as a chain but also as a graph. By representing thought units as nodes and connections between them as edges, our approach captures the non-sequential nature of human thinking and allows for a more realistic modeling of thought processes. Similar to Multimodal-CoT, we modeled GoT reasoning as a two-stage framework, generating rationales first and then producing the final answer. Specifically, we employ an additional graph-of-thoughts encoder for GoT representation learning and fuse the GoT representation with the original input representation through a gated fusion mechanism. We implement a GoT reasoning model on the T5 pre-trained model and evaluate its performance on a text-only reasoning task (GSM8K) and a multimodal reasoning task (ScienceQA). Our model achieves significant improvement over the strong CoT baseline with 3.41% and 5.08% on the GSM8K test set with T5-base and T5-large architectures, respectively. Additionally, our model boosts accuracy from 84.91% to 91.54% using the T5-base model and from 91.68% to 92.77% using the T5-large model over the state-of-the-art Multimodal-CoT on the ScienceQA test set. Experiments have shown that GoT achieves comparable results to Multimodal-CoT(large) with over 700M parameters, despite having fewer than 250M backbone model parameters, demonstrating the effectiveness of GoT.
翻訳日:2023-05-29 17:18:48 公開日:2023-05-26
# 形態的インフレクションにおけるノイズの検討

An Investigation of Noise in Morphological Inflection ( http://arxiv.org/abs/2305.16581v1 )

ライセンス: Link先を確認
Adam Wiemerslage, Changbing Yang, Garrett Nicolai, Miikka Silfverberg, and Katharina Kann(参考訳) 高品質なデータが不足している言語のための形態的インフレクションシステムに注目が集まる中、トレーニングデータノイズは深刻な問題だが、これまでほとんど無視されてきた。 本稿では,このギャップを解消するために,真に教師なしの形態的パラダイム完全化のためのパイプライン内で発生する雑音の種類と形態的変形システムへの影響について検討する。 次に、異なる種類のノイズが複数の最先端インフレクションモデルに与える影響を比較する。 最後に,新しいキャラクタレベルマスキング言語モデリング(cmlm)の事前学習目標を提案し,そのモデルに対する雑音耐性への影響について検討する。 実験により,様々なアーキテクチャが異なる種類のノイズによって異なる影響を受けることが示されたが,エンコーダ・デコーダはコピーバイアスで学習したモデルよりも,ノイズに対して頑健な傾向がみられた。 CMLMプレトレーニングはトランスフォーマーに役立つが、LSTMへの影響は低い。

With a growing focus on morphological inflection systems for languages where high-quality data is scarce, training data noise is a serious but so far largely ignored concern. We aim at closing this gap by investigating the types of noise encountered within a pipeline for truly unsupervised morphological paradigm completion and its impact on morphological inflection systems: First, we propose an error taxonomy and annotation pipeline for inflection training data. Then, we compare the effect of different types of noise on multiple state-of-the-art inflection models. Finally, we propose a novel character-level masked language modeling (CMLM) pretraining objective and explore its impact on the models' resistance to noise. Our experiments show that various architectures are impacted differently by separate types of noise, but encoder-decoders tend to be more robust to noise than models trained with a copy bias. CMLM pretraining helps transformers, but has lower impact on LSTMs.
翻訳日:2023-05-29 17:18:13 公開日:2023-05-26
# TFDet:RGB-Tペデストリアン検出のためのターゲット認識融合

TFDet: Target-aware Fusion for RGB-T Pedestrian Detection ( http://arxiv.org/abs/2305.16580v1 )

ライセンス: Link先を確認
Xue Zhang, Xiaohan Zhang, Zehua Sheng, and Hui-Liang Shen(参考訳) 歩行者検出は、交通安全を確保するためにコンピュータビジョンにおいて重要な課題である。 しかし、rgb画像のみに依存する既存の手法では、有用な情報がないため、低照度条件下で性能が低下する。 この問題に対処するため、近年のマルチスペクトル検出手法は熱画像を組み合わせて補完情報を提供する。 それにもかかわらず、これらのアプローチにはノイズの多い機能マップや情報的特徴の欠落といった制限がある。 本稿では,TFDet と呼ばれる多スペクトル歩行者検出のための新たな目標対応融合戦略を提案する。 既存の方法とは異なり、TFDetは相関最大損失関数で融合過程を監督することで特徴を高める。 我々の融合戦略は歩行者関連機能を強調しながら非関連機能を抑制する。 TFDet は KAIST と LLVIP のベンチマークで最先端のパフォーマンスを実現している。 重要なこととして、TFDetは低照度環境では著しく性能が良く、道路安全にとって重要な進歩である。

Pedestrian detection is a critical task in computer vision because of its role in ensuring traffic safety. However, existing methods that rely solely on RGB images suffer from performance degradation under low-light conditions due to the lack of useful information. To address this issue, recent multispectral detection approaches combine thermal images to provide complementary information. Nevertheless, these approaches have limitations such as the noisy fused feature maps and the loss of informative features. In this paper, we propose a novel target-aware fusion strategy for multispectral pedestrian detection, named TFDet. Unlike existing methods, TFDet enhances features by supervising the fusion process with a correlation-maximum loss function. Our fusion strategy highlights the pedestrian-related features while suppressing the unrelated ones. TFDet achieves state-of-the-art performances on both KAIST and LLVIP benchmarks, with a speed comparable to the previous state-of-the-art counterpart. Importantly, TFDet performs remarkably well under low-light conditions, which is a significant advancement for road safety.
翻訳日:2023-05-29 17:17:57 公開日:2023-05-26
# NLPのすべての再現性:初心者の経験を理解する

NLP Reproducibility For All: Understanding Experiences of Beginners ( http://arxiv.org/abs/2305.16579v1 )

ライセンス: Link先を確認
Shane Storks, Keunwoo Peter Yu, Ziqiao Ma, Joyce Chai(参考訳) 自然言語処理 (NLP) は近年, 前例のないほど興奮感を呈しており, この分野への参入を熱望する人々が増えていることから, 初心者グループにとって最新の研究成果が有効かどうかは不明である。 本研究は,最近のNLP論文の成果を再現した入門NLPコースにおいて,93名の学生を対象に調査を行った。 驚いたことに、彼らのプログラミングスキルと研究論文の理解は、エクササイズを完了するのに費やした努力に限定的な影響を与えている。 その代わり、完全なドキュメンテーション、より良いコーディングプラクティス、データファイルへのアクセスの容易化など、研究者によるアクセシビリティの取り組みが成功の鍵となることが分かっています。 今後は、NLP研究者がこれらの簡単な側面に注意を払って作業をオープンソース化し、初心者のフィードバックからの洞察を使って、より優れたサポート方法に関する実用的なアイデアを提供することを推奨する。

As natural language processing (NLP) has recently seen an unprecedented level of excitement, and more people are eager to enter the field, it is unclear whether current research reproducibility efforts are sufficient for this group of beginners to apply the latest developments. To understand their needs, we conducted a study with 93 students in an introductory NLP course, where students reproduced the results of recent NLP papers. Surprisingly, we find that their programming skill and comprehension of research papers have a limited impact on their effort spent completing the exercise. Instead, we find accessibility efforts by research authors to be the key to success, including complete documentation, better coding practice, and easier access to data files. Going forward, we recommend that NLP researchers pay close attention to these simple aspects of open-sourcing their work, and use insights from beginners' feedback to provide actionable ideas on how to better support them.
翻訳日:2023-05-29 17:17:41 公開日:2023-05-26
# NichelleとNancy: ファーストネームビアースにおけるデモグラフィック属性とトークン化長さの影響

Nichelle and Nancy: The Influence of Demographic Attributes and Tokenization Length on First Name Biases ( http://arxiv.org/abs/2305.16577v1 )

ライセンス: Link先を確認
Haozhe An, Rachel Rudinger(参考訳) ファーストネームの代替実験を用いて、先行研究は、人種、民族、性別の次元に沿って社会的バイアスを体系的に示す社会的常識推論モデルの傾向を実証している(An et al., 2023)。 しかし、ファーストネームのデモグラフィー特性はコーパス周波数とトークン化長と強く相関しており、人口統計学的要因に依存しないモデル行動に影響を及ぼす可能性がある。 本稿では,これら因子の影響を測定しながら,他の因子を制御した新しいファーストネーム置換実験を行う。 集団的属性(人種,民族,性別)と名前のトークン化期間は,社会常識推論モデルの行動に系統的に影響を及ぼす要因であることがわかった。

Through the use of first name substitution experiments, prior research has demonstrated the tendency of social commonsense reasoning models to systematically exhibit social biases along the dimensions of race, ethnicity, and gender (An et al., 2023). Demographic attributes of first names, however, are strongly correlated with corpus frequency and tokenization length, which may influence model behavior independent of or in addition to demographic factors. In this paper, we conduct a new series of first name substitution experiments that measures the influence of these factors while controlling for the others. We find that demographic attributes of a name (race, ethnicity, and gender) and name tokenization length are both factors that systematically affect the behavior of social commonsense reasoning models.
翻訳日:2023-05-29 17:17:22 公開日:2023-05-26
# ベイジアンサロゲートモデルによるLCM生成テキストの効率的な検出

Efficient Detection of LLM-generated Texts with a Bayesian Surrogate Model ( http://arxiv.org/abs/2305.16617v1 )

ライセンス: Link先を確認
Zhijie Deng, Hongcheng Gao, Yibo Miao, Hao Zhang(参考訳) 特に大言語モデル(llm)からの機械生成テキストの検出は、その誤用による深刻な社会問題を防止する上で重要である。 特定のデータセットに専用の検出器を訓練する手法もあるが、見えないテストデータに一般化するには不十分である。 最近の検出gptは有望な検出性能を示しているが、単一の候補を検出するには数百の摂動をソースllmでスコアリングする必要があるため、重大な非効率の問題に苦しんでいる。 本稿は,このギャップを埋めることを目的とする。 技術的にはベイズの不確実性に基づいて典型的なサンプルを選択し、典型的なサンプルから他のサンプルに補間してクエリ効率を向上させるベイズサーロゲートモデルを導入することを提案する。 実験の結果,提案手法はクエリコストの低い既存手法よりも有意に優れていた。 特に,提案手法は,TectGPTの最大2倍,AUROCが3.7%,クエリ数が5。

The detection of machine-generated text, especially from large language models (LLMs), is crucial in preventing serious social problems resulting from their misuse. Some methods train dedicated detectors on specific datasets but fall short in generalizing to unseen test data, while other zero-shot ones often yield suboptimal performance. Although the recent DetectGPT has shown promising detection performance, it suffers from significant inefficiency issues, as detecting a single candidate requires scoring hundreds of its perturbations with the source LLM. This paper aims to bridge this gap. Technically, we propose to incorporate a Bayesian surrogate model, which allows us to select typical samples based on Bayesian uncertainty and interpolate scores from typical samples to other ones, to improve query efficiency. Our empirical results demonstrate that our method significantly outperforms existing approaches under a low query budget. Notably, our method achieves similar performance with up to 2 times fewer queries than DetectGPT and 3.7% higher AUROC at a query number of 5.
翻訳日:2023-05-29 17:11:41 公開日:2023-05-26
# 深層強化学習 : 安全性と未知の未知

Physical Deep Reinforcement Learning: Safety and Unknown Unknowns ( http://arxiv.org/abs/2305.16614v1 )

ライセンス: Link先を確認
Hongpeng Cao, Yanbing Mao, Lui Sha, Marco Caccamo(参考訳) 本稿では,安全クリティカル自律システムのための物理モデル制御型深層強化学習フレームワークphy-drlを提案する。 Phy-DRLは3つのイノベーションでユニークです。 一 積極的な未知の訓練 二 連結的残留制御(データ駆動制御と物理モデルに基づく制御の統合)及び安全性− \&安定性に敏感な報酬 三 リンク編集及びアクティベーション編集を含む物理モデルに基づくニューラルネットワークの編集 コンカレントデザインのおかげで、Phy-DRLは実現しました。 1)未知の乱れを許容する。 2)数学的に証明可能な安全性と安定性を保証し、 3)ベルマン方程式と報酬に関する物理知識を厳密に遵守する。 Phy-DRLの有効性は、最終的に倒立振子と四足歩行ロボットによって検証される。 実験結果から,データ駆動型drlと比較して,phy-drlは学習パラメータやトレーニングの高速化,報酬の拡大が著しく削減され,モデルの堅牢性と安全性の保証が向上した。

In this paper, we propose the Phy-DRL: a physics-model-regulated deep reinforcement learning framework for safety-critical autonomous systems. The Phy-DRL is unique in three innovations: i) proactive unknown-unknowns training, ii) conjunctive residual control (i.e., integration of data-driven control and physics-model-based control) and safety- \& stability-sensitive reward, and iii) physics-model-based neural network editing, including link editing and activation editing. Thanks to the concurrent designs, the Phy-DRL is able to 1) tolerate unknown-unknowns disturbances, 2) guarantee mathematically provable safety and stability, and 3) strictly comply with physical knowledge pertaining to Bellman equation and reward. The effectiveness of the Phy-DRL is finally validated by an inverted pendulum and a quadruped robot. The experimental results demonstrate that compared with purely data-driven DRL, Phy-DRL features remarkably fewer learning parameters, accelerated training and enlarged reward, while offering enhanced model robustness and safety assurance.
翻訳日:2023-05-29 17:11:18 公開日:2023-05-26
# コヒーレント物質波のゲージ場理論

A Gauge Field Theory of Coherent Matter Waves ( http://arxiv.org/abs/2305.16613v1 )

ライセンス: Link先を確認
Dana Z. Anderson and Katarzyna Krzyzanowska(参考訳) 相互作用する中性原子の一定の周波数で振動する電流をゲージ場で処理すると、電磁場に対するマクスウェルの方程式に物質波双対が導かれる。 電磁波とは対照的に、伝播速度は上限よりも低い限界を持ち、そうでなければ自由空間の波のインピーダンスは377オームよりも負の実数値である。 場の量子化はマトンにつながり、ゲージボゾンは光子と双対である。 光子とは異なり、マセオンは原子に結合し、正のエネルギーではなく負のエネルギーを持ち、電流の源が冷却される。 複合物質とゲージ場消滅作用素の固有状態は、大きな励起の極限において古典的なコヒーレンスを示す物質波場のコヒーレント状態を定義する。

A gauge field treatment of a current, oscillating at a fixed frequency, of interacting neutral atoms leads to a set of matter-wave duals to Maxwell's equations for the electromagnetic field. In contrast to electromagnetics, the velocity of propagation has a lower limit rather than upper limit and the wave impedance of otherwise free space is negative real-valued rather than 377 Ohms. Quantization of the field leads to the matteron, the gauge boson dual to the photon. Unlike the photon, the matteron is bound to an atom and carries negative rather than positive energy, causing the source of the current to undergo cooling. Eigenstates of the combined matter and gauge field annihilation operator define the coherent state of the matter-wave field, which exhibits classical coherence in the limit of large excitation.
翻訳日:2023-05-29 17:11:04 公開日:2023-05-26
# 単調ゲームにおける学習へのslingshotアプローチ

A Slingshot Approach to Learning in Monotone Games ( http://arxiv.org/abs/2305.16610v1 )

ライセンス: Link先を確認
Kenshi Abe, Kaito Ariu, Mitsuki Sakamoto, Atsushi Iwasaki(参考訳) 本稿では,モノトーンゲームにおける平衡計算の問題に対処する。 従来のFollow the Regularized Leaderアルゴリズムは、2プレイヤーゼロサムゲームでも平衡に収束しない。 これらのアルゴリズムの楽観的なバージョンは、最終的な収束を保証するために提案されているが、ノイズレス勾配フィードバックが必要である。 この限界を克服するために,ノイズの存在下でもラストイテレート収束を実現する新しい枠組みを提案する。 私たちのキーとなるアイデアは、ゲームの支払いやユーティリティの摂動や規則化です。 この摂動は、現在の戦略を固定された戦略に引き込むのに役立ち、我々はそれを {\it slingshot} 戦略と呼ぶ。 まず, 雑音の有無に関わらず, 平衡近傍の定常点への枠組みの収束率を定式化する。 次に,現在の戦略でslingshot戦略を定期的に更新する手法を提案する。 我々は,このアプローチを近点法として解釈し,そのラストイテレート収束を示す。 我々のフレームワークは包括的であり、既存のペイオフ正規化アルゴリズムを取り入れ、ラストイテレート収束特性を持つ新しいアルゴリズムの開発を可能にしている。 最後に,この枠組みに基づくアルゴリズムは,より高速な収束を示すことを示す。

In this paper, we address the problem of computing equilibria in monotone games. The traditional Follow the Regularized Leader algorithms fail to converge to an equilibrium even in two-player zero-sum games. Although optimistic versions of these algorithms have been proposed with last-iterate convergence guarantees, they require noiseless gradient feedback. To overcome this limitation, we present a novel framework that achieves last-iterate convergence even in the presence of noise. Our key idea involves perturbing or regularizing the payoffs or utilities of the games. This perturbation serves to pull the current strategy to an anchored strategy, which we refer to as a {\it slingshot} strategy. First, we establish the convergence rates of our framework to a stationary point near an equilibrium, regardless of the presence or absence of noise. Next, we introduce an approach to periodically update the slingshot strategy with the current strategy. We interpret this approach as a proximal point method and demonstrate its last-iterate convergence. Our framework is comprehensive, incorporating existing payoff-regularized algorithms and enabling the development of new algorithms with last-iterate convergence properties. Finally, we show that our algorithms, based on this framework, empirically exhibit faster convergence.
翻訳日:2023-05-29 17:10:49 公開日:2023-05-26
# 分離機械共振器の光結合制御

Optical coupling control of isolated mechanical resonators ( http://arxiv.org/abs/2305.16604v1 )

ライセンス: Link先を確認
F. E. Onah and B. R. Jaramillo-\'Avila and F. H. Maldonado-Villamizar and B. M. Rodr\'iguez-Lara(参考訳) 標準光学相互作用下での2対の機械モードと光学モードを記述するハミルトンモデルを提案する。 振動モードは機械的に分離され、光学モードはエバネッセント的に結合する。 標準実験実現のための有限要素モデルを用いて,機械的・光学的共振周波数や裸結合強度などの興味のある変数の範囲を復元する。 このパラメータ範囲と外部光駆動下での量子モデルは、全ての関連するモードに対するパラメトリック相互作用モデルに近似することができる。 例えば、光共振周波数モードにおけるデチューニングの効果と、メカニカルサイドバンドに解決された光駆動の効果について検討し、メカニカル励振数による相互作用強度を有する光ビームスプリッタ、メカニカル双方向カプラ、および光学状態がメカニカルモード間の相互作用強度を媒介する2モードメカニカルスクイーサを示す。

We present a Hamiltonian model describing two pairs of mechanical and optical modes under standard optomechanical interaction. The vibrational modes are mechanically isolated from each other and the optical modes couple evanescently. We recover the ranges for variables of interest, such as mechanical and optical resonant frequencies and naked coupling strengths, using a finite element model for a standard experimental realization. We show that the quantum model, under this parameter range and external optical driving, may be approximated into parametric interaction models for all involved modes. As an example, we study the effect of detuning in the optical resonant frequencies modes and optical driving resolved to mechanical sidebands and show an optical beam splitter with interaction strength dressed by the mechanical excitation number, a mechanical bidirectional coupler, and a two-mode mechanical squeezer where the optical state mediates the interaction strength between the mechanical modes.
翻訳日:2023-05-29 17:10:31 公開日:2023-05-26
# 視覚コモンセンス推論を用いたオープンワールドにおける新たな行動の発見

Discovering Novel Actions in an Open World with Object-Grounded Visual Commonsense Reasoning ( http://arxiv.org/abs/2305.16602v1 )

ライセンス: Link先を確認
Sathyanarayanan N. Aakur, Sanjoy Kundu, Shubham Trehan(参考訳) オープンな世界でラベルを推論すること、すなわち「ラベル」が未知の環境で学習することは、自主性を達成する上で重要な特徴である。 膨大なデータに基づいて事前訓練された基礎モデルは、特にゼロショット推論において、プロンプトを通じて顕著な一般化スキルを示している。 しかし、それらの性能は対象ラベルの検索空間の正確性に制限される。 これらのラベルが未知のオープンな世界では、検索空間は例外的に大きい。 推論に達するにはいくつかの基本概念の組み合わせを推論する必要があるが、そのようなモデルの性能を厳しく制限する。 この課題に対処するために,本研究では,大規模知識ベースに格納された記号的知識を活用し,2段階の操作を限定したエゴセントリックビデオにおける活動(verb-noun結合)を推測できる,新しい行動学習フレームワークalgoを提案する。 まず,オブジェクト中心の視覚言語基盤モデルを用いて,エビデンスに基づく推論を通じて映像中のオブジェクトをグラウンドする,新たなニューロシンボリック・プロンシング手法を提案する。 第2に,先行するコモンセンス知識を駆使して,エネルギーに基づく象徴的パターン理論の枠組みを通じて,妥当な活動を発見し,ビデオにおける知識ベースアクション(verb)概念の基盤を学習する。 2つの公開データセット(GTEA GazeとGTEA Gaze Plus)の大規模な実験は、オープンワールドのアクティビティ推論のパフォーマンスと、未知の検索空間における未知のアクションへの一般化を実証している。 我々は,algoをゼロショット設定に拡張し,マルチモーダル基礎モデルとの競合性を示す。

Learning to infer labels in an open world, i.e., in an environment where the target ``labels'' are unknown, is an important characteristic for achieving autonomy. Foundation models pre-trained on enormous amounts of data have shown remarkable generalization skills through prompting, particularly in zero-shot inference. However, their performance is restricted to the correctness of the target label's search space. In an open world where these labels are unknown, the search space can be exceptionally large. It can require reasoning over several combinations of elementary concepts to arrive at an inference, which severely restricts the performance of such models. To tackle this challenging problem, we propose a neuro-symbolic framework called ALGO - novel Action Learning with Grounded Object recognition that can use symbolic knowledge stored in large-scale knowledge bases to infer activities (verb-noun combinations) in egocentric videos with limited supervision using two steps. First, we propose a novel neuro-symbolic prompting approach that uses object-centric vision-language foundation models as a noisy oracle to ground objects in the video through evidence-based reasoning. Second, driven by prior commonsense knowledge, we discover plausible activities through an energy-based symbolic pattern theory framework and learn to ground knowledge-based action (verb) concepts in the video. Extensive experiments on two publicly available datasets (GTEA Gaze and GTEA Gaze Plus) demonstrate its performance on open-world activity inference and its generalization to unseen actions in an unknown search space. We show that ALGO can be extended to zero-shot settings and demonstrate its competitive performance to multimodal foundation models.
翻訳日:2023-05-29 17:10:12 公開日:2023-05-26
# 疾患拡散シミュレーションにおける行動パターン

Behavioral Patterns in a Disease Spreading Simulation ( http://arxiv.org/abs/2305.16600v1 )

ライセンス: Link先を確認
Ollin D. Langle-Chimal, Scott C. Merril, Eric M. Clark, Gabriela Bucini, Tung-Lin Liu, Trisha R. Shrum, Christopher Koliba, Asim Zia, Julia M. Smith an Nicholas Cheney(参考訳) 人間の行動は経験によって進化する動的なプロセスである。 個人のリスク適合性の進化を理解することは、より良いバイオセキュリティプロトコルの採用を促進するために公衆衛生介入を設計し、伝染病の伝染を防ぐために重要である。 ブタ農場のネットワークにおける病気の拡散をシミュレートする実験ゲームを用いて、体験からの学習が1000ドル以上のプレイヤーのリスク回避にどのように影響するかを測定する。 完全に自動化されたアプローチで,ゲームプレイの時間的傾向に基づいて4つのカテゴリに分類し,ゲーム全体のパフォーマンスの比較を行った。 リスク耐性群は,リスク回避群よりも50〜%高い確率で感染する可能性が示唆された。 また,全ての個人がゲームで経験を積むにつれて意思決定に要する時間を短縮する一方で,意思決定に要する時間を急速に短縮する一定の意思決定戦略を持つプレイヤーのグループと,意思決定よりも長いことを考えながら,おそらくはリアルタイムのリスクアセスメントを行う第2のコンテキスト対応決定グループを見出した。 このシミュレートされた設定でプレーヤが採用する行動戦略は、将来、好ましくないバイオセキュリティ関連のリスク回避の選好や行動の変化を識別するための早期警告信号として使用される可能性がある。

Human behavior is a dynamic process that evolves with experience. Understanding the evolution of individual's risk propensity is critical to design public health interventions to propitiate the adoption of better biosecurity protocols and thus, prevent the transmission of an infectious disease. Using an experimental game that simulates the spread of a disease in a network of porcine farms, we measure how learning from experience affects the risk aversion of over $1000$ players. We used a fully automated approach to segment the players into 4 categories based on the temporal trends of their game plays and compare the outcomes of their overall game performance. We found that the risk tolerant group is $50\%$ more likely to incur an infection than the risk averse one. We also find that while all individuals decrease the amount of time it takes to make decisions as they become more experienced at the game, we find a group of players with constant decision strategies who rapidly decrease their time to make a decision and a second context-aware decision group that contemplates longer before decisions while presumably performing a real-time risk assessment. The behavioral strategies employed by players in this simulated setting could be used in the future as an early warning signal to identify undesirable biosecurity-related risk aversion preferences, or changes in behavior, which may allow for targeted interventions to help mitigate them.
翻訳日:2023-05-29 17:09:47 公開日:2023-05-26
# k-Nearest Neighbor Neural Machine Translationのためのコンテキスト表現における領域ギャップのブリッジ

Bridging the Domain Gaps in Context Representations for k-Nearest Neighbor Neural Machine Translation ( http://arxiv.org/abs/2305.16599v1 )

ライセンス: Link先を確認
Zhiwei Cao, Baosong Yang, Huan Lin, Suhang Wu, Xiangpeng Wei, Dayiheng Liu, Jun Xie, Min Zhang and Jinsong Su(参考訳) $k$-Nearestの隣人機械翻訳($k$NN-MT)は、新しい翻訳ドメインに非パラメトリックに適応する能力によって注目を集めている。 上流のNMTモデルを用いて、下流のトレーニングコーパスを横切ることで、ベクトル化されたキーと値のペアを含むデータストアを、推論中に取得して翻訳に役立てる。 しかし、上流ドメインと下流ドメインの間には大きなギャップがしばしば存在し、検索精度と最終的な翻訳品質が損なわれる。 そこで本研究では,元のデータストアを再構築することで,$k$NN-MTのデータストア検索を高速化する手法を提案する。 具体的には、キー表現を改訂するリバイザを設計し、下流ドメインに適合するようにします。 リバイザは、収集されたセマンティクス関連キーキューペアを使用してトレーニングされ、2つの提案される損失により最適化される: 1つは、各修正されたキー表現が対応するクエリにセマンティクス的に関連していることを保証するキーキュー意味距離であり、もう1つは、修正されたキー表現を奨励するl2ノルム損失であり、上流nmtモデルで学んだ知識を効果的に保持する。 ドメイン適応タスクに関する大規模な実験により,本手法はデータストア検索と翻訳品質を$k$NN-MTで効果的に向上させることができることを示した。 コードは \url{https://github.com/deeplearnxmu/revisedkey-knn-mt} で入手できる。 }

$k$-Nearest neighbor machine translation ($k$NN-MT) has attracted increasing attention due to its ability to non-parametrically adapt to new translation domains. By using an upstream NMT model to traverse the downstream training corpus, it is equipped with a datastore containing vectorized key-value pairs, which are retrieved during inference to benefit translation. However, there often exists a significant gap between upstream and downstream domains, which hurts the retrieval accuracy and the final translation quality. To deal with this issue, we propose a novel approach to boost the datastore retrieval of $k$NN-MT by reconstructing the original datastore. Concretely, we design a reviser to revise the key representations, making them better fit for the downstream domain. The reviser is trained using the collected semantically-related key-queries pairs, and optimized by two proposed losses: one is the key-queries semantic distance ensuring each revised key representation is semantically related to its corresponding queries, and the other is an L2-norm loss encouraging revised key representations to effectively retain the knowledge learned by the upstream NMT model. Extensive experiments on domain adaptation tasks demonstrate that our method can effectively boost the datastore retrieval and translation quality of $k$NN-MT.\footnote{Our code is available at \url{https://github.com/DeepLearnXMU/RevisedKey-knn-mt}.}
翻訳日:2023-05-29 17:09:22 公開日:2023-05-26
# normmark:社会文化的規範発見のための弱い教師付きマルコフモデル

NormMark: A Weakly Supervised Markov Model for Socio-cultural Norm Discovery ( http://arxiv.org/abs/2305.16598v1 )

ライセンス: Link先を確認
Farhad Moghimifar, Shilin Qu, Tongtong Wu, Yuan-Fang Li, Gholamreza Haffari(参考訳) 行動に関する文化的に受け入れられたガイドラインであるノルムは、社会文化的文脈に適した発話を生成するために会話モデルに統合することができる。 既存の規範認識法は対話の表層的特徴のみに焦点をあてる傾向にあり、会話内の相互作用を考慮しない。 この問題に対処するため,我々は対話を通して潜在特徴を持つ確率的生成マルコフモデルであるノームマークを提案する。 これらの特徴は、会話履歴に基づく離散的および連続的潜在変数によって捉えられ、規範認識におけるモデルの能力を向上させる。 モデルは変分法を用いて弱い注釈付きデータで訓練することができる。 ノルムアノテーションを限定したデータセットでは,GPT3を含む最先端手法よりも高いF1スコアが得られることを示す。

Norms, which are culturally accepted guidelines for behaviours, can be integrated into conversational models to generate utterances that are appropriate for the socio-cultural context. Existing methods for norm recognition tend to focus only on surface-level features of dialogues and do not take into account the interactions within a conversation. To address this issue, we propose NormMark, a probabilistic generative Markov model to carry the latent features throughout a dialogue. These features are captured by discrete and continuous latent variables conditioned on the conversation history, and improve the model's ability in norm recognition. The model is trainable on weakly annotated data using the variational technique. On a dataset with limited norm annotations, we show that our approach achieves higher F1 score, outperforming current state-of-the-art methods, including GPT3.
翻訳日:2023-05-29 17:08:51 公開日:2023-05-26
# 大規模事前学習言語モデルのパラメータ効率の微調整のためのニューラルアーキテクチャ探索

Neural Architecture Search for Parameter-Efficient Fine-tuning of Large Pre-trained Language Models ( http://arxiv.org/abs/2305.16597v1 )

ライセンス: Link先を確認
Neal Lawton, Anoop Kumar, Govind Thattai, Aram Galstyan, Greg Ver Steeg(参考訳) パラメータ効率チューニング(PET)法は、モデルパラメータのサブセットに対する小さな圧縮更新を計算したり、トレーニング済みのネットワークに少数の新しいモデルパラメータを追加して微調整することで、事前訓練された言語モデル(PLM)を下流タスクに適合させる。 手作業で設計したPETアーキテクチャは、実際によく機能するが、自動ニューラルアーキテクチャサーチ(NAS)によって改善される可能性がある。 構造的および非構造的プルーニングによるPETアーキテクチャ学習のための効率的なNAS手法を提案する。 本稿では,本アルゴリズムの有効性を実証するGLUE実験を行い,PET設計選択が実際の性能に与える影響について考察する。

Parameter-efficient tuning (PET) methods fit pre-trained language models (PLMs) to downstream tasks by either computing a small compressed update for a subset of model parameters, or appending and fine-tuning a small number of new model parameters to the pre-trained network. Hand-designed PET architectures from the literature perform well in practice, but have the potential to be improved via automated neural architecture search (NAS). We propose an efficient NAS method for learning PET architectures via structured and unstructured pruning. We present experiments on GLUE demonstrating the effectiveness of our algorithm and discuss how PET architectural design choices affect performance in practice.
翻訳日:2023-05-29 17:08:37 公開日:2023-05-26
# 普遍近似とトポロジカルニューラルネットワーク

Universal Approximation and the Topological Neural Network ( http://arxiv.org/abs/2305.16639v1 )

ライセンス: Link先を確認
Michael A. Kouritzin and Daniel Richard(参考訳) 通常の有限次元空間の代わりにTychonoff位相空間からデータを取得するトポロジカルニューラルネットワーク(TNN)を導入する。 結果として、データとしてボレル測度を取る分布ニューラルネットワーク(dnn)も導入された。 これらの新しいニューラルネットワークを組み合わせることで、確率的プロセスパスにおける長距離依存、重い尾、その他の特性の認識や、粒子フィルタリングや隠れマルコフモデルアルゴリズムによって生成された信念状態に作用するなどが容易になる。 このとき、TNN と DNN の妥当性は、タイコノフ空間に対する強い普遍近似定理と測度空間の系によって確立される。 これらの定理は、ニューラルネットワークが一様一様性に関連する一様連続函数(sup計量に関して)を任意に近似できることを示している。 また、正定測度のニューラルネットワークが近年の深層集合のディープラーニング概念の一般化であることを示す議論を行っている。

A topological neural network (TNN), which takes data from a Tychonoff topological space instead of the usual finite dimensional space, is introduced. As a consequence, a distributional neural network (DNN) that takes Borel measures as data is also introduced. Combined these new neural networks facilitate things like recognizing long range dependence, heavy tails and other properties in stochastic process paths or like acting on belief states produced by particle filtering or hidden Markov model algorithms. The veracity of the TNN and DNN are then established herein by a strong universal approximation theorem for Tychonoff spaces and its corollary for spaces of measures. These theorems show that neural networks can arbitrarily approximate uniformly continuous functions (with respect to the sup metric) associated with a unique uniformity. We also provide some discussion showing that neural networks on positive-finite measures are a generalization of the recent deep learning notion of deep sets.
翻訳日:2023-05-29 17:00:34 公開日:2023-05-26
# エンドツーエンドメタファー検出のための逆マルチタスク学習

Adversarial Multi-task Learning for End-to-end Metaphor Detection ( http://arxiv.org/abs/2305.16638v1 )

ライセンス: Link先を確認
Shenglong Zhang and Ying Liu(参考訳) メタファー検出(MD)は限られた訓練データに悩まされる。 本稿では,メタファ識別手順と呼ばれる言語規則から始め,基礎感覚識別(basic sense discrimination,bsd)の知識をmdに移すための新しいマルチタスク学習フレームワークを提案する。 bsdは、大量のデータを持つword sense disambiguation (wsd) から構築されている。 我々は,MDとBSDのデータ分布を同じ特徴空間で整列させるために,対数学習を活用し,タスク不変表現を学習できる。 微細なアライメントパターンを捉えるために,MDとBSDの多モード構造を用いる。 本手法は完全にエンドツーエンドであり,mdのデータ不足問題を軽減できる。 競合結果は4つのパブリックデータセットで報告される。 コードとデータセットが利用可能です。

Metaphor detection (MD) suffers from limited training data. In this paper, we started with a linguistic rule called Metaphor Identification Procedure and then proposed a novel multi-task learning framework to transfer knowledge in basic sense discrimination (BSD) to MD. BSD is constructed from word sense disambiguation (WSD), which has copious amounts of data. We leverage adversarial training to align the data distributions of MD and BSD in the same feature space, so task-invariant representations can be learned. To capture fine-grained alignment patterns, we utilize the multi-mode structures of MD and BSD. Our method is totally end-to-end and can mitigate the data scarcity problem in MD. Competitive results are reported on four public datasets. Our code and datasets are available.
翻訳日:2023-05-29 17:00:17 公開日:2023-05-26
# DataFinder: 自然言語記述からの科学的データセット推奨

DataFinder: Scientific Dataset Recommendation from Natural Language Descriptions ( http://arxiv.org/abs/2305.16636v1 )

ライセンス: Link先を確認
Vijay Viswanathan, Luyu Gao, Tongshuang Wu, Pengfei Liu and Graham Neubig(参考訳) 現代の機械学習は研究のアイデアを開発し検証するためのデータセットに依存している。 公開データの増加を考えると、適切なデータセットを見つけることはますます難しくなっている。 任意の研究質問は、データセットのサイズ、モダリティ、ドメインなど、研究者がこの疑問にどの程度うまく答えられるか、明示的で暗黙の制約を課している。 研究アイデアの短い自然言語記述を与えられた関連データセットを推薦する新たなタスクを導入し,ニーズに応じた関連データセットの検索を支援する。 データセットは直接検索のインデックス付けが困難であり、このタスクに容易に利用できるコーパスはない。 このタスクを運用するには、より大規模な自動構築されたトレーニングセット(17.5kクエリ)と、より小さな専門家による評価セット(392クエリ)で構成されるdatafinderデータセットを構築する。 このデータを用いて,テストセット上の各種情報検索アルゴリズムを比較し,機械学習を用いたテキストベースデータセット推薦システムを提案する。 このシステムはDataFinder Datasetに基づいてトレーニングされ、既存のサードパーティのデータセット検索エンジンよりも関連性の高い検索結果を見つける。 データセットレコメンデーションの進展を促進するため、データセットとモデルを公開しています。

Modern machine learning relies on datasets to develop and validate research ideas. Given the growth of publicly available data, finding the right dataset to use is increasingly difficult. Any research question imposes explicit and implicit constraints on how well a given dataset will enable researchers to answer this question, such as dataset size, modality, and domain. We introduce a new task of recommending relevant datasets given a short natural language description of a research idea, to help people find relevant datasets for their needs. Dataset recommendation poses unique challenges as an information retrieval problem; datasets are hard to directly index for search and there are no corpora readily available for this task. To operationalize this task, we build the DataFinder Dataset which consists of a larger automatically-constructed training set (17.5K queries) and a smaller expert-annotated evaluation set (392 queries). Using this data, we compare various information retrieval algorithms on our test set and present the first-ever published system for text-based dataset recommendation using machine learning techniques. This system, trained on the DataFinder Dataset, finds more relevant search results than existing third-party dataset search engines. To encourage progress on dataset recommendation, we release our dataset and models to the public.
翻訳日:2023-05-29 17:00:06 公開日:2023-05-26
# impossible distillation:低品質モデルから高品質データセットへ : 要約とパラフレージングのためのモデル

Impossible Distillation: from Low-Quality Model to High-Quality Dataset & Model for Summarization and Paraphrasing ( http://arxiv.org/abs/2305.16635v1 )

ライセンス: Link先を確認
Jaehun Jung, Peter West, Liwei Jiang, Faeze Brahman, Ximing Lu, Jillian Fisher, Taylor Sorensen, Yejin Choi(参考訳) 一般に、最強言語モデル(LM)は、大規模、命令データ、人間のフィードバックを組み合わせて、例えば要約やパラフレージングなど、監督なしに専門的なタスクを実行すると認識されている。 本稿では,これら3つの要素を問わない文の要約と言い換えを学習できる言語モデルを提案する。 LM自体が確実にタスクを解決できない場合でも、既製のLMから直接タスク固有のデータセットを蒸留するフレームワークであるImpossible Distillationを提案する。 生成したデータセット上で生徒モデルを訓練し,自己蒸留によってその能力を増幅することにより,スケールや監督を必要とせず,低品質の教師モデルから高品質なモデルとデータセットを得る。 Inpossible Distillation を用いて、175B パラメータ GPT-3 を品質および可制御性の両方で上回る、桁違いに小さなモデル (770M パラメータのみ) を蒸留することができる。 さらに,提案手法の副産物として,3.4M文要約とパラフレーズを含む高品質なデータセットであるDIMSUM+を得る。 分析の結果、このデータセットは、純粋にlm生成されたコーパスとして、gigawordと4mサンプルを含むすべての人間が許可したデータセットよりも、未承認のドメインへの一般化に多様で効果的であることが分かりました。

It is commonly perceived that the strongest language models (LMs) rely on a combination of massive scale, instruction data, and human feedback to perform specialized tasks -- e.g. summarization and paraphrasing, without supervision. In this paper, we propose that language models can learn to summarize and paraphrase sentences, with none of these 3 factors. We present Impossible Distillation, a framework that distills a task-specific dataset directly from an off-the-shelf LM, even when it is impossible for the LM itself to reliably solve the task. By training a student model on the generated dataset and amplifying its capability through self-distillation, our method yields a high-quality model and dataset from a low-quality teacher model, without the need for scale or supervision. Using Impossible Distillation, we are able to distill an order of magnitude smaller model (with only 770M parameters) that outperforms 175B parameter GPT-3, in both quality and controllability, as confirmed by automatic and human evaluations. Furthermore, as a useful byproduct of our approach, we obtain DIMSUM+, a high-quality dataset with 3.4M sentence summaries and paraphrases. Our analyses show that this dataset, as a purely LM-generated corpus, is more diverse and more effective for generalization to unseen domains than all human-authored datasets -- including Gigaword with 4M samples.
翻訳日:2023-05-29 16:59:45 公開日:2023-05-26
# ゼロはヒーローではない - LLMのゼロショットパフォーマンスのベンチマーク

Zero is Not Hero Yet: Benchmarking Zero-Shot Performance of LLMs for Financial Tasks ( http://arxiv.org/abs/2305.16633v1 )

ライセンス: Link先を確認
Agam Shah and Sudheer Chava(参考訳) 最近、ChatGPTのような大きな言語モデル(LLM)は、ゼロショットで多くの自然言語処理タスクで素晴らしいパフォーマンスを示している。 本稿では,金融分野におけるゼロショットLLMの有効性について検討する。 ゼロショットモードにおけるChatGPTとオープンソースのジェネレーティブLLMの性能を,注釈付きデータに微調整したRoBERTaと比較した。 データアノテーション、パフォーマンスギャップ、および金融領域における生成モデルの適用可能性に関する3つの関連研究課題に対処する。 以上の結果から,ChatGPTはラベル付きデータなしでも良好に動作し,微調整モデルでは性能が優れていた。 私たちの研究は、生成モデルによる注釈がいかに時間を要するかも強調しています。 私たちのコードベースは、CC BY-NC 4.0ライセンスの下でGitHubで公開されています。

Recently large language models (LLMs) like ChatGPT have shown impressive performance on many natural language processing tasks with zero-shot. In this paper, we investigate the effectiveness of zero-shot LLMs in the financial domain. We compare the performance of ChatGPT along with some open-source generative LLMs in zero-shot mode with RoBERTa fine-tuned on annotated data. We address three inter-related research questions on data annotation, performance gaps, and the feasibility of employing generative models in the finance domain. Our findings demonstrate that ChatGPT performs well even without labeled data but fine-tuned models generally outperform it. Our research also highlights how annotating with generative models can be time-intensive. Our codebase is publicly available on GitHub under CC BY-NC 4.0 license.
翻訳日:2023-05-29 16:59:17 公開日:2023-05-26
# 質問生成の評価にはより多くの文献が必要である

Evaluation of Question Generation Needs More References ( http://arxiv.org/abs/2305.16626v1 )

ライセンス: Link先を確認
Shinhyeok Oh, Hyojun Go, Hyeongdon Moon, Yunsung Lee, Myeongho Jeong, Hyun Seung Lee and Seungtaek Choi(参考訳) 質問生成(QG)とは、与えられたコンテキストと対象の回答に基づいて有効な質問を生成するタスクである。 様々な目的により、同じ文脈であっても、インストラクターは異なる概念について質問することができ、同じ概念も異なる方法で書くことができる。 しかし、QGの評価は、通常、n-gram-based metric や learn metric のような単一の参照ベースの類似度メトリクスに依存し、QG法の可能性を完全に評価するには不十分である。 そこで本研究では,より堅牢なQG評価のために,参照質問を言い換えることを提案する。 gpt-3のような大規模言語モデルを用いて意味論的および構文学的に多様な質問を作成し,最終スコアとして一般的な評価指標の単純な集計を適用した。 実験の結果,複数参照(擬似参照)を用いることは,単一の参照による評価よりも高い相関性を示しながら,QG評価に有効であることが判明した。

Question generation (QG) is the task of generating a valid and fluent question based on a given context and the target answer. According to various purposes, even given the same context, instructors can ask questions about different concepts, and even the same concept can be written in different ways. However, the evaluation for QG usually depends on single reference-based similarity metrics, such as n-gram-based metric or learned metric, which is not sufficient to fully evaluate the potential of QG methods. To this end, we propose to paraphrase the reference question for a more robust QG evaluation. Using large language models such as GPT-3, we created semantically and syntactically diverse questions, then adopt the simple aggregation of the popular evaluation metrics as the final scores. Through our experiments, we found that using multiple (pseudo) references is more effective for QG evaluation while showing a higher correlation with human evaluations than evaluation with a single reference.
翻訳日:2023-05-29 16:59:07 公開日:2023-05-26
# セットベースニューラルネットワーク符号化

Set-based Neural Network Encoding ( http://arxiv.org/abs/2305.16625v1 )

ライセンス: Link先を確認
Bruno Andreis, Soro Bedionita, Sung Ju Hwang(参考訳) 本稿では,ニューラルネットワークのパラメータを効率的にエンコードするためにset-to-setとset-to-vector関数を利用する一般化性能予測のためのニューラルネットワーク重み符号化手法を提案する。 我々のアプローチは、異なるアーキテクチャのカスタムエンコーディングモデルを必要とする従来のアプローチとは対照的に、混合アーキテクチャと異なるパラメータサイズのモデル動物園でニューラルネットワークを符号化することができる。 さらに、我々の \textbf{s}et ベースの \textbf{n}eural network \textbf{e}ncoder (sne) は、ニューラルネットワークの階層的計算構造を考慮に入れ、全ての階層的符号化を符号化し、ニューラルネットワーク符号化ベクトルを得る。 さらに,計算やメモリの制約に適応可能なニューラルネットワーク層を効率的にエンコードする, \textit{pad-chunk-encode}パイプラインを導入する。 ニューラルネットワークの一般化性能予測には,クロスデータセットとクロスアーキテクチャという,2つの新しいタスクを導入する。 クロスデータセットのパフォーマンス予測では、異なるデータセットでトレーニングされたモデルゾスに対して、同じアーキテクチャでパフォーマンス予測がいかに一般化するかを評価する。 クロスアーキテクチャ性能予測では、異なるアーキテクチャのモデルゾーへの一般化性能予測器の転送がいかに良好かを評価する。 実験により、SNEは、クロスデータセットタスクにおける関連するベースラインよりも優れており、クロスアーキテクチャタスクにおける最初の結果セットを提供する。

We propose an approach to neural network weight encoding for generalization performance prediction that utilizes set-to-set and set-to-vector functions to efficiently encode neural network parameters. Our approach is capable of encoding neural networks in a modelzoo of mixed architecture and different parameter sizes as opposed to previous approaches that require custom encoding models for different architectures. Furthermore, our \textbf{S}et-based \textbf{N}eural network \textbf{E}ncoder (SNE) takes into consideration the hierarchical computational structure of neural networks by utilizing a layer-wise encoding scheme that culminates to encoding all layer-wise encodings to obtain the neural network encoding vector. Additionally, we introduce a \textit{pad-chunk-encode} pipeline to efficiently encode neural network layers that is adjustable to computational and memory constraints. We also introduce two new tasks for neural network generalization performance prediction: cross-dataset and cross-architecture. In cross-dataset performance prediction, we evaluate how well performance predictors generalize across modelzoos trained on different datasets but of the same architecture. In cross-architecture performance prediction, we evaluate how well generalization performance predictors transfer to modelzoos of different architecture. Experimentally, we show that SNE outperforms the relevant baselines on the cross-dataset task and provide the first set of results on the cross-architecture task.
翻訳日:2023-05-29 16:58:49 公開日:2023-05-26
# その脆さを思い出す: 言語報酬のシェーピングは学習を阻害する可能性がある

A Reminder of its Brittleness: Language Reward Shaping May Hinder Learning for Instruction Following Agents ( http://arxiv.org/abs/2305.16621v1 )

ライセンス: Link先を確認
Sukai Huang, Nir Lipovetzky and Trevor Cohn(参考訳) 複雑な命令に従うようにエージェントに教えることが重要な目標である。 学習効率を向上させるための1つのテクニックは言語報酬形成(LRS)であり、それは、疎い報酬に向けた進歩を表す行動に報酬を与えるために強化学習(RL)に使用される。 LRSの明らかな成功は不安定であり, 前向きの陽性所見はRLの基準値の弱さに起因する可能性がある。 具体的には,部分的に軌道に一致した最適LRS設計を同定し,タスク制約を緩めるという概念に基づいて,この問題に対処する新たなタイプの報酬摂動を特徴付ける。 我々は、RS報酬を用いて訓練されたエージェントが純粋なRLエージェントよりも緩やかに収まるという理論的および実証的な証拠を提供した。

Teaching agents to follow complex written instructions has been an important yet elusive goal. One technique for improving learning efficiency is language reward shaping (LRS), which is used in reinforcement learning (RL) to reward actions that represent progress towards a sparse reward. We argue that the apparent success of LRS is brittle, and prior positive findings can be attributed to weak RL baselines. Specifically, we identified suboptimal LRS designs that reward partially matched trajectories, and we characterised a novel type of reward perturbation that addresses this issue based on the concept of loosening task constraints. We provided theoretical and empirical evidence that agents trained using LRS rewards converge more slowly compared to pure RL agents.
翻訳日:2023-05-29 16:58:22 公開日:2023-05-26
# 検出不確かさ下での深層集合を用いた歩行者軌道予測

Pedestrian Trajectory Forecasting Using Deep Ensembles Under Sensing Uncertainty ( http://arxiv.org/abs/2305.16620v1 )

ライセンス: Link先を確認
Anshul Nayak, Azim Eskandarian, Zachary Doerzaph, Prasenjit Ghorai(参考訳) 動的エージェントの予測における基本的な課題の1つは、堅牢性である。 通常、ほとんどの予測は、自信過剰で誤りやすい将来の状態の決定論的推定である。 近年,将来予測における不確実性に対処する研究はほとんどない。 しかし、これらの確率的推定手法は、追跡中の知覚データの上流ノイズを考慮しない。 センサは常にノイズがあり、悪天候や閉塞下では状態推定がさらに困難になる。 ベイズフィルターは従来、ノイズの多いセンサーからの情報を融合して、関連する状態を更新するために用いられてきた。 しかし、非線形性や長期的な予測には対処できない。 そこで本研究では,不確かさを考慮しつつ,騒音センサの計測とロバストな将来の状態予測を可能にするエンドツーエンド推定器を提案する。 本研究では,認識と予測の不確実性を同時に捉えるエンコーダ・デコーダベースのディープアンサンブルネットワークについて検討する。 本モデルと他の近似ベイズ推定法との比較を行った。 全体として、深層アンサンブルはより堅牢な予測を提供し、上流の不確実性の考慮により、モデルの推定精度をさらに高めた。

One of the fundamental challenges in the prediction of dynamic agents is robustness. Usually, most predictions are deterministic estimates of future states which are over-confident and prone to error. Recently, few works have addressed capturing uncertainty during forecasting of future states. However, these probabilistic estimation methods fail to account for the upstream noise in perception data during tracking. Sensors always have noise and state estimation becomes even more difficult under adverse weather conditions and occlusion. Traditionally, Bayes filters have been used to fuse information from noisy sensors to update states with associated belief. But, they fail to address non-linearities and long-term predictions. Therefore, we propose an end-to-end estimator that can take noisy sensor measurements and make robust future state predictions with uncertainty bounds while simultaneously taking into consideration the upstream perceptual uncertainty. For the current research, we consider an encoder-decoder based deep ensemble network for capturing both perception and predictive uncertainty simultaneously. We compared the current model to other approximate Bayesian inference methods. Overall, deep ensembles provided more robust predictions and the consideration of upstream uncertainty further increased the estimation accuracy for the model.
翻訳日:2023-05-29 16:58:08 公開日:2023-05-26
# 部分的特徴を持つグラフに対する信頼度に基づく特徴量計算

Confidence-Based Feature Imputation for Graphs with Partially Known Features ( http://arxiv.org/abs/2305.16618v1 )

ライセンス: Link先を確認
Daeho Um, Jiwoong Park, Seulki Park, Jin Young Choi(参考訳) 本稿では,グラフ学習タスクにおける特徴インプテーション問題の欠如について検討する。 以前、いくつかのメソッドは、機能不足のあるグラフ上の学習タスクに対処してきた。 しかし, 特徴の欠落率が高い場合には, 著しい性能低下を回避できなかった。 この制限を克服するため,我々は,ノードの特徴の確信を反映させるために,各インデュートチャネル特徴に割り当てられた,ノード特徴に対するチャネル信頼という新しい概念を導入する。 そこで我々は,未知のノードと最も近い未知のノード間のチャネル幅の短い経路距離を用いて疑似信頼度を設計し,実際の学習過程における真の信頼度を置き換える。 疑似信頼に基づいて,チャネル間ノード間拡散とノード間チャネル間伝播を行う新しい特徴インプテーションスキームを提案する。 このスキームは、非常に高い欠落率(例:99.5\%)でも耐えられ、半教師付きノード分類と高い欠落率を含む様々なデータセットのリンク予測の両方に対して最先端の精度を達成する。 コードは \url{https://github.com/daehoum1/pcfi} で入手できる。

This paper investigates a missing feature imputation problem for graph learning tasks. Several methods have previously addressed learning tasks on graphs with missing features. However, in cases of high rates of missing features, they were unable to avoid significant performance degradation. To overcome this limitation, we introduce a novel concept of channel-wise confidence in a node feature, which is assigned to each imputed channel feature of a node for reflecting certainty of the imputation. We then design pseudo-confidence using the channel-wise shortest path distance between a missing-feature node and its nearest known-feature node to replace unavailable true confidence in an actual learning process. Based on the pseudo-confidence, we propose a novel feature imputation scheme that performs channel-wise inter-node diffusion and node-wise inter-channel propagation. The scheme can endure even at an exceedingly high missing rate (e.g., 99.5\%) and it achieves state-of-the-art accuracy for both semi-supervised node classification and link prediction on various datasets containing a high rate of missing features. Codes are available at \url{https://github.com/daehoum1/pcfi}.
翻訳日:2023-05-29 16:57:52 公開日:2023-05-26
# adaplanner: 言語モデルによるフィードバックからの適応計画

AdaPlanner: Adaptive Planning from Feedback with Language Models ( http://arxiv.org/abs/2305.16653v1 )

ライセンス: Link先を確認
Haotian Sun, Yuchen Zhuang, Lingkai Kong, Bo Dai, Chao Zhang(参考訳) 大規模言語モデル(llm)は最近、シーケンシャルな意思決定タスクの自律エージェントとして機能する可能性を実証している。 しかし、既存のほとんどの手法は、計画なしで優しく行動するか、環境フィードバックに適応できない静的計画に依存している。 その結果, LLM エージェントの逐次決定性能は, 問題複雑化とともに低下し, 計画の地平線が増大する。 そこで我々は,llmエージェントが環境フィードバックに適応して自己生成プランを洗練できる閉ループ方式であるadaplannerを提案する。 AdaPlannerでは、LLMエージェントは、計画内および計画外両方の改善戦略によるフィードバックから、計画を適応的に洗練する。 幻覚を緩和するために,様々なタスク,環境,エージェント機能にまたがる計画生成を容易にするコード型LCMプロンプト構造を開発した。 さらに,数発の模範として成功した計画を活用する技術発見機構を提案し,エージェントがより少ないタスクのデモンストレーションで計画や洗練を行えるようにした。 ALFWorldとMiniWoB++環境での実験では、AdaPlannerは2倍と600倍のサンプルを使用しながら、最先端のベースラインを3.73%と4.11%で上回っている。

Large language models (LLMs) have recently demonstrated the potential in acting as autonomous agents for sequential decision-making tasks. However, most existing methods either take actions greedily without planning or rely on static plans that are not adaptable to environmental feedback. Consequently, the sequential decision-making performance of LLM agents degenerates with problem complexity and plan horizons increase. We propose a closed-loop approach, AdaPlanner, which allows the LLM agent to refine its self-generated plan adaptively in response to environmental feedback. In AdaPlanner, the LLM agent adaptively refines its plan from feedback with both in-plan and out-of-plan refinement strategies. To mitigate hallucination, we develop a code-style LLM prompt structure that facilitates plan generation across a variety of tasks, environments, and agent capabilities. Furthermore, we propose a skill discovery mechanism that leverages successful plans as few-shot exemplars, enabling the agent to plan and refine with fewer task demonstrations. Our experiments in the ALFWorld and MiniWoB++ environments demonstrate that AdaPlanner outperforms state-of-the-art baselines by 3.73% and 4.11% while utilizing 2x and 600x fewer samples, respectively.
翻訳日:2023-05-29 16:52:25 公開日:2023-05-26
# TADA: タスク非依存の英語用辞書アダプタ

TADA: Task-Agnostic Dialect Adapters for English ( http://arxiv.org/abs/2305.16651v1 )

ライセンス: Link先を確認
Will Held, Caleb Ziems, Diyi Yang(参考訳) 自然言語処理(NLP)アプリケーションの主要な出発点であるLarge Language Modelsは、標準アメリカ英語(SAE)以外の英語方言の話者にとっては、より高い速度で失敗する。 以前の作業では、各方言とタスクペアの介入を必要とするタスク固有のデータまたは合成データ拡張を使用して、この問題に対処していた。 これは、堅牢な方言のNLPが広く採用されるのを防ぐスケーラビリティの問題を引き起こす。 我々は,非SAE方言をアダプタを用いて調整し,それらをSAEのタスク固有アダプタと組み合わせることで,タスク非依存の方言適応の簡易かつ効果的な方法を提案する。 Task-Agnostic Dialect Adapters (TADA) は、GLUEベンチマークの4つの方言変種に対する方言の堅牢性を改善する。

Large Language Models, the dominant starting point for Natural Language Processing (NLP) applications, fail at a higher rate for speakers of English dialects other than Standard American English (SAE). Prior work addresses this using task-specific data or synthetic data augmentation, both of which require intervention for each dialect and task pair. This poses a scalability issue that prevents the broad adoption of robust dialectal English NLP. We introduce a simple yet effective method for task-agnostic dialect adaptation by aligning non-SAE dialects using adapters and composing them with task-specific adapters from SAE. Task-Agnostic Dialect Adapters (TADA) improve dialectal robustness on 4 dialectal variants of the GLUE benchmark without task-specific supervision.
翻訳日:2023-05-29 16:52:04 公開日:2023-05-26
# FSD:ニューラルアーキテクチャサーチによる完全特殊化検出器

FSD: Fully-Specialized Detector via Neural Architecture Search ( http://arxiv.org/abs/2305.16649v1 )

ライセンス: Link先を確認
Zhe Huang and Yudian Li(参考訳) 本稿では,バックボーンとタスク固有頭部上の理想的なネットワーク構造を探索することにより,主に神経構造探索モデルを含む完全特殊化検出器(FSD)を設計するための完全自動パイプラインを提案し,検討する。

In this paper, we first propose and examine a fully-automatic pipeline to design a fully-specialized detector (FSD) which mainly incorporates a neural-architectural-searched model by exploring ideal network structures over the backbone and task-specific head.
翻訳日:2023-05-29 16:51:50 公開日:2023-05-26
# 劇的な会話の絡み合い

Dramatic Conversation Disentanglement ( http://arxiv.org/abs/2305.16648v1 )

ライセンス: Link先を確認
Kent K. Chang, Danica Chen, David Bamman(参考訳) 映画やテレビシリーズにおける会話の絡み合いを研究するための新しいデータセットを提案する。 これまでの研究では、ircチャットルームの対話における会話の絡み合いに焦点が当てられていたが、映画やテレビ番組は、対面の多人数対話における床や話題の変化の複雑な実用的パターンを研究するための空間を提供している。 本研究では,社会言語学,社会学,映画研究の理論的研究から,劇的テクストにおける会話スレッド(フロア・チェンジの概念を含む)を運用し,その定義を用いて,831本の映画から10,033の対話ターン(2,209スレッド)のデータセットを注釈付けする。 我々は,この劇的データセット上での複数の不整合モデルの性能を比較し,最も優れた性能モデルを適用して808本の映画を解体する。 期待に反して,過去40年間の平均スレッド長はさほど減少せず,女性俳優によって描かれたキャラクターは,過度に表現されながら,発話時間に対して新たな会話スレッドを開始する。

We present a new dataset for studying conversation disentanglement in movies and TV series. While previous work has focused on conversation disentanglement in IRC chatroom dialogues, movies and TV shows provide a space for studying complex pragmatic patterns of floor and topic change in face-to-face multi-party interactions. In this work, we draw on theoretical research in sociolinguistics, sociology, and film studies to operationalize a conversational thread (including the notion of a floor change) in dramatic texts, and use that definition to annotate a dataset of 10,033 dialogue turns (comprising 2,209 threads) from 831 movies. We compare the performance of several disentanglement models on this dramatic dataset, and apply the best-performing model to disentangle 808 movies. We see that, contrary to expectation, average thread lengths do not decrease significantly over the past 40 years, and characters portrayed by actors who are women, while underrepresented, initiate more new conversational threads relative to their speaking time.
翻訳日:2023-05-29 16:51:44 公開日:2023-05-26
# 限定的な推論によるイベント予測を改善する言語モデル

Language Models Can Improve Event Prediction by Few-Shot Abductive Reasoning ( http://arxiv.org/abs/2305.16646v1 )

ライセンス: Link先を確認
Xiaoming Shi, Siqiao Xue, Kangrui Wang, Fan Zhou, James Y. Zhang, Jun Zhou, Chenhao Tan, Hongyuan Mei(参考訳) 大規模言語モデルは、幅広い推論タスクにおいて驚くべきパフォーマンスを示している。 本稿では,実世界の事象を推論できるかどうかを調査し,イベントシーケンスモデルの予測精度の向上に寄与する。 We design a modeling and prediction framework where a large language model performs abductive reasoning to assist an event sequence model: the event model proposes predictions on future events given the past; instructed by a few expert-annotated demonstrations, the language model learns to suggest possible causes for each proposal; a search module finds out the previous events that match the causes; a scoring function learns to examine whether the retrieved events could actually cause the proposal. 2つの挑戦的な現実世界のデータセット(amazon reviewとgdelt)に関する広範な実験を通じて、言語モデルの推論能力のおかげで、私たちのフレームワークが最先端のイベントシーケンスモデルを大幅に上回ることができることを実証しました。

Large language models have shown astonishing performance on a wide range of reasoning tasks. In this paper, we investigate whether they could reason about real-world events and help improve the prediction accuracy of event sequence models. We design a modeling and prediction framework where a large language model performs abductive reasoning to assist an event sequence model: the event model proposes predictions on future events given the past; instructed by a few expert-annotated demonstrations, the language model learns to suggest possible causes for each proposal; a search module finds out the previous events that match the causes; a scoring function learns to examine whether the retrieved events could actually cause the proposal. Through extensive experiments on two challenging real-world datasets (Amazon Review and GDELT), we demonstrate that our framework -- thanks to the reasoning ability of language models -- could significantly outperform the state-of-the-art event sequence models.
翻訳日:2023-05-29 16:51:12 公開日:2023-05-26
# メモリ制限付きオンライン連続学習のためのストリームデータの要約

Summarizing Stream Data for Memory-Restricted Online Continual Learning ( http://arxiv.org/abs/2305.16645v1 )

ライセンス: Link先を確認
Jianyang Gu, Kai Wang, Wei Jiang, Yang You(参考訳) リプレイベースの手法は、過去のサンプルを補助記憶からリハーサルすることで、オンライン連続学習における効果を証明している。 しかし、メモリに基づいたトレーニングスキームの改善に多くの努力を払っているため、メモリの各サンプルが保持する情報は未検討のままである。 ストレージ空間が制限された状況下では、メモリのインフォメーション性が効果的なリプレイに不可欠となる。 代表的なサンプルを選択するための特定の戦略をデザインする作業もあるが、オリジナルの画像のみを使用することで、保存スペースは未だ十分に活用されていない。 そこで本研究では,実画像のトレーニング特性を抽出することにより,ストリームデータ(SSD)からの知識をより情報的なサンプルに要約する。 トレーニング勾配の一貫性と過去のタスクとの関係を維持することにより、要約されたサンプルは、元の画像よりもストリームデータに代表される。 複数のオンライン連続学習ベンチマークにおいて,提案手法がリプレイ効果を著しく向上させるため,大規模な実験を行った。 計算オーバーヘッドが限られているSSDは、非常に制限されたメモリバッファ下でのシーケンシャルCIFAR-100の精度を3%以上向上することを示した。 コードはhttps://github.com/vimar-gu/SSDで入手できる。

Replay-based methods have proved their effectiveness on online continual learning by rehearsing past samples from an auxiliary memory. With many efforts made on improving training schemes based on the memory, however, the information carried by each sample in the memory remains under-investigated. Under circumstances with restricted storage space, the informativeness of the memory becomes critical for effective replay. Although some works design specific strategies to select representative samples, by only employing original images, the storage space is still not well utilized. To this end, we propose to Summarize the knowledge from the Stream Data (SSD) into more informative samples by distilling the training characteristics of real images. Through maintaining the consistency of training gradients and relationship to the past tasks, the summarized samples are more representative for the stream data compared to the original images. Extensive experiments are conducted on multiple online continual learning benchmarks to support that the proposed SSD method significantly enhances the replay effects. We demonstrate that with limited extra computational overhead, SSD provides more than 3% accuracy boost for sequential CIFAR-100 under extremely restricted memory buffer. The code is available in https://github.com/vimar-gu/SSD.
翻訳日:2023-05-29 16:50:48 公開日:2023-05-26
# 最大カット問題に対する量子スピードアップ

Quantum Speedup for the Maximum Cut Problem ( http://arxiv.org/abs/2305.16644v1 )

ライセンス: Link先を確認
Weng-Long Chang, Renata Wong, Wen-Yu Chung, Yu-Hao Chen, Ju-Chin Chen, Athanasios V. Vasilakos(参考訳) n$の頂点と$m$の辺を持つ非方向の非重み付きグラフが与えられたとき、最大のカット問題は、$n$の頂点の分割を、それらの間のエッジの数が可能な限り大きいような非連結部分集合に分割することである。 古典的にはNP完全問題であり、回路レイアウト設計、統計物理学、コンピュータビジョン、機械学習、ネットワーク科学、クラスタリングなど、潜在的な応用がある。 本稿では,従来のグラフに対して,時間的および空間的複雑さをそれぞれ$O(\sqrt{2^n/r})$と$O(m^2)$に減らした2次スピードアップを持つ任意のグラフに対して,最大カット問題を解く量子アルゴリズムを提案する。 NP完全問題に対するオラクル関連量子アルゴリズムについて,本アルゴリズムを最適とみなす。 さらに,提案アルゴリズムの有効性を正当化するために,ibm の量子コンピュータ上で実験を行い,頂点が3つ,辺が2つあるグラフの最大カット問題を解くことに成功した。

Given an undirected, unweighted graph with $n$ vertices and $m$ edges, the maximum cut problem is to find a partition of the $n$ vertices into disjoint subsets $V_1$ and $V_2$ such that the number of edges between them is as large as possible. Classically, it is an NP-complete problem, which has potential applications ranging from circuit layout design, statistical physics, computer vision, machine learning and network science to clustering. In this paper, we propose a quantum algorithm to solve the maximum cut problem for any graph $G$ with a quadratic speedup over its classical counterparts, where the temporal and spatial complexities are reduced to, respectively, $O(\sqrt{2^n/r})$ and $O(m^2)$. With respect to oracle-related quantum algorithms for NP-complete problems, we identify our algorithm as optimal. Furthermore, to justify the feasibility of the proposed algorithm, we successfully solve a typical maximum cut problem for a graph with three vertices and two edges by carrying out experiments on IBM's quantum computer.
翻訳日:2023-05-29 16:50:18 公開日:2023-05-26
# BipartiteとMultipartiteの絡み合った状態の検出と分類

Detection and Classification of Bipartite and Multipartite Entangled States ( http://arxiv.org/abs/2305.16643v1 )

ライセンス: Link先を確認
Anu Kumari(参考訳) 2量子ビットとマルチ量子ビットシステムにおける絡み合い特性の検出と分類は、非常に興味深い話題である。 この話題は広く研究され、その結果、マルチキュービット、特に3キュービットの絡み合った状態の検出と分類のための様々なアプローチが発見された。 この研究の重点は、多成分量子システムと同様に二成分系の検出と分類のための手法の形式化である。 任意の次元二成分量子系における絡み合い状態の検出には,部分置換行列(spa-pt)の構造的物理的近似法を用いた。 また,すべての確率的局所演算と古典的通信(slocc)非等価なクラスをspa-ptマップを用いて分類する基準を提案している。 エンタングルメントの定量化のために,我々はSPA-PT法に基づくエンタングルメントの新しい尺度を定義した。 我々は,この測定法を用いて負部分転位絡み状態(NPTES)の絡み合いを定量化できることを示した。 この論文で定義されたエンタングルメントの検出、分類、定量化の方法はSPA-PTに基づいているため、実験で実現することができる。

The detection and classification of entanglement properties in a two-qubit and a multi-qubit system is a topic of great interest. This topic has been extensively studied, and as a result, we discovered various approaches for detecting and classifying multi-qubit, in particular three-qubit entangled states. The emphasis of this work is on a formalism of methods for the detection and classification of bipartite as well as multipartite quantum systems. We have used the method of structural physical approximation of partially transposed matrix (SPA-PT) for the detection of entangled states in arbitrary dimensional bipartite quantum systems. Also, we have proposed criteria for the classification of all possible stochastic local operations and classical communication (SLOCC) inequivalent classes of a pure and mixed three-qubit state using the SPA-PT map. To quantify entanglement, we have defined a new measure of entanglement based on the method of SPA-PT, which we named as "structured negativity". We have shown that this measure can be used to quantify entanglement for negative partial transposed entangled states (NPTES). Since the methods for detection, classification and quantification of entanglement, defined in this thesis are based on SPA-PT, they may be realized in an experiment.
翻訳日:2023-05-29 16:49:51 公開日:2023-05-26
# 多変量時系列分類のための変圧器の位置符号化の改善

Improving Position Encoding of Transformers for Multivariate Time Series Classification ( http://arxiv.org/abs/2305.16642v1 )

ライセンス: Link先を確認
Navid Mohammadi Foumani, Chang Wei Tan, Geoffrey I. Webb, Mahsa Salehi(参考訳) 変換器は深層学習の多くの応用において顕著な性能を示した。 時系列データに適用する場合、トランスフォーマーは時系列データの順序をキャプチャするために効果的な位置符号化を必要とする。 時系列解析における位置エンコーディングの有効性はよく研究されておらず、絶対位置エンコーディングや相対位置エンコーディングを挿入した方が良いか、あるいはそれらの組み合わせが良いかなど、議論が続いている。 これを明らかにするため,まず,時系列分類に適用される既存の絶対位置と相対位置の符号化法について検討する。 次に,時系列データ専用の絶対位置符号化法であるtime absolute position encoding (tape) を提案する。 我々の新しい手法は、絶対位置符号化における直列長と入力埋め込み次元を組み込む。 さらに,時系列の一般化性を向上させるために,相対位置符号化(erpe)の計算効率の高い実装を提案する。 次に,TAPE/eRPEとConvTranという名前の畳み込み型入力符号化を組み合わせたMTSCモデルを提案し,時系列データの位置とデータ埋め込みを改善する。 提案する絶対位置と相対位置の符号化手法は単純かつ効率的である。 これらは容易にトランスフォーマーブロックに統合でき、予測、外部回帰、異常検出などの下流タスクに使用できる。 32個の多変量時系列データセットに関する広範囲な実験により,本モデルが最先端の畳み込みやトランスフォーマーモデルよりもかなり精度が高いことがわかった。 コードとモデルは \url{https://github.com/navidfoumani/convtran} でオープンソースである。

Transformers have demonstrated outstanding performance in many applications of deep learning. When applied to time series data, transformers require effective position encoding to capture the ordering of the time series data. The efficacy of position encoding in time series analysis is not well-studied and remains controversial, e.g., whether it is better to inject absolute position encoding or relative position encoding, or a combination of them. In order to clarify this, we first review existing absolute and relative position encoding methods when applied in time series classification. We then proposed a new absolute position encoding method dedicated to time series data called time Absolute Position Encoding (tAPE). Our new method incorporates the series length and input embedding dimension in absolute position encoding. Additionally, we propose computationally Efficient implementation of Relative Position Encoding (eRPE) to improve generalisability for time series. We then propose a novel multivariate time series classification (MTSC) model combining tAPE/eRPE and convolution-based input encoding named ConvTran to improve the position and data embedding of time series data. The proposed absolute and relative position encoding methods are simple and efficient. They can be easily integrated into transformer blocks and used for downstream tasks such as forecasting, extrinsic regression, and anomaly detection. Extensive experiments on 32 multivariate time-series datasets show that our model is significantly more accurate than state-of-the-art convolution and transformer-based models. Code and models are open-sourced at \url{https://github.com/Navidfoumani/ConvTran}.
翻訳日:2023-05-29 16:49:28 公開日:2023-05-26
# 妖精の物語はフェアか? 童話の時間的物語イベントチェーンにおけるジェンダーバイアスの分析

Are Fairy Tales Fair? Analyzing Gender Bias in Temporal Narrative Event Chains of Children's Fairy Tales ( http://arxiv.org/abs/2305.16641v1 )

ライセンス: Link先を確認
Paulina Toro Isaza, Guangxuan Xu, Akintoye Oloko, Yufang Hou, Nanyun Peng, Dakuo Wang(参考訳) 人文科学の豊かな歴史や社会科学の文献で証明されているように、社会バイアスとステレオタイプは私たちの文化に部分的に組み込まれています。 これらの分析は手作業や小規模で行われることが多いため、モデルやデータコーパスの社会的偏見を調査するより最近の自然言語処理手法の恩恵を受けることができる。 我々の研究はこの学際的な取り組みに加わり、物語の社会的バイアスを分析する際に、出来事の物語構造を考慮したユニークな貢献をする。 本研究では,物語の時間的物語に基づくイベントチェインと,性別などの性格属性を自動的に抽出する計算パイプラインを提案する。 また,従来のステレオタイプに適合するカテゴリを含めることでバイアス分析を容易にする,動詞ベースのイベントアノテーションスキームを提案する。 童話における男女の偏見を分析するケーススタディを通じて, 男女が参加する一グラムの動詞に基づく出来事だけでなく, イベント参加の時間的物語の順序にも偏見を明らかにすることができることを示した。

Social biases and stereotypes are embedded in our culture in part through their presence in our stories, as evidenced by the rich history of humanities and social science literature analyzing such biases in children stories. Because these analyses are often conducted manually and at a small scale, such investigations can benefit from the use of more recent natural language processing methods that examine social bias in models and data corpora. Our work joins this interdisciplinary effort and makes a unique contribution by taking into account the event narrative structures when analyzing the social bias of stories. We propose a computational pipeline that automatically extracts a story's temporal narrative verb-based event chain for each of its characters as well as character attributes such as gender. We also present a verb-based event annotation scheme that can facilitate bias analysis by including categories such as those that align with traditional stereotypes. Through a case study analyzing gender bias in fairy tales, we demonstrate that our framework can reveal bias in not only the unigram verb-based events in which female and male characters participate but also in the temporal narrative order of such event participation.
翻訳日:2023-05-29 16:49:07 公開日:2023-05-26
# CAILA: 合成ゼロショット学習のための概念認識型層内アダプタ

CAILA: Concept-Aware Intra-Layer Adapters for Compositional Zero-Shot Learning ( http://arxiv.org/abs/2305.16681v1 )

ライセンス: Link先を確認
Zhaoheng Zheng, Haidong Zhu and Ram Nevatia(参考訳) 構成性は、既存の概念を組み合わせ、新しい構成へと一般化する能力であり、知的実体にとって重要な機能である。 本稿では,新しい属性オブジェクト合成の認識を目的としたコンポジションゼロショット学習(CZSL)の課題について考察する。 近年のアプローチでは、大規模なVision-Language Pre-trained (VLP)モデル上にシステムを構築している。 しかし、これらのメソッドはCLIPをブラックボックスとして扱い、CLIP前および後操作にフォーカスする。 本稿では,CLIPエンコーダの各層に,大規模言語モデルで有効であることが証明されたパラメータ効率の手法であるアダプタを挿入し,アーキテクチャを深く掘り下げることを提案する。 さらに,アダプタに概念認識を持たせることで,"object","attribute","composition"の概念特有の特徴を抽出することができる。 提案手法をcaila,概念認識層内アダプタと呼ぶ。 一般的な3つのCZSLデータセット(MIT-States、C-GQA、UT-Zappos)で実施された定量的評価により、CAILAが現在のベンチマークに対する2桁の相対的な改善を実現していることが明らかになった。

Compositionality, the ability to combine existing concepts and generalize towards novel compositions, is a key functionality for intelligent entities. Here, we study the problem of Compositional Zero-Shot Learning (CZSL), which aims at recognizing novel attribute-object compositions. Recent approaches build their systems on top of large-scale Vision-Language Pre-trained (VLP) models, e.g. CLIP, and observe significant improvements. However, these methods treat CLIP as a black box and focus on pre- and post-CLIP operations. Here, we propose to dive deep into the architecture and insert adapters, a parameter-efficient technique proven to be effective among large language models, to each CLIP encoder layer. We further equip adapters with concept awareness so that concept-specific features of "object", "attribute" and "composition" can be extracted. We name our method CAILA, Concept-Aware Intra-Layer Adapters. Quantitative evaluations performed on three popular CZSL datasets, MIT-States, C-GQA, and UT-Zappos, reveal that CAILA achieves double-digit relative improvements against the current state-of-the-art on all benchmarks.
翻訳日:2023-05-29 16:41:23 公開日:2023-05-26
# 多視点識別子による生成検索能力の向上

Multiview Identifiers Enhanced Generative Retrieval ( http://arxiv.org/abs/2305.16675v1 )

ライセンス: Link先を確認
Yongqi Li, Nan Yang, Liang Wang, Furu Wei, Wenjie Li(参考訳) クエリを既存のパスにマッチさせる代わりに、生成検索は、検索ターゲットとしてパスの識別子文字列を生成する。 あるコストで、識別子は通路を表すのに十分な識別性を持つ必要がある。 現在のアプローチでは、識別子として数値IDまたはテキスト(タイトルやサブストリングなど)を使用する。 しかし、これらの識別子はパッセージの内容をうまくカバーできない。 そこで我々は,文片が欠落する文脈情報を統合するために,文の内容に基づいて生成される新しいタイプの識別子,合成識別子を提案する。 さらに,合成識別子,タイトル,サブ文字列を含むマルチビュー識別子を同時に検討する。 これらの識別子の見解は互いに補完し、複数の視点から通路の総合的なランキングを促進する。 3つの公開データセットについて一連の実験を行い,提案手法が生成的検索において最高の性能を示し,その有効性とロバスト性を示した。

Instead of simply matching a query to pre-existing passages, generative retrieval generates identifier strings of passages as the retrieval target. At a cost, the identifier must be distinctive enough to represent a passage. Current approaches use either a numeric ID or a text piece (such as a title or substrings) as the identifier. However, these identifiers cannot cover a passage's content well. As such, we are motivated to propose a new type of identifier, synthetic identifiers, that are generated based on the content of a passage and could integrate contextualized information that text pieces lack. Furthermore, we simultaneously consider multiview identifiers, including synthetic identifiers, titles, and substrings. These views of identifiers complement each other and facilitate the holistic ranking of passages from multiple perspectives. We conduct a series of experiments on three public datasets, and the results indicate that our proposed approach performs the best in generative retrieval, demonstrating its effectiveness and robustness.
翻訳日:2023-05-29 16:41:01 公開日:2023-05-26
# ニオブ酸リチウム-絶縁体フォトニックウォークにおける量子論理制御ノットゲート

Quantum logical controlled-NOT gate in a lithium niobate-on-insulator photonic quantum walk ( http://arxiv.org/abs/2305.16674v1 )

ライセンス: Link先を確認
Robert J. Chapman, Samuel H\"ausler, Giovanni Finco, Fabian Kaufmann, Rachel Grange(参考訳) 量子コンピュータは、繊細な量子状態の初期化、制御、測定を行う基本論理ゲートを構成する。 最も重要なゲートの1つは制御NOTであり、2ビットの絡み合った状態を作るのに広く使われている。 単一光子量子ビットの制御なしゲートは通常、個々のビームスプリッターの6モードネットワークとして実現される。 しかし、このアーキテクチャは量子演算のために回路のごく一部しか利用せず、フットプリントの大部分は導波路をルーティングするものである。 量子ウォークは、離散ゲートの代わりに連続的な相互作用領域を持つ結合導波路の配列を使用する代替フォトニクスプラットフォームである。 量子ウォークは凝縮物質物理学の研究に成功しているが、論理量子演算に対するマルチモード干渉の適用はまだ示されていない。 ここでは、ニオブ酸リチウムイオン絶縁体導波路の配列に2量子制御NOTゲートを実験的に示す。 我々は、多重モード干渉が線形光制御NOTユニタリに対応するように、6つのエバネッセント結合単一モード導波路の強結合ハミルトニアンを設計した。 重畳状態に制御光子を準備することにより、2量子移動行列を0.938\pm0.003$fidelityで測定し、このゲートを用いて0.945\pm0.002$fidelityで絡み合った量子ビットを生成する。 本研究では,コンパクトなマルチモード相互作用領域を用いて大規模量子回路を実現する量子ウォークの新しい応用について述べる。

Quantum computers comprise elementary logic gates that initialize, control and measure delicate quantum states. One of the most important gates is the controlled-NOT, which is widely used to prepare two-qubit entangled states. The controlled-NOT gate for single photon qubits is normally realized as a six-mode network of individual beamsplitters. This architecture however, utilizes only a small fraction of the circuit for the quantum operation with the majority of the footprint dedicated to routing waveguides. Quantum walks are an alternative photonics platform that use arrays of coupled waveguides with a continuous interaction region instead of discrete gates. While quantum walks have been successful for investigating condensed matter physics, applying the multi-mode interference for logical quantum operations is yet to be shown. Here, we experimentally demonstrate a two-qubit controlled-NOT gate in an array of lithium niobate-on-insulator waveguides. We engineer the tight-binding Hamiltonian of the six evanescently-coupled single-mode waveguides such that the multi-mode interference corresponds to the linear optical controlled-NOT unitary. We measure the two-qubit transfer matrix with $0.938\pm0.003$ fidelity, and we use the gate to generate entangled qubits with $0.945\pm0.002$ fidelity by preparing the control photon in a superposition state. Our results highlight a new application for quantum walks that use a compact multi-mode interaction region to realize large multi-component quantum circuits.
翻訳日:2023-05-29 16:40:49 公開日:2023-05-26
# 連続DR-部分モジュラ関数の最大化のための統一的アプローチ

A Unified Approach for Maximizing Continuous DR-submodular Functions ( http://arxiv.org/abs/2305.16671v1 )

ライセンス: Link先を確認
Mohammad Pedramfar and Christopher John Quinn and Vaneet Aggarwal(参考訳) 本稿では,さまざまな設定と oracle アクセスタイプを包含する連続的な dr-submodular 関数を最大化する統一的アプローチを提案する。 我々のアプローチは、一般凸集合に対する異なる制約を持つ単調関数と非単調関数の両方に対するフランク・ウルフ型オフラインアルゴリズムを含む。 私たちは、oracleが関数の勾配または関数値のみへのアクセスを提供し、oracleアクセスが決定論的または確率的であるような設定を検討する。 すべてのケースで必要なoracleアクセスの数を決定します。 提案手法は,16例中9例に新しい/改善結果を与え,計算コストの高い投射を2例で回避し,残りの5例で最先端手法の性能にマッチするフレームワークを提案する。 特に、確率関数値に基づくオラクルに対する我々のアプローチは、確率DR-部分モジュラ関数に対する帯域フィードバックによる最初の後悔のバウンドを可能にする。

This paper presents a unified approach for maximizing continuous DR-submodular functions that encompasses a range of settings and oracle access types. Our approach includes a Frank-Wolfe type offline algorithm for both monotone and non-monotone functions, with different restrictions on the general convex set. We consider settings where the oracle provides access to either the gradient of the function or only the function value, and where the oracle access is either deterministic or stochastic. We determine the number of required oracle accesses in all cases. Our approach gives new/improved results for nine out of the sixteen considered cases, avoids computationally expensive projections in two cases, with the proposed framework matching performance of state-of-the-art approaches in the remaining five cases. Notably, our approach for the stochastic function value-based oracle enables the first regret bounds with bandit feedback for stochastic DR-submodular functions.
翻訳日:2023-05-29 16:40:23 公開日:2023-05-26
# 量子力学におけるクリロフ複雑性とカオス

Krylov complexity and chaos in quantum mechanics ( http://arxiv.org/abs/2305.16669v1 )

ライセンス: Link先を確認
Koji Hashimoto, Keiju Murata, Norihiro Tanahashi, Ryota Watanabe(参考訳) 近年,量子システムの複雑性とカオス性の尺度としてクリロフ複雑性が提案されている。 スタジアムビリヤードを,古典的カオス系の量子化によって得られた量子力学系の典型例と考え,演算子と状態のkrylov複雑性を数値的に評価する。 クリロフ複雑性の指数関数的増加はみられなかったが、ランチョス係数の分散と古典的リアプノフ指数の相関関係が明らかであり、また量子エネルギー準位の隣接する間隔の統計分布との相関も見いだされた。 これは、ランチョス係数の分散が量子カオスの測度であることを示している。 結果の普遍性は、同様のシナイビリヤードの解析によって支えられている。 我々の研究は、krylovの複雑さと古典/量子カオスの間に強固な橋渡しを提供する。

Recently, Krylov complexity was proposed as a measure of complexity and chaoticity of quantum systems. We consider the stadium billiard as a typical example of the quantum mechanical system obtained by quantizing a classically chaotic system, and numerically evaluate Krylov complexity for operators and states. Despite no exponential growth of the Krylov complexity, we find a clear correlation between variances of Lanczos coefficients and classical Lyapunov exponents, and also a correlation with the statistical distribution of adjacent spacings of the quantum energy levels. This shows that the variances of Lanczos coefficients can be a measure of quantum chaos. The universality of the result is supported by our similar analysis of Sinai billiards. Our work provides a firm bridge between Krylov complexity and classical/quantum chaos.
翻訳日:2023-05-29 16:40:08 公開日:2023-05-26
# 多視点発音評価のためのスコアバランス損失

Score-balanced Loss for Multi-aspect Pronunciation Assessment ( http://arxiv.org/abs/2305.16664v1 )

ライセンス: Link先を確認
Heejin Do, Yunsu Kim, Gary Geunbae Lee(参考訳) 急速な技術発展に伴い、自動発音評価は流束やストレスなどの様々な側面で発音を評価するシステムへと移行している。 しかし,各面に高度に不均衡なスコアラベルが存在するにもかかわらず,既存の研究ではデータ不均衡の問題にほとんど取り組んでいない。 本稿では,多数点に対するバイアスなどの不均一なデータに起因する問題に対処するために,新しい損失関数であるスコアバランス損失を提案する。 再重み付け手法として、予測スコアがマイノリティクラスの場合、より高いコストを割り当て、スパーススコア予測に対する肯定的なフィードバックを得るようモデルに誘導する。 具体的には,有効サンプル数の概念を活用し,スコアのランクを用いて2つの重み付け因子を設計する。 本手法は,いくつかの点で明らかに不均衡なスコアを持つ speechocean762 データセット上で評価する。 このような不均一な側面における結果の改善は,本手法の有効性を証明している。

With rapid technological growth, automatic pronunciation assessment has transitioned toward systems that evaluate pronunciation in various aspects, such as fluency and stress. However, despite the highly imbalanced score labels within each aspect, existing studies have rarely tackled the data imbalance problem. In this paper, we suggest a novel loss function, score-balanced loss, to address the problem caused by uneven data, such as bias toward the majority scores. As a re-weighting approach, we assign higher costs when the predicted score is of the minority class, thus, guiding the model to gain positive feedback for sparse score prediction. Specifically, we design two weighting factors by leveraging the concept of an effective number of samples and using the ranks of scores. We evaluate our method on the speechocean762 dataset, which has noticeably imbalanced scores for several aspects. Improved results particularly on such uneven aspects prove the effectiveness of our method.
翻訳日:2023-05-29 16:39:55 公開日:2023-05-26
# GDA:関係抽出タスクのための生成データ拡張技術

GDA: Generative Data Augmentation Techniques for Relation Extraction Tasks ( http://arxiv.org/abs/2305.16663v1 )

ライセンス: Link先を確認
Xuming Hu, Aiwei Liu, Zeqi Tan, Xin Zhang, Chenwei Zhang, Irwin King, Philip S. Yu(参考訳) 関係抽出(RE)タスクは、トレーニング中に十分なアノテーションが与えられた文で言及された2つのエンティティから関係を抽出する際の有望なパフォーマンスを示す。 このようなアノテーションは実際に入手するのに労力がかかる。 既存の作業では、制限されたアノテーションを超えて擬似注釈文を生成するために、データ拡張技術を採用している。 これらの手法は、規則に基づく拡張が適用された場合の原文の意味的一貫性を保たず、seq2seqモデルを用いて関係を表現する場合の文の構文構造を保たず、より多様な拡張をもたらす。 本稿では,意味的一貫性と構文構造を両立させるために2つの相補的モジュールを用いるGDAという,関係テキスト専用の拡張手法を提案する。 我々は生成的定式化を採用し、相乗効果を達成するためにマルチタスクソリューションを設計する。 さらに、GDAは、生成モデルの事前知識としてエンティティヒントを採用し、多様な文を増強する。 低リソース環境下での3つのデータセットによる実験結果から、GDAは拡張テクニックを使わずにF1の改善をもたらすことが示された。 ソースコードとデータは利用可能である。

Relation extraction (RE) tasks show promising performance in extracting relations from two entities mentioned in sentences, given sufficient annotations available during training. Such annotations would be labor-intensive to obtain in practice. Existing work adopts data augmentation techniques to generate pseudo-annotated sentences beyond limited annotations. These techniques neither preserve the semantic consistency of the original sentences when rule-based augmentations are adopted, nor preserve the syntax structure of sentences when expressing relations using seq2seq models, resulting in less diverse augmentations. In this work, we propose a dedicated augmentation technique for relational texts, named GDA, which uses two complementary modules to preserve both semantic consistency and syntax structures. We adopt a generative formulation and design a multi-tasking solution to achieve synergies. Furthermore, GDA adopts entity hints as the prior knowledge of the generative model to augment diverse sentences. Experimental results in three datasets under a low-resource setting showed that GDA could bring {\em 2.0\%} F1 improvements compared with no augmentation technique. Source code and data are available.
翻訳日:2023-05-29 16:39:41 公開日:2023-05-26
# 喉頭画像からの性別・喫煙履歴・年齢予測

Gender, Smoking History and Age Prediction from Laryngeal Images ( http://arxiv.org/abs/2305.16661v1 )

ライセンス: Link先を確認
Tianxiao Zhang, Andr\'es M. Bur, Shannon Kraft, Hannah Kavookjian, Bryan Renslo, Xiangyu Chen, Bo Luo, Guanghui Wang(参考訳) フレキシブル喉頭内視鏡は耳鼻咽喉科医が喉頭疾患の診断と悪性病変の診断のために行うのが一般的である。 近年,喉頭画像を用いた自動診断を容易にする機械学習技術を導入し,有望な結果を得た。 患者の人口統計情報をモデルに組み込むと、診断性能が向上する。 しかし、患者データの手動入力は臨床医にとって時間がかかる。 本研究では,深層学習モデルを用いて患者の人口統計情報を予測し,検出モデルの性能を向上させる試みを初めて行った。 性別、喫煙履歴、年齢の総合的正確度はそれぞれ85.5%、65.2%、75.9%であった。 また、機械学習研究のための新しい喉頭鏡画像セットを作成し、cnnとトランスフォーマーに基づく8つの古典的ディープラーニングモデルのパフォーマンスをベンチマークした。 結果は現在の学習モデルに統合でき、患者の人口統計情報を組み込むことで、そのパフォーマンスを向上させることができる。

Flexible laryngoscopy is commonly performed by otolaryngologists to detect laryngeal diseases and to recognize potentially malignant lesions. Recently, researchers have introduced machine learning techniques to facilitate automated diagnosis using laryngeal images and achieved promising results. Diagnostic performance can be improved when patients' demographic information is incorporated into models. However, manual entry of patient data is time consuming for clinicians. In this study, we made the first endeavor to employ deep learning models to predict patient demographic information to improve detector model performance. The overall accuracy for gender, smoking history, and age was 85.5%, 65.2%, and 75.9%, respectively. We also created a new laryngoscopic image set for machine learning study and benchmarked the performance of 8 classical deep learning models based on CNNs and Transformers. The results can be integrated into current learning models to improve their performance by incorporating the patient's demographic information.
翻訳日:2023-05-29 16:39:22 公開日:2023-05-26
# リーマン多様体上の高次ゲージ同変CNNとその応用

Higher Order Gauge Equivariant CNNs on Riemannian Manifolds and Applications ( http://arxiv.org/abs/2305.16657v1 )

ライセンス: Link先を確認
Gianfranco Cortes, Yue Yu, Robin Chen, Melissa Armstrong, David Vaillancourt, Baba C. Vemuri(参考訳) ディープネットワーク文献における群同変畳み込みの出現により、$s^2$の球面上の信号のサンプルであるデータに対処するために、$\mathsf{so}(3)$-同変層を持つ球面cnnが開発された。 ゲージ等分散 w.r.t. $\mathsf{so}(2)$ を明示的に要求することで、大きな効率向上を伴う$s^2$ 上の$\mathsf{so}(3)$-equivariant 畳み込みを暗黙的に得ることができる。 本稿では、ゲージ同変畳み込みの高次一般化を導入し、その実装をゲージ同変ネットワーク(GEVNet)と呼ぶ。 これにより、空間的に拡張された非線形相互作用を、大域的等距離に等しく保ちながら、与えられた受容場内でモデル化することができる。 我々は高次ゲージ同変畳み込みの等分散と構成に関する理論的結果を証明する。 次に,まずコンピュータビジョンベンチマークデータ(球面mnistなど)を用いて,神経画像データに対する畳み込みカーネルネットワーク(ckn)と組み合わせて,モデルのパラメータ効率を実証する。 神経画像データ実験において、得られた2部構造(ckn + gevnet)は拡散磁気共鳴画像(dmri)からlewy体疾患(dlb)、アルツハイマー病(ad)、パーキンソン病(pd)の患者を自動的に判別するために用いられる。 GEVNetは各ボクセル内の微小構造的特徴を抽出し、CKNはボクセル全体のマクロ構造的特徴を抽出する。 この複合アーキテクチャは、dmriデータに含まれるボクセル内およびボクセル間情報を利用するために一意に配置され、個々のコンポーネントから得られた分類結果よりも性能が向上する。

With the advent of group equivariant convolutions in deep networks literature, spherical CNNs with $\mathsf{SO}(3)$-equivariant layers have been developed to cope with data that are samples of signals on the sphere $S^2$. One can implicitly obtain $\mathsf{SO}(3)$-equivariant convolutions on $S^2$ with significant efficiency gains by explicitly requiring gauge equivariance w.r.t. $\mathsf{SO}(2)$. In this paper, we build on this fact by introducing a higher order generalization of the gauge equivariant convolution, whose implementation is dubbed a gauge equivariant Volterra network (GEVNet). This allows us to model spatially extended nonlinear interactions within a given receptive field while still maintaining equivariance to global isometries. We prove theoretical results regarding the equivariance and construction of higher order gauge equivariant convolutions. Then, we empirically demonstrate the parameter efficiency of our model, first on computer vision benchmark data (e.g. spherical MNIST), and then in combination with a convolutional kernel network (CKN) on neuroimaging data. In the neuroimaging data experiments, the resulting two-part architecture (CKN + GEVNet) is used to automatically discriminate between patients with Lewy Body Disease (DLB), Alzheimer's Disease (AD) and Parkinson's Disease (PD) from diffusion magnetic resonance images (dMRI). The GEVNet extracts micro-architectural features within each voxel, while the CKN extracts macro-architectural features across voxels. This compound architecture is uniquely poised to exploit the intra- and inter-voxel information contained in the dMRI data, leading to improved performance over the classification results obtained from either of the individual components.
翻訳日:2023-05-29 16:39:07 公開日:2023-05-26
# 量子コンピュータ技術を用いた時系列画像のクラスタリング手法

Clustering Method for Time-Series Images Using Quantum-Inspired Computing Technology ( http://arxiv.org/abs/2305.16656v1 )

ライセンス: Link先を確認
Tomoki Inoue, Koyo Kubota, Tsubasa Ikami, Yasuhiro Egami, Hiroki Nagai, Takahiro Kashikawa, Koichi Kimura, Yu Matsuda(参考訳) 時系列クラスタリングは、クラスタに関する事前知識がなければ、時系列データの強力なデータマイニング技術として機能する。 大規模な時系列データを取得し,様々な研究分野に利用している。 そのため,計算コストの低いクラスタリングが必要となる。 シミュレーションアニーリングマシンのような量子インスパイアされたコンピューティング技術は、組合せ最適化の問題を高速かつ正確に解くという点で、従来のコンピュータを上回り、既存の手法で達成することが難しいクラスタリングタスクを達成することを約束している。 本研究では,アニーリングマシンを用いた時系列クラスタリング手法を提案する。 提案手法は,外乱に対する堅牢性を維持しつつ,時系列データを互いに近接するクラスタに均等に分類することを容易にする。 さらに、その適用範囲は時系列画像にも及ぶ。 提案手法を,オンライン分散データセットをクラスタリングする標準的な方法と比較した。 既存の手法では、ユークリッド距離メトリックに基づいて各データ間の距離を計算し、k-means++法を用いてクラスタリングを行う。 どちらの手法も同等の結果が得られた。 さらに,信号対雑音比が約1。 約2%の信号変動にもかかわらず,提案手法はクラスタ間の重なりを伴わずに効果的にデータを分類した。 対照的に,既存の標準手法と条件付き画像サンプリング(CIS)手法によるクラスタリングの結果は,重なり合うクラスタを表示するフロー計測データの特殊な手法である。 その結果,提案手法は他の2手法よりも優れた結果が得られ,優れたクラスタリング手法としての可能性を示した。

Time-series clustering serves as a powerful data mining technique for time-series data in the absence of prior knowledge about clusters. A large amount of time-series data with large size has been acquired and used in various research fields. Hence, clustering method with low computational cost is required. Given that a quantum-inspired computing technology, such as a simulated annealing machine, surpasses conventional computers in terms of fast and accurately solving combinatorial optimization problems, it holds promise for accomplishing clustering tasks that are challenging to achieve using existing methods. This study proposes a novel time-series clustering method that leverages an annealing machine. The proposed method facilitates an even classification of time-series data into clusters close to each other while maintaining robustness against outliers. Moreover, its applicability extends to time-series images. We compared the proposed method with a standard existing method for clustering an online distributed dataset. In the existing method, the distances between each data are calculated based on the Euclidean distance metric, and the clustering is performed using the k-means++ method. We found that both methods yielded comparable results. Furthermore, the proposed method was applied to a flow measurement image dataset containing noticeable noise with a signal-to-noise ratio of approximately 1. Despite a small signal variation of approximately 2%, the proposed method effectively classified the data without any overlap among the clusters. In contrast, the clustering results by the standard existing method and the conditional image sampling (CIS) method, a specialized technique for flow measurement data, displayed overlapping clusters. Consequently, the proposed method provides better results than the other two methods, demonstrating its potential as a superior clustering method.
翻訳日:2023-05-29 16:38:29 公開日:2023-05-26
# アルゴリズム決定処理の理解のための学際的フレームワークの適用

Applying Interdisciplinary Frameworks to Understand Algorithmic Decision-Making ( http://arxiv.org/abs/2305.16700v1 )

ライセンス: Link先を確認
Timoth\'ee Schmude, Laura Koesten, Torsten M\"oller, Sebastian Tschiatschek(参考訳) 我々は,「アルゴリズム意思決定」システムの説明は,すでに学習科学で使われている実践を取り入れることで利益を得ることができると論じている。 我々は、admシステムを説明することの重要性をすぐに紹介し、説明を改善するための他の分野からのアプローチの概要を述べるとともに、「理解の6つの面」フレームワークを組み込んだ質的タスクベース研究の結果を紹介する。 我々は,今後の研究が学際的アプローチをどのように活用できるかという議論を導く質問を締めくくった。

We argue that explanations for "algorithmic decision-making" (ADM) systems can profit by adopting practices that are already used in the learning sciences. We shortly introduce the importance of explaining ADM systems, give a brief overview of approaches drawing from other disciplines to improve explanations, and present the results of our qualitative task-based study incorporating the "six facets of understanding" framework. We close with questions guiding the discussion of how future studies can leverage an interdisciplinary approach.
翻訳日:2023-05-29 16:32:36 公開日:2023-05-26
# 終端ゼロショット音声合成におけるハイパーパラメータ探索のない損失トレードオフの自動調整

Automatic Tuning of Loss Trade-offs without Hyper-parameter Search in End-to-End Zero-Shot Speech Synthesis ( http://arxiv.org/abs/2305.16699v1 )

ライセンス: Link先を確認
Seongyeon Park, Bohyung Kim, Tae-hyun Oh(参考訳) 近年、ゼロショットTSとVCの手法は、訓練中に見つからない音声を生成できるという実用性から注目されている。 これらの手法のうち、VITSモデルのゼロショット修正は、VITSから受け継いだ有用な特性を持ちながら、優れた性能を示した。 しかし、VITSとVITSベースのゼロショットモデルの性能は、損失のバランスによって大きく異なる。 最適のバランスを見つけるには、損失バランスハイパーパラメータを調整しなければならないため、これは問題となる可能性がある。 本研究では,vitsに基づくモデルのデコーダを完全再構成能力に誘導することにより,探索なしで最適であることを示す新しい枠組みを提案する。 我々のフレームワークでは、ゼロショットTSやVCのベースラインに比べて優れたパフォーマンスを示し、最先端のパフォーマンスを実現しています。 さらに、さまざまな設定でフレームワークの堅牢性を示す。 私たちはその議論の結果について説明します。

Recently, zero-shot TTS and VC methods have gained attention due to their practicality of being able to generate voices even unseen during training. Among these methods, zero-shot modifications of the VITS model have shown superior performance, while having useful properties inherited from VITS. However, the performance of VITS and VITS-based zero-shot models vary dramatically depending on how the losses are balanced. This can be problematic, as it requires a burdensome procedure of tuning loss balance hyper-parameters to find the optimal balance. In this work, we propose a novel framework that finds this optimum without search, by inducing the decoder of VITS-based models to its full reconstruction ability. With our framework, we show superior performance compared to baselines in zero-shot TTS and VC, achieving state-of-the-art performance. Furthermore, we show the robustness of our framework in various settings. We provide an explanation for the results in the discussion.
翻訳日:2023-05-29 16:32:27 公開日:2023-05-26
# シャドウ検出:ビデオシャドウ検出のためのセグメンテーション

Detect Any Shadow: Segment Anything for Video Shadow Detection ( http://arxiv.org/abs/2305.16698v1 )

ライセンス: Link先を確認
Yonghui Wang, Wengang Zhou, Yunyao Mao, Houqiang Li(参考訳) Segment Any Model (SAM) は自然画像セグメンテーションの分野で大きな成功を収めた。 それでもsamはシャドウを背景として分類する傾向があり、シャドウ検出タスクのセグメンテーション性能が低下する。 本稿では,サムを微調整して影を検出するための簡易かつ効果的な手法を提案する。 さらに,ビデオシャドウ検出機能を拡張するために,長期間のアテンション機構と組み合わせることも行った。 具体的には、まずシャドウデータとスパースプロンプトを組み合わせてSAMを微調整し、微調整モデルを適用してビデオ中の特定のフレーム(例えば、第1フレーム)を少しのユーザアシストで検出する。 その後,検出したフレームを基準として,遠隔フレーム間の空間的相関と連続フレーム間の時間的一貫性を学習し,フレーム間の影情報伝達を実現する。 その結果,本手法は,MAEとIoUでそれぞれ17.2%,IoUで3.3%向上し,最先端技術よりも優れており,本手法の有効性が検証された。

Segment anything model (SAM) has achieved great success in the field of natural image segmentation. Nevertheless, SAM tends to classify shadows as background, resulting in poor segmentation performance for shadow detection task. In this paper, we propose an simple but effective approach for fine tuning SAM to detect shadows. Additionally, we also combine it with long short-term attention mechanism to extend its capabilities to video shadow detection. Specifically, we first fine tune SAM by utilizing shadow data combined with sparse prompts and apply the fine-tuned model to detect a specific frame (e.g., first frame) in the video with a little user assistance. Subsequently, using the detected frame as a reference, we employ a long short-term network to learn spatial correlations between distant frames and temporal consistency between contiguous frames, thereby achieving shadow information propagation across frames. Extensive experimental results demonstrate that our method outperforms the state-of-the-art techniques, with improvements of 17.2% and 3.3% in terms of MAE and IoU, respectively, validating the effectiveness of our method.
翻訳日:2023-05-29 16:32:12 公開日:2023-05-26
# dkaf: kb不整合を伴うタスク指向対話システム学習のためのkb調停

DKAF: KB Arbitration for Learning Task-Oriented Dialog Systems with Dialog-KB Inconsistencies ( http://arxiv.org/abs/2305.16697v1 )

ライセンス: Link先を確認
Vishal Vivek Saley, Rocktim Jyoti Das, Dinesh Raghu, Mausam(参考訳) タスク指向ダイアログ(TOD)エージェントは、しばしば外部知識ベース(KB)に応答する。 これらのkbは動的で頻繁に更新される。 TODエージェントを学習するための既存のアプローチは、トレーニング中に個々のダイアログのKBスナップショットが利用可能であると仮定する。 しかし、現実のシナリオでは、トレーニング中に最新のKBスナップショットのみが利用可能であり、結果として、列車ダイアログは最新のKBと矛盾する事実を含む可能性がある。 これらのトレーニングデータのダイアログkb不整合は、todエージェント学習アルゴリズムを混乱させる可能性がある。 本研究では,学習データにダイアログ-KBの不整合を持つTODエージェントを学習する新たな問題を定義する。 本稿では,ダイアログ毎のKBスナップショットを予測することにより,ダイアログKBの不整合を低減するダイアログKB調停フレームワーク(DKAF)を提案する。 これらの予測KBスナップショットは、下流のTODエージェントのトレーニングに使用される。 ダイアログkbの不整合を持つ既存のデータセットは存在せず、体系的に2つの公開ダイアログデータセットに不整合を導入する。 DKAFで訓練されたTODエージェントは、これらのデータセットの既存のベースラインよりも優れていることを示す。

Task-oriented dialog (TOD) agents often ground their responses on external knowledge bases (KBs). These KBs can be dynamic and may be updated frequently. Existing approaches for learning TOD agents assume the KB snapshot contemporary to each individual dialog is available during training. However, in real-world scenarios, only the latest KB snapshot is available during training and as a result, the train dialogs may contain facts conflicting with the latest KB. These dialog-KB inconsistencies in the training data may potentially confuse the TOD agent learning algorithm. In this work, we define the novel problem of learning a TOD agent with dialog-KB inconsistencies in the training data. We propose a Dialog-KB Arbitration Framework (DKAF) which reduces the dialog-KB inconsistencies by predicting the contemporary KB snapshot for each train dialog. These predicted KB snapshots are then used for training downstream TOD agents. As there are no existing datasets with dialog-KB inconsistencies, we systematically introduce inconsistencies in two publicly available dialog datasets. We show that TOD agents trained with DKAF perform better than existing baselines on both these datasets
翻訳日:2023-05-29 16:31:52 公開日:2023-05-26
# Rydberg原子に基づく電場測定とその応用

Electric field measurement and application based on Rydberg atoms ( http://arxiv.org/abs/2305.16696v1 )

ライセンス: Link先を確認
Bang Liu, Li-Hua Zhang, Zong-Kai Liu, Zi-An Deng, Dong-Sheng Ding, Bao-Sen Shi, Guang-Can Guo(参考訳) マイクロ波センシングは、データ通信やリモートセンシングなどの分野において重要な応用であり、国際学術、産業、政府から多くの注目を集めている。 原子無線センシングは、Rydberg原子の大きな電気双極子モーメントの外部への強い応答を利用して、電波周波数(RF)電場を正確に測定する。 これは従来のワイヤレスセンシングよりも利点がある。 ライドバーグ原子の利点は、超広帯域のエネルギー準位遷移であり、広い帯域幅でrf電界に応答する。 本稿では,ライドバーグ原子に基づく電場測定の進展について概説する。 主な内容は、Rydberg原子の性質、Rydberg原子を用いた測定、および異なるバンドにおける電場測定の実験的進歩である。 本稿では,原子超ヘテロダイン,機械学習,臨界強度測定などの電場検出手法について述べる。 Rydberg原子測定の開発は、特に従来のマイクロ波受信機と比較して、Rydberg原子センシングの利点に焦点を当てている。 これは、天文学、リモートセンシング、その他の分野におけるライドバーグに基づく測定を開発する上で大きな意味を持つ。

Microwave sensing has important applications in areas such as data communication and remote sensing, so it has received much attention from international academia, industry, and governments. Atomic wireless sensing uses the strong response of the large electric dipole moment of a Rydberg atom to an external field to achieve precise measurement of a radio frequency (RF) electric field. This has advantages over traditional wireless sensing. The advantage of a Rydberg atom is its ultra-wide energy level transitions, which make it responsive to RF electric fields over a wide bandwidth. Here, we briefly review the progress of electric field measurement based on Rydberg atoms. The main contents include the properties of Rydberg atoms, measurement using Rydberg atoms, and experimental progress in electric field measurement in different bands. We show the different methods for detecting electric fields such as atomic superheterodyne, machine learning, and critically enhanced measurement. The development of Rydberg atomic measurement focuses on the advantages of Rydberg atomic sensing, especially compared with conventional microwave receivers. This is of major significance to developing Rydberg-based measurement in astronomy, remote sensing, and other fields.
翻訳日:2023-05-29 16:31:33 公開日:2023-05-26
# Dual Bayesian ResNet: 心臓外傷検出のためのディープラーニングアプローチ

Dual Bayesian ResNet: A Deep Learning Approach to Heart Murmur Detection ( http://arxiv.org/abs/2305.16691v1 )

ライセンス: Link先を確認
Benjamin Walker, Felix Krones, Ivan Kiskin, Guy Parsons, Terry Lyons, Adam Mahdi(参考訳) 本稿では、George B. Moody PhysioNet Challenge 2022へのPathToMyHeartの貢献について紹介する。 2つのモデルが実装されている。 最初のモデルはDual Bayesian ResNet(DBRes)で、各患者の記録は重なり合うログメルスペクトログラムに分割される。 これら2つのバイナリ分類は、現在と未知または欠落、現在と欠落の2つである。 分類は、患者の最終分類を与えるために集計される。 2つ目のモデルは、人口統計データとxgboostを用いた信号特徴を統合したdbresの出力です。dbresは、murmur分類のための隠れたテストセットに基づいて、最高の重み付け精度を0.771$で達成しました。 (私たちが無視した臨床結果のタスクでは、コストが12637ドルで17位になった。) トレーニングセットの保留部分では、人口統計データと信号機能を統合することで、dbresの精度が0.762$から0.820$に向上した。 しかし、DBResの重み付け精度は0.780$から0.749$に低下した。 その結果,対数メルスペクトログラムは心拍記録の効果的な表現であり,ベイズネットワークは強い教師付き分類性能を提供し,二進分類として三進分類を扱い,重み付け精度の向上が期待できることがわかった。

This study presents our team PathToMyHeart's contribution to the George B. Moody PhysioNet Challenge 2022. Two models are implemented. The first model is a Dual Bayesian ResNet (DBRes), where each patient's recording is segmented into overlapping log mel spectrograms. These undergo two binary classifications: present versus unknown or absent, and unknown versus present or absent. The classifications are aggregated to give a patient's final classification. The second model is the output of DBRes integrated with demographic data and signal features using XGBoost.DBRes achieved our best weighted accuracy of $0.771$ on the hidden test set for murmur classification, which placed us fourth for the murmur task. (On the clinical outcome task, which we neglected, we scored 17th with costs of $12637$.) On our held-out subset of the training set, integrating the demographic data and signal features improved DBRes's accuracy from $0.762$ to $0.820$. However, this decreased DBRes's weighted accuracy from $0.780$ to $0.749$. Our results demonstrate that log mel spectrograms are an effective representation of heart sound recordings, Bayesian networks provide strong supervised classification performance, and treating the ternary classification as two binary classifications increases performance on the weighted accuracy.
翻訳日:2023-05-29 16:31:13 公開日:2023-05-26
# クラスインクリメンタル学習のための教師付きコントラスト学習

Balanced Supervised Contrastive Learning for Few-Shot Class-Incremental Learning ( http://arxiv.org/abs/2305.16687v1 )

ライセンス: Link先を確認
In-Ug Yoon, Tae-Min Choi, Young-Min Kim, Jong-Hwan Kim(参考訳) FSCIL(Few-shot class-incremental Learning)は、新しいセッションのタスクに不適合し、前のセッションのタスクを忘れることの最大の課題である。 この課題に対処するために,FSCILネットワークの各コアコンポーネントに対して,機能抽出器,ベースセッション分類器,インクリメンタルセッション分類器を含む効果的な手法を統合する,シンプルかつ強力な学習手法を開発した。 機能抽出のトレーニングでは、現在の可視性と未認識あるいは過去のクラスの両方にメリットがある、バランスのとれた汎用表現を得ることが目標です。 そこで本研究では,これら2つの目的を効果的にバランスをとるための教師付き対照損失を提案する。 分類器の観点では、ベースおよびインクリメンタルセッション分類器の両方に対する初期化手法の統合の重要性を分析し、強調する。 提案手法は,cub200,cifar100,miniimagenetのデータセットにおける新しいタスク学習に優れた能力を示し,様々なメトリクスを用いた従来の最先端手法を大幅に改善した。 我々は,提案手法の意義と合理性を分析し,新しい課題における表現の有効性を可視化する実験を行った。 さらに,各モジュールの効果を分析するために多種多様なアブレーション研究を行う。

Few-shot class-incremental learning (FSCIL) presents the primary challenge of balancing underfitting to a new session's task and forgetting the tasks from previous sessions. To address this challenge, we develop a simple yet powerful learning scheme that integrates effective methods for each core component of the FSCIL network, including the feature extractor, base session classifiers, and incremental session classifiers. In feature extractor training, our goal is to obtain balanced generic representations that benefit both current viewable and unseen or past classes. To achieve this, we propose a balanced supervised contrastive loss that effectively balances these two objectives. In terms of classifiers, we analyze and emphasize the importance of unifying initialization methods for both the base and incremental session classifiers. Our method demonstrates outstanding ability for new task learning and preventing forgetting on CUB200, CIFAR100, and miniImagenet datasets, with significant improvements over previous state-of-the-art methods across diverse metrics. We conduct experiments to analyze the significance and rationale behind our approach and visualize the effectiveness of our representations on new tasks. Furthermore, we conduct diverse ablation studies to analyze the effects of each module.
翻訳日:2023-05-29 16:30:46 公開日:2023-05-26
# S4M:複数部位の単一モデルによる放射線診断レポートの作成

S4M: Generating Radiology Reports by A Single Model for Multiple Body Parts ( http://arxiv.org/abs/2305.16685v1 )

ライセンス: Link先を確認
Qi Chen, Yutong Xie, Biao Wu, Minh-Son To, James Ang, Qi Wu(参考訳) 本稿では,様々な身体部位の異なる画像であっても合理的なレポートを生成できるレポート生成モデルについて検討する。 まず、複数のデータセットを直接マージして、単一のレポート生成モデルをトレーニングします。 しかし、このような単純な方法で生成されたレポートは、個々のデータセットで個別に訓練されたレポートと同等のパフォーマンスしか得られない。 これは、身体部分の多様性と医療データの利用率の制限によるジレンマによるものと考えられる。 堅牢で一般化可能なモデルを開発するためには,多様な身体部位や医療状況を考慮することが重要である。 しかし、データ可用性やプライバシの懸念など、さまざまな要因により、特定の身体部分ごとに十分なデータセットを収集することは困難である。 そこで本稿では, より詳細なデータを求めるのではなく, 明確な先行情報(無線情報提供)と暗黙的な先行情報(モーダルな特徴によって導かれる)の2つの補助的先行情報を用いて, レポート生成モデルの学習を促進する一元多元化(S4M)フレームワークを提案する。 具体的には、従来のエンコーダ-デコーダレポート生成フレームワークに基づいて、Radlogy-informed Knowledge Aggregation (RadKA)ブランチとImplicit Prior Guidance (IPG)ブランチの2つの追加ブランチを組み込む。 胸部,腹部,膝,股関節,手首,肩の6つの身体部分をカバーする,公開データセット(\ie, IU-Xray)と5つのプライベートデータセットからなる統合データセットの実験を行った。 私たちのS4Mモデルは、別々のデータセットやマージされたデータセットでトレーニングされているかどうかに関わらず、すべてのベースラインを上回ります。 コードは \url{https://github.com/ytongxie/s4m} で入手できる。

In this paper, we seek to design a report generation model that is able to generate reasonable reports even given different images of various body parts. We start by directly merging multiple datasets and training a single report generation model on this one. We, however, observe that the reports generated in such a simple way only obtain comparable performance compared with that trained separately on each specific dataset. We suspect that this is caused by the dilemma between the diversity of body parts and the limited availability of medical data. To develop robust and generalizable models, it is important to consider a diverse range of body parts and medical conditions. However, collecting a sufficiently large dataset for each specific body part can be difficult due to various factors, such as data availability and privacy concerns. Thus, rather than striving for more data, we propose a single-for-multiple (S4M) framework, which seeks to facilitate the learning of the report generation model with two auxiliary priors: an explicit prior (\ie, feeding radiology-informed knowledge) and an implicit prior (\ie, guided by cross-modal features). Specifically, based on the conventional encoder-decoder report generation framework, we incorporate two extra branches: a Radiology-informed Knowledge Aggregation (RadKA) branch and an Implicit Prior Guidance (IPG) branch. We conduct the experiments on our merged dataset which consists of a public dataset (\ie, IU-Xray) and five private datasets, covering six body parts: chest, abdomen, knee, hip, wrist and shoulder. Our S4M model outperforms all the baselines, regardless of whether they are trained on separate or merged datasets. Code is available at: \url{https://github.com/YtongXie/S4M}.
翻訳日:2023-05-29 16:30:26 公開日:2023-05-26
# 確定変圧器の非教師付き事前訓練

Future-conditioned Unsupervised Pretraining for Decision Transformer ( http://arxiv.org/abs/2305.16683v1 )

ライセンス: Link先を確認
Zhihui Xie, Zichuan Lin, Deheng Ye, Qiang Fu, Wei Yang, Shuai Li(参考訳) オフライン強化学習(RL)の最近の研究は、リターン条件付き教師付き学習が意思決定問題の強力なパラダイムであることを示した。 有望な一方で、リターンコンディショニングは報酬をラベル付けしたトレーニングデータに限定されているため、教師なしのデータから学ぶことの難しさに直面する。 本研究では,無報酬データと非最適オフラインデータからの非教師なし事前学習を効率的に行うために,汎用的な将来の条件付けを活用することを目的とする。 我々は、教師なしRL事前学習のための概念的にシンプルなアプローチである事前学習決定変換器(PDT)を提案する。 pdtは、訓練中の行動を予測するための特権付きコンテキストとして、将来の軌道情報を活用する。 現状と将来の要因に基づいて意思決定を行う能力は、pdtの一般化能力を高める。 さらに、この機能は、将来の可能性に返却値を割り当て、それぞれの値に基づいて将来の埋め込みをサンプリングすることで、オンライン微調整のための返却条件付きフレームワークに簡単に組み込むことができる。 経験的に、PDTは、特に準最適データを扱う場合、教師付き事前訓練と同等または同等に性能を発揮する。 さらに分析した結果、PDTはオフラインデータから多様な振る舞いを抽出し、オンラインの微調整によって高返り動作を制御できることがわかった。 コードはここで入手できる。

Recent research in offline reinforcement learning (RL) has demonstrated that return-conditioned supervised learning is a powerful paradigm for decision-making problems. While promising, return conditioning is limited to training data labeled with rewards and therefore faces challenges in learning from unsupervised data. In this work, we aim to utilize generalized future conditioning to enable efficient unsupervised pretraining from reward-free and sub-optimal offline data. We propose Pretrained Decision Transformer (PDT), a conceptually simple approach for unsupervised RL pretraining. PDT leverages future trajectory information as a privileged context to predict actions during training. The ability to make decisions based on both present and future factors enhances PDT's capability for generalization. Besides, this feature can be easily incorporated into a return-conditioned framework for online finetuning, by assigning return values to possible futures and sampling future embeddings based on their respective values. Empirically, PDT outperforms or performs on par with its supervised pretraining counterpart, especially when dealing with sub-optimal data. Further analysis reveals that PDT can extract diverse behaviors from offline data and controllably sample high-return behaviors by online finetuning. Code is available at here.
翻訳日:2023-05-29 16:29:57 公開日:2023-05-26
# シャープエンドコサイン類似性に基づくハイパースペクトル画像分類のためのニューラルネットワーク

Sharpend Cosine Similarity based Neural Network for Hyperspectral Image Classification ( http://arxiv.org/abs/2305.16682v1 )

ライセンス: Link先を確認
Muhammad Ahmad(参考訳) ハイパースペクトル画像分類(HSIC)は、高いクラス間類似度と変動性、ネスト領域、重なり合いのため難しい課題である。 2D畳み込みニューラルネットワーク(CNN)は有効なネットワークとして登場したが、3D CNNは正確な分類のため、より良い代替手段である。 しかし、3d cnnは体積とスペクトル次元のため計算量が非常に複雑である。 さらに、ダウンサンプリングと階層フィルタリング(高周波)、すなわち、正確なHSICに不可欠な前方通過時にテクスチャ機能をスムースにする必要がある。 さらに、CNNはトレーニング時間を増加させる大量のチューニングパラメータを必要とする。 そのため,hsic用ニューラルネットワークにおける畳み込みの代替として,cosine similarity (scs) 概念のシャープ化が提案されている。 SCSは、非線形活性化層をスキップし、正規化し、SCS層の後にドロップアウトするため、例外的にパラメータ効率が良い。 MaxPoolの代わりにMaxAbsPoolを使用すると、たとえそれが負であっても、最も大きなアクティビティを持つ要素を選択する。 公開されているHSIデータセットの実験結果から、ニューラルネットワークの畳み込みと比較してSCSの性能が証明された。

Hyperspectral Image Classification (HSIC) is a difficult task due to high inter and intra-class similarity and variability, nested regions, and overlapping. 2D Convolutional Neural Networks (CNN) emerged as a viable network whereas, 3D CNNs are a better alternative due to accurate classification. However, 3D CNNs are highly computationally complex due to their volume and spectral dimensions. Moreover, down-sampling and hierarchical filtering (high frequency) i.e., texture features need to be smoothed during the forward pass which is crucial for accurate HSIC. Furthermore, CNN requires tons of tuning parameters which increases the training time. Therefore, to overcome the aforesaid issues, Sharpened Cosine Similarity (SCS) concept as an alternative to convolutions in a Neural Network for HSIC is introduced. SCS is exceptionally parameter efficient due to skipping the non-linear activation layers, normalization, and dropout after the SCS layer. Use of MaxAbsPool instead of MaxPool which selects the element with the highest magnitude of activity, even if it's negative. Experimental results on publicly available HSI datasets proved the performance of SCS as compared to the convolutions in Neural Networks.
翻訳日:2023-05-29 16:29:37 公開日:2023-05-26
# RankCSE: ランクへの学習による教師なしの文表現学習

RankCSE: Unsupervised Sentence Representations Learning via Learning to Rank ( http://arxiv.org/abs/2305.16726v1 )

ライセンス: Link先を確認
Jiduan Liu, Jiahao Liu, Qifan Wang, Jingang Wang, Wei Wu, Yunsen Xian, Dongyan Zhao, Kai Chen, Rui Yan(参考訳) 教師なし文表現学習は、様々な下流アプリケーションを用いた自然言語処理における基本的な問題の一つである。 近年,類似したセマンティクスを近付け,異義語を押し出すことによって高品質な文表現を導出するコントラスト学習が広く採用されている。 しかし、これらの方法は、各文が正か負かのいずれかとしてのみ扱われる文間の細粒度ランキング情報を捉えられなかった。 多くの現実世界のシナリオでは、クエリ文との類似性に基づいて、文章を区別してランク付けする必要がある。 本稿では,非教師付き文表現学習のための新しい手法である RankCSE を提案する。 特に,異なるドロップアウトマスクを持つ2つの表現間のランキング一貫性を確保し,教師からリストワイズランキング知識を蒸留することにより,意味論的識別文表現を学習する。 セマンティックテキスト類似性(STS)と転送タスク(TR)の両方について、広範な実験が実施されている。 実験結果は,いくつかの最先端ベースラインにおいて,提案手法の優れた性能を示す。

Unsupervised sentence representation learning is one of the fundamental problems in natural language processing with various downstream applications. Recently, contrastive learning has been widely adopted which derives high-quality sentence representations by pulling similar semantics closer and pushing dissimilar ones away. However, these methods fail to capture the fine-grained ranking information among the sentences, where each sentence is only treated as either positive or negative. In many real-world scenarios, one needs to distinguish and rank the sentences based on their similarities to a query sentence, e.g., very relevant, moderate relevant, less relevant, irrelevant, etc. In this paper, we propose a novel approach, RankCSE, for unsupervised sentence representation learning, which incorporates ranking consistency and ranking distillation with contrastive learning into a unified framework. In particular, we learn semantically discriminative sentence representations by simultaneously ensuring ranking consistency between two representations with different dropout masks, and distilling listwise ranking knowledge from the teacher. An extensive set of experiments are conducted on both semantic textual similarity (STS) and transfer (TR) tasks. Experimental results demonstrate the superior performance of our approach over several state-of-the-art baselines.
翻訳日:2023-05-29 16:22:03 公開日:2023-05-26
# 未知言語対におけるコードスイッチトテキスト合成

Code-Switched Text Synthesis in Unseen Language Pairs ( http://arxiv.org/abs/2305.16724v1 )

ライセンス: Link先を確認
I-Hung Hsu, Avik Ray, Shubham Garg, Nanyun Peng, Jing Huang(参考訳) コード切り換えのための既存のテキスト合成の取り組みは、主に対象言語ペアのコード切り換えテキストのトレーニングを必要とし、コード切り換えデータがない場合へのモデルのデプロイを制限する。 本研究では,学習データに欠落している言語ペアに対して,コード切り換えテキストを合成する問題について検討する。 GLOSSは、事前訓練された多言語機械翻訳モデル(PMMTM)の上に構築されたモデルであり、追加のコードスイッチングモジュールを備える。 このモジュールは、アダプタまたは追加プレフィックスのいずれかで、トレーニング中にコードスイッチングされたデータからコードスイッチングパターンを学習し、GLOSSの主要なコンポーネントであるPMMTMは凍結される。 コードスイッチングモジュールのみを調整する設計は、コードスイッチングのための制約付きトレーニングデータへの過度な適合を防止する。 したがって、GLOSSは、言語ペアの幅広い範囲にわたって、コード変更されたテキストを一般化し、合成する能力を示す。 さらに,GLOSSの信頼性を高めるために,対象言語対に対する自己学習アルゴリズムを開発した。 4つの言語ペアの自動評価は、GLOSSが少なくとも55%の相対BLEUとMETEORのスコアを、強いベースラインに比べて改善していることを示している。 2つの言語ペアに対する人間の評価は、GLOSSの成功をさらに検証する。

Existing efforts on text synthesis for code-switching mostly require training on code-switched texts in the target language pairs, limiting the deployment of the models to cases lacking code-switched data. In this work, we study the problem of synthesizing code-switched texts for language pairs absent from the training data. We introduce GLOSS, a model built on top of a pre-trained multilingual machine translation model (PMMTM) with an additional code-switching module. This module, either an adapter or extra prefixes, learns code-switching patterns from code-switched data during training, while the primary component of GLOSS, i.e., the PMMTM, is frozen. The design of only adjusting the code-switching module prevents our model from overfitting to the constrained training data for code-switching. Hence, GLOSS exhibits the ability to generalize and synthesize code-switched texts across a broader spectrum of language pairs. Additionally, we develop a self-training algorithm on target language pairs further to enhance the reliability of GLOSS. Automatic evaluations on four language pairs show that GLOSS achieves at least 55% relative BLEU and METEOR scores improvements compared to strong baselines. Human evaluations on two language pairs further validate the success of GLOSS.
翻訳日:2023-05-29 16:21:41 公開日:2023-05-26
# 歴史ヨーロッパの人々と場所--中世後期のテキストにおけるアノテーションパイプラインのブートストラップと名前付きエンティティの新しいコーパス

People and Places of Historical Europe: Bootstrapping Annotation Pipeline and a New Corpus of Named Entities in Late Medieval Texts ( http://arxiv.org/abs/2305.16718v1 )

ライセンス: Link先を確認
V\'it Novotn\'y, Krist\'yna Luger, Michal \v{S}tef\'anik, Tereza Vrabcov\'a, Ale\v{s} Hor\'ak(参考訳) 事前訓練された名前付きエンティティ認識(NER)モデルは現代のコーパスでは精度が高いが、言語OCRエラーの違いにより過去のテキストでは性能が劣る。 本研究では,チェコ語,ラテン語,ドイツ語を主とする中世後期の憲章から,3.6m文のnerコーパスを開発した。 まず,既知の歴史的人物と場所のリストと無注の歴史的テキストのコーパスから始めて,情報検索技術を用いてnerに注釈付きコーパスを自動的にブートストラップできることを示す。 このコーパスを用いて,手作業によるテストデータセット上で,エンティティレベルの精度72.81-93.98%,58.14-81.77%のリコールを実現するnerモデルをトレーニングする。 さらに,重み付き損失関数を用いることで,トークン分類タスクにおけるクラス不均衡に対処できることを示す。 他人の作業の再現と構築を容易にするために、私たちは、コーパス、モデル、実験的なコードを公開しています。

Although pre-trained named entity recognition (NER) models are highly accurate on modern corpora, they underperform on historical texts due to differences in language OCR errors. In this work, we develop a new NER corpus of 3.6M sentences from late medieval charters written mainly in Czech, Latin, and German. We show that we can start with a list of known historical figures and locations and an unannotated corpus of historical texts, and use information retrieval techniques to automatically bootstrap a NER-annotated corpus. Using our corpus, we train a NER model that achieves entity-level Precision of 72.81-93.98% with 58.14-81.77% Recall on a manually-annotated test dataset. Furthermore, we show that using a weighted loss function helps to combat class imbalance in token classification tasks. To make it easy for others to reproduce and build upon our work, we publicly release our corpus, models, and experimental code.
翻訳日:2023-05-29 16:21:18 公開日:2023-05-26
# 膝の自動標準ビューのための形状に基づくポーズ推定

Shape-based pose estimation for automatic standard views of the knee ( http://arxiv.org/abs/2305.16717v1 )

ライセンス: Link先を確認
Lisa Kausch, Sarina Thomas, Holger Kunze, Jan Siad El Barbari, Klaus Maier-Hein(参考訳) 複雑な膝関節骨折に対する外科的治療は, 移動型c-armを用いたリアルタイムイメージングにより誘導される。 即時かつ連続的な制御は、時間と放射線線量による試行錯誤のアプローチに従って現在手動で決定されている患者の位置に対する特定のC腕ポーズに対応する2D解剖学的特異な標準ビューによって達成される。 膝の標準的な視界の特徴は、個々の骨の形状情報が自動位置決めの手順を導出し、C腕位置決めの時間と不要な放射線量を減らすことを示唆している。 膝関節手術中のc-arm位置決め作業を完全に自動化するために,(1)自動的ラテナリティと標準視点分類,(2)1つの初期x線に基づく所望の標準視点に対する形状ベース姿勢回帰を可能にする完全枠組みを提案する。 ポーズ回帰パイプラインに意味情報を組み込むための適切な形状表現を提案する。 パイプラインは2つの異なる標準ビューを同時に扱うように設計されている。 aの3528個の合成x線と1386個の実x線を用いたシステムの性能評価実験を行った。 -p。 横方向の標準です その結果,シミュレーションでは100\%/98\%,実x線では99\%/98\%の精度が得られた。 ポーズ回帰性能は$d\theta_{aであった。 -p}=5.8\pm3.3\degree,\,d\theta_{lateral}=3.7\pm2.0\degree$ シミュレーションデータと$d\theta_{a。 -p}=7.4\pm5.0\degree,\,d\theta_{lateral}=8.4\pm5.4\degree$ 実データでは、強度に基づくポーズ回帰を上回っている。

Surgical treatment of complicated knee fractures is guided by real-time imaging using a mobile C-arm. Immediate and continuous control is achieved via 2D anatomy-specific standard views that correspond to a specific C-arm pose relative to the patient positioning, which is currently determined manually, following a trial-and-error approach at the cost of time and radiation dose. The characteristics of the standard views of the knee suggests that the shape information of individual bones could guide an automatic positioning procedure, reducing time and the amount of unnecessary radiation during C-arm positioning. To fully automate the C-arm positioning task during knee surgeries, we propose a complete framework that enables (1) automatic laterality and standard view classification and (2) automatic shape-based pose regression toward the desired standard view based on a single initial X-ray. A suitable shape representation is proposed to incorporate semantic information into the pose regression pipeline. The pipeline is designed to handle two distinct standard views simultaneously. Experiments were conducted to assess the performance of the proposed system on 3528 synthetic and 1386 real X-rays for the a.-p. and lateral standard. The view/laterality classificator resulted in an accuracy of 100\%/98\% on the simulated and 99\%/98\% on the real X-rays. The pose regression performance was $d\theta_{a.-p}=5.8\pm3.3\degree,\,d\theta_{lateral}=3.7\pm2.0\degree$ on the simulated data and $d\theta_{a.-p}=7.4\pm5.0\degree,\,d\theta_{lateral}=8.4\pm5.4\degree$ on the real data outperforming intensity-based pose regression.
翻訳日:2023-05-29 16:20:58 公開日:2023-05-26
# ReConpatch : 産業異常検出のためのコントラストパッチ表現学習

ReConPatch : Contrastive Patch Representation Learning for Industrial Anomaly Detection ( http://arxiv.org/abs/2305.16713v1 )

ライセンス: Link先を確認
Jeeho Hyun, Sangyun Kim, Giyoung Jeon, Seung Hwan Kim, Kyunghoon Bae, Byung Jun Kang(参考訳) 異常検出は、不正部品、ミスアライメント部品、工業製造における損傷などの製品欠陥の高度な同定に不可欠である。 まれな観察と未知の欠陥のため、異常検出は機械学習において困難であると考えられている。 この難しさを克服するために、最近のアプローチでは、自然画像データセットからの共通視覚表現を利用し、関連する特徴を蒸留している。 しかしながら、既存のアプローチでは、事前トレーニングされた機能とターゲットデータとの差異があるか、特に産業データセット用に慎重に設計されるべき入力拡張を必要とする。 本稿では,事前学習モデルに付随する線形変調を訓練することにより,異常検出のための識別機能を構築するReConPatchを提案する。 ReConPatchは、ターゲット指向で容易に分離可能な表現を生成する方法で、特徴の収集と配布に対照的な表現学習を採用している。 コントラスト学習におけるラベル付きペアの欠如に対処するために,データ表現を擬似ラベルとして,ペアワイズとコンテキスト的類似性という2つの類似度尺度を用いる。 以前の作業とは異なり、ReConPatchは広範囲な入力拡張なしで堅牢な異常検出性能を達成する。 本手法は,MVTec ADデータセットに対して,最先端の異常検出性能(99.72%)を実現する。

Anomaly detection is crucial to the advanced identification of product defects such as incorrect parts, misaligned components, and damages in industrial manufacturing. Due to the rare observations and unknown types of defects, anomaly detection is considered to be challenging in machine learning. To overcome this difficulty, recent approaches utilize the common visual representations from natural image datasets and distill the relevant features. However, existing approaches still have the discrepancy between the pre-trained feature and the target data, or require the input augmentation which should be carefully designed particularly for the industrial dataset. In this paper, we introduce ReConPatch, which constructs discriminative features for anomaly detection by training a linear modulation attached to a pre-trained model. ReConPatch employs contrastive representation learning to collect and distribute features in a way that produces a target-oriented and easily separable representation. To address the absence of labeled pairs for the contrastive learning, we utilize two similarity measures, pairwise and contextual similarities, between data representations as a pseudo-label. Unlike previous work, ReConPatch achieves robust anomaly detection performance without extensive input augmentation. Our method achieves the state-of-the-art anomaly detection performance (99.72%) for the widely used and challenging MVTec AD dataset.
翻訳日:2023-05-29 16:20:28 公開日:2023-05-26
# 超電導量子ビットを自律的にリセットする熱駆動量子冷凍機

Thermally driven quantum refrigerator autonomously resets superconducting qubit ( http://arxiv.org/abs/2305.16710v1 )

ライセンス: Link先を確認
Mohammed Ali Aamir, Paul Jamet Suria, Jos\'e Antonio Mar\'in Guzm\'an, Claudia Castillo-Moreno, Jeffrey M. Epstein, Nicole Yunger Halpern, Simone Gasparinetti(参考訳) 最初の熱機械は産業革命を後押ししたが、量子アナログはまだ有用ではない。 本稿では,超伝導回路から形成される量子吸収冷凍機について述べる。 利用可能な浴槽で実現可能な温度よりも低い温度に、トランスモンキュービットをリセットするために使用します。 プロセスは熱勾配によって駆動され、自律的であり、外部制御を必要としない。 この冷蔵庫は、熱環境に結合した2つの補助quditとターゲットqubitの3体インタラクションを、工学的に活用する。 環境はマイクロ波導波路と合成熱光子からなる。 目標量子ビットは、当初は完全に励起されていたとしても、安定状態の励起レベルである5\times10^{-4} \pm 5\times10^{-4}$(有効温度は23.5~mK)を1.6~$\mu$sで到達する。 本研究は,量子熱機械を量子情報処理タスクに活用する方法を実証する。 彼らはまた、超伝導回路と熱マイクロ波場の伝播に結合した量子熱力学の実験研究への道を開いた。

The first thermal machines steered the industrial revolution, but their quantum analogs have yet to prove useful. Here, we demonstrate a useful quantum absorption refrigerator formed from superconducting circuits. We use it to reset a transmon qubit to a temperature lower than that achievable with any one available bath. The process is driven by a thermal gradient and is autonomous -- requires no external control. The refrigerator exploits an engineered three-body interaction between the target qubit and two auxiliary qudits coupled to thermal environments. The environments consist of microwave waveguides populated with synthesized thermal photons. The target qubit, if initially fully excited, reaches a steady-state excited-level population of $5\times10^{-4} \pm 5\times10^{-4}$ (an effective temperature of 23.5~mK) in about 1.6~$\mu$s. Our results epitomize how quantum thermal machines can be leveraged for quantum information-processing tasks. They also initiate a path toward experimental studies of quantum thermodynamics with superconducting circuits coupled to propagating thermal microwave fields.
翻訳日:2023-05-29 16:20:08 公開日:2023-05-26
# 人間-AI連携のための人口訓練の階層的アプローチ

A Hierarchical Approach to Population Training for Human-AI Collaboration ( http://arxiv.org/abs/2305.16708v1 )

ライセンス: Link先を確認
Yi Loo, Chen Gong and Malika Meghjani(参考訳) 深層強化学習(DRL)エージェントにとっての大きな課題は、訓練期間中に遭遇しなかった新しいパートナーと協力することである。 これは、DRLエージェントがヒトの行動の一貫性の欠如によりヒトのパートナーと協調する際の行動応答のばらつきにより、特に悪化する。 近年の研究では、一人のエージェントを多様な訓練パートナーに対する最良の対応として訓練することで、新しいパートナーに対するエージェントの堅牢性が著しく向上することが示されている。 我々は,階層的強化学習(HRL)に基づく人間-AIコラボレーションの手法を導入することで,人口ベーストレーニングアプローチをさらに強化する。 エージェントは低レベルの政策として複数のベストレスポンスポリシーを学習できると同時に、エージェントが現在のパートナーに基づいて低レベルのベストレスポンスポリシーを動的に切り替えられるように、管理者として機能するハイレベルポリシーを学習することができる。 本手法は,2-player collaborative overcooked game環境において,異なるプレイスタイルとスキルレベルを持つ新規パートナーに動的に適応できることを実証する。 また, 実際の被験者と協力する際の方法の有効性を検証するため, 同じ環境下で人間実験を行った。

A major challenge for deep reinforcement learning (DRL) agents is to collaborate with novel partners that were not encountered by them during the training phase. This is specifically worsened by an increased variance in action responses when the DRL agents collaborate with human partners due to the lack of consistency in human behaviors. Recent work have shown that training a single agent as the best response to a diverse population of training partners significantly increases an agent's robustness to novel partners. We further enhance the population-based training approach by introducing a Hierarchical Reinforcement Learning (HRL) based method for Human-AI Collaboration. Our agent is able to learn multiple best-response policies as its low-level policy while at the same time, it learns a high-level policy that acts as a manager which allows the agent to dynamically switch between the low-level best-response policies based on its current partner. We demonstrate that our method is able to dynamically adapt to novel partners of different play styles and skill levels in the 2-player collaborative Overcooked game environment. We also conducted a human study in the same environment to test the effectiveness of our method when partnering with real human subjects.
翻訳日:2023-05-29 16:19:53 公開日:2023-05-26
# 分布シフト下での文脈内学習について

A Closer Look at In-Context Learning under Distribution Shifts ( http://arxiv.org/abs/2305.16704v1 )

ライセンス: Link先を確認
Kartik Ahuja, David Lopez-Paz(参考訳) インコンテキスト学習(In-context learning)は、重み付けの更新を必要とせずに、モデルがオンザフライで入力例から学習できる機能である。 本研究では(Garg et al., 2022) で提案された設定に従い、線形回帰の単純かつ基本的なタスクのレンズからコンテキスト内学習の一般性と限界をよりよく理解する。 トランスフォーマーは、様々な分散シフトの下でコンテキスト内学習を実行する際に、自然でシンプルなアーキテクチャよりも適していますか? 変換器を比較するために,セットベースマルチ層パーセプトロン(MLP)に基づくシンプルなアーキテクチャを提案する。 トランスフォーマーとセットベースのmlpの両方が、分布評価の下で文脈内学習を示すが、トランスフォーマーは通常の最小二乗形 (ols) の性能をよりよくエミュレートする。 トランスフォーマは、セットベースのmlpが崩壊する軽度な分散シフトに対するレジリエンスも向上する。 しかし、厳しい分布シフト下では、両方のモデルの文脈内学習能力が低下する。

In-context learning, a capability that enables a model to learn from input examples on the fly without necessitating weight updates, is a defining characteristic of large language models. In this work, we follow the setting proposed in (Garg et al., 2022) to better understand the generality and limitations of in-context learning from the lens of the simple yet fundamental task of linear regression. The key question we aim to address is: Are transformers more adept than some natural and simpler architectures at performing in-context learning under varying distribution shifts? To compare transformers, we propose to use a simple architecture based on set-based Multi-Layer Perceptrons (MLPs). We find that both transformers and set-based MLPs exhibit in-context learning under in-distribution evaluations, but transformers more closely emulate the performance of ordinary least squares (OLS). Transformers also display better resilience to mild distribution shifts, where set-based MLPs falter. However, under severe distribution shifts, both models' in-context learning abilities diminish.
翻訳日:2023-05-29 16:19:34 公開日:2023-05-26
# 機械学習における不確かさの源泉-統計学者の視点から

Sources of Uncertainty in Machine Learning -- A Statisticians' View ( http://arxiv.org/abs/2305.16703v1 )

ライセンス: Link先を確認
Cornelia Gruber, Patrick Oliver Schenk, Malte Schierholz, Frauke Kreuter, G\"oran Kauermann(参考訳) 機械学習とディープラーニングは今日、印象的な標準を達成し、数年前には理解できなかった質問に答えることができます。 これらの成功に加えて、多くの教師付き機械学習アルゴリズムの主要な強みである純粋な予測以外にも、不確実性の定量化が重要かつ必要であることが明らかになった。 この方向の最初の概念やアイデアは近年出現しているが、本稿では概念的な視点を採用し、不確実性の原因を考察する。 統計学者の視点を取り入れ、より機械学習に共通するアレテータ的・認識的不確実性の概念について論じる。 本論文は,2種類の不確実性の形式化を目標とし,不確実性の源は不均一であり,必ずしも動脈硬化とてんかんに分解できないことを示す。 また,機械学習における統計的概念と不確実性との類似性を示し,データの役割と不確実性への影響を実証する。

Machine Learning and Deep Learning have achieved an impressive standard today, enabling us to answer questions that were inconceivable a few years ago. Besides these successes, it becomes clear, that beyond pure prediction, which is the primary strength of most supervised machine learning algorithms, the quantification of uncertainty is relevant and necessary as well. While first concepts and ideas in this direction have emerged in recent years, this paper adopts a conceptual perspective and examines possible sources of uncertainty. By adopting the viewpoint of a statistician, we discuss the concepts of aleatoric and epistemic uncertainty, which are more commonly associated with machine learning. The paper aims to formalize the two types of uncertainty and demonstrates that sources of uncertainty are miscellaneous and can not always be decomposed into aleatoric and epistemic. Drawing parallels between statistical concepts and uncertainty in machine learning, we also demonstrate the role of data and their influence on uncertainty.
翻訳日:2023-05-29 16:19:16 公開日:2023-05-26
# pip:構文制御paraphrase生成のためのパースインストラクションプレフィックス

PIP: Parse-Instructed Prefix for Syntactically Controlled Paraphrase Generation ( http://arxiv.org/abs/2305.16701v1 )

ライセンス: Link先を確認
Yixin Wan, Kuan-Hao Huang, Kai-Wei Chang(参考訳) 構文制御されたパラフレーズ生成は、特定の構文構造に従って文のパラフレーズを生成する言語モデルを必要とする。 このタスクの既存の微調整方法は、トレーニングプロセス中にモデルのすべてのパラメータを更新する必要があるため、コストがかかる。 パラメータ効率学習の最近の研究から着想を得たParse-Instructed Prefix (PIP)を提案する。これはプレフィックスチューニングの新たな適応であり、構文的に制御されたパラフレーズ生成タスクで大きな事前学習言語モデルを調整し、トレーニングコストを大幅に削減する。 本稿では,モデルのエンコーダプレフィックスに構文関連知識(直接開始(PIP-Direct)と間接最適化(PIP-Indirect)の2つの手法を導入する。 このタスクの従来の微調整手法とは対照的に、PIPは学習可能なパラメータの10倍少ない計算効率の代替手段である。 既存のプレフィックスチューニング手法と比較して、PIPは構文制御情報の取得に優れ、学習可能なパラメータ数と同じレベルで大幅に高い性能を実現している。

Syntactically controlled paraphrase generation requires language models to generate paraphrases for sentences according to specific syntactic structures. Existing fine-tuning methods for this task are costly as all the parameters of the model need to be updated during the training process. Inspired by recent studies on parameter-efficient learning, we propose Parse-Instructed Prefix (PIP), a novel adaptation of prefix-tuning to tune large pre-trained language models on syntactically controlled paraphrase generation task in a low-data setting with significantly less training cost. We introduce two methods to instruct a model's encoder prefix to capture syntax-related knowledge: direct initiation (PIP-Direct) and indirect optimization (PIP-Indirect). In contrast to traditional fine-tuning methods for this task, PIP is a compute-efficient alternative with 10 times less learnable parameters. Compared to existing prefix-tuning methods, PIP excels at capturing syntax control information, achieving significantly higher performance at the same level of learnable parameter count.
翻訳日:2023-05-29 16:19:00 公開日:2023-05-26
# 国際協定における制度設計分析の自動化

Automating the Analysis of Institutional Design in International Agreements ( http://arxiv.org/abs/2305.16750v1 )

ライセンス: Link先を確認
Anna Wr\'oblewska, Bartosz Pieli\'nski, Karolina Seweryn, Sylwia Sysko-Roma\'nczuk, Karol Saputa, Aleksandra Wichrowska, Hanna Schreiber(参考訳) 本稿では,国際協定から形式的制度設計(規範,ルール,アクター)の自動知識抽出について考察する。 文化遺産関係の重要な側面を規制する形式的な制度デザインにおける俳優の可視性と中心性の関係を分析することが焦点であった。 開発ツールは、法的文書の収集、機関文法による注釈付け、グラフ解析による正式な制度設計の探索などの技術を利用している。 2003年のユネスコ条約(unesco convention for the safeguarding of the untangible cultural heritage)に対して実施された。

This paper explores the automatic knowledge extraction of formal institutional design - norms, rules, and actors - from international agreements. The focus was to analyze the relationship between the visibility and centrality of actors in the formal institutional design in regulating critical aspects of cultural heritage relations. The developed tool utilizes techniques such as collecting legal documents, annotating them with Institutional Grammar, and using graph analysis to explore the formal institutional design. The system was tested against the 2003 UNESCO Convention for the Safeguarding of the Intangible Cultural Heritage.
翻訳日:2023-05-29 16:13:10 公開日:2023-05-26
# 離散周辺防衛問題におけるシーケンシャルキャプチャのための分散型スパイク学習フレームワーク

A Decentralized Spike-based Learning Framework for Sequential Capture in Discrete Perimeter Defense Problem ( http://arxiv.org/abs/2305.16748v1 )

ライセンス: Link先を確認
Mohammed Thousif, Shridhar Velhal, Suresh Sundaram, and Shirin Dora(参考訳) 本稿では,自律型周辺防衛問題(d-PDP)のための分散スパイク学習(DSL)フレームワークを提案する。 ディフェンダーのチームが周囲で活動しており、円形の領域を放射状の侵入者から保護しています。 まず、d-PDPを時空間多重タスク代入問題(STMTA)として定式化する。 STMTAの問題はマルチラベル学習問題に変換され、ディフェンダーが周辺を保護するために訪れなければならないセグメントのラベルを得る。 DSLフレームワークは、Synaptic Efficacy Function Spiking neuRON(MLC-SEFRON)ネットワークを用いて、決定論的マルチラベル学習を行う。 各ディフェンダーは単一のMLC-SEFRONネットワークを含む。 各MLC-SEFRONネットワークは、独自の視点で独立に訓練される。 MLC-SEFRONネットワークへの入力スパイクは、余分な前処理ステップなしでディフェンダーと侵入者の時空間情報から直接得ることができる。 MLC-SEFRONの出力には、ディフェンダーが周辺を保護するために訪問しなければならないセグメントのラベルが含まれている。 MLC-SEFRON からのマルチラベル出力に基づいて、侵入者を捕捉するために Consensus-Based Bundle Algorithm (CBBA) を用いてディフェンダーに対して軌道を生成する。 MLC-SEFRONを訓練するためのターゲットマルチラベル出力は、エキスパートポリシーから得られる。 また、ディフェンダーのために訓練されたMLC-SEFRONは、リトレーニングなしで他のディフェンダーに割り当てられたセグメントのラベルを取得するために直接使用できる。 mlcセフロンの性能はディフェンダーの完全な観測と部分観測シナリオで評価されている。 DSLフレームワーク全体のパフォーマンスは、他の既存の学習アルゴリズムと共にエキスパートポリシーと比較されます。 DSLのスケーラビリティは、より多くのディフェンダーを使って評価されています。

This paper proposes a novel Decentralized Spike-based Learning (DSL) framework for the discrete Perimeter Defense Problem (d-PDP). A team of defenders is operating on the perimeter to protect the circular territory from radially incoming intruders. At first, the d-PDP is formulated as a spatio-temporal multi-task assignment problem (STMTA). The problem of STMTA is then converted into a multi-label learning problem to obtain labels of segments that defenders have to visit in order to protect the perimeter. The DSL framework uses a Multi-Label Classifier using Synaptic Efficacy Function spiking neuRON (MLC-SEFRON) network for deterministic multi-label learning. Each defender contains a single MLC-SEFRON network. Each MLC-SEFRON network is trained independently using input from its own perspective for decentralized operations. The input spikes to the MLC-SEFRON network can be directly obtained from the spatio-temporal information of defenders and intruders without any extra pre-processing step. The output of MLC-SEFRON contains the labels of segments that a defender has to visit in order to protect the perimeter. Based on the multi-label output from the MLC-SEFRON a trajectory is generated for a defender using a Consensus-Based Bundle Algorithm (CBBA) in order to capture the intruders. The target multi-label output for training MLC-SEFRON is obtained from an expert policy. Also, the MLC-SEFRON trained for a defender can be directly used for obtaining labels of segments assigned to another defender without any retraining. The performance of MLC-SEFRON has been evaluated for full observation and partial observation scenarios of the defender. The overall performance of the DSL framework is then compared with expert policy along with other existing learning algorithms. The scalability of the DSL has been evaluated using an increasing number of defenders.
翻訳日:2023-05-29 16:13:01 公開日:2023-05-26
# 単一ソース領域一般化のためのCNN特徴マップの拡張

CNN Feature Map Augmentation for Single-Source Domain Generalization ( http://arxiv.org/abs/2305.16746v1 )

ライセンス: Link先を確認
Aristotelis Ballas and Christos Diou(参考訳) 堅牢で一般化可能な機械学習モデルを探す中で、ドメイン一般化(DG)はここ数年で大きな注目を集めている。 DGの目標は、トレーニング中に見られるものと異なるデータ分散を提示した場合に、引き続き正常に機能するモデルを作成することだ。 深層畳み込みニューラルネットワーク(CNN)は、下流のコンピュータビジョンタスクで優れたパフォーマンスを達成できたが、これまで見つからなかったデータドメインの一般化に失敗することが多い。 そこで本研究では,データ分散シフト時においても頑健なモデルを作成することに注力し,単一ソースdg画像分類における畳み込みニューラルネットワークアーキテクチャのための代替正規化手法を提案する。 ソースとターゲットデータ間のドメインシフトによる問題を軽減するため、cnnの中間特徴マップの強化を提案する。 具体的には、モデルがトレーニングセットを過度に満たさないように新しい拡張層を通し、それらのクロスドメインの一般化を改善します。 我々の知る限りでは、DG画像分類設定にそのような設定を提案する最初の論文である。 PACS,VLCS,Office-Home,TerraIncognitaのDGベンチマークデータセットを用いた実験により,本手法の有効性が検証された。

In search of robust and generalizable machine learning models, Domain Generalization (DG) has gained significant traction during the past few years. The goal in DG is to produce models which continue to perform well when presented with data distributions different from the ones seen during training. While deep convolutional neural networks (CNN) have been able to achieve outstanding performance on downstream computer vision tasks, they still often fail to generalize on previously unseen data Domains. Therefore, in this work we focus on producing a model which is able to remain robust under data distribution shift and propose an alternative regularization technique for convolutional neural network architectures in the single-source DG image classification setting. To mitigate the problem caused by domain shift between source and target data, we propose augmenting intermediate feature maps of CNNs. Specifically, we pass them through a novel Augmentation Layer to prevent models from overfitting on the training set and improve their cross-domain generalization. To the best of our knowledge, this is the first paper proposing such a setup for the DG image classification setting. Experiments on the DG benchmark datasets of PACS, VLCS, Office-Home and TerraIncognita validate the effectiveness of our method, in which our model surpasses state-of-the-art algorithms in most cases.
翻訳日:2023-05-29 16:12:37 公開日:2023-05-26
# 新しいレイテンシーを導入することなくパラメーター効率の良い微調整

Parameter-Efficient Fine-Tuning without Introducing New Latency ( http://arxiv.org/abs/2305.16742v1 )

ライセンス: Link先を確認
Baohao Liao, Yan Meng, Christof Monz(参考訳) 事前学習された言語モデルのパラメータ効率の良い微調整(PEFT)は、最近顕著な成果を示し、訓練可能なパラメータを著しく少なくして、完全な微調整の性能を効果的にマッチングし、ストレージと通信の制約に対処している。 それにもかかわらず、様々なPEFT法はその特性によって制限されている。 既存のパラメータの小さなサブセットだけを変更するスパース微調整の場合、微調整パラメータの選択はタスクとドメイン固有であり、連合学習には適さない。 一方、新しいパラメータを追加するPEFTメソッドは、通常、追加の推論遅延を導入する。 本稿では,すべての下流タスクが共通のマスクを共有するタスク非依存の方法でスパースマスクを生成可能であることを示す。 提案手法は,事前学習したパラメータの等級情報のみに依存し,GLUEベンチマークで評価した場合,既存の手法をかなり上回っている。 さらに,隠れ表現の代わりに予め学習したパラメータに直接アダプタを適用する新しいアダプタ技術を導入することにより,完全な微調整を行う場合と同一の推論速度を実現する。 広範な実験により,提案手法は性能と記憶効率の両面で新たな結果を得ることができ,完全な微調整のパラメータは0.03%であった。

Parameter-efficient fine-tuning (PEFT) of pre-trained language models has recently demonstrated remarkable achievements, effectively matching the performance of full fine-tuning while utilizing significantly fewer trainable parameters, and consequently addressing the storage and communication constraints. Nonetheless, various PEFT methods are limited by their inherent characteristics. In the case of sparse fine-tuning, which involves modifying only a small subset of the existing parameters, the selection of fine-tuned parameters is task- and domain-specific, making it unsuitable for federated learning. On the other hand, PEFT methods with adding new parameters typically introduce additional inference latency. In this paper, we demonstrate the feasibility of generating a sparse mask in a task-agnostic manner, wherein all downstream tasks share a common mask. Our approach, which relies solely on the magnitude information of pre-trained parameters, surpasses existing methodologies by a significant margin when evaluated on the GLUE benchmark. Additionally, we introduce a novel adapter technique that directly applies the adapter to pre-trained parameters instead of the hidden representation, thereby achieving identical inference speed to that of full fine-tuning. Through extensive experiments, our proposed method attains a new state-of-the-art outcome in terms of both performance and storage efficiency, storing only 0.03% parameters of full fine-tuning.
翻訳日:2023-05-29 16:12:15 公開日:2023-05-26
# 言語的欠落の対面における結束分解

Conjunct Resolution in the Face of Verbal Omissions ( http://arxiv.org/abs/2305.16740v1 )

ライセンス: Link先を確認
Royi Rassin, Yoav Goldberg, Reut Tsarfaty(参考訳) 動詞の省略はvpコーディネーション構造における複雑な構文現象である。 動詞と(一部の)引数が初期節で明示的に記述された後、後続の節から省略されたときに発生する。 これらの省略された要素の復元は文の正確な解釈に必要であり、人間が不足した情報を簡単かつ直感的に埋める一方で、最先端のモデルはこの課題に苦しむ。 以前の作業は、小規模データセット、合成データ作成メソッド、依存関係グラフレベルでの解決メソッドに限られている。 本研究では,テキスト上で直接動作し,コーディネーション構造における欠落要素を復元するために,分割・修正パラダイムを用いた結合分解タスクを提案する。 そこで,我々はまず,異なる種類の欠落を記述した言語的欠失の実用的枠組みを定式化し,スケーラブルな自動収集手法を開発した。 本手法を応用して,自然に発生する動詞の省略例を10万件以上を含む大規模なデータセットを収集する。 我々は、このタスクのために様々な神経ベースラインをトレーニングし、最良の手法が適切なパフォーマンスを得る一方で、改善のための十分なスペースを残していることを示す。 このトピックに関する今後の研究の出発点として、データセット、メトリクス、モデルを提案する。

Verbal omissions are complex syntactic phenomena in VP coordination structures. They occur when verbs and (some of) their arguments are omitted from subsequent clauses after being explicitly stated in an initial clause. Recovering these omitted elements is necessary for accurate interpretation of the sentence, and while humans easily and intuitively fill in the missing information, state-of-the-art models continue to struggle with this task. Previous work is limited to small-scale datasets, synthetic data creation methods, and to resolution methods in the dependency-graph level. In this work we propose a conjunct resolution task that operates directly on the text and makes use of a split-and-rephrase paradigm in order to recover the missing elements in the coordination structure. To this end, we first formulate a pragmatic framework of verbal omissions which describes the different types of omissions, and develop an automatic scalable collection method. Based on this method, we curate a large dataset, containing over 10K examples of naturally-occurring verbal omissions with crowd-sourced annotations of the resolved conjuncts. We train various neural baselines for this task, and show that while our best method obtains decent performance, it leaves ample space for improvement. We propose our dataset, metrics and models as a starting point for future research on this topic.
翻訳日:2023-05-29 16:11:52 公開日:2023-05-26
# AlignScore: 統一アライメント関数による実整合性の評価

AlignScore: Evaluating Factual Consistency with a Unified Alignment Function ( http://arxiv.org/abs/2305.16739v1 )

ライセンス: Link先を確認
Yuheng Zha, Yichi Yang, Ruichen Li, Zhiting Hu(参考訳) 多くのテキスト生成アプリケーションは、生成したテキストが実際に入力情報と一致していることを要求する。 事実整合性の自動評価は困難である。 これまでの研究は、自然言語推論(NLI)や質問応答(QA)といった、限られたデータに基づいて訓練された特定の機能に依存する様々なメトリクスを開発してきた。 したがって、これらの指標は、異なるタスクから様々な入力/出力(例えば、文、文書)で発生する多様な事実の矛盾(例えば、矛盾、幻覚)を評価できない。 本稿では,上述の様々な事実的不整合シナリオに適用可能な新しい総括的計量であるalignedscoreを提案する。 AlignScoreは2つの任意のテキスト片間の情報アライメントの一般的な機能に基づいている。 重要な点として,多種多様なデータソースを統合することでアライメント機能の統一的なトレーニングフレームワークを開発する。その結果,NLI,QA,パラフレージング,事実検証,情報検索,意味的類似性,要約)から4.7Mのトレーニング例が得られた。 我々は22の評価データセットを含む大規模ベンチマークで広範な実験を行い、19のデータセットはアライメントトレーニングでは見られなかった。 AlignScoreは、以前の幅広いメトリクスよりも大幅に改善されている。 さらにAlignScore(3億5500万のパラメータ)は、ChatGPTとGPT-4に基づいて、桁数が桁違いに大きいメトリクスにマッチする。

Many text generation applications require the generated text to be factually consistent with input information. Automatic evaluation of factual consistency is challenging. Previous work has developed various metrics that often depend on specific functions, such as natural language inference (NLI) or question answering (QA), trained on limited data. Those metrics thus can hardly assess diverse factual inconsistencies (e.g., contradictions, hallucinations) that occur in varying inputs/outputs (e.g., sentences, documents) from different tasks. In this paper, we propose AlignScore, a new holistic metric that applies to a variety of factual inconsistency scenarios as above. AlignScore is based on a general function of information alignment between two arbitrary text pieces. Crucially, we develop a unified training framework of the alignment function by integrating a large diversity of data sources, resulting in 4.7M training examples from 7 well-established tasks (NLI, QA, paraphrasing, fact verification, information retrieval, semantic similarity, and summarization). We conduct extensive experiments on large-scale benchmarks including 22 evaluation datasets, where 19 of the datasets were never seen in the alignment training. AlignScore achieves substantial improvement over a wide range of previous metrics. Moreover, AlignScore (355M parameters) matches or even outperforms metrics based on ChatGPT and GPT-4 that are orders of magnitude larger.
翻訳日:2023-05-29 16:11:33 公開日:2023-05-26
# ampere: 生成型イベント引数抽出モデルのためのamr対応プレフィックス

AMPERE: AMR-Aware Prefix for Generation-Based Event Argument Extraction Model ( http://arxiv.org/abs/2305.16734v1 )

ライセンス: Link先を確認
I-Hung Hsu, Zhiyu Xie, Kuan-Hao Huang, Prem Natarajan, Nanyun Peng(参考訳) イベント引数抽出(EAE)は、イベント引数とその特定のイベントに対する役割を特定する。 世代ベースAEモデルの最近の進歩は、分類ベースモデルよりも優れた性能と一般化性を示している。 しかし、既存の世代ベースEAEモデルは、入力パスの抽象的意味表現(AMR)のような分類ベースモデルに有効であることが示されている追加情報を導入することなく、主に問題再定式化と迅速な設計に焦点を当てている。 このような情報を生成ベースモデルに組み込むことは、生成ベースモデルやAMRの構造形式で広く使われている自然言語形式の異種性のために困難である。 本研究では,AMRを世代ベースEAEモデルに組み込む戦略について検討する。 生成モデルのすべての層に対してAMR対応プレフィックスを生成するAMPEREを提案する。 これにより、プレフィックスは、AMR情報を生成ベースEAEモデルに導入し、生成を改善する。 また、AMPEREに調整されたコピー機構を導入し、AMRグラフによる潜在的なノイズを克服する。 ACE2005とEREデータセットに関する総合的な実験と分析により、AMPEREはトレーニングデータを減らすことで、4%から10%の絶対的なF1スコアの改善が可能であり、一般的にはトレーニングサイズによって強力であることが示された。

Event argument extraction (EAE) identifies event arguments and their specific roles for a given event. Recent advancement in generation-based EAE models has shown great performance and generalizability over classification-based models. However, existing generation-based EAE models mostly focus on problem re-formulation and prompt design, without incorporating additional information that has been shown to be effective for classification-based models, such as the abstract meaning representation (AMR) of the input passages. Incorporating such information into generation-based models is challenging due to the heterogeneous nature of the natural language form prevalently used in generation-based models and the structured form of AMRs. In this work, we study strategies to incorporate AMR into generation-based EAE models. We propose AMPERE, which generates AMR-aware prefixes for every layer of the generation model. Thus, the prefix introduces AMR information to the generation-based EAE model and then improves the generation. We also introduce an adjusted copy mechanism to AMPERE to help overcome potential noises brought by the AMR graph. Comprehensive experiments and analyses on ACE2005 and ERE datasets show that AMPERE can get 4% - 10% absolute F1 score improvements with reduced training data and it is in general powerful across different training sizes.
翻訳日:2023-05-29 16:11:06 公開日:2023-05-26
# 感情分析の前提条件としての感情体験者認識

Emotion Experiencer Recognition as a Prerequisite for Experiencer-Specific Emotion Analysis ( http://arxiv.org/abs/2305.16731v1 )

ライセンス: Link先を確認
Maximilian Wegge and Roman Klinger(参考訳) 感情役割ラベリングは、感情、理由、そして誰に向かって経験するために、テキストで記述された誰かを抽出することを目的としている。 これはしばしば難しいモデリングタスクであり、答えるべき主な質問が誰がどの感情を感じているかであるなら、あまりにも洗練されたものです。 最近、troiano et al. (2022) は感情ラベルと評価ラベルをテキスト内の個々のエンティティに割り当てることに焦点を当てたデータセットを提案し、wegge et al. (2022) は最初のモデリング実験を発表した。 しかし、経験者特有の感情予測モデルは、自動経験者検出アプローチが利用できないため、ゴールド注釈経験者でのみ評価されている。 このギャップを、テキスト中の感情体験者を自動的に検出し、その後、感情を割り当てる最初の実験で埋める。 テキストにおける経験者検出は.82の精度と.56のリコール(f1 =.66)の難しい課題である。 その結果、経験者固有の感情検出パイプラインの性能は、金の経験者アノテーションに比べて低下する。 これは、感情経験者検出と感情/評価認識を共同でモデル化する将来の仕事のモチベーションとなる。

Emotion role labeling aims at extracting who is described in text to experience an emotion, why, and towards whom. This is often a challenging modelling task which might be overly sophisticated if the main question to answer is who feels which emotion. Recently, Troiano et al. (2022) proposed a data set that focuses on assigning emotion labels and appraisal labels to individual entities in text and Wegge et al. (2022) presented the first modelling experiments. Their experiencer-specific emotion prediction model has, however, only been evaluated on gold-annotated experiencers, due to the unavailability of an automatic experiencer detection approach. We fill this gap with the first experiments to automatically detect emotion experiencers in text and, subsequently, assign them emotions. We show that experiencer detection in text is a challenging task, with a precision of .82 and a recall of .56 (F1 =.66). Consequently, the performance of the experiencer-specific emotion detection pipeline drops with these predictions in comparison to using gold experiencer annotations. This motivates future work of jointly modelling emotion experiencer detection and emotion/appraisal recognition.
翻訳日:2023-05-29 16:10:44 公開日:2023-05-26
# convolutional generative adversarial networkによるカオス時系列生成の評価

Evaluating generation of chaotic time series by convolutional generative adversarial networks ( http://arxiv.org/abs/2305.16729v1 )

ライセンス: Link先を確認
Yuki Tanaka and Yutaka Yamaguti(参考訳) 複雑な時間的信号を模倣する時系列を生成する畳み込みニューラルネットワークの能力と限界を理解するために、深層畳み込みネットワークからなる生成逆ネットワークを訓練し、カオス時系列を生成し、非線形時系列解析を用いて生成時系列を評価する。 決定論の数値尺度と軌道不安定性の尺度であるリャプノフ指数は、生成した時系列が元の時系列のカオス特性をよく再現していることを示した。 しかし, 誤差分布解析の結果, 大きな誤差は低いが無視できない速度で現れた。 このような誤差は、分布が指数関数的であると仮定しても予想されない。

To understand the ability and limitations of convolutional neural networks to generate time series that mimic complex temporal signals, we trained a generative adversarial network consisting of deep convolutional networks to generate chaotic time series and used nonlinear time series analysis to evaluate the generated time series. A numerical measure of determinism and the Lyapunov exponent, a measure of trajectory instability, showed that the generated time series well reproduce the chaotic properties of the original time series. However, error distribution analyses showed that large errors appeared at a low but non-negligible rate. Such errors would not be expected if the distribution were assumed to be exponential.
翻訳日:2023-05-29 16:10:23 公開日:2023-05-26
# YOLOv8を用いたリアルタイム不整脈検出のための新しい応用

A novel application for real-time arrhythmia detection using YOLOv8 ( http://arxiv.org/abs/2305.16727v1 )

ライセンス: Link先を確認
G. J. N. Ang, A. K. Goil, H. Chan, X. C. Lee, R. B. A. Mustaffa, T. Jason, Z. T. Woon and B. Shen(参考訳) 近年,心臓血管の健康状態の遠隔モニタリングにおいて,医療費の削減の必要性が高まっている。 心不整脈の検出と分類は心疾患患者の診断に重要である。 本稿では,心電図(ECG)などの複雑なシステムを家庭内モニタリングに適用できることを示す。 本稿では,最新のYou-Only-Look-Once (YOLO)v8アルゴリズムを用いた不整脈検出のための新しい手法を提案する。 カスタムのYOLOv8モデルはMIT-BIHデータセットで微調整され、不整脈をリアルタイムで検出し、継続的な監視を可能にした。 その結果,nvidia tesla v100 の 0.002s 検出時間で 0.961 の map@50 で心拍を検出できることがわかった。 本研究は, 実時間不整脈検出の可能性を示し, 家庭内ユーザに対して, モデル出力を視覚的に解釈できることを示した。 さらに、この研究は、リアルタイムXAIモデルに拡張され、医療業界に展開され、医療ニーズが大幅に向上する可能性がある。

In recent years, there has been an increasing need to reduce healthcare costs in remote monitoring of cardiovascular health. Detecting and classifying cardiac arrhythmia is critical to diagnosing patients with cardiac abnormalities. This paper shows that complex systems such as electrocardiograms (ECG) can be applicable for at-home monitoring. This paper proposes a novel application for arrhythmia detection using the state-of-the-art You-Only-Look-Once (YOLO)v8 algorithm to classify single-lead ECG signals. A custom YOLOv8 model was fine-tuned on the MIT-BIH dataset to detect arrhythmia in real-time to allow continuous monitoring. Results show that our model can detect heartbeats with a mAP@50 of 0.961 with a detection time of 0.002s on an NVIDIA Tesla V100. Our study demonstrated the potential of real-time arrhythmia detection, where the model output can be visually interpreted for at-home users. Furthermore, this study could be extended into a real-time XAI model, deployed in the healthcare industry, and significantly advancing healthcare needs.
翻訳日:2023-05-29 16:10:12 公開日:2023-05-26
# 中毒攻撃時のロバスト非パラメトリック回帰

Robust Nonparametric Regression under Poisoning Attack ( http://arxiv.org/abs/2305.16771v1 )

ライセンス: Link先を確認
Puning Zhao, Zhiguo Wan(参考訳) 本稿では,攻撃者が最大$q$のトレーニングデータセットから,最大$q$のサンプル値を変更することができるロバストな非パラメトリック回帰法について検討する。 初期解法はハマー損失最小化に基づくM推定器である。 単純なカーネル回帰、すなわちNadaraya-Watson推定器と比較して、この手法は、悪意のあるサンプルが回帰性能に与える影響を著しく弱める。 収束率とそれに対応するミニマックス下限を提供する。 その結果、適切な帯域選択により、$\ell_\infty$エラーがminimax最適となる。 $\ell_2$エラーは$q\lesssim \sqrt{N/\ln^2N}$の場合最適であるが、より大きい$q$では最適である。 この推定器は、小さな領域に集中している多くの攻撃されたサンプルが存在する場合、脆弱である。 この問題に対処するために,初期推定をリプシッツ関数の空間に投影する補正法を提案する。 最後の見積もりは、任意の$q$に対してほぼ最小値であり、$\ln N$ factorまでである。

This paper studies robust nonparametric regression, in which an adversarial attacker can modify the values of up to $q$ samples from a training dataset of size $N$. Our initial solution is an M-estimator based on Huber loss minimization. Compared with simple kernel regression, i.e. the Nadaraya-Watson estimator, this method can significantly weaken the impact of malicious samples on the regression performance. We provide the convergence rate as well as the corresponding minimax lower bound. The result shows that, with proper bandwidth selection, $\ell_\infty$ error is minimax optimal. The $\ell_2$ error is optimal if $q\lesssim \sqrt{N/\ln^2 N}$, but is suboptimal with larger $q$. The reason is that this estimator is vulnerable if there are many attacked samples concentrating in a small region. To address this issue, we propose a correction method by projecting the initial estimate to the space of Lipschitz functions. The final estimate is nearly minimax optimal for arbitrary $q$, up to a $\ln N$ factor.
翻訳日:2023-05-29 16:03:32 公開日:2023-05-26
# 多言語言語モデルにおける言語間伝達の寄与要因の共通理解に向けて

Towards a Common Understanding of Contributing Factors for Cross-Lingual Transfer in Multilingual Language Models: A Review ( http://arxiv.org/abs/2305.16768v1 )

ライセンス: Link先を確認
Fred Philippy, Siwen Guo, Shohreh Haddadan(参考訳) 近年,MLLM (Pre-trained Multilingual Language Models) は様々な言語間で知識を伝達する強力な能力を示している。 しかし、そのような能力の願望がMLLMの大多数の設計に明示的に組み込まれていないことを考えると、その出現について独特で分かりやすい説明を得ることは困難である。 本稿では,MLLMのゼロショット言語間移動能力に寄与する諸要因を調査し,その後,これらの要因を詳細に概説する。 本レビューの構造を強化し,今後の研究と統合することを容易にするため,これらの因子の5つのカテゴリを同定した。 過去の研究から得られた実証的証拠の要約に加えて、一貫した発見を伴う研究の間でのコンセンサスを特定し、矛盾する研究間での紛争を解決する。 本研究は,MLLMの言語間ポテンシャルを説明するために,既存の研究ストリームを文脈化・統合する。 このレビューは、まず、将来の研究のための整合した基準点を提供し、次に、MLLMの言語間能力を活用するためのより良いインフォームドおよびより効率的な方法のガイダンスを提供する。

In recent years, pre-trained Multilingual Language Models (MLLMs) have shown a strong ability to transfer knowledge across different languages. However, given that the aspiration for such an ability has not been explicitly incorporated in the design of the majority of MLLMs, it is challenging to obtain a unique and straightforward explanation for its emergence. In this review paper, we survey literature that investigates different factors contributing to the capacity of MLLMs to perform zero-shot cross-lingual transfer and subsequently outline and discuss these factors in detail. To enhance the structure of this review and to facilitate consolidation with future studies, we identify five categories of such factors. In addition to providing a summary of empirical evidence from past studies, we identify consensuses among studies with consistent findings and resolve conflicts among contradictory ones. Our work contextualizes and unifies existing research streams which aim at explaining the cross-lingual potential of MLLMs. This review provides, first, an aligned reference point for future research and, second, guidance for a better-informed and more efficient way of leveraging the cross-lingual capacity of MLLMs.
翻訳日:2023-05-29 16:03:13 公開日:2023-05-26
# バックパック言語モデル

Backpack Language Models ( http://arxiv.org/abs/2305.16765v1 )

ライセンス: Link先を確認
John Hewitt, John Thickstun, Christopher D. Manning, Percy Liang(参考訳) Backpacks: 解釈性と制御のためのインターフェースを備えた強力なモデリングパフォーマンスをマージする,新たなニューラルアーキテクチャを提案する。 バックパックは語彙で各単語の複数の非文脈感覚ベクトルを学習し、このシーケンスにおける感覚ベクトルの文脈依存的、非負の線形結合としてシーケンス内の単語を表現する。 学習のあと、感覚ベクトルが特殊化され、それぞれが単語の異なる側面を符号化することがわかった。 感覚ベクトルは、その(非文脈的、直線的)射影を出力空間に検査することで解釈でき、これらの解釈可能なフックに介入して、予測可能な方法でモデルの振る舞いを変えることができる。 我々はOpenWebText上で170MパラメータのBackpack言語モデルをトレーニングし、GPT-2の小さい(124Mparameter)トランスの損失と一致する。 語彙的類似性評価では,Backpack の感覚ベクトルは 6B パラメータ変換器 LM の単語埋め込みよりも優れていた。 最後に,感覚ベクトルに干渉して制御可能なテキスト生成とデバイアスを行う単純なアルゴリズムを提案する。 例えば、センセーショナル語彙を編集してトピックに傾向を向けたり、ジェンダーバイアスのソースをセンスベクトルにローカライズしたり、そのセンスを世界規模で抑制することができる。

We present Backpacks: a new neural architecture that marries strong modeling performance with an interface for interpretability and control. Backpacks learn multiple non-contextual sense vectors for each word in a vocabulary, and represent a word in a sequence as a context-dependent, non-negative linear combination of sense vectors in this sequence. We find that, after training, sense vectors specialize, each encoding a different aspect of a word. We can interpret a sense vector by inspecting its (non-contextual, linear) projection onto the output space, and intervene on these interpretable hooks to change the model's behavior in predictable ways. We train a 170M-parameter Backpack language model on OpenWebText, matching the loss of a GPT-2 small (124Mparameter) Transformer. On lexical similarity evaluations, we find that Backpack sense vectors outperform even a 6B-parameter Transformer LM's word embeddings. Finally, we present simple algorithms that intervene on sense vectors to perform controllable text generation and debiasing. For example, we can edit the sense vocabulary to tend more towards a topic, or localize a source of gender bias to a sense vector and globally suppress that sense.
翻訳日:2023-05-29 16:02:53 公開日:2023-05-26
# グラフェンの電磁応答とカシミール効果による分散関係に関する量子場理論の枠組み

Quantum field theoretical framework for the electromagnetic response of graphene and dispersion relations with implications to the Casimir effect ( http://arxiv.org/abs/2305.16762v1 )

ライセンス: Link先を確認
G. L. Klimchitskaya and V. M. Mostepanenko(参考訳) 偏極テンソルを用いた量子場理論の第一原理に基づいて得られるグラフェンの空間的非局所応答関数は、オンザ質量殻波とオフザ質量殻波の両方の領域において考慮される。 s は、ゼロ周波数ではグラフェンの長手誘電率を正則関数とし、逆のものは任意の非零波ベクトルに対して二重極を持つことを示した。 以上の結果から, 縦・横両方の誘電率は, 実部と虚部を連結する分散(クラマース・クロニッヒ)関係を満足し, 虚部を介する虚数周波数軸に沿った各誘電率を表現する。 逆誘電率については、二重極の存在による分散関係に生じる追加項の形式が見出される。 分散関係の形式は、空間的非局所性の存在下で実周波数軸上に生じる分岐点に影響されない。 得られた結果は, 金属の応答関数をよく研究した際, 測定データと矛盾することが判明したリフシッツ理論のよく知られた問題と関連して議論された。 この問題に対するグラフェンのケースに基づく攻撃の可能な方法が提案されている。

The spatially nonlocal response functions of graphene obtained on the basis of first principles of quantum field theory using the polarization tensor are considered in the areas of both the on-the-mass-shell and off-the-mass-shell waves. It s shown that at zero frequency the longitudinal permittivity of graphene is the regular function, whereas the transverse one possesses a double pole for any nonzero wave vector. According to our results, both the longitudinal and transverse permittivities satisfy the dispersion (Kramers-Kronig) relations connecting their real and imaginary parts, as well as expressing each of these permittivities along the imaginary frequency axis via its imaginary part. For the transverse permittivity, the form of an additional term arising in the dispersion relations due to the presence of a double pole is found. The form of dispersion relations is unaffected by the branch points which arise on the real frequency axis in the presence of spatial nonlocality. The obtained results are discussed in connection with the well known problem of the Lifshitz theory which was found to be in conflict with the measurement data when using the much studied response function of metals. A possible way of attack on this problem based on the case of graphene is suggested.
翻訳日:2023-05-29 16:02:29 公開日:2023-05-26
# 自由電子レーザー放射の量子記述と非線形振幅方程式

Quantum Description of Free Electron Laser Radiation and Nonlinear Amplitude Equations ( http://arxiv.org/abs/2305.16761v1 )

ライセンス: Link先を確認
Zhichu Chen and Stephan I. Tzenov(参考訳) 量子FEL力学を記述する相対論的量子力学モデルを開発した。 衝突するビーム内の電子のスピンを無視したこのモデルは、空間電荷ポテンシャルのポアソン方程式と放射場の横成分の波動方程式とを結合したクライン・ゴルドン方程式に基づいている。 さらに、電子ビーム分布と放射磁場のゆっくりと変化する振幅に対する非線形エンベロープ方程式の結合式が導出されている。 基本方程式の基本系は適切な流体力学定式化にキャスティングされている。 流体力学表現の枠組みでは、電子ビームの空間電荷振動を考慮した量子と準古典的状態の両方において、新しい分散関係が導かれ、解析されている。

A relativistic quantum mechanical model to describe the quantum FEL dynamics has been developed. Neglecting the spin of electrons in the impacting beam, this model is based on the Klein-Gordon equation coupled to the Poisson equation for the space-charge potential and the wave equation for the transverse components of the radiation field. Furthermore, a system of coupled nonlinear envelope equations for the slowly varying amplitudes of the electron beam distribution and the radiation field has been derived. The fundamental system of basic equations have been cast into a suitable hydrodynamic formulation. In the framework of the hydrodynamic representation, a new dispersion relation has been derived and analyzed in both the quantum and the quasi-classical regimes, where the space-charge oscillations of the electron beam are taken into account.
翻訳日:2023-05-29 16:02:07 公開日:2023-05-26
# StyleHumanCLIP:StyleGAN-Human用テキストガイドガーメントマニピュレーション

StyleHumanCLIP: Text-guided Garment Manipulation for StyleGAN-Human ( http://arxiv.org/abs/2305.16759v1 )

ライセンス: Link先を確認
Takato Yoshikawa, Yuki Endo, Yoshihiro Kanamori(参考訳) 本稿では,フルボディの人体画像における衣服編集のためのスタイルGANのテキスト誘導制御に取り組む。 既存のスタイルガンベースの方法は、衣服や体型やポーズの多様性に苦しむ。 本稿では,既存のマッパーよりもスタイルガンの非絡み合った制御を可能にする,注意に基づく潜在コードマッパーを用いた,テキスト誘導全身画像合成のためのフレームワークを提案する。 我々の潜在コードマッパーは、テキストガイダンスの下で異なるスタイルGAN層上の個々の潜時コードを適応的に操作するアテンションメカニズムを採用している。 また,テキスト入力による不要な変化を避けるため,推定時に特徴空間マスキングを導入する。 定量的および定性的な評価により,既存の手法よりもテキストに忠実に生成した画像を制御できることが明らかになった。

This paper tackles text-guided control of StyleGAN for editing garments in full-body human images. Existing StyleGAN-based methods suffer from handling the rich diversity of garments and body shapes and poses. We propose a framework for text-guided full-body human image synthesis via an attention-based latent code mapper, which enables more disentangled control of StyleGAN than existing mappers. Our latent code mapper adopts an attention mechanism that adaptively manipulates individual latent codes on different StyleGAN layers under text guidance. In addition, we introduce feature-space masking at inference time to avoid unwanted changes caused by text inputs. Our quantitative and qualitative evaluations reveal that our method can control generated images more faithfully to given texts than existing methods.
翻訳日:2023-05-29 16:01:55 公開日:2023-05-26
# 包括的かつバイアス対応の人道的応答エントリー分類のためのドメイン知識の活用

Leveraging Domain Knowledge for Inclusive and Bias-aware Humanitarian Response Entry Classification ( http://arxiv.org/abs/2305.16756v1 )

ライセンス: Link先を確認
Nicol\`o Tamagnone, Selim Fekih, Ximena Contla, Nayid Orozco, Navid Rekabsaz(参考訳) 人道的危機時の正確かつ迅速な状況分析は、人道的援助を効果的に提供するために重要であり、人道的衝動とLeave No One Behind(LNOB)の原則に根ざしている。 このデータ分析は、例えば人道的オントロジーに従ってテキストデータを分類することで、言語処理システムから大きな恩恵を受けることができる。 しかし、汎用的な大規模言語モデル(LLM)を微調整するだけでこれに取り組むには、特にデータスパースや複雑なサブドメインの有効性の欠如、社会的バイアスや望ましくない関連性の符号化など、かなり実践的で倫理的な問題が発生する。 本研究では,人道的データ分析のための効果的かつ倫理的なシステムの提供を目的とする。 本研究では,(1)人道的分析フレームワークに適応した新しいアーキテクチャの導入,(2)HumBertと呼ばれる人道的なLLMの作成とリリース,(3)バイアスを計測・緩和する体系的な方法を提案する。 実験結果から,ゼロショットおよびフルトレーニング環境において,強いベースラインモデルと比較して,提案手法の性能が向上し,結果のllmにおけるバイアスの存在も明らかとなった。 対象とする反事実データ拡張手法を用いて,性能を損なうことなく,これらのバイアスを著しく低減する。

Accurate and rapid situation analysis during humanitarian crises is critical to delivering humanitarian aid efficiently and is fundamental to humanitarian imperatives and the Leave No One Behind (LNOB) principle. This data analysis can highly benefit from language processing systems, e.g., by classifying the text data according to a humanitarian ontology. However, approaching this by simply fine-tuning a generic large language model (LLM) involves considerable practical and ethical issues, particularly the lack of effectiveness on data-sparse and complex subdomains, and the encoding of societal biases and unwanted associations. In this work, we aim to provide an effective and ethically-aware system for humanitarian data analysis. We approach this by (1) introducing a novel architecture adjusted to the humanitarian analysis framework, (2) creating and releasing a novel humanitarian-specific LLM called HumBert, and (3) proposing a systematic way to measure and mitigate biases. Our experiments' results show the better performance of our approach on zero-shot and full-training settings in comparison with strong baseline models, while also revealing the existence of biases in the resulting LLMs. Utilizing a targeted counterfactual data augmentation approach, we significantly reduce these biases without compromising performance.
翻訳日:2023-05-29 16:01:41 公開日:2023-05-26
# 大規模言語モデルは正負の文を生成することができるか?

Can large language models generate salient negative statements? ( http://arxiv.org/abs/2305.16755v1 )

ライセンス: Link先を確認
Hiba Arnaout, Simon Razniewski(参考訳) 我々は,大規模言語モデル (LLM) が,現実の実体に関する健全な(興味深い)ネガティブなステートメントを生成する能力について検討する。 我々は,ゼロショットとkショットの非拘束プローブを用いてllmを探索し,従来の否定生成法,すなわちパターンに基づくテキスト抽出と知識グラフに基づく推論,およびクラウドソーシングによるゴールドステートメントと比較した。 異なる領域の被写体に関する生成したリストの正しさと正当性を測定する。 評価の結果, 誘導型プローブはゼロショット型に比べて, 生成したネガの品質が向上することがわかった。 それでも、両方のプロンプトを用いることで、LLMは否定の事実性の概念に苦慮し、多くの曖昧な文や否定的なキーワードを持つ文を頻繁に生成するが、肯定的な意味を持つ。

We examine the ability of large language models (LLMs) to generate salient (interesting) negative statements about real-world entities; an emerging research topic of the last few years. We probe the LLMs using zero- and k-shot unconstrained probes, and compare with traditional methods for negation generation, i.e., pattern-based textual extractions and knowledge-graph-based inferences, as well as crowdsourced gold statements. We measure the correctness and salience of the generated lists about subjects from different domains. Our evaluation shows that guided probes do in fact improve the quality of generated negatives, compared to the zero-shot variant. Nevertheless, using both prompts, LLMs still struggle with the notion of factuality of negatives, frequently generating many ambiguous statements, or statements with negative keywords but a positive meaning.
翻訳日:2023-05-29 16:01:15 公開日:2023-05-26
# electrodenet -- 人工内耳のためのディープラーニングに基づく音声符号化戦略

ElectrodeNet -- A Deep Learning Based Sound Coding Strategy for Cochlear Implants ( http://arxiv.org/abs/2305.16753v1 )

ライセンス: Link先を確認
Enoch Hsin-Ho Huang, Rong Chao, Yu Tsao, Chao-Min Wu(参考訳) 人工ニューラルネットワークを用いた従来の封筒検出を置き換えることで,高度な組合せエンコーダ(ACE)戦略をエミュレートするために,深層学習に基づく人工内耳インプラント(CI)の音響符号化戦略であるElectrodeNetを提案する。 拡張電極ネット−cs戦略はさらにチャネル選択(cs)を組み込む。 ニューラルネットワーク(dnn)、畳み込みニューラルネットワーク(cnn)、long short-term memory(lstm)のネットワークモデルは、ace戦略によってクリーン音声の処理から得られた高速フーリエ変換ビンとチャネルエンベロープを用いて訓練された。 短時間客観性(stoi)と正規化共分散メトリック(ncm)を用いた客観音声理解をciシミュレーションを用いて推定した。 正常聴取者を対象に,音声によるマンダリン音声の文認識試験を行った。 平均二乗誤差 (MSE) , 線形相関係数 (LCC) およびスピアマンランク相関係数 (SRCC) を用いて, DNN, CNN, LSTMベースのElectrodeNets とACEの客観的および主観的スコアの相関性を示した。 ElectrodeNet-CS戦略は、修正されたDNNネットワークを用いてN-of-M互換電極パターンを生成し、最大選択を埋め込むことができ、STOIやACEと比較して、STOIや文認識において、同等あるいはわずかに高い平均で実行することができた。 これらの方法と知見は,CIコーディング戦略における深層学習の可能性と可能性を示した。

ElectrodeNet, a deep learning based sound coding strategy for the cochlear implant (CI), is proposed to emulate the advanced combination encoder (ACE) strategy by replacing the conventional envelope detection using various artificial neural networks. The extended ElectrodeNet-CS strategy further incorporates the channel selection (CS). Network models of deep neural network (DNN), convolutional neural network (CNN), and long short-term memory (LSTM) were trained using the Fast Fourier Transformed bins and channel envelopes obtained from the processing of clean speech by the ACE strategy. Objective speech understanding using short-time objective intelligibility (STOI) and normalized covariance metric (NCM) was estimated for ElectrodeNet using CI simulations. Sentence recognition tests for vocoded Mandarin speech were conducted with normal-hearing listeners. DNN, CNN, and LSTM based ElectrodeNets exhibited strong correlations to ACE in objective and subjective scores using mean squared error (MSE), linear correlation coefficient (LCC) and Spearman's rank correlation coefficient (SRCC). The ElectrodeNet-CS strategy was capable of producing N-of-M compatible electrode patterns using a modified DNN network to embed maxima selection, and to perform in similar or even slightly higher average in STOI and sentence recognition compared to ACE. The methods and findings demonstrated the feasibility and potential of using deep learning in CI coding strategy.
翻訳日:2023-05-29 16:00:45 公開日:2023-05-26
# MultiGAIN 2.0:マルチ平均ペイオフ, LTL, 定常制約に対するMPPコントローラ合成

MULTIGAIN 2.0: MDP controller synthesis for multiple mean-payoff, LTL and steady-state constraints ( http://arxiv.org/abs/2305.16752v1 )

ライセンス: Link先を確認
Severin Bals, Alexandros Evangelidis, Kush Grover, Jan Kretinsky, Jakob Waibel(参考訳) 本稿では,確率論的モデルチェッカーPRISM上に構築された,コントローラ合成ツールMultiGainのメジャー拡張であるMultiGAIN 2.0を提案する。 この新しいバージョンはマルチギャインの多目的機能を拡張し、多次元のロングラン平均報酬構造、定常制約、線形時相論理特性を持つ確率システムに対するコントローラの形式的検証と合成を可能にする。 さらに、multigain 2.0は有限メモリソリューションを見つけるためのアプローチを提供し、多目的シナリオにおけるトレードオフ解析を容易にするためにパレート曲線の二次元および三次元可視化能力を提供する。

We present MULTIGAIN 2.0, a major extension to the controller synthesis tool MultiGain, built on top of the probabilistic model checker PRISM. This new version extends MultiGain's multi-objective capabilities, by allowing for the formal verification and synthesis of controllers for probabilistic systems with multi-dimensional long-run average reward structures, steady-state constraints, and linear temporal logic properties. Additionally, MULTIGAIN 2.0 provides an approach for finding finite memory solutions and the capability for two- and three-dimensional visualization of Pareto curves to facilitate trade-off analysis in multi-objective scenarios
翻訳日:2023-05-29 15:59:56 公開日:2023-05-26
# 曲率とねじりを用いた動きに基づく手話ビデオ要約

Motion-Based Sign Language Video Summarization using Curvature and Torsion ( http://arxiv.org/abs/2305.16801v1 )

ライセンス: Link先を確認
Evangelos G. Sartinas, Emmanouil Z. Psarakis, Dimitrios I. Kosmopoulos(参考訳) 多くのビデオベースアプリケーションにおいて興味深い問題は、最も情報性の高いフレームを選択することでショート・シナプスを生成することである。 手話のビデオでは、2d署名者の手首の軌跡の曲率のt$パラメータの対数を使ってキーフレームを識別する利点が最近文献に報告されている。 本稿では,ビデオの各フレームから抽出した3次元手の動きをモデル化することにより,これらのアイデアを拡張する。 そこで本研究では,3次元軌道の$t$-parameterized曲率とねじれに基づく新しい情報関数を提案する。 ビデオフレームをキーフレームとして特徴付ける方法は、動きが2次元空間か3次元空間かに依存する。 具体的には, 3次元運動の場合, 対象軌跡の曲率とねじれの高調波平均の最大値を求め, 平面運動の場合, 軌道の最大値を求める。 提案する3次元特徴は,(1)表裏キーフレームアノテーションを用いた客観的尺度,(2)理解の人間ベース評価,(3)言語分類とその結果について,手話映像の応用において実験的に評価されている。

An interesting problem in many video-based applications is the generation of short synopses by selecting the most informative frames, a procedure which is known as video summarization. For sign language videos the benefits of using the $t$-parameterized counterpart of the curvature of the 2-D signer's wrist trajectory to identify keyframes, have been recently reported in the literature. In this paper we extend these ideas by modeling the 3-D hand motion that is extracted from each frame of the video. To this end we propose a new informative function based on the $t$-parameterized curvature and torsion of the 3-D trajectory. The method to characterize video frames as keyframes depends on whether the motion occurs in 2-D or 3-D space. Specifically, in the case of 3-D motion we look for the maxima of the harmonic mean of the curvature and torsion of the target's trajectory; in the planar motion case we seek for the maxima of the trajectory's curvature. The proposed 3-D feature is experimentally evaluated in applications of sign language videos on (1) objective measures using ground-truth keyframe annotations, (2) human-based evaluation of understanding, and (3) gloss classification and the results obtained are promising.
翻訳日:2023-05-29 15:54:15 公開日:2023-05-26
# 修正する、または修正しない:議論的な執筆支援のための即興クレームを検出するための学習

To Revise or Not to Revise: Learning to Detect Improvable Claims for Argumentative Writing Support ( http://arxiv.org/abs/2305.16799v1 )

ライセンス: Link先を確認
Gabriella Skitalinskaya and Henning Wachsmuth(参考訳) 議論的テキストのフラージングの最適化は、高等教育や専門的開発において不可欠である。 しかし、特に初心者作家にとって、テキストの異なるクレームを改訂すべきか、どのように評価するかは難しい課題である。 本研究は,特定の修正を必要とする議論的クレームを特定する上での課題を考察する。 オンライン討論会における協調的な編集行動から学ぶことで,暗黙のリビジョンパターンを捉え,著者の議論をさらに改善するための指針となるアプローチを開発することを目指す。 我々は,同じテキストの異なるバージョン間の差異を捉えるための共通単語埋め込みモデルの性能を体系的に比較し,その影響を様々な記述問題に分析する。 本稿では,リビジョンベースコーパスのノイズに対処するために,リビジョン距離に基づく新しいサンプリング戦略を提案する。 以前の作業からのアプローチに対して、このようなサンプリングは追加のアノテーションや判断を使わずに行うことができる。 さらに,文脈情報とドメイン知識を用いることで,予測結果をさらに改善できることを示す。 しかし、ある種のコンテキストがどれほど有用かは、主張が抱える問題に依存する。

Optimizing the phrasing of argumentative text is crucial in higher education and professional development. However, assessing whether and how the different claims in a text should be revised is a hard task, especially for novice writers. In this work, we explore the main challenges to identifying argumentative claims in need of specific revisions. By learning from collaborative editing behaviors in online debates, we seek to capture implicit revision patterns in order to develop approaches aimed at guiding writers in how to further improve their arguments. We systematically compare the ability of common word embedding models to capture the differences between different versions of the same text, and we analyze their impact on various types of writing issues. To deal with the noisy nature of revision-based corpora, we propose a new sampling strategy based on revision distance. Opposed to approaches from prior work, such sampling can be done without employing additional annotations and judgments. Moreover, we provide evidence that using contextual information and domain knowledge can further improve prediction results. How useful a certain type of context is, depends on the issue the claim is suffering from, though.
翻訳日:2023-05-29 15:53:53 公開日:2023-05-26
# タスク指向対話のためのスキーマガイド型ユーザ満足度モデリング

Schema-Guided User Satisfaction Modeling for Task-Oriented Dialogues ( http://arxiv.org/abs/2305.16798v1 )

ライセンス: Link先を確認
Yue Feng, Yunlong Jiao, Animesh Prasad, Nikolaos Aletras, Emine Yilmaz, Gabriella Kazai(参考訳) ユーザ満足度モデリング(usm)は、タスク指向対話システムの評価において一般的な選択肢の1つであり、ユーザの満足度は通常、ユーザのタスク目標がシステムによって達成されたかどうかに依存する。 タスク指向対話システムは、タスク属性のセットであるタスクスキーマを使用して、ユーザのタスク目標をエンコードする。 USMの既存の研究は、タスクスキーマを使用してユーザのタスク目標達成を明示的にモデル化することを無視している。 本稿では,スキーマ誘導型ユーザ満足度モデリングフレームワークsg-usmを提案する。 タスク属性に関するユーザの嗜好が、ユーザの満足度を予測するシステムによって達成される程度を明示的にモデル化する。 SG-USMは、対話コンテキストとタスク属性を符号化するために、事前訓練された言語モデルを使用する。 さらに、対話でどれだけのタスク属性が達成されたかを知るためのフルフィルメント表現層、タスク属性の重要性を計算するための重要予測子コンポーネントも採用している。 最後に,タスク属性の満足度とタスク属性の重要性に基づいてユーザの満足度を予測する。 ベンチマークデータセット(MWOZ、SGD、ReDial、JDDC)の実験結果は、SG-USMが競争力のある既存の手法より一貫して優れていることを示している。 我々は,SG-USMがユーザ満足度モデリングの解釈可能性の向上を図り,未知のタスクを効果的に扱えるとともに,ラベルのないデータを活用することで,低リソース環境でも効果的に機能できることを実証した。

User Satisfaction Modeling (USM) is one of the popular choices for task-oriented dialogue systems evaluation, where user satisfaction typically depends on whether the user's task goals were fulfilled by the system. Task-oriented dialogue systems use task schema, which is a set of task attributes, to encode the user's task goals. Existing studies on USM neglect explicitly modeling the user's task goals fulfillment using the task schema. In this paper, we propose SG-USM, a novel schema-guided user satisfaction modeling framework. It explicitly models the degree to which the user's preferences regarding the task attributes are fulfilled by the system for predicting the user's satisfaction level. SG-USM employs a pre-trained language model for encoding dialogue context and task attributes. Further, it employs a fulfillment representation layer for learning how many task attributes have been fulfilled in the dialogue, an importance predictor component for calculating the importance of task attributes. Finally, it predicts the user satisfaction based on task attribute fulfillment and task attribute importance. Experimental results on benchmark datasets (i.e. MWOZ, SGD, ReDial, and JDDC) show that SG-USM consistently outperforms competitive existing methods. Our extensive analysis demonstrates that SG-USM can improve the interpretability of user satisfaction modeling, has good scalability as it can effectively deal with unseen tasks and can also effectively work in low-resource settings by leveraging unlabeled data.
翻訳日:2023-05-29 15:53:35 公開日:2023-05-26
# ソーシャルメディアにおけるストレスと抑うつの同定のためのトランスフォーマーモデル校正

Calibration of Transformer-based Models for Identifying Stress and Depression in Social Media ( http://arxiv.org/abs/2305.16797v1 )

ライセンス: Link先を確認
Loukas Ilias, Spiros Mouzakitis, Dimitris Askounis(参考訳) 今日のペースの速い世界では、ストレスと抑うつの割合が急増している。 ソーシャルメディアは、精神状態の早期発見を支援する。 既存の手法は主に特徴抽出手法を導入し、浅い機械学習分類器を訓練する。 他の研究ではディープニューラルネットワークやトランスフォーマーを使用している。 トランスフォーマーベースのモデルが顕著な改善を達成しているにもかかわらず、リッチな事実知識を捉えることはしばしばできない。 事前学習したトランスフォーマーモデルに付加的な情報や追加のモダリティを持たせることを目的とした研究がいくつか提案されているが、ソーシャルメディアを通じてストレスや抑うつを検出するためにこれらの修正を利用した先行研究は行われていない。 さらに、機械学習モデルの予測に対する信頼性は、リスクの高いアプリケーションでは極めて重要であるが、モデルキャリブレーションを考慮した事前の作業は行われていない。 以上の課題を解決するため,ソーシャルメディアにおける抑うつ・ストレス検出の課題として,BERT と MentalBERT というトランスフォーマーモデルに余分な言語情報を注入する研究を行った。 提案手法では,BERT(MentalBERT)モデルに入力として付与される複合埋め込みを生成するために,マルチモーダル適応ゲートを用いる。 モデルキャリブレーションを考慮した場合,ラベル平滑化を適用する。 提案手法を3つのデータセットでテストし,言語的特徴をトランスフォーマーモデルに統合することで,性能が向上することを示す。 また,ラベル平滑化の利用は,モデルの性能向上とモデルの校正に寄与する。 最終的に、投稿の言語分析を行い、ストレスのあるテキストとストレスのないテキスト、抑うつ的なポストと非抑うつ的なポストの言語差を示す。

In today's fast-paced world, the rates of stress and depression present a surge. Social media provide assistance for the early detection of mental health conditions. Existing methods mainly introduce feature extraction approaches and train shallow machine learning classifiers. Other researches use deep neural networks or transformers. Despite the fact that transformer-based models achieve noticeable improvements, they cannot often capture rich factual knowledge. Although there have been proposed a number of studies aiming to enhance the pretrained transformer-based models with extra information or additional modalities, no prior work has exploited these modifications for detecting stress and depression through social media. In addition, although the reliability of a machine learning model's confidence in its predictions is critical for high-risk applications, there is no prior work taken into consideration the model calibration. To resolve the above issues, we present the first study in the task of depression and stress detection in social media, which injects extra linguistic information in transformer-based models, namely BERT and MentalBERT. Specifically, the proposed approach employs a Multimodal Adaptation Gate for creating the combined embeddings, which are given as input to a BERT (or MentalBERT) model. For taking into account the model calibration, we apply label smoothing. We test our proposed approaches in three publicly available datasets and demonstrate that the integration of linguistic features into transformer-based models presents a surge in the performance. Also, the usage of label smoothing contributes to both the improvement of the model's performance and the calibration of the model. We finally perform a linguistic analysis of the posts and show differences in language between stressful and non-stressful texts, as well as depressive and non-depressive posts.
翻訳日:2023-05-29 15:53:11 公開日:2023-05-26
# vfedsec: secure layerによる垂直フェデレーション学習のための効率的なセキュアアグリゲーション

vFedSec: Efficient Secure Aggregation for Vertical Federated Learning via Secure Layer ( http://arxiv.org/abs/2305.16794v1 )

ライセンス: Link先を確認
Xinchi Qiu, Heng Pan, Wanru Zhao, Chenyang Ma, Pedro P.B. Gusmao, Nicholas D. Lane(参考訳) プライバシ保護連合学習(fl)におけるほとんどの作業は、クライアントが同じ機能セットを共有し、完全なモデルを独立してトレーニングできる水平分割データセットに注目している。 しかし、多くの興味深い問題では、個々のデータポイントが異なるクライアント/組織に垂直に分散している。 この種のFLの解決策には、中間出力の交換と参加者間の勾配が必要であり、プライバシーやセキュリティの懸念が考慮されていない場合、プライバシー漏洩の危険性がある。 本稿では,垂直FLをセキュアかつ効率的に,最先端のセキュリティモジュールを用いてセキュアアグリゲーションをトレーニングするための,革新的なSecure Layerを備えた新しい設計であるvFedSecを紹介する。 提案手法は,プライベートデータを効果的に保護しながら,トレーニング性能に影響を及ぼさないことを理論的に実証する。 実験結果から,我々の設計が無視できる計算量と通信オーバーヘッドで保護できることを示す広範な実験で,その適用性も示された。 また,提案手法では,広く採用されている同型暗号(HE)法と比較して,9.1e2〜3.8e4の高速化が可能である。

Most work in privacy-preserving federated learning (FL) has been focusing on horizontally partitioned datasets where clients share the same sets of features and can train complete models independently. However, in many interesting problems, individual data points are scattered across different clients/organizations in a vertical setting. Solutions for this type of FL require the exchange of intermediate outputs and gradients between participants, posing a potential risk of privacy leakage when privacy and security concerns are not considered. In this work, we present vFedSec - a novel design with an innovative Secure Layer for training vertical FL securely and efficiently using state-of-the-art security modules in secure aggregation. We theoretically demonstrate that our method does not impact the training performance while protecting private data effectively. Empirically results also show its applicability with extensive experiments that our design can achieve the protection with negligible computation and communication overhead. Also, our method can obtain 9.1e2 ~ 3.8e4 speedup compared to widely-adopted homomorphic encryption (HE) method.
翻訳日:2023-05-29 15:52:42 公開日:2023-05-26
# 神経制御微分方程式の一般化容量について

On the Generalization Capacities of Neural Controlled Differential Equations ( http://arxiv.org/abs/2305.16791v1 )

ライセンス: Link先を確認
Linus Bleistein, Agathe Guilloux(参考訳) 神経制御微分方程式(kidger, morrill, et al. 2020)を用いて,不規則にサンプリングされた時系列のサンプルから結果を予測することを目標とする教師あり学習構成を考える。 この枠組みでは、時系列は観測されない連続経路の離散化であり、結果は未知のベクトル場を持つ制御微分方程式を通してこの経路に依存する。 離散データによる学習は離散化バイアスを生じさせ、それを正確に定量化する。 制御された微分方程式の流れの連続性に関する理論的結果を用いて、近似バイアスは浅いニューラルネットワークによって生成モデルを定義するリプシッツ関数の近似誤差と直接関係していることを示す。 これらの結果とニューラルネットワークのリプシッツ定数を一般化容量に結びつける最近の研究を組み合わせることで、経験的リスク最小化器によって達成された期待損失と真の予測器の期待損失との一般化ギャップを上限とした。

We consider a supervised learning setup in which the goal is to predicts an outcome from a sample of irregularly sampled time series using Neural Controlled Differential Equations (Kidger, Morrill, et al. 2020). In our framework, the time series is a discretization of an unobserved continuous path, and the outcome depends on this path through a controlled differential equation with unknown vector field. Learning with discrete data thus induces a discretization bias, which we precisely quantify. Using theoretical results on the continuity of the flow of controlled differential equations, we show that the approximation bias is directly related to the approximation error of a Lipschitz function defining the generative model by a shallow neural network. By combining these result with recent work linking the Lipschitz constant of neural networks to their generalization capacities, we upper bound the generalization gap between the expected loss attained by the empirical risk minimizer and the expected loss of the true predictor.
翻訳日:2023-05-29 15:52:25 公開日:2023-05-26
# 自己監督型学習におけるスペクトルの変調

Modulate Your Spectrum in Self-Supervised Learning ( http://arxiv.org/abs/2305.16789v1 )

ライセンス: Link先を確認
Xi Weng, Yunhao Ni, Tengwei Song, Jie Luo, Rao Muhammad Anwer, Salman Khan, Fahad Shahbaz Khan, Lei Huang(参考訳) ホワイトニング損失は、統合埋め込みアーキテクチャを使用した自己教師付き学習(SSL)の機能崩壊を避けるための理論的保証を提供する。 ホワイトニング損失の典型的な実装はハードホワイトニングであり、埋め込みよりもホワイトニング変換を設計し、ホワイトニング出力にロスを課す。 本稿では,前方通過時の埋め込みスペクトルを所望の分布にマッピングし,後方通過時の暗黙的勾配更新により埋め込みスペクトルを変調するスペクトル変換(ST)フレームワークを提案する。 ホワイトニング変換は定義によるSTの特別な例であり、経験的調査によって崩壊を避けることができる他の例が存在することを示す。 さらに、トレース損失(INTL)を伴うIterNormと呼ばれるSTの新しいインスタンスを提案する。 理論的には、intlは崩壊を避け、最適化の過程で等固有値分布に向かって埋め込みのスペクトルを変調できることを証明できる。 さらに、InTLは、教師付きベースラインの性能を超えるResNet-50を用いて、イメージネット上での線形評価において76.6%のトップ1精度を実現し、バッチサイズを256に抑えてこの結果を得る。 総合的な実験により、INTLは実際に有望なSSLメソッドであることが示された。 コードはhttps://github.com/winci-ai/intlで入手できる。

Whitening loss provides theoretical guarantee in avoiding feature collapse for self-supervised learning (SSL) using joint embedding architectures. One typical implementation of whitening loss is hard whitening that designs whitening transformation over embedding and imposes the loss on the whitened output. In this paper, we propose spectral transformation (ST) framework to map the spectrum of embedding to a desired distribution during forward pass, and to modulate the spectrum of embedding by implicit gradient update during backward pass. We show that whitening transformation is a special instance of ST by definition, and there exist other instances that can avoid collapse by our empirical investigation. Furthermore, we propose a new instance of ST, called IterNorm with trace loss (INTL). We theoretically prove that INTL can avoid collapse and modulate the spectrum of embedding towards an equal-eigenvalue distribution during the course of optimization. Moreover, INTL achieves 76.6% top-1 accuracy in linear evaluation on ImageNet using ResNet-50, which exceeds the performance of the supervised baseline, and this result is obtained by using a batch size of only 256. Comprehensive experiments show that INTL is a promising SSL method in practice. The code is available at https://github.com/winci-ai/intl.
翻訳日:2023-05-29 15:52:10 公開日:2023-05-26
# 長期文書要約のための談話構造分布の導入

Incorporating Distributions of Discourse Structure for Long Document Abstractive Summarization ( http://arxiv.org/abs/2305.16784v1 )

ライセンス: Link先を確認
Dongqi Pu, Yifan Wang, Vera Demberg(参考訳) テキスト要約では、テキストの中核内容の識別において、談話構造の役割が重要である。 RST(Rhetorical Structure Theory)をトランスフォーマーベースの要約モデルに組み込む以前の研究は、核性アノテーションのみを考慮し、様々な談話関係型を見越す。 本稿では,修辞関係のタイプと不確実性を包括的に組み込んだ新しい要約モデルであるRSTformerを紹介する。 文書レベルの修辞構造に根ざしたRTTアテンション機構は,最近開発されたLongformerフレームワークの拡張である。 厳密な評価を通じて、提案するモデルは、いくつかの自動測定と人的評価において顕著な性能を示すように、最先端モデルよりも顕著な優位性を示す。

For text summarization, the role of discourse structure is pivotal in discerning the core content of a text. Regrettably, prior studies on incorporating Rhetorical Structure Theory (RST) into transformer-based summarization models only consider the nuclearity annotation, thereby overlooking the variety of discourse relation types. This paper introduces the 'RSTformer', a novel summarization model that comprehensively incorporates both the types and uncertainty of rhetorical relations. Our RST-attention mechanism, rooted in document-level rhetorical structure, is an extension of the recently devised Longformer framework. Through rigorous evaluation, the model proposed herein exhibits significant superiority over state-of-the-art models, as evidenced by its notable performance on several automatic metrics and human evaluation.
翻訳日:2023-05-29 15:51:52 公開日:2023-05-26
# ヘテロフィリーを用いたグラフ神経対流拡散

Graph Neural Convection-Diffusion with Heterophily ( http://arxiv.org/abs/2305.16780v1 )

ライセンス: Link先を確認
Kai Zhao, Qiyu Kang, Yang Song, Rui She, Sijie Wang and Wee Peng Tay(参考訳) グラフニューラルネットワーク(gnns)は、さまざまなグラフ学習タスクで有望な結果を示しているが、相同性がしばしば仮定されるため、親水性グラフではパフォーマンスが低下する可能性がある。 連結ノードは異なるクラスからのものであるか、異種グラフ上の異種特徴を持つ可能性が高い。 本稿では, 対流拡散方程式(CDE)を用いてノード上の情報の流れをモデル化し, ヘテロフィリエの原理を取り入れた新しいGNNを提案する。 これにより、CDEはホモフィリによる情報の拡散とヘテロフィリによる情報の「対流」の両方を考慮することができる。 提案手法は,親和性グラフのノード分類タスクにおいて,最先端の手法と比較して競合性能を発揮できることを示唆する。 コードは \url{https://github.com/zknus/Graph-Diffusion-CDE} で公開されている。

Graph neural networks (GNNs) have shown promising results across various graph learning tasks, but they often assume homophily, which can result in poor performance on heterophilic graphs. The connected nodes are likely to be from different classes or have dissimilar features on heterophilic graphs. In this paper, we propose a novel GNN that incorporates the principle of heterophily by modeling the flow of information on nodes using the convection-diffusion equation (CDE). This allows the CDE to take into account both the diffusion of information due to homophily and the ``convection'' of information due to heterophily. We conduct extensive experiments, which suggest that our framework can achieve competitive performance on node classification tasks for heterophilic graphs, compared to the state-of-the-art methods. The code is available at \url{https://github.com/zknus/Graph-Diffusion-CDE}.
翻訳日:2023-05-29 15:51:36 公開日:2023-05-26
# 自動訓練停止による教師なし深部外乱検出の可能性

Unleashing the Potential of Unsupervised Deep Outlier Detection through Automated Training Stopping ( http://arxiv.org/abs/2305.16777v1 )

ライセンス: Link先を確認
Yihong Huang, Yuang Zhang, Liping Wang, Xuemin Lin(参考訳) outlier detection(od)はその幅広い応用により、継続的な研究の関心を集めている。 ディープラーニングの開発により、さらに深いodアルゴリズムが提案されている。 多くのディープodモデルが利用可能であるにもかかわらず、既存の研究によれば、ディープモデルの性能はハイパーパラメータ(hps)の構成に非常に敏感である。 しかし、深層odモデルに対するhpの選択は、ラベルやhpの長いリストがないため、悪名高いほど難しい作業である。 私たちの研究で 私たちは、深層モデルの性能に大きな変化をもたらす、重要な要素、トレーニング時間に光を当てました。 他のHPでは性能が安定しているが、トレーニング時間自体が深刻なHP感度問題を引き起こす可能性がある。 この発見に動機づけられ、我々は最適なイテレーションでモデルのトレーニングを終了させる戦略を策定することに専念する。 具体的には,学習中のモデル性能を内部的に評価し,自動学習停止アルゴリズムを考案するロスエントロピーと呼ばれる新しい指標を提案する。 我々の知る限り、私たちのアプローチは、ラベルを必要とせずにトレーニング中に最適なトレーニングイテレーションを確実に特定できる最初の方法です。 表型,画像データセットを用いた実験により,我々のアプローチが多種多様な深層モデルやデータセットに適用可能であることが示された。 ディープモデルの堅牢性をHPに拡張するだけでなく、パフォーマンスも向上し、単純なトレーニングに比べてトレーニング時間を短縮する。

Outlier detection (OD) has received continuous research interests due to its wide applications. With the development of deep learning, increasingly deep OD algorithms are proposed. Despite the availability of numerous deep OD models, existing research has reported that the performance of deep models is extremely sensitive to the configuration of hyperparameters (HPs). However, the selection of HPs for deep OD models remains a notoriously difficult task due to the lack of any labels and long list of HPs. In our study. we shed light on an essential factor, training time, that can introduce significant variation in the performance of deep model. Even the performance is stable across other HPs, training time itself can cause a serious HP sensitivity issue. Motivated by this finding, we are dedicated to formulating a strategy to terminate model training at the optimal iteration. Specifically, we propose a novel metric called loss entropy to internally evaluate the model performance during training while an automated training stopping algorithm is devised. To our knowledge, our approach is the first to enable reliable identification of the optimal training iteration during training without requiring any labels. Our experiments on tabular, image datasets show that our approach can be applied to diverse deep models and datasets. It not only enhances the robustness of deep models to their HPs, but also improves the performance and reduces plenty of training time compared to naive training.
翻訳日:2023-05-29 15:51:22 公開日:2023-05-26
# 信頼対応型レジリエント制御と自動走行車の協調

Trust-Aware Resilient Control and Coordination of Connected and Automated Vehicles ( http://arxiv.org/abs/2305.16818v1 )

ライセンス: Link先を確認
H M Sabbir Ahmad, Ehsan Sabouni, Wei Xiao, Christos G. Cassandras, Wenchao Li(参考訳) セキュリティは、インターネットに接続された自動車両(cav)のネットワークなど、サイバー物理システムにとって極めて重要である。 本稿では,本研究における非協力的・共謀的エージェントの観点から,敵対的目標を同定し,紛争地域におけるキャビネット協調ネットワークのセキュリティに取り組む。 (i)衝突による安全侵害、 (ii)交通渋滞。 信頼フレームワーク(信頼/信頼フレームワークの特定の選択には依存していません)を利用して、そのようなエージェントの影響を緩和し、安全な協調を保証する回復力のある制御および調整フレームワークを提案します。 敵の目標を達成するために使用できる攻撃のクラスはsybil attackであり、我々はシミュレーション研究を通じて提案フレームワークを検証するために使用する。 さらに,信頼フレームワークを用いた攻撃検出と緩和手法を提案する。 シミュレーションの結果,シビル攻撃時に偽のCAVを検知し,安全コーディネーションを保証し,その効果を緩和できることがわかった。

Security is crucial for cyber-physical systems, such as a network of Connected and Automated Vehicles (CAVs) cooperating to navigate through a road network safely. In this paper, we tackle the security of a cooperating network of CAVs in conflict areas by identifying the critical adversarial objectives from the point of view of uncooperative/malicious agents from our preliminary study, which are (i) safety violations resulting in collisions, and (ii) traffic jams. We utilize a trust framework (and our work doesn't depend on the specific choice of trust/reputation framework) to propose a resilient control and coordination framework that mitigates the effects of such agents and guarantees safe coordination. A class of attacks that can be used to achieve the adversarial objectives is Sybil attacks, which we use to validate our proposed framework through simulation studies. Besides that, we propose an attack detection and mitigation scheme using the trust framework. The simulation results demonstrate that our proposed scheme can detect fake CAVs during a Sybil attack, guarantee safe coordination, and mitigate their effects.
翻訳日:2023-05-29 15:43:08 公開日:2023-05-26
# Selective Mixupは分散シフトを支援するが、Mixupのため(今のところ)ではない

Selective Mixup Helps with Distribution Shifts, But Not (Only) because of Mixup ( http://arxiv.org/abs/2305.16817v1 )

ライセンス: Link先を確認
Damien Teney, Jindong Wang, Ehsan Abbasnejad(参考訳) mixupは、トレーニングデータをランダムペアの組み合わせで拡張することにより、ニューラルネットワークの一般化を改善する、非常に成功したテクニックである。 選択的ミックスアップ(selective mixup)は、特定のペアにmixupを適用する一連のメソッドである。 これらの手法は分布シフトを伴うベンチマークにおいて顕著な改善が主張されているが、そのメカニズムや制限は理解されていない。 完全に新しい光の下でその成功を説明する選択的混合の見過ごされた側面について検討する。 ペアの非ランダム選択がトレーニング分布に影響を与え,混合とは無関係な手段による一般化が向上することがわかった。 例えばバイナリ分類では、クラス間のミックスアップが、一様クラスの分散のためにデータを暗黙的に再サンプリングする。 この暗黙的な再サンプリングは、以前の作業における多くの改善を説明してくれます。 理論的には、これらの結果は、いくつかのデータセットで識別する偶然の性質である平均への回帰に依存する。 選択混合法と再サンプリング法という2つの手法の間に新しい等価性を見出した。 前者の限界を特定し、後者の有効性を確認し、それぞれの利点のより良い組み合わせを見つけます。

Mixup is a highly successful technique to improve generalization of neural networks by augmenting the training data with combinations of random pairs. Selective mixup is a family of methods that apply mixup to specific pairs, e.g. only combining examples across classes or domains. These methods have claimed remarkable improvements on benchmarks with distribution shifts, but their mechanisms and limitations remain poorly understood. We examine an overlooked aspect of selective mixup that explains its success in a completely new light. We find that the non-random selection of pairs affects the training distribution and improve generalization by means completely unrelated to the mixing. For example in binary classification, mixup across classes implicitly resamples the data for a uniform class distribution - a classical solution to label shift. We show empirically that this implicit resampling explains much of the improvements in prior work. Theoretically, these results rely on a regression toward the mean, an accidental property that we identify in several datasets. We have found a new equivalence between two successful methods: selective mixup and resampling. We identify limits of the former, confirm the effectiveness of the latter, and find better combinations of their respective benefits.
翻訳日:2023-05-29 15:42:51 公開日:2023-05-26
# 国境を越えた歌 - 歌と制御可能なニューラルリリック翻訳

Songs Across Borders: Singable and Controllable Neural Lyric Translation ( http://arxiv.org/abs/2305.16816v1 )

ライセンス: Link先を確認
Longshen Ou, Xichu Ma, Min-Yen Kan, Ye Wang(参考訳) 一般ドメインニューラルマシン翻訳(nmt)法の開発は近年著しく進んでいるが、自然さの欠如と出力への音楽的制約により、歌唱可能な歌詞翻訳は作成できない。 本稿では、歌詞翻訳を制約付き翻訳問題に定式化し、理論的ガイダンスと実践技術を翻訳学文献からプロンプト駆動型NMTアプローチに変換し、より良い適応法を探求し、それらを英語と中国語の歌詞翻訳システムにインスタンス化することで、歌声品質のギャップを橋渡しする。 このモデルは、99.85%、99.00%、95.52%の長さ精度、ライム精度、単語境界リコールを達成している。 主観評価では,本モデルでは,単純微調整(https://github.com/Sonata165/ControllableLyricTranslation)と比較して,全体の品質が75%向上した。

The development of general-domain neural machine translation (NMT) methods has advanced significantly in recent years, but the lack of naturalness and musical constraints in the outputs makes them unable to produce singable lyric translations. This paper bridges the singability quality gap by formalizing lyric translation into a constrained translation problem, converting theoretical guidance and practical techniques from translatology literature to prompt-driven NMT approaches, exploring better adaptation methods, and instantiating them to an English-Chinese lyric translation system. Our model achieves 99.85%, 99.00%, and 95.52% on length accuracy, rhyme accuracy, and word boundary recall. In our subjective evaluation, our model shows a 75% relative enhancement on overall quality, compared against naive fine-tuning (Code available at https://github.com/Sonata165/ControllableLyricTranslation).
翻訳日:2023-05-29 15:42:33 公開日:2023-05-26
# 適応的コンテキストモデリングによるビジュアルストーリー生成の改善

Improved Visual Story Generation with Adaptive Context Modeling ( http://arxiv.org/abs/2305.16811v1 )

ライセンス: Link先を確認
Zhangyin Feng, Yuchen Ren, Xinmiao Yu, Xiaocheng Feng, Duyu Tang, Shuming Shi, Bing Qin(参考訳) 安定拡散のような強力なテキスト対画像生成モデル上に開発された拡散モデルは、ビジュアルストーリー生成において顕著な成功を収める。 しかし、ベストパフォーマンスなアプローチでは、歴史的に生成された結果をフラットなメモリセルと見なすことができ、以前の全ての画像が現在のステージにおけるキャラクターやシーンの生成に等しく寄与しないという事実を無視している。 そこで本研究では,エンコーダに内蔵されるだけでなく,生成するストーリのグローバル一貫性を高めるため,サンプリング段階で追加のガイダンスとして採用する適応的コンテキストモデリングにより,リードシステムを改善する簡易な手法を提案する。 我々は PororoSV と FlintstonesSV のデータセットを用いたモデルの評価を行い,本手法が物語の可視化と継続シナリオの両面において最先端の FID スコアを達成することを示す。 詳細なモデル解析を行い、本モデルが物語のセマンティックな一貫性のある画像を生成するのに優れていることを示す。

Diffusion models developed on top of powerful text-to-image generation models like Stable Diffusion achieve remarkable success in visual story generation. However, the best-performing approach considers historically generated results as flattened memory cells, ignoring the fact that not all preceding images contribute equally to the generation of the characters and scenes at the current stage. To address this, we present a simple method that improves the leading system with adaptive context modeling, which is not only incorporated in the encoder but also adopted as additional guidance in the sampling stage to boost the global consistency of the generated story. We evaluate our model on PororoSV and FlintstonesSV datasets and show that our approach achieves state-of-the-art FID scores on both story visualization and continuation scenarios. We conduct detailed model analysis and show that our model excels at generating semantically consistent images for stories.
翻訳日:2023-05-29 15:42:12 公開日:2023-05-26
# GenQ: 子どもと物語を読みながら、介護者を支援する自動質問生成

GenQ: Automated Question Generation to Support Caregivers While Reading Stories with Children ( http://arxiv.org/abs/2305.16809v1 )

ライセンス: Link先を確認
Arun Balajiee Lekshmi Narayanan, Ligia E. Gomez, Martha Michelle Soto Fernandez, Tri Nguyen, Chris Blais, M. Adelaida Restrepo, Art Glenberg(参考訳) 介護者が子どもとの対話を動機付けるためにオープンエンドの質問をすると、子どもの読書理解スキルが促進されるが、ここで言う「知的な学習システム」と呼ばれる技術ツールの使用のスコープがあるものの、現在、人間の言語のような質問を生成する既存の知的システムが有用かどうかは不明である。 さらに、これらの自動質問生成システムの開発に使用されるトレーニングデータは通常、人口統計学に注意を払わずにソースされるが、異なる文化的背景を持つ人々は異なる質問をすることができる。 ラテン系子どもたちのためのインテリジェントな読書支援アプリを設計する、より広いプロジェクトの一環として、ラテン系介護者や非介護者、他の人口層からの介護者や非介護者からの質問をクラウドソースしました。 個人的,文化的,文脈的要因を媒介とするデータセットにおける質問行動の多様性について検討し,そのデータからテンプレートを自動的に抽出し,ラテン系介護者の質問に代表されるオープンエンドな質問を生成するシステムを設計する。

When caregivers ask open--ended questions to motivate dialogue with children, it facilitates the child's reading comprehension skills.Although there is scope for use of technological tools, referred here as "intelligent tutoring systems", to scaffold this process, it is currently unclear whether existing intelligent systems that generate human--language like questions is beneficial. Additionally, training data used in the development of these automated question generation systems is typically sourced without attention to demographics, but people with different cultural backgrounds may ask different questions. As a part of a broader project to design an intelligent reading support app for Latinx children, we crowdsourced questions from Latinx caregivers and noncaregivers as well as caregivers and noncaregivers from other demographics. We examine variations in question--asking within this dataset mediated by individual, cultural, and contextual factors. We then design a system that automatically extracts templates from this data to generate open--ended questions that are representative of those asked by Latinx caregivers.
翻訳日:2023-05-29 15:41:54 公開日:2023-05-26
# 結び目理論への幾何学的深層学習アプローチ

Geometric deep learning approach to knot theory ( http://arxiv.org/abs/2305.16808v1 )

ライセンス: Link先を確認
Lennart Jaretzki(参考訳) 本稿では,グラフに結び目を取り込む関手を構築し,グラフニューラルネットワークを用いて結び目データの幾何学的深層学習を行う新しい手法を提案する。 このアプローチでいくつかの結び目不変量の予測を試みる。 このアプローチは高い一般化能力を示す。

In this paper, we introduce a novel way to use geometric deep learning for knot data by constructing a functor that takes knots to graphs and using graph neural networks. We will attempt to predict several knot invariants with this approach. This approach demonstrates high generalization capabilities.
翻訳日:2023-05-29 15:41:31 公開日:2023-05-26
# 負のプロンプトインバージョン:テキスト誘導拡散モデルによる編集のための高速画像インバージョン

Negative-prompt Inversion: Fast Image Inversion for Editing with Text-guided Diffusion Models ( http://arxiv.org/abs/2305.16807v1 )

ライセンス: Link先を確認
Daiki Miyake, Akihiro Iohara, Yu Saito, Toshiyuki Tanaka(参考訳) 拡散モデルを用いた画像編集では、そのスタイルを変えながら元の画像の復元品質を維持することが重要である。 既存の手法は最適化による復元品質を保証するが、その欠点は最適化に必要なかなりの時間である。 本稿では,最適化せずに前進伝播のみで等価な再構成を実現し,より高速な編集プロセスを実現する方法である負のプロンプト逆変換を提案する。 提案手法の再現性は既存の手法に匹敵するもので、512ピクセルの解像度でインバージョンが可能で、約5秒で50個のサンプリングステップが可能であり、ヌルテキストのインバージョンよりも30倍以上高速である。 提案手法による計算時間の短縮により,より多くのサンプリングステップを拡散モデルに適用し,計算時間を適度に増やし,復元品質を向上させることが可能となった。

In image editing employing diffusion models, it is crucial to preserve the reconstruction quality of the original image while changing its style. Although existing methods ensure reconstruction quality through optimization, a drawback of these is the significant amount of time required for optimization. In this paper, we propose negative-prompt inversion, a method capable of achieving equivalent reconstruction solely through forward propagation without optimization, thereby enabling much faster editing processes. We experimentally demonstrate that the reconstruction quality of our method is comparable to that of existing methods, allowing for inversion at a resolution of 512 pixels and with 50 sampling steps within approximately 5 seconds, which is more than 30 times faster than null-text inversion. Reduction of the computation time by the proposed method further allows us to use a larger number of sampling steps in diffusion models to improve the reconstruction quality with a moderate increase in computation time.
翻訳日:2023-05-29 15:41:27 公開日:2023-05-26
# GPTはリテラル翻訳が少ないか?

Do GPTs Produce Less Literal Translations? ( http://arxiv.org/abs/2305.16806v1 )

ライセンス: Link先を確認
Vikas Raunak, Arul Menezes, Matt Post, Hany Hassan Awadallah(参考訳) GPT-3のような大規模言語モデル(LLM)は多くの自然言語生成や理解タスクに対処できる汎用言語モデルとして登場した。 機械翻訳のタスク(mt)では、複数の作品がllmからの翻訳を改善するために、数発のプロンプト機構を調査した。 しかし, 標準的なニューラル機械翻訳(NMT)モデルによる翻訳と, それらの翻訳が質的にどう異なるかは, 比較的研究されていない。 本研究では,この2つのシステムによる翻訳のリテラル性の観点から,これらの差異について検討する。 単語アライメントと単調性を含むリテラルネス尺度を用いて、GPTからの英語(E-X)からの翻訳はリテラルが低い傾向にあり、MTの品質指標に類似あるいはより良いスコアが現れる。 我々は、この発見が人間の評価にも反映されていることを実証する。 その結果,慣用的な表現を含む文を翻訳する場合,これらの差異は特に顕著であることがわかった。

Large Language Models (LLMs) such as GPT-3 have emerged as general-purpose language models capable of addressing many natural language generation or understanding tasks. On the task of Machine Translation (MT), multiple works have investigated few-shot prompting mechanisms to elicit better translations from LLMs. However, there has been relatively little investigation on how such translations differ qualitatively from the translations generated by standard Neural Machine Translation (NMT) models. In this work, we investigate these differences in terms of the literalness of translations produced by the two systems. Using literalness measures involving word alignment and monotonicity, we find that translations out of English (E-X) from GPTs tend to be less literal, while exhibiting similar or better scores on MT quality metrics. We demonstrate that this finding is borne out in human evaluations as well. We then show that these differences are especially pronounced when translating sentences that contain idiomatic expressions.
翻訳日:2023-05-29 15:41:12 公開日:2023-05-26
# 部品のオープンワールドセグメンテーションに向けて

Towards Open-World Segmentation of Parts ( http://arxiv.org/abs/2305.16804v1 )

ライセンス: Link先を確認
Tai-Yu Pan, Qing Liu, Wei-Lun Chao, Brian Price(参考訳) カップハンドルや動物体などのオブジェクト部分のセグメンテーションは、現実世界の多くのアプリケーションで重要であるが、より多くのアノテーションを必要とする。 現在最大のデータセットは、わずか200のオブジェクトカテゴリを含んでおり、パートセグメンテーションを制約のない設定にスケールアップすることの難しさを示唆している。 これに対処するため、我々は、シンプルだが経験的に有用でスケーラブルな、クラスに依存しない部分セグメンテーションを検討することを提案する。 この問題では、トレーニングではパートクラスのラベルを無視し、代わりにこれらすべてを単一のパートクラスとして扱います。 パートクラスなしでトレーニングされたモデルは、トレーニング時に見えないオブジェクトに部品をローカライズし、セグメンテーションすることができることを議論し、実証する。 次にさらに2つの改善点を示す。 まず、部品が「構成」であり、その範囲は対応する対象によって境界付けられ、外観は独立ではなく束ねられているという事実を利用して、モデルにオブジェクトを認識させることを提案する。 第二に、未知のオブジェクトに対する部分分割を改善する新しいアプローチを導入し、興味深い発見にインスパイアされて、モデルによって抽出されたピクセルワイズ特徴は、しばしば高品質な部分セグメントを明らかにする。 そこで本研究では,画素クラスタリングと教師付きコントラスト学習を反復的に繰り返し,画素を近づいたり押し飛ばしたりする,新たな自己指導手法を提案する。 PartImageNetとPascal-Partの広範な実験により、我々のアプローチによって顕著かつ一貫した利益が得られました。

Segmenting object parts such as cup handles and animal bodies is important in many real-world applications but requires more annotation effort. The largest dataset nowadays contains merely two hundred object categories, implying the difficulty to scale up part segmentation to an unconstrained setting. To address this, we propose to explore a seemingly simplified but empirically useful and scalable task, class-agnostic part segmentation. In this problem, we disregard the part class labels in training and instead treat all of them as a single part class. We argue and demonstrate that models trained without part classes can better localize parts and segment them on objects unseen in training. We then present two further improvements. First, we propose to make the model object-aware, leveraging the fact that parts are "compositions", whose extents are bounded by the corresponding objects and whose appearances are by nature not independent but bundled. Second, we introduce a novel approach to improve part segmentation on unseen objects, inspired by an interesting finding -- for unseen objects, the pixel-wise features extracted by the model often reveal high-quality part segments. To this end, we propose a novel self-supervised procedure that iterates between pixel clustering and supervised contrastive learning that pulls pixels closer or pushes them away. Via extensive experiments on PartImageNet and Pascal-Part, we show notable and consistent gains by our approach, essentially a critical step towards open-world part segmentation.
翻訳日:2023-05-29 15:40:57 公開日:2023-05-26
# ノイズ量子電池の量子ワーク抽出効率:コヒーレンスの役割

Quantum work extraction efficiency for noisy quantum batteries: the role of coherence ( http://arxiv.org/abs/2305.16803v1 )

ライセンス: Link先を確認
Salvatore Tirone, Raffaele Salvia, Stefano Chessa and Vittorio Giovannetti(参考訳) 量子ワーク容量と最大漸近的作業/エネルギー比は、量子システムの集合によって形成された量子電池におけるワーク抽出プロセスの雑音に対するロバスト性を示す。 本稿では,これらの関数間の直接的接続を確立し,その結果を生かして,自己放出,熱分解,消音効果を模倣した様々なノイズモデルの解析を行う。 この文脈では、入力量子コヒーレンスがノイズ量子電池の記憶性能を大幅に向上させ、最大出力エルゴトロピーが利用可能な最大入力エネルギーによって常に達成されるとは限らないことを示す。

Quantum work capacitances and maximal asymptotic work/energy ratios are figures of merit characterizing the robustness against noise of work extraction processes in quantum batteries formed by collections of quantum systems. In this paper we establish a direct connection between these functionals and, exploiting this result, we analyze different types of noise models mimicking self-discharging, thermalization and dephasing effects. In this context we show that input quantum coherence can significantly improve the storage performance of noisy quantum batteries and that the maximum output ergotropy is not always achieved by the maximum available input energy.
翻訳日:2023-05-29 15:40:28 公開日:2023-05-26
# KNSE:対話症状認識のための知識対応自然言語推論フレームワーク

KNSE: A Knowledge-aware Natural Language Inference Framework for Dialogue Symptom Status Recognition ( http://arxiv.org/abs/2305.16833v1 )

ライセンス: Link先を確認
Wei Chen, Shiqi Wei, Zhongyu Wei, Xuanjing Huang(参考訳) 医療会話における症状診断は、医師と患者との対話から症状の実体と状態の両方を正しく抽出することを目的としている。 本稿では,SSRが自然言語推論(NLI)タスクとして定式化される症状状態認識(SSR)のためのKNSEと呼ばれる新しいフレームワークを提案する。 対話ウィンドウ内の各症状について,まず症状に関する知識と症状の状態に関する仮説を生成し,(前提,知識,仮説)三重項を形成する。 次にBERTモデルを使用して三重項を符号化し、さらに発話アグリゲーション、自己アテンション、横断アテンション、GRUなどのモジュールで処理して症状状態を予測する。 NLIの形式化により,提案フレームワークはより情報的な事前知識を符号化し,症状のローカライズと追跡を行い,症状の認識性能を効果的に向上させることができる。 中国の医療対話データセットに関する予備的な実験は、KNSEが以前の競争ベースラインより優れており、クロスディスリーズとクロス症状のシナリオにおいて利点があることを示している。

Symptom diagnosis in medical conversations aims to correctly extract both symptom entities and their status from the doctor-patient dialogue. In this paper, we propose a novel framework called KNSE for symptom status recognition (SSR), where the SSR is formulated as a natural language inference (NLI) task. For each mentioned symptom in a dialogue window, we first generate knowledge about the symptom and hypothesis about status of the symptom, to form a (premise, knowledge, hypothesis) triplet. The BERT model is then used to encode the triplet, which is further processed by modules including utterance aggregation, self-attention, cross-attention, and GRU to predict the symptom status. Benefiting from the NLI formalization, the proposed framework can encode more informative prior knowledge to better localize and track symptom status, which can effectively improve the performance of symptom status recognition. Preliminary experiments on Chinese medical dialogue datasets show that KNSE outperforms previous competitive baselines and has advantages in cross-disease and cross-symptom scenarios.
翻訳日:2023-05-29 15:35:42 公開日:2023-05-26
# Nestを去る - 予測を最適化するローカルロス関数を超えて

Leaving the Nest: Going Beyond Local Loss Functions for Predict-Then-Optimize ( http://arxiv.org/abs/2305.16830v1 )

ライセンス: Link先を確認
Sanket Shah, Andrew Perrault, Bryan Wilder, Milind Tambe(参考訳) predict-then-optimizeは、不確実性下で意思決定を行うために機械学習を使用するフレームワークである。 中心的な研究課題は、“意思決定タスクの構造は、その特定のタスクのためにMLモデルを調整するためにどのように使用できるのか? この目的のために、近年の研究では、タスク固有の損失関数の学習が提案されている。 しかしながら、現在のアプローチでは、これらの損失の形式とそれらのMLモデルの振る舞いへの影響について制限的な仮定がなされている。 これらの仮定はどちらも高い計算コストのアプローチにつながり、実際に違反した場合は性能が劣る。 本稿では,上記の仮定を回避し,学習損失関数のサンプル効率を向上させるためにmlモデルの特徴を活用することにより,これらの課題に対する解決策を提案する。 実験により,本手法は文献から得られた4つの領域で最新の結果を得ることができ,過去の手法と同等のサンプル数を何桁も必要とすることが少なくないことを示した。 さらに, 局所性仮定が破られた場合, 最良既存手法を200%近く上回っている。

Predict-then-Optimize is a framework for using machine learning to perform decision-making under uncertainty. The central research question it asks is, "How can the structure of a decision-making task be used to tailor ML models for that specific task?" To this end, recent work has proposed learning task-specific loss functions that capture this underlying structure. However, current approaches make restrictive assumptions about the form of these losses and their impact on ML model behavior. These assumptions both lead to approaches with high computational cost, and when they are violated in practice, poor performance. In this paper, we propose solutions to these issues, avoiding the aforementioned assumptions and utilizing the ML model's features to increase the sample efficiency of learning loss functions. We empirically show that our method achieves state-of-the-art results in four domains from the literature, often requiring an order of magnitude fewer samples than comparable methods from past work. Moreover, our approach outperforms the best existing method by nearly 200% when the localness assumption is broken.
翻訳日:2023-05-29 15:35:00 公開日:2023-05-26
# BEV-IO: インスタンス操作による鳥のEye-View 3D検出の強化

BEV-IO: Enhancing Bird's-Eye-View 3D Detection with Instance Occupancy ( http://arxiv.org/abs/2305.16829v1 )

ライセンス: Link先を確認
Zaibin Zhang, Lijun Wang, Yifan Wang, Huchuan Lu(参考訳) 鳥の目視(BEV)表現を3次元検出で構築するための一般的なアプローチは、明示的に予測された深度分布に基づいて2次元画像特徴を視野に持ち上げることである。 しかし、深度分布は、可視物体表面の3次元幾何学のみを特徴付けることができるが、内部空間と全体幾何学構造を捉えることができず、スパースで不満足な3次元表現をもたらす。 この問題を軽減するために,BEV-IOという新たな3次元検出パラダイムを提案する。 提案手法のコアとなるのは,新たに設計されたインスタンス占有予測(IOP)モジュールである。 表現の柔軟性を維持しながらトレーニング効率を確保するため、明示的および暗黙的な監督の組み合わせを用いてトレーニングされる。 予測された占有率を用いて,各光線に沿う占有分布に基づいて自己注意を行い,インスタンスレベルの特徴整合性を実現するような特徴伝搬機構 (GFP) をさらに設計する。 IOPモジュールとGFP機構を統合することで,BEV-IO検出器はより包括的なBEV表現を持つ高情報な3Dシーン構造を描画することができる。 実験結果から,BEV-IOはパラメータの無視的な増加(0.2%)と計算オーバーヘッド(0.24%のGFLOPs)しか加えず,最先端の手法より優れていることが示された。

A popular approach for constructing bird's-eye-view (BEV) representation in 3D detection is to lift 2D image features onto the viewing frustum space based on explicitly predicted depth distribution. However, depth distribution can only characterize the 3D geometry of visible object surfaces but fails to capture their internal space and overall geometric structure, leading to sparse and unsatisfactory 3D representations. To mitigate this issue, we present BEV-IO, a new 3D detection paradigm to enhance BEV representation with instance occupancy information. At the core of our method is the newly-designed instance occupancy prediction (IOP) module, which aims to infer point-level occupancy status for each instance in the frustum space. To ensure training efficiency while maintaining representational flexibility, it is trained using the combination of both explicit and implicit supervision. With the predicted occupancy, we further design a geometry-aware feature propagation mechanism (GFP), which performs self-attention based on occupancy distribution along each ray in frustum and is able to enforce instance-level feature consistency. By integrating the IOP module with GFP mechanism, our BEV-IO detector is able to render highly informative 3D scene structures with more comprehensive BEV representations. Experimental results demonstrate that BEV-IO can outperform state-of-the-art methods while only adding a negligible increase in parameters (0.2%) and computational overhead (0.24%in GFLOPs).
翻訳日:2023-05-29 15:34:28 公開日:2023-05-26
# 歴史に基づく量子論における内在因果原理:一提案

An intrinsic causality principle in histories-based quantum theory: a proposal ( http://arxiv.org/abs/2305.16828v1 )

ライセンス: Link先を確認
Fay Dowker and Rafael D. Sorkin(参考訳) 相対論的因果性(Relativistic causality, RC)は、いかなる原因も将来の光円錐の外に作用しないという原理であるが、この原理をより正確に定式化しようとする試みは、量子論に採用される基礎的な枠組みに依存する。 歴史に基づく(あるいは「パス積分」)フレームワークを採用すると、RCを「ゼロの永続化」(PoZ)という条件に関連付ける。 また、PoZ をベルの不等式に関連付け、第二のより技術的な条件と組み合わせることで、ファインのパッチング定理の量子的相似性は、ベルの局所因果性条件がファインの元々の定理に導くのとほとんど同じ方法で導かれることを示す。 そして、それぞれに、どの相関が自然界で起こり得るのか、どれができないのかという問題に関して、RCはほとんど言うことができないと論じる。 私たちが到達する観点では、歴史に基づく量子論は時空では非局所的であり、相対論的因果関係に完全に準拠する。

Relativistic causality (RC) is the principle that no cause can act outside its future lightcone, but any attempt to formulate this principle more precisely will depend on the foundational framework that one adopts for quantum theory. Adopting a histories-based (or "path integral") framework, we relate RC to a condition we term "Persistence of Zero" (PoZ), according to which an event $E$ of measure zero remains forbidden if one forms its conjunction with any other event associated to a spacetime region that is later than or spacelike to that of $E$. We also relate PoZ to the Bell inequalities by showing that, in combination with a second, more technical condition it leads to the quantal counterpart of Fine's patching theorem in much the same way as Bell's condition of Local Causality leads to Fine's original theorem. We then argue that RC per se has very little to say on the matter of which correlations can occur in nature and which cannot. From the point of view we arrive at, histories-based quantum theories are nonlocal in spacetime, and fully in compliance with relativistic causality.
翻訳日:2023-05-29 15:34:00 公開日:2023-05-26
# Prompt- and Trait Relation-Aware Cross-prompt Essay Trait Scoring

Prompt- and Trait Relation-aware Cross-prompt Essay Trait Scoring ( http://arxiv.org/abs/2305.16826v1 )

ライセンス: Link先を確認
Heejin Do, Yunsu Kim, Gary Geunbae Lee(参考訳) 自動エッセイスコアリング(AES)は、与えられたプロンプトのために書かれたエッセイをスコアリングすることを目的とする。 既存のAESシステムの多くは、トレーニングで使用されるのと同じプロンプトのエッセイを格付けし、総合的なスコアのみを割り当てている。 しかし、こうした設定は実際の教育状況と矛盾し、特定のプロンプトの事前評価エッセイが欠落しており、サブ・ルーブリックの詳細な特徴スコアが必要である。 このように、目に見えないエッセイの様々な特性スコア(クロスプロンプトエッセイトラストスコアと呼ばれる)を予測することは、AESの残る課題である。 本稿では,プロンプトおよびトレイト関係を認識可能なクロスプロプト・エッセイ・トレイト・スコアラという,ロバストなモデルを提案する。 我々は,エッセイ・プロンプトの注意によるエッセイ表現をエンコードし,ラベル付きデータにアクセスすることなくトピック・モデリング機構によって抽出されたトピック・コヒーレンス機能を利用する。 複数形質のスコアリングを容易にするために,特徴の相関をカプセル化した特徴類似性損失をデザインする。 実験は我々のモデルの有効性を証明し、すべてのプロンプトと特徴に対して最先端の結果を示す。 低リソースプロンプトと下位特性の大幅な改善は,モデルの強みをさらに示している。

Automated essay scoring (AES) aims to score essays written for a given prompt, which defines the writing topic. Most existing AES systems assume to grade essays of the same prompt as used in training and assign only a holistic score. However, such settings conflict with real-education situations; pre-graded essays for a particular prompt are lacking, and detailed trait scores of sub-rubrics are required. Thus, predicting various trait scores of unseen-prompt essays (called cross-prompt essay trait scoring) is a remaining challenge of AES. In this paper, we propose a robust model: prompt- and trait relation-aware cross-prompt essay trait scorer. We encode prompt-aware essay representation by essay-prompt attention and utilizing the topic-coherence feature extracted by the topic-modeling mechanism without access to labeled data; therefore, our model considers the prompt adherence of an essay, even in a cross-prompt setting. To facilitate multi-trait scoring, we design trait-similarity loss that encapsulates the correlations of traits. Experiments prove the efficacy of our model, showing state-of-the-art results for all prompts and traits. Significant improvements in low-resource-prompt and inferior traits further indicate our model's strength.
翻訳日:2023-05-29 15:33:35 公開日:2023-05-26
# HUB: 継続的プロンプトチューニングによる学習最適化の指導

HUB: Guiding Learned Optimizers with Continuous Prompt Tuning ( http://arxiv.org/abs/2305.16823v1 )

ライセンス: Link先を確認
Gaole Dai, Wei Wu, Ziyu Wang, Jie Fu, Shanghang Zhang, Tiejun Huang(参考訳) 学習オプティマイザは、メタラーニングの重要なコンポーネントです。 スケーラブルな学習オプティマイザの最近の進歩は、手作業で設計したオプティマイザよりも優れたパフォーマンスを示している。 しかし、不安定な学習曲線、目に見えないタスクやネットワークアーキテクチャを扱う能力の制限、制御の困難さ、微調整タスクのパフォーマンスの低下など、これらのモデルの特定の特性は、その普及を妨げる。 本稿では,スケーラブルな学習オプティマイザの一般化問題に取り組むために,近年のハードプロンプトチューニングと結果選択技術の進歩に触発されたハイブリッド更新ベース(hub)最適化戦略を提案する。 このアプローチは、手書きまたは学習したオプティマイザを含むあらゆるタスクに容易に適用できる。 手設計のオプティマイザをハイブリッドアプローチの第2のコンポーネントとして組み込むことで、学習したオプティマイザのメリットを維持しながら、トレーニングプロセスを安定化させ、さらに重要なのは、テストパフォーマンスの向上です。 我々は、スクラッチから13のトレーニングと4つの微調整設定からなる合計17のタスクで設計を検証する。 これらのタスクはモデルサイズ、アーキテクチャ、データセットサイズによって異なり、競合するオプティマイザはハイパーパラメータチューニングされている。 テストパフォーマンスが向上したタスクの94%では,すべての競合相手を上回っています。 さらに, ハイブリッド戦略が学習オプティマイザの行動および遺伝特性に与える影響を検討するために, 理論的解析を行った。

Learned optimizers are a crucial component of meta-learning. Recent advancements in scalable learned optimizers have demonstrated their superior performance over hand-designed optimizers in various tasks. However, certain characteristics of these models, such as an unstable learning curve, limited ability to handle unseen tasks and network architectures, difficult-to-control behaviours, and poor performance in fine-tuning tasks impede their widespread adoption. To tackle the issue of generalization in scalable learned optimizers, we propose a hybrid-update-based (HUB) optimization strategy inspired by recent advancements in hard prompt tuning and result selection techniques used in large language and vision models. This approach can be easily applied to any task that involves hand-designed or learned optimizer. By incorporating hand-designed optimizers as the second component in our hybrid approach, we are able to retain the benefits of learned optimizers while stabilizing the training process and, more importantly, improving testing performance. We validate our design through a total of 17 tasks, consisting of thirteen training from scratch and four fine-tuning settings. These tasks vary in model sizes, architectures, or dataset sizes, and the competing optimizers are hyperparameter-tuned. We outperform all competitors in 94% of the tasks with better testing performance. Furthermore, we conduct a theoretical analysis to examine the potential impact of our hybrid strategy on the behaviours and inherited traits of learned optimizers.
翻訳日:2023-05-29 15:33:09 公開日:2023-05-26
# 機械学習に基づく分散システムの認定に向けて

Towards Certification of Machine Learning-Based Distributed Systems ( http://arxiv.org/abs/2305.16822v1 )

ライセンス: Link先を確認
Marco Anisetti and Claudio A. Ardagna and Nicola Bena and Ernesto Damiani(参考訳) 機械学習(ml)は、5gで実現されるクラウドエッジ連続体上にデプロイされる複雑な分散システムの運用を推進するためにますます使われている。 それに応じて、分散システムの振る舞いは、本質的に非決定論的になっています。 この分散システムの進化は、非機能特性の検証のための新しい保証アプローチの定義を必要とする。 システムおよびソフトウェア検証の最も一般的な保証技術である認証は、機械学習ベースの推論によって行動が決定されるシステムには、直ちに適用されない。 しかし、政策立案者、規制当局、産業利害関係者からは、MLの非機能的財産(公正性、堅牢性、プライバシーなど)の認証技術の定義への圧力が高まっている。 本稿では、現状の認定制度の課題と欠陥を分析し、オープンな研究課題を論じ、MLベースの分散システムのための最初の認証方式を提案する。

Machine Learning (ML) is increasingly used to drive the operation of complex distributed systems deployed on the cloud-edge continuum enabled by 5G. Correspondingly, distributed systems' behavior is becoming more non-deterministic in nature. This evolution of distributed systems requires the definition of new assurance approaches for the verification of non-functional properties. Certification, the most popular assurance technique for system and software verification, is not immediately applicable to systems whose behavior is determined by Machine Learning-based inference. However, there is an increasing push from policy makers, regulators, and industrial stakeholders towards the definition of techniques for the certification of non-functional properties (e.g., fairness, robustness, privacy) of ML. This article analyzes the challenges and deficiencies of current certification schemes, discusses open research issues and proposes a first certification scheme for ML-based distributed systems.
翻訳日:2023-05-29 15:32:44 公開日:2023-05-26
# 適合型公衆衛生監視システムへの転換

Transitioning towards fit-for-purpose Public Health Surveillance Systems ( http://arxiv.org/abs/2305.16821v1 )

ライセンス: Link先を確認
Maria N. Anastasiadou, Philippos Isaia, Panayiotis Kolios and Christos Charalambous(参考訳) 新型コロナウイルスのパンデミックは、サプライチェーン機構や公衆衛生ICTシステムなど、公衆衛生インフラのいくつかの弱点を露呈している。 検査と接触追跡の拡大は、感染した個人を識別し隔離し、ウイルスの拡散を追跡し、封じ込めるための鍵だった。 遠隔医療やバーチャルコンサルテーションのようなデジタル技術は、感染や感染のリスクを最小化しつつ、医療支援を提供する需要が急増している。 パンデミックは、ステークホルダー間の協力、情報共有、コミュニケーションが正しい意思決定と将来のアウトブレイク防止に不可欠であることを明確にしている。 アウトブレイクを効果的に管理するための公衆衛生システムの再設計には、疾病監視と早期警戒システム、接触追跡とケース管理、データ分析と可視化、コミュニケーションと教育、遠隔医療の5つの重要な要素が含まれる。 世界が新型コロナウイルス(COVID-19)のパンデミックをナビゲートするにつれ、医療ICTシステムは医療デリバリーの未来においてますます重要な役割を果たすようになる。 COVID-19後の世界では、遠隔医療、データ分析、人口健康管理、相互運用性、サイバーセキュリティなど、医療サービスの質、効率、アクセシビリティを向上させるために、いくつかのICT戦略が実施されるべきである。 本報告は、早期発見と迅速な対応、国際協力と協調、明確で一貫したコミュニケーション、公衆衛生システムと緊急準備、デジタル技術と遠隔医療、および健康の公平・社会的決定要因の重要性を要約する。 これらの教訓は、将来の危機に対するより良い準備と計画の必要性と、よりレジリエントでアクセス可能なデジタルインフラストラクチャを構築する上で基盤となる問題に対処することの重要性を示している。

The COVID-19 pandemic has exposed several weaknesses in the public health infrastructure, including supply chain mechanisms and public health ICT systems. The expansion of testing and contact tracing has been key to identifying and isolating infected individuals, as well as tracking and containing the spread of the virus. Digital technologies, such as telemedicine and virtual consultations, have experienced a surge in demand to provide medical support while minimizing the risk of transmission and infection. The pandemic has made it clear that cooperation, information sharing, and communication among stakeholders are crucial in making the right decisions and preventing future outbreaks. Redesigning public health systems for effective management of outbreaks should include five key elements: disease surveillance and early warning systems, contact tracing and case management, data analytics and visualization, communication and education, and telemedicine. As the world navigates the COVID-19 pandemic, healthcare ICT systems will play an increasingly important role in the future of healthcare delivery. In a post COVID-19 world, several ICT strategies should be implemented to improve the quality, efficiency, and accessibility of healthcare services, including the expansion of telemedicine, data analytics and population health management, interoperability, and cybersecurity. Overall, this report summarises the importance of early detection and rapid response, international cooperation and coordination, clear and consistent communication, investing in public health systems and emergency preparedness, digital technology and telemedicine, and equity and social determinants of health. These lessons demonstrate the need for better preparedness and planning for future crises and the importance of addressing underlying issues to create a more resilient and accessible digital infrastructure.
翻訳日:2023-05-29 15:32:29 公開日:2023-05-26
# 抽象要約におけるドメイン一般化のためのドメインアラインプレフィックス平均化

Domain Aligned Prefix Averaging for Domain Generalization in Abstractive Summarization ( http://arxiv.org/abs/2305.16820v1 )

ライセンス: Link先を確認
Pranav Ajit Nair and Sukomal Pal and Pradeepika Verm(参考訳) ドメインの一般化は抽象的な要約に適用される未探索領域にヒットする。 さらに、領域一般化に関する既存の研究の多くは高度な訓練アルゴリズムを持っている。 本稿では,抽象的要約のためのドメイン一般化に対する,軽量,重量平均,ドメインアラインプレフィックス平均化手法を提案する。 複数のソースドメインが与えられた場合、このメソッドはまずそれぞれのプレフィックスをトレーニングする。 これらのソースプレフィックスは、少数のターゲットドメイン文書の要約を生成する。 生成した要約と対応する文書の類似性は、平均的なソースプレフィックスに必要な重みを計算するために使用される。 dapaではプレフィックスチューニングは軽量な微調整を可能にし、重量平均化により新しいソースドメインを計算効率良く追加できる。 4つの異なる要約領域で評価すると、DAPAはベースラインに対して同等またはより良い性能を示し、プレフィックス平均化方式の有効性を示す。

Domain generalization is hitherto an underexplored area applied in abstractive summarization. Moreover, most existing works on domain generalization have sophisticated training algorithms. In this paper, we propose a lightweight, weight averaging based, Domain Aligned Prefix Averaging approach to domain generalization for abstractive summarization. Given a number of source domains, our method first trains a prefix for each one of them. These source prefixes generate summaries for a small number of target domain documents. The similarity of the generated summaries to their corresponding documents is used for calculating weights required to average source prefixes. In DAPA, prefix tuning allows for lightweight finetuning, and weight averaging allows for the computationally efficient addition of new source domains. When evaluated on four diverse summarization domains, DAPA shows comparable or better performance against the baselines, demonstrating the effectiveness of its prefix averaging scheme.
翻訳日:2023-05-29 15:32:01 公開日:2023-05-26
# 小さなプッシュで、NLIモデルはロバストかつ効果的に忠実さを予測できる

With a Little Push, NLI Models can Robustly and Efficiently Predict Faithfulness ( http://arxiv.org/abs/2305.16819v1 )

ライセンス: Link先を確認
Julius Steen, Juri Opitz, Anette Frank, Katja Markert(参考訳) 条件付き言語モデルはまだ入力によってサポートされない不適切な出力を生成する。 これらの不誠実な世代は、要約や人間と機械の相互作用のような現実世界のアプリケーションに対する信頼を損なう。 このようなメトリクスを実装するために、NLIモデルは、豊富な先行研究とデータを伴う強い関連するタスクを解決するため、魅力的に思える。 しかし最近の研究によると、nliモデルは入力文と生成文のデカルト積上で推論を実行したり、質問生成/応答ステップでそれらをサポートしたりすることで、データセットをまたいで確実に実行するために、コストのかかる追加の機械を必要としている。 本研究では、タスク適応型データ拡張と堅牢な推論手順を組み合わせる際に、純粋なNLIモデル_can_がより複雑なメトリクスより優れていることを示す。 1) 対話における忠実性予測の特異性にnl推論を適用するためのnli訓練データの強化, (2) nliにおける包含と矛盾の確率の両立, (3) 推論中のモンテカルロ・ドロップアウトを用いた。 多様な領域やタスクにまたがる忠実度データセットを組み合わせたTRUEベンチマークを適用することで,本手法はバニラNLIモデルを大幅に改善し,計算コストも良好に向上する。

Conditional language models still generate unfaithful output that is not supported by their input. These unfaithful generations jeopardize trust in real-world applications such as summarization or human-machine interaction, motivating a need for automatic faithfulness metrics. To implement such metrics, NLI models seem attractive, since they solve a strongly related task that comes with a wealth of prior research and data. But recent research suggests that NLI models require costly additional machinery to perform reliably across datasets, e.g., by running inference on a cartesian product of input and generated sentences, or supporting them with a question-generation/answering step. In this work we show that pure NLI models _can_ outperform more complex metrics when combining task-adaptive data augmentation with robust inference procedures. We propose: (1) Augmenting NLI training data to adapt NL inferences to the specificities of faithfulness prediction in dialogue; (2) Making use of both entailment and contradiction probabilities in NLI, and (3) Using Monte-Carlo dropout during inference. Applied to the TRUE benchmark, which combines faithfulness datasets across diverse domains and tasks, our approach strongly improves a vanilla NLI model and significantly outperforms previous work, while showing favourable computational cost.
翻訳日:2023-05-29 15:31:48 公開日:2023-05-26
# ダッシュボードにおける自己統制型学習者プロファイルの可視化 : 教師のデザイン視点

Visualizing Self-Regulated Learner Profiles in Dashboards: Design Insights from Teachers ( http://arxiv.org/abs/2305.16851v1 )

ライセンス: Link先を確認
Paola Mejia-Domenzain, Eva Laini, Seyed Parsa Neshaei, Thiemo Wambsganss and Tanja K\"aser(参考訳) Flipped Classrooms (FC) は、学生が対面セッションに出席する前に学習材料に携わる、有望な教育戦略である。 プレクラス活動はコースの成功に不可欠であるが、多くの学生は自己統制学習(SRL)スキルが不十分なため、効果的に授業に参加するのに苦労している。 したがって、教師が生徒のsrlを監視し、パーソナライズされた指導を提供するためのツールは、学習結果を改善する可能性を秘めている。 しかし、既存のダッシュボードは主に集約された情報に焦点を当てており、包括的な多次元SRLの振る舞いを識別する機械学習(ML)アプローチを活用する最近の作業を無視している。 残念ながら、そのような発見の複雑さにより、コミュニケーションや行動が困難になる。 本稿では,教師中心のアプローチを用いて,教師に詳細な発見を届ける方法について検討する。 学生のSRL行動を監視するダッシュボードFlippEDの設計と実装を行う。 大学教員10名に対する半構造化面接において,ツールの使いやすさと動作性を評価する。 MLに基づくプロファイルのコミュニケーションは、学生やコース修正の潜在的な介入を引き起こす。

Flipped Classrooms (FC) are a promising teaching strategy, where students engage with the learning material before attending face-to-face sessions. While pre-class activities are critical for course success, many students struggle to engage effectively in them due to inadequate of self-regulated learning (SRL) skills. Thus, tools enabling teachers to monitor students' SRL and provide personalized guidance have the potential to improve learning outcomes. However, existing dashboards mostly focus on aggregated information, disregarding recent work leveraging machine learning (ML) approaches that have identified comprehensive, multi-dimensional SRL behaviors. Unfortunately, the complexity of such findings makes them difficult to communicate and act on. In this paper, we follow a teacher-centered approach to study how to make thorough findings accessible to teachers. We design and implement FlippED, a dashboard for monitoring students' SRL behavior. We evaluate the usability and actionability of the tool in semi-structured interviews with ten university teachers. We find that communicating ML-based profiles spark a range of potential interventions for students and course modifications.
翻訳日:2023-05-29 15:24:17 公開日:2023-05-26
# Green Runner: モデルリポジトリからの効率的なモデル選択ツール

Green Runner: A tool for efficient model selection from model repositories ( http://arxiv.org/abs/2305.16849v1 )

ライセンス: Link先を確認
Jai Kannan, Scott Barnett, Anj Simmons, Taylan Selvi, Luis Cruz(参考訳) ディープラーニングモデルはソフトウェア工学において必須となり、画像キャプションや文書生成といったインテリジェントな機能を実現している。 しかし、その人気は環境への影響と非効率なモデル選択への懸念を引き起こす。 本稿では,greenrunnergptという,特定のユースケースに基づいてディープラーニングモデルを効率的に選択する新しいツールを提案する。 品質指標の重み付けを提案し、リソース利用を最適化するために、大きな言語モデルを採用している。 このツールはマルチアームのbanditフレームワークを使用して、トレードオフを考慮して、ターゲットデータセットに対するモデルを評価する。 我々は,greenrunnergpt が,モデル選択に対する強引なアプローチの下で発生する無駄な計算をすることなく,対象とするユースケースに適したモデルを識別できることを実証する。

Deep learning models have become essential in software engineering, enabling intelligent features like image captioning and document generation. However, their popularity raises concerns about environmental impact and inefficient model selection. This paper introduces GreenRunnerGPT, a novel tool for efficiently selecting deep learning models based on specific use cases. It employs a large language model to suggest weights for quality indicators, optimizing resource utilization. The tool utilizes a multi-armed bandit framework to evaluate models against target datasets, considering tradeoffs. We demonstrate that GreenRunnerGPT is able to identify a model suited to a target use case without wasteful computations that would occur under a brute-force approach to model selection.
翻訳日:2023-05-29 15:23:58 公開日:2023-05-26
# 保存則のためのラグランジアンフローネットワーク

Lagrangian Flow Networks for Conservation Laws ( http://arxiv.org/abs/2305.16846v1 )

ライセンス: Link先を確認
F. Arend Torres, Marcello Massimo Negri, Marco Inversi, Jonathan Aellen, Volker Roth(参考訳) 流体密度と速度を連続的に空間と時間でモデル化するLagrangian Flow Networks (LFlows)を紹介した。 提案したLFlowは、その微分可能な形での質量保存を記述するPDEである連続性方程式を構築することで満足する。 我々のモデルは、連続性方程式の解を微分可能かつ可逆写像による時間依存密度変換として表現できるという洞察に基づいている。 これは滑らかなベクトル場に対するラグランジュフローの存在と一意性に関する古典理論から従う。 したがって, 時間条件付きパラメータ付き微分同相写像の基底密度を変換することにより, 流体密度をモデル化する。 Neural-ODE や PINN に依存する手法に比べて大きな利点は、速度の解析的表現が常に密度と一致することである。 さらに、高価な数値解法は必要とせず、PDEにペナルティを課す必要もない。 ラグランジアンフローネットワークは、合成密度モデリングタスクにおいて、2Dおよび3Dの競合モデルと比較して予測精度が向上した。 我々は,疎気象レーダーによる鳥の移動をモデル化する現実的な応用を結論付けた。

We introduce Lagrangian Flow Networks (LFlows) for modeling fluid densities and velocities continuously in space and time. The proposed LFlows satisfy by construction the continuity equation, a PDE describing mass conservation in its differentiable form. Our model is based on the insight that solutions to the continuity equation can be expressed as time-dependent density transformations via differentiable and invertible maps. This follows from classical theory of existence and uniqueness of Lagrangian flows for smooth vector fields. Hence, we model fluid densities by transforming a base density with parameterized diffeomorphisms conditioned on time. The key benefit compared to methods relying on Neural-ODE or PINNs is that the analytic expression of the velocity is always consistent with the density. Furthermore, there is no need for expensive numerical solvers, nor for enforcing the PDE with penalty methods. Lagrangian Flow Networks show improved predictive accuracy on synthetic density modeling tasks compared to competing models in both 2D and 3D. We conclude with a real-world application of modeling bird migration based on sparse weather radar measurements.
翻訳日:2023-05-29 15:23:46 公開日:2023-05-26
# 恒星座標のスナップショットから自由形ポテンシャルを回復するためのエンドツーエンド戦略

An end-to-end strategy for recovering a free-form potential from a snapshot of stellar coordinates ( http://arxiv.org/abs/2305.16845v1 )

ライセンス: Link先を確認
Wassim Tenachi, Rodrigo Ibata, Foivos I. Diakogiannis(参考訳) gaiaのような新しい大規模な観測調査によって、データ豊富化の時代が到来し、機械学習の力によって新しい物理法則を発見する前例のない機会がもたらされている。 本稿では、恒星の位置と速度のスナップショットから自由形態解析電位を回復するためのエンドツーエンド戦略を提案する。 まず,重力ポテンシャルとその基盤となる暗黒物質分布の非依存なマップをニューラルネットワークとして捉えるために,自己微分がいかに用いられるかを示す。 しかし、物理学の文脈では、ニューラルネットワークは物理的システムをモデル化するのに非常に柔軟であるが、主に解釈不能なブラックボックスで構成されているため、疫病と祝福の両方である。 さらに,このニューラルネットワークを物理的に意味のある表現へと開放するために,補完的な記号回帰アプローチが利用できることを示す。 我々は,おもちゃのイソクロンシステムの可能性を回復することで,この戦略を実証する。

New large observational surveys such as Gaia are leading us into an era of data abundance, offering unprecedented opportunities to discover new physical laws through the power of machine learning. Here we present an end-to-end strategy for recovering a free-form analytical potential from a mere snapshot of stellar positions and velocities. First we show how auto-differentiation can be used to capture an agnostic map of the gravitational potential and its underlying dark matter distribution in the form of a neural network. However, in the context of physics, neural networks are both a plague and a blessing as they are extremely flexible for modeling physical systems but largely consist in non-interpretable black boxes. Therefore, in addition, we show how a complementary symbolic regression approach can be used to open up this neural network into a physically meaningful expression. We demonstrate our strategy by recovering the potential of a toy isochrone system.
翻訳日:2023-05-29 15:23:30 公開日:2023-05-26
# ランダムな位置符号化による変圧器長一般化

Randomized Positional Encodings Boost Length Generalization of Transformers ( http://arxiv.org/abs/2305.16843v1 )

ライセンス: Link先を確認
Anian Ruoss, Gr\'egoire Del\'etang, Tim Genewein, Jordi Grau-Moya, R\'obert Csord\'as, Mehdi Bennani, Shane Legg, Joel Veness(参考訳) トランスフォーマーは、一定のコンテキスト長を持つタスクで印象的な一般化機能を持つ。 しかし、文字列の重複のような一見単純なタスクであっても、任意の長さのシーケンスに一般化できない。 さらに、グローバルアテンション機構の2次計算複雑性のため、より長いシーケンスでのトレーニングは非効率である。 本稿では,この故障モードが(相対的なエンコーディングであっても)長いシーケンスに対して分散外である位置エンコーディングと関連していることを示し,この問題を克服できる新しい位置エンコーディングのファミリーを導入する。 具体的には、より長いシーケンスの位置をシミュレートし、配列の長さに合う順序付き部分集合をランダムに選択する。 15のアルゴリズム推論タスクにまたがる6000モデルの大規模実験評価を行った結果, トランスフォーマは検出されていない長さのシーケンスに一般化できることがわかった(平均12.0%の精度向上)。

Transformers have impressive generalization capabilities on tasks with a fixed context length. However, they fail to generalize to sequences of arbitrary length, even for seemingly simple tasks such as duplicating a string. Moreover, simply training on longer sequences is inefficient due to the quadratic computation complexity of the global attention mechanism. In this work, we demonstrate that this failure mode is linked to positional encodings being out-of-distribution for longer sequences (even for relative encodings) and introduce a novel family of positional encodings that can overcome this problem. Concretely, our randomized positional encoding scheme simulates the positions of longer sequences and randomly selects an ordered subset to fit the sequence's length. Our large-scale empirical evaluation of 6000 models across 15 algorithmic reasoning tasks shows that our method allows Transformers to generalize to sequences of unseen length (increasing test accuracy by 12.0% on average).
翻訳日:2023-05-29 15:23:14 公開日:2023-05-26
# 微分可能なランダム分割モデル

Differentiable Random Partition Models ( http://arxiv.org/abs/2305.16841v1 )

ライセンス: Link先を確認
Thomas M. Sutter, Alain Ryser, Joram Liebeskind, Julia E. Vogt(参考訳) 要素の集合を未知の数の排他的部分集合に分割することは、多くの機械学習問題において不可欠である。 しかし、データセットのサンプルやネットワーク層内のニューロンなどの要素を未知かつ離散的なサブセットに割り当てることは本質的には微分不可能であり、パラメータのエンドツーエンドの勾配に基づく最適化を禁止している。 この制限を克服するために,分割を推定する新しい二段階法を提案し,変分推論タスクでの利用を可能にした。 この新しいアプローチは、新しいランダムパーティションモデルのパラメータに対するパラメータ化勾配を可能にする。 提案手法は,各部分集合の要素数を推定し,第二に,これらの部分集合を学習順序で満たすことで動作する。 変動クラスタリング、弱い監督下での共有および独立生成因子の推定、マルチタスク学習という3つの異なる課題実験に対する汎用的アプローチの汎用性を強調した。

Partitioning a set of elements into an unknown number of mutually exclusive subsets is essential in many machine learning problems. However, assigning elements, such as samples in a dataset or neurons in a network layer, to an unknown and discrete number of subsets is inherently non-differentiable, prohibiting end-to-end gradient-based optimization of parameters. We overcome this limitation by proposing a novel two-step method for inferring partitions, which allows its usage in variational inference tasks. This new approach enables reparameterized gradients with respect to the parameters of the new random partition model. Our method works by inferring the number of elements per subset and, second, by filling these subsets in a learned order. We highlight the versatility of our general-purpose approach on three different challenging experiments: variational clustering, inference of shared and independent generative factors under weak supervision, and multitask learning.
翻訳日:2023-05-29 15:22:58 公開日:2023-05-26
# chatgpt:ユビキタスなソフトウェアエンジニアリングタスクの有用性に関する研究

ChatGPT: A Study on its Utility for Ubiquitous Software Engineering Tasks ( http://arxiv.org/abs/2305.16837v1 )

ライセンス: Link先を確認
Giriprasad Sridhara and Ranjani H.G. and Sourav Mazumdar(参考訳) ChatGPT(Chat Generative Pre-trained Transformer)は、OpenAIが2022年11月30日に立ち上げたチャットボットである。 OpenAIのGPT-3ファミリーはChatGPTの基礎となっている。 ChatGPTは教師付きおよび強化学習技術の両方で微調整されており、様々な知識領域にまたがる明瞭な応答について広く注目を集めている。 本研究では,ChatGPTが一般的なソフトウェアエンジニアリングタスクにどのように役立つかを検討する。 ソフトウェア要件の曖昧さの解決、メソッド名の提案、テストケースの優先順位付け、コードレビュー、ログの要約など、ソフトウェアエンジニアリングの幅広い領域をカバーするタスクは、ChatGPTを使って実行することができる。 本研究では,ChatGPTを用いた15の共通ソフトウェアエンジニアリングタスクについて検討する。 我々はChatGPTの回答を、(入手可能な)アートアウトプットのそれぞれの状態や、あるいは人間の専門的根拠の真理に照らし合わせて分析する。 実験の結果,ChatGPTは多くのタスクにおいて信頼性の高い処理を行い,その応答は人間の専門家の出力やアートの出力の状態をはるかに上回ることがわかった。 しかし、いくつかの他のタスクに対して、ChatGPTの現在の形式は誤った答えを与え、従ってそのようなタスクには適さない。

ChatGPT (Chat Generative Pre-trained Transformer) is a chatbot launched by OpenAI on November 30, 2022. OpenAI's GPT-3 family of large language models serve as the foundation for ChatGPT. ChatGPT is fine-tuned with both supervised and reinforcement learning techniques and has received widespread attention for its articulate responses across diverse domains of knowledge. In this study, we explore how ChatGPT can be used to help with common software engineering tasks. Many of the ubiquitous tasks covering the breadth of software engineering such as ambiguity resolution in software requirements, method name suggestion, test case prioritization, code review, log summarization can potentially be performed using ChatGPT. In this study, we explore fifteen common software engineering tasks using ChatGPT. We juxtapose and analyze ChatGPT's answers with the respective state of the art outputs (where available) and/or human expert ground truth. Our experiments suggest that for many tasks, ChatGPT does perform credibly and the response from it is detailed and often better than the human expert output or the state of the art output. However, for a few other tasks, ChatGPT in its present form provides incorrect answers and hence is not suited for such tasks.
翻訳日:2023-05-29 15:22:42 公開日:2023-05-26
# 確率的部分空間同定に対するロバスト確率的アプローチ

A Robust Probabilistic Approach to Stochastic Subspace Identification ( http://arxiv.org/abs/2305.16836v1 )

ライセンス: Link先を確認
Brandon J. O'Connell, Timothy J. Rogers(参考訳) 操作構造のモーダルパラメータ推定は、フィールド計測において望ましくない歪み(外乱)に直面する場合、しばしば難しい課題である。 非定型的な観察は、確率的部分空間同定(ssi)のような操作的モーダル解析(oma)アルゴリズムに問題を示し、パラメータ推定を厳しくバイアスし、システムの誤認をもたらす。 このような状況にもかかわらず、SSIでこのような異常を処理できる単純なメカニズムは存在しない。 本稿ではまず確率的部分空間同定(Prob-SSI)の確率的定式化を導入し,確率的射影を用いて実現した。 数学的には、このモデルと古典的アルゴリズムの等価性を実証する。 この新たな視点は、SSIを確率論的推論の問題と見なし、より洗練されたOMAアプローチの多元化を可能にするために必要な数学的基礎を築き上げている。 この目的のために、例えば間欠的なセンサのドロップアウトなどのフィールド記録で発生するような測定された時系列におけるアウトリーイングや異常なデータを、原則的かつ自動で処理することのできる統計的に堅牢なSSIアルゴリズム(robust Prob-SSI)を開発する。 ロバストなprob-ssiは「破損」データと向き合う場合の従来のssiよりも優れており、一貫性(安定化)図を見る際に、識別性能が向上し、極の信頼度が高くなる。 Z24 Bridgeベンチマークデータセットでも同様のメリットが示されており、測定システムのパフォーマンス向上を強調している。

Modal parameter estimation of operational structures is often a challenging task when confronted with unwanted distortions (outliers) in field measurements. Atypical observations present a problem to operational modal analysis (OMA) algorithms, such as stochastic subspace identification (SSI), severely biasing parameter estimates and resulting in misidentification of the system. Despite this predicament, no simple mechanism currently exists capable of dealing with such anomalies in SSI. Addressing this problem, this paper first introduces a novel probabilistic formulation of stochastic subspace identification (Prob-SSI), realised using probabilistic projections. Mathematically, the equivalence between this model and the classic algorithm is demonstrated. This fresh perspective, viewing SSI as a problem in probabilistic inference, lays the necessary mathematical foundation to enable a plethora of new, more sophisticated OMA approaches. To this end, a statistically robust SSI algorithm (robust Prob-SSI) is developed, capable of providing a principled and automatic way of handling outlying or anomalous data in the measured timeseries, such as may occur in field recordings, e.g. intermittent sensor dropout. Robust Prob-SSI is shown to outperform conventional SSI when confronted with 'corrupted' data, exhibiting improved identification performance and higher levels of confidence in the found poles when viewing consistency (stabilisation) diagrams. Similar benefits are also demonstrated on the Z24 Bridge benchmark dataset, highlighting enhanced performance on measured systems.
翻訳日:2023-05-29 15:22:20 公開日:2023-05-26
# OpenVIS: オープン語彙ビデオインスタンスセグメンテーション

OpenVIS: Open-vocabulary Video Instance Segmentation ( http://arxiv.org/abs/2305.16835v1 )

ライセンス: Link先を確認
Pinxue Guo, Tony Huang, Peiyang He, Xuefeng Liu, Tianjun Xiao, Zhaoyu Chen, Wenqiang Zhang(参考訳) 本研究では,ビデオ中の任意のオブジェクトをテキスト記述に従って同時分割,検出,追跡することを目的とした,オープン語彙ビデオインスタンスセグメンテーション(OpenVIS)というコンピュータビジョンタスクを提案する。 オリジナルのビデオインスタンスセグメンテーションと比較して、OpenVISでは、トレーニングデータセットに含まれているかどうかに関わらず、望ましいカテゴリのオブジェクトを識別することができる。 この目的を達成するために,高品質なクラス非依存オブジェクトマスクの提案と,事前学習したvlmによる対応するカテゴリの予測を行う2段階パイプラインを提案する。 具体的には、クエリベースのマスク提案ネットワークを使用して、すべての潜在的なオブジェクトのマスクを生成し、元のクラスヘッドをバイナリオブジェクト損失でトレーニングされたインスタンスヘッドに置き換えることで、クラス非依存なマスク提案能力を向上します。 そこで本研究では,提案手法を事前学習したVLMに適応させるための提案後処理手法を提案し,歪みや不自然な提案入力を回避する。 また,本課題の研究を促進するために,市販のデータセットを用いてその性能を総合的に評価する評価ベンチマークを提案する。 実験により,提案したOpenVISは,すべてのカテゴリでトレーニングされているBURSTのフル教師付きベースラインと比較して,18%の大幅な改善を示した。

We propose and study a new computer vision task named open-vocabulary video instance segmentation (OpenVIS), which aims to simultaneously segment, detect, and track arbitrary objects in a video according to corresponding text descriptions. Compared to the original video instance segmentation, OpenVIS enables users to identify objects of desired categories, regardless of whether those categories were included in the training dataset. To achieve this goal, we propose a two-stage pipeline for proposing high-quality class-agnostic object masks and predicting their corresponding categories via pre-trained VLM. Specifically, we first employ a query-based mask proposal network to generate masks of all potential objects, where we replace the original class head with an instance head trained with a binary object loss, thereby enhancing the class-agnostic mask proposal ability. Then, we introduce a proposal post-processing approach to adapt the proposals better to the pre-trained VLMs, avoiding distortion and unnatural proposal inputs. Meanwhile, to facilitate research on this new task, we also propose an evaluation benchmark that utilizes off-the-shelf datasets to comprehensively assess its performance. Experimentally, the proposed OpenVIS exhibits a remarkable 148\% improvement compared to the full-supervised baselines on BURST, which have been trained on all categories.
翻訳日:2023-05-29 15:21:53 公開日:2023-05-26
# free lunch: モデルチェックポイント平均化によるロバストな言語間転送

Free Lunch: Robust Cross-Lingual Transfer via Model Checkpoint Averaging ( http://arxiv.org/abs/2305.16834v1 )

ライセンス: Link先を確認
Fabian David Schmidt, Ivan Vuli\'c, Goran Glava\v{s}(参考訳) zero-shot (zs-xlt) と few-shot (fs-xlt) のクロスリンガルトランスファーセットアップでは、ソース言語のタスクデータに基づいて微調整されたモデルが、ターゲット言語に注釈付きインスタンスを数個も持たずに転送される。 しかしながら、現在の作業は、ターゲット言語のバリデーションインスタンスに最適なモデルチェックポイントで、微調整されたモデルが頻繁に評価されるため、モデルのパフォーマンスを過大評価する。 これは事実上、ZS-XLTとFS-XLTの主な仮定に反する。 このようなXLTセットアップは、検証とモデル選択のためにラベル付き言語データに依存しない堅牢なメソッドを必要とする。 本研究では,「真の」ZS-XLTとFS-XLTのロバスト性の向上を目的として,タスク微調整中に異なるチェックポイント(モデルスナップショット)を平均化する簡易かつ効率的な手法を提案する。 我々は,高レベルセマンティックタスク(NLI,抽出QA)と低レベルトークン分類タスク(NER,POS)の総合的なZS-XLTおよびFS-XLT実験を行った。 その結果, モデルチェックポイントの平均化は, 全てのタスクにおいて, 多様な対象言語に対して, 体系的かつ一貫した性能向上をもたらすことがわかった。 重要なことは、ターゲット言語検証がない場合に、XLTを様々なハイパーパラメータ選択に実質的にデセンシタイズすることである。 また、チェックポイント平均化は、実行平均化(独立実行よりも微調整されたモデルのパラメータの平均化)と組み合わせることでパフォーマンスが向上することを示す。

Massively multilingual language models have displayed strong performance in zero-shot (ZS-XLT) and few-shot (FS-XLT) cross-lingual transfer setups, where models fine-tuned on task data in a source language are transferred without any or with only a few annotated instances to the target language(s). However, current work typically overestimates model performance as fine-tuned models are frequently evaluated at model checkpoints that generalize best to validation instances in the target languages. This effectively violates the main assumptions of "true" ZS-XLT and FS-XLT. Such XLT setups require robust methods that do not depend on labeled target language data for validation and model selection. In this work, aiming to improve the robustness of "true" ZS-XLT and FS-XLT, we propose a simple and effective method that averages different checkpoints (i.e., model snapshots) during task fine-tuning. We conduct exhaustive ZS-XLT and FS-XLT experiments across higher-level semantic tasks (NLI, extractive QA) and lower-level token classification tasks (NER, POS). The results indicate that averaging model checkpoints yields systematic and consistent performance gains across diverse target languages in all tasks. Importantly, it simultaneously substantially desensitizes XLT to varying hyperparameter choices in the absence of target language validation. We also show that checkpoint averaging benefits performance when further combined with run averaging (i.e., averaging the parameters of models fine-tuned over independent runs).
翻訳日:2023-05-29 15:21:31 公開日:2023-05-26
# 非エリート的進化的多目的最適化:原理実証結果

Non-Elitist Evolutionary Multi-Objective Optimisation: Proof-of-Principle Results ( http://arxiv.org/abs/2305.16870v1 )

ライセンス: Link先を確認
Zimin Liang and Miqing Li and Per Kristian Lehre(参考訳) 1990年代後半にMOEA (Multi-objective Evolution Algorithm) を導入して以来、旧来の人口から最高の解決策を保存し、新しい人口を創出するエリティズムは、人口の更新にデフォルトの手段となっている。 本稿では,自民主義を捨てることによって,MOEAの人口更新を行うための反対の視点を採る。 すなわち、新たに生成した解を直接新しい人口として扱う(つまり、すべての選択圧力は交配選択から生じる)。 多様性に関わる選択基準を伴わずに,Paretoの優位性ソートのみを用いてソリューションを比較する,単純な非楕円MOEA(NE-MOEA)を提案する。 予備実験の結果,ne-moeaはいくつかの組合せ問題においてよく知られたエリートmoeas (nsga-ii, sms-emoa, nsga-iii) と競合することが示された。 最後に,提案アルゴリズムの限界について議論し,今後の研究方向性を提案する。

Elitism, which constructs the new population by preserving best solutions out of the old population and newly-generated solutions, has been a default way for population update since its introduction into multi-objective evolutionary algorithms (MOEAs) in the late 1990s. In this paper, we take an opposite perspective to conduct the population update in MOEAs by simply discarding elitism. That is, we treat the newly-generated solutions as the new population directly (so that all selection pressure comes from mating selection). We propose a simple non-elitist MOEA (called NE-MOEA) that only uses Pareto dominance sorting to compare solutions, without involving any diversity-related selection criterion. Preliminary experimental results show that NE-MOEA can compete with well-known elitist MOEAs (NSGA-II, SMS-EMOA and NSGA-III) on several combinatorial problems. Lastly, we discuss limitations of the proposed non-elitist algorithm and suggest possible future research directions.
翻訳日:2023-05-29 15:15:41 公開日:2023-05-26
# 大きな言語モデルで繰り返しゲームをプレイする

Playing repeated games with Large Language Models ( http://arxiv.org/abs/2305.16867v1 )

ライセンス: Link先を確認
Elif Akata, Lion Schulz, Julian Coda-Forno, Seong Joon Oh, Matthias Bethge, Eric Schulz(参考訳) 大規模言語モデル(LLM)は社会を変革し、多様な応用へと浸透している。 その結果、LSMは私たちや他のエージェントと頻繁に対話します。 したがって、LLMが対話型社会環境でどのように振る舞うかを理解することは、大きな社会的価値である。 本稿では,LLMの協調行動と協調行動を研究するために行動ゲーム理論を提案する。 そのために,異なるLLM(GPT-3,GPT-3.5,GPT-4)を,人間的な戦略と有限繰り返しプレイする。 以上の結果から, LLMは一般にこのようなタスクでよく機能し, 持続的な動作シグネチャも発見できることがわかった。 2人のプレイヤー・ツー・ストラテジゲームの大きなセットでは、llmは、囚人のジレンマファミリーのような自己利益を評価できるゲームにおいて特に優れていることが分かっています。 しかし、調整を必要とするゲームでは準最適に振る舞う。 したがって、我々はこれらの異なる家族の2つのゲームにさらに焦点を当てている。 反復囚人のジレンマでは、gpt-4は特に不注意に作用し、他のエージェントが一度だけ欠陥した後に常に欠陥する。 セクシーズの戦いにおいて、GPT-4は選択肢間の交互に単純な慣習の振る舞いと一致しないことがわかった。 これらの動作シグネチャがロバストネスチェックで安定であることを検証する。 最後に、GPT-4の動作が他のプレイヤーについてさらに情報を提供し、選択する前に相手プレイヤーの動作を予測することでどのように修正できるかを示す。 これらの結果はLLMの社会的行動に対する理解を深め、マシンの行動ゲーム理論の道を開いた。

Large Language Models (LLMs) are transforming society and permeating into diverse applications. As a result, LLMs will frequently interact with us and other agents. It is, therefore, of great societal value to understand how LLMs behave in interactive social settings. Here, we propose to use behavioral game theory to study LLM's cooperation and coordination behavior. To do so, we let different LLMs (GPT-3, GPT-3.5, and GPT-4) play finitely repeated games with each other and with other, human-like strategies. Our results show that LLMs generally perform well in such tasks and also uncover persistent behavioral signatures. In a large set of two players-two strategies games, we find that LLMs are particularly good at games where valuing their own self-interest pays off, like the iterated Prisoner's Dilemma family. However, they behave sub-optimally in games that require coordination. We, therefore, further focus on two games from these distinct families. In the canonical iterated Prisoner's Dilemma, we find that GPT-4 acts particularly unforgivingly, always defecting after another agent has defected only once. In the Battle of the Sexes, we find that GPT-4 cannot match the behavior of the simple convention to alternate between options. We verify that these behavioral signatures are stable across robustness checks. Finally, we show how GPT-4's behavior can be modified by providing further information about the other player as well as by asking it to predict the other player's actions before making a choice. These results enrich our understanding of LLM's social behavior and pave the way for a behavioral game theory for machines.
翻訳日:2023-05-29 15:15:20 公開日:2023-05-26
# 区間時間論理決定木を用いた知識抽出

Knowledge Extraction with Interval Temporal Logic Decision Trees ( http://arxiv.org/abs/2305.16864v1 )

ライセンス: Link先を確認
Guido Sciavicco and Stan Ionel Eduard(参考訳) 多変量時間、時間、級数分類は、ある意味で、(数値)分類の時間的一般化であり、全てのインスタンスは複数の値の代わりに複数の時系列によって記述される。 シンボリック分類とは、データセットから明示的な知識を抽出する機械学習戦略であり、多変量時間系列のシンボリック分類の問題は、例えば意思決定木の時間的バージョンを抽出するアルゴリズムのような、アドホックな機械学習アルゴリズムの設計、実装、およびテストを必要とする。 カテゴリデータから決定木を抽出する最もよく知られたアルゴリズムの1つは、クインランのID3であり、これは後に数値属性を扱うように拡張され、結果としてC4.5と呼ばれるアルゴリズムが生まれ、いわゆるWekaを含む多くのオープンソースデータマイニングライブラリで実装された。 ID3は最近、時系列の時間データを扱うために一般化され、それは多変量時系列の離散的な(カテゴリー的な)バージョンと見なすことができ、その一般化は、時間論理HSに基づくテンポラルID3として知られている。 本稿では、時間的決定木を非離散化された多変量時系列から抽出し、その実装をTemporal J48と呼び、公開データセットの集合上で後者と実験の集合の結果について議論し、その結果を他の古典的・多変量時系列分類法と比較する。

Multivariate temporal, or time, series classification is, in a way, the temporal generalization of (numeric) classification, as every instance is described by multiple time series instead of multiple values. Symbolic classification is the machine learning strategy to extract explicit knowledge from a data set, and the problem of symbolic classification of multivariate temporal series requires the design, implementation, and test of ad-hoc machine learning algorithms, such as, for example, algorithms for the extraction of temporal versions of decision trees. One of the most well-known algorithms for decision tree extraction from categorical data is Quinlan's ID3, which was later extended to deal with numerical attributes, resulting in an algorithm known as C4.5, and implemented in many open-sources data mining libraries, including the so-called Weka, which features an implementation of C4.5 called J48. ID3 was recently generalized to deal with temporal data in form of timelines, which can be seen as discrete (categorical) versions of multivariate time series, and such a generalization, based on the interval temporal logic HS, is known as Temporal ID3. In this paper we introduce Temporal C4.5, that allows the extraction of temporal decision trees from undiscretized multivariate time series, describe its implementation, called Temporal J48, and discuss the outcome of a set of experiments with the latter on a collection of public data sets, comparing the results with those obtained by other, classical, multivariate time series classification methods.
翻訳日:2023-05-29 15:14:52 公開日:2023-05-26
# テキスト分類器のすっきりした相関を抑える学習効果の制御

Controlling Learned Effects to Reduce Spurious Correlations in Text Classifiers ( http://arxiv.org/abs/2305.16863v1 )

ライセンス: Link先を確認
Parikshit Bansal, Amit Sharma(参考訳) NLP分類器がトレーニング特徴とターゲットラベルの急激な相関関係を学習する問題に対処するために、モデルの予測をこれらの特徴に不変にする方法が一般的である。 しかし、この機能がターゲットラベルに非ゼロ因果効果を持つ場合に逆生成的であり、したがって予測に重要である。 そこで,因果推論の文献から得られた手法を用いて,モデル予測における特徴の学習効果をラベルに対する特徴の予測効果に正則化するアルゴリズムを提案する。 これにより,特徴量の推定効果を利用してラベルを適切に変更する自動拡張手法が実現される。 毒性およびIMDBレビューデータセットについて、提案アルゴリズムは、スプリアス相関を最小化し、マイノリティグループ(すなわち、スプリアス相関を破るサンプル)の精度を向上するとともに、標準トレーニングと比較して総精度を向上する。

To address the problem of NLP classifiers learning spurious correlations between training features and target labels, a common approach is to make the model's predictions invariant to these features. However, this can be counter-productive when the features have a non-zero causal effect on the target label and thus are important for prediction. Therefore, using methods from the causal inference literature, we propose an algorithm to regularize the learnt effect of the features on the model's prediction to the estimated effect of feature on label. This results in an automated augmentation method that leverages the estimated effect of a feature to appropriately change the labels for new augmented inputs. On toxicity and IMDB review datasets, the proposed algorithm minimises spurious correlations and improves the minority group (i.e., samples breaking spurious correlations) accuracy, while also improving the total accuracy compared to standard training.
翻訳日:2023-05-29 15:14:24 公開日:2023-05-26
# 磁気テープレコーダのニューラルモデリング

Neural modeling of magnetic tape recorders ( http://arxiv.org/abs/2305.16862v1 )

ライセンス: Link先を確認
Otto Mikkonen, Alec Wright, Eloi Moliner and Vesa V\"alim\"aki(参考訳) オープンリールやカセットテープレコーダーのような磁気記録媒体の音は、磁気記録プロセスの物理に埋め込まれた不完全さのために、今日の音響実践者によって依然として追求されている。 本稿では,ニューラルネットワークを用いたデジタルエミュレート手法を提案する。 提案方式の信号連鎖は, 磁気記録法により生成したヒステリシス非線形性とフィルタリング, 記録・再生増幅器, テープ搬送から発生する変動遅延, 各種電磁起源からの付加雑音成分の3成分からなる。 提案手法では, 階層的非線形ブロックをリカレントニューラルネットワークを用いてモデル化し, 遅延軌跡と雑音成分をU-net深部畳み込みニューラルネットワークを用いた拡散モデルを用いて生成する。 提案手法では,磁気テープレコーダの特性を忠実に把握する。 本研究は, ヴィンテージ録音装置の仮想レプリカを製作し, 音楽制作と音響古文書作成に応用することを目的としている。

The sound of magnetic recording media, such as open-reel and cassette tape recorders, is still sought after by today's sound practitioners due to the imperfections embedded in the physics of the magnetic recording process. This paper proposes a method for digitally emulating this character using neural networks. The signal chain of the proposed system consists of three main components: the hysteretic nonlinearity and filtering jointly produced by the magnetic recording process as well as the record and playback amplifiers, the fluctuating delay originating from the tape transport, and the combined additive noise component from various electromagnetic origins. In our approach, the hysteretic nonlinear block is modeled using a recurrent neural network, while the delay trajectories and the noise component are generated using separate diffusion models, which employ U-net deep convolutional neural networks. According to the conducted objective evaluation, the proposed architecture faithfully captures the character of the magnetic tape recorder. The results of this study can be used to construct virtual replicas of vintage sound recording devices with applications in music production and audio antiquing tasks.
翻訳日:2023-05-29 15:14:07 公開日:2023-05-26
# フローマッチング法における誤差境界

Error Bounds for Flow Matching Methods ( http://arxiv.org/abs/2305.16860v1 )

ライセンス: Link先を確認
Joe Benton, George Deligiannidis, Arnaud Doucet(参考訳) スコアベース生成モデルは確率微分方程式(SDE)に依存する生成モデリング技法の一般的なクラスである。 当初から,SDEではなく,通常の微分方程式(ODE)を用いて生成することも可能であった。 これは確率フロー ode アプローチの導入と拡散暗黙モデルの拡張につながった。 フローマッチング手法は、最近これらのODEベースのアプローチをさらに拡張し、2つの任意の確率分布間のフローを近似した。 確率的サンプリング条件下での拡散モデルの近似誤差に関する以前の研究は、$l^2$損失の仮定から導かれた。 近似誤差に対する$l^2$バインドとデータ分布上の一定の正規性条件を仮定し,完全決定論的サンプリングを用いてフローマッチング手順の誤差境界を示す。

Score-based generative models are a popular class of generative modelling techniques relying on stochastic differential equations (SDE). From their inception, it was realized that it was also possible to perform generation using ordinary differential equations (ODE) rather than SDE. This led to the introduction of the probability flow ODE approach and denoising diffusion implicit models. Flow matching methods have recently further extended these ODE-based approaches and approximate a flow between two arbitrary probability distributions. Previous work derived bounds on the approximation error of diffusion models under the stochastic sampling regime, given assumptions on the $L^2$ loss. We present error bounds for the flow matching procedure using fully deterministic sampling, assuming an $L^2$ bound on the approximation error and a certain regularity condition on the data distributions.
翻訳日:2023-05-29 15:13:48 公開日:2023-05-26
# 科学的ファクトチェック:資源とアプローチに関する調査

Scientific Fact-Checking: A Survey of Resources and Approaches ( http://arxiv.org/abs/2305.16859v1 )

ライセンス: Link先を確認
Juraj Vladika, Florian Matthes(参考訳) 事実チェックのタスクは、信頼できる証拠と背景知識に基づいて事実クレームの妥当性を評価することである。 特に、科学的事実チェックは、科学的知識に根ざした主張を検証するタスクのバリエーションである。 このタスクは、オンラインプラットフォームにおける科学と健康に関する議論の重要性が増していることから、大きな注目を集めている。 nlpに基づく自動科学的事実チェック手法は、誤情報の拡散に対処し、研究者の知識発見を支援し、新たな科学的ブレークスルーを理解するのに役立つ。 本稿では,この新興分野における既存研究の包括的調査とその関連課題について述べる。 我々はタスク記述を提供し,既存のデータセットの構築プロセスについて議論し,提案するモデルとアプローチを分析する。 以上より,興味をそそる課題を特定し,今後の方向性を概説する。

The task of fact-checking deals with assessing the veracity of factual claims based on credible evidence and background knowledge. In particular, scientific fact-checking is the variation of the task concerned with verifying claims rooted in scientific knowledge. This task has received significant attention due to the growing importance of scientific and health discussions on online platforms. Automated scientific fact-checking methods based on NLP can help combat the spread of misinformation, assist researchers in knowledge discovery, and help individuals understand new scientific breakthroughs. In this paper, we present a comprehensive survey of existing research in this emerging field and its related tasks. We provide a task description, discuss the construction process of existing datasets, and analyze proposed models and approaches. Based on our findings, we identify intriguing challenges and outline potential future directions to advance the field.
翻訳日:2023-05-29 15:13:33 公開日:2023-05-26
# 自由フェルミオン系における偏差区間の対数ネガティビティとスペクトル

Logarithmic Negativity and Spectrum in Free Fermionic Systems for Well-separated Intervals ( http://arxiv.org/abs/2305.16856v1 )

ライセンス: Link先を確認
Eldad Bettelheim(参考訳) 我々はRefで開発されたリーマン・ヒルベルトのアプローチに基づく数学的枠組みを用いる。 [1] 自由フェルミオンの2つの間隔の対数ネガティリティを研究するには,間隔の大きさとそれらの間の距離が大まかである。 密度行列の固有値はいずれも負ではなく、より小さな虚数的値が生まれ、非ゼロ対数的負性へと繋がる。 例えば、ハーフフィリングと等しい大きさの区間で負性を計算すると、位数 $(\log(N))^{-1}$ の結果が得られ、そこでは、$N$ は格子間隔の単位の典型的な長さスケールである。 さらなる状況では対数ネガティビティを計算することができるが、フェルミ準位と格子間隔の単位における間隔の大きさによっては、結果は普遍的ではないことが分かる。

We employ a mathematical framework based on the Riemann-Hilbert approach developed in Ref. [1] to study logarithmic negativity of two intervals of free fermions in the case where the size of the intervals as well as the distance between them is macroscopic. We find that none of the eigenvalues of the density matrix become negative, but rather they develop a small imaginary value, leading to non-zero logarithmic negativity. As an example, we compute negativity at half-filling and for intervals of equal size we find a result of order $(\log(N))^{-1}$, where $N$ is the typical length scale in units of the lattice spacing. One may compute logarithmic negativity in further situations, but we find that the results are non-universal, depending non-smoothly on the Fermi level and the size of the intervals in units of the lattice spacing.
翻訳日:2023-05-29 15:13:21 公開日:2023-05-26
# オーバーザ・エアフェデレーション学習のためのチャネルおよびグラデーション・インポータンス・アウェア・スケジューリング

Channel and Gradient-Importance Aware Device Scheduling for Over-the-Air Federated Learning ( http://arxiv.org/abs/2305.16854v1 )

ライセンス: Link先を確認
Yuchang Sun and Zehong lin and Yuyi Mao and Shi Jin and Jun Zhang(参考訳) Federated Learning(FL)は、複数のデバイスが協力して、ローカルモデルの更新をアップロードすることで機械学習モデルをトレーニングする、一般的なプライバシ保護分散トレーニングスキームである。 通信効率を向上させるため、flはアナログ変調を利用して電波の重ね合わせ特性を利用して、多数のデバイスがモデル更新をアグリゲーションに同時にアップロードできるように、aircomp(over-the-air computation)を適用している。 しかし、アップリンクチャネルノイズは、デバイススケジューリングによって決定的に決定され、学習したモデル性能を損なうかなりのモデル凝集歪みを引き起こす。 本稿では,ある確率に応じて各デバイスをスケジュールし,そのモデル更新をこのアグリゲーションの確率を用いて再重み付けする,チャネルノイズの負の影響を軽減するために,PO-FLと呼ばれるオーバーザエアFLの確率的デバイススケジューリングフレームワークを提案する。 この凝集スキームの不偏性を証明し、凸損失関数と非凸損失関数の両方におけるpo-flの収束を実証する。 我々の収束限界は、デバイススケジューリングがコミュニケーションの歪みとグローバル更新のばらつきを通じて学習性能に影響することを明かした。 収束解析に基づいて、PO-FLにおけるデバイススケジューリング確率を最適化するチャネルと勾配重要度認識アルゴリズムをさらに開発する。 広範なシミュレーション結果から,提案手法は,提案手法がベースライン法よりも高速に収束し,より優れたモデルを生成することを示す。

Federated learning (FL) is a popular privacy-preserving distributed training scheme, where multiple devices collaborate to train machine learning models by uploading local model updates. To improve communication efficiency, over-the-air computation (AirComp) has been applied to FL, which leverages analog modulation to harness the superposition property of radio waves such that numerous devices can upload their model updates concurrently for aggregation. However, the uplink channel noise incurs considerable model aggregation distortion, which is critically determined by the device scheduling and compromises the learned model performance. In this paper, we propose a probabilistic device scheduling framework for over-the-air FL, named PO-FL, to mitigate the negative impact of channel noise, where each device is scheduled according to a certain probability and its model update is reweighted using this probability in aggregation. We prove the unbiasedness of this aggregation scheme and demonstrate the convergence of PO-FL on both convex and non-convex loss functions. Our convergence bounds unveil that the device scheduling affects the learning performance through the communication distortion and global update variance. Based on the convergence analysis, we further develop a channel and gradient-importance aware algorithm to optimize the device scheduling probabilities in PO-FL. Extensive simulation results show that the proposed PO-FL framework with channel and gradient-importance awareness achieves faster convergence and produces better models than baseline methods.
翻訳日:2023-05-29 15:13:05 公開日:2023-05-26
# スマートリプライ最適化のためのモデルベースシミュレーション

Model-Based Simulation for Optimising Smart Reply ( http://arxiv.org/abs/2305.16852v1 )

ライセンス: Link先を確認
Benjamin Towle and Ke Zhou(参考訳) スマートリプライ(SR)システムは、応答をタイプする代わりに選択できる一連のリプライをユーザに提示する。 このタスクをうまく実行するためには、システムは、ユーザの望む応答を少なくとも1つ伝達する確率を最大化するために、多様なオプションのセットを効果的にユーザに提示できるべきである。 そこから学ぶための一連のレスポンスを含むデータセットがないため、これは大きな課題である。 その結果、これまでの研究は、回答のセットを予測するために明示的に学習するのではなく、ホックな多様化に重点を置いてきた。 そこで本研究では,学習世界モデルを用いてユーザ応答をシミュレートし,高値応答集合をモデルベースシミュレーションを用いて発見する手法であるsimsrを提案する。 従来の手法とは異なり、我々の手法はSRの終了ゴールを直接最適化し、予測された応答の少なくとも1つの妥当性を最大化する。 SoTAベースラインと比較して,2つの公開データセットを実証的に比較したところ,ROUGEスコアとSelf-ROUGEスコアの最大21%と18%の改善が得られた。

Smart Reply (SR) systems present a user with a set of replies, of which one can be selected in place of having to type out a response. To perform well at this task, a system should be able to effectively present the user with a diverse set of options, to maximise the chance that at least one of them conveys the user's desired response. This is a significant challenge, due to the lack of datasets containing sets of responses to learn from. Resultantly, previous work has focused largely on post-hoc diversification, rather than explicitly learning to predict sets of responses. Motivated by this problem, we present a novel method SimSR, that employs model-based simulation to discover high-value response sets, through simulating possible user responses with a learned world model. Unlike previous approaches, this allows our method to directly optimise the end-goal of SR--maximising the relevance of at least one of the predicted replies. Empirically on two public datasets, when compared to SoTA baselines, our method achieves up to 21% and 18% improvement in ROUGE score and Self-ROUGE score respectively.
翻訳日:2023-05-29 15:12:37 公開日:2023-05-26
# マルチソースMTの符号誤りに対するロバスト性

Robustness of Multi-Source MT to Transcription Errors ( http://arxiv.org/abs/2305.16894v1 )

ライセンス: Link先を確認
Dominik Mach\'a\v{c}ek, Peter Pol\'ak, Ond\v{r}ej Bojar, Raj Dabre(参考訳) 自動翻訳は音声認識の誤りに敏感であるが、多言語シナリオでは、同時解釈、ダビング、置換によって同じ内容が様々な言語で利用可能である。 本稿では,複数の情報源を利用することで,情報源同士が補い合えば翻訳品質が向上する,という仮説を定式化する。 そこで本研究では、10時間のesicコーパスにおいて、原英語音声におけるasr誤りとそのドイツ語とチェコ語への同時解釈が相互に独立であることを示す。 次に、英語とドイツ語の2つのソースを使用してチェコ語への翻訳を行い、asrエラーに対する堅牢性を確立する。 さらに,両音源を同時に同時翻訳で翻訳する場合,この頑健さを観測する。 以上の結果から,マルチソースニューラルマシン翻訳は,リアルタイム同時翻訳に有用である可能性が示唆された。

Automatic speech translation is sensitive to speech recognition errors, but in a multilingual scenario, the same content may be available in various languages via simultaneous interpreting, dubbing or subtitling. In this paper, we hypothesize that leveraging multiple sources will improve translation quality if the sources complement one another in terms of correct information they contain. To this end, we first show that on a 10-hour ESIC corpus, the ASR errors in the original English speech and its simultaneous interpreting into German and Czech are mutually independent. We then use two sources, English and German, in a multi-source setting for translation into Czech to establish its robustness to ASR errors. Furthermore, we observe this robustness when translating both noisy sources together in a simultaneous translation setting. Our results show that multi-source neural machine translation has the potential to be useful in a real-time simultaneous translation setting, thereby motivating further investigation in this area.
翻訳日:2023-05-29 15:05:52 公開日:2023-05-26
# Sparse Linear Regression の特徴適応

Feature Adaptation for Sparse Linear Regression ( http://arxiv.org/abs/2305.16892v1 )

ライセンス: Link先を確認
Jonathan Kelner, Frederic Koehler, Raghu Meka, Dhruv Rohatgi(参考訳) スパース線形回帰は高次元統計学における中心的な問題である。 多変量ガウス$N(0,\Sigma)$から共変量を引き出すような相関ランダムな設計条件について検討し、余剰リスクの少ない推定器を求める。 真の信号が$t$-sparseで情報理論上は$O(t\log n)$サンプルだけで強い回復保証を達成することができる。 しかし、計算効率の良いアルゴリズムはサンプル複雑性を(ある変種)$\Sigma$の条件数に線形に持つ。 ラッソのような古典的なアルゴリズムは、共変量の間に単一のスパース近似依存性がある場合でも、必要以上に多くのサンプルを必要とする。 多項式時間アルゴリズムは、$\Sigma$を与えられた場合、Lassoを自動で適用し、少数の近似依存を許容する。 特に、定数スパーシティと$\sigma$ が ``outlier''' 固有値を持たない場合の最適に近いサンプル複雑性を達成する。 我々のアルゴリズムは、不条件共変量を用いた疎線形回帰のためのより広範な特徴適応の枠組みに適合する。 このフレームワークでは、定数スパーシティ $t$ と任意の共分散 $\sigma$ に対するブルート力探索に対する最初の多項式因子の改善も提供する。

Sparse linear regression is a central problem in high-dimensional statistics. We study the correlated random design setting, where the covariates are drawn from a multivariate Gaussian $N(0,\Sigma)$, and we seek an estimator with small excess risk. If the true signal is $t$-sparse, information-theoretically, it is possible to achieve strong recovery guarantees with only $O(t\log n)$ samples. However, computationally efficient algorithms have sample complexity linear in (some variant of) the condition number of $\Sigma$. Classical algorithms such as the Lasso can require significantly more samples than necessary even if there is only a single sparse approximate dependency among the covariates. We provide a polynomial-time algorithm that, given $\Sigma$, automatically adapts the Lasso to tolerate a small number of approximate dependencies. In particular, we achieve near-optimal sample complexity for constant sparsity and if $\Sigma$ has few ``outlier'' eigenvalues. Our algorithm fits into a broader framework of feature adaptation for sparse linear regression with ill-conditioned covariates. With this framework, we additionally provide the first polynomial-factor improvement over brute-force search for constant sparsity $t$ and arbitrary covariance $\Sigma$.
翻訳日:2023-05-29 15:05:35 公開日:2023-05-26
# 多層ニューラルネットワークにおける勾配降下の一般化

Generalization Guarantees of Gradient Descent for Multi-Layer Neural Networks ( http://arxiv.org/abs/2305.16891v1 )

ライセンス: Link先を確認
Puyu Wang, Yunwen Lei, Di Wang, Yiming Ying, Ding-Xuan Zhou(参考訳) 近年、アルゴリズム安定性アプローチを用いて勾配降下(GD)によって訓練されたニューラルネットワーク(NN)の一般化を理解するために大きな進歩がなされている。 しかし、既存の研究のほとんどは一層NNに重点を置いており、異なるネットワークスケーリングパラメータの影響に対処していない。 本稿では,多層nnに対するgdの包括的安定性と一般化解析を行うことにより,先行研究である \cite{lei2022stability,richards2021stability} を大きく拡張する。 2層NNでは,ネットワークスケーリングの一般的なパラメータに基づいて,従来の条件を緩和する。 3層NNの場合、我々の技術的貢献は、過度パラメータ化の効果を徹底的に探求する新しい誘導戦略を利用することで、ほぼコヒーレンシブな性質を示すことである。 一般的な知見の直接的な応用として、2層および3層NNのGDアルゴリズムに対して、O(1/\sqrt{n})$の過剰リスク率を導出する。 これは、gdが訓練した過小パラメータと過小パラメータのnnが所望のリスク率o(1/\sqrt{n})$を達成するのに必要な条件または必要条件に光を当てる。 さらに,スケーリングパラメータが増加するか,ネットワークの複雑性が低下すると,GDが所望の誤差率を達成するために過度なパラメータ化を必要としないことを示す。 さらに,低雑音条件下では,2層および3層nnにおいて,gdに対してo(1/n)$の高速リスク率を得る。

Recently, significant progress has been made in understanding the generalization of neural networks (NNs) trained by gradient descent (GD) using the algorithmic stability approach. However, most of the existing research has focused on one-hidden-layer NNs and has not addressed the impact of different network scaling parameters. In this paper, we greatly extend the previous work \cite{lei2022stability,richards2021stability} by conducting a comprehensive stability and generalization analysis of GD for multi-layer NNs. For two-layer NNs, our results are established under general network scaling parameters, relaxing previous conditions. In the case of three-layer NNs, our technical contribution lies in demonstrating its nearly co-coercive property by utilizing a novel induction strategy that thoroughly explores the effects of over-parameterization. As a direct application of our general findings, we derive the excess risk rate of $O(1/\sqrt{n})$ for GD algorithms in both two-layer and three-layer NNs. This sheds light on sufficient or necessary conditions for under-parameterized and over-parameterized NNs trained by GD to attain the desired risk rate of $O(1/\sqrt{n})$. Moreover, we demonstrate that as the scaling parameter increases or the network complexity decreases, less over-parameterization is required for GD to achieve the desired error rates. Additionally, under a low-noise condition, we obtain a fast risk rate of $O(1/n)$ for GD in both two-layer and three-layer NNs.
翻訳日:2023-05-29 15:05:14 公開日:2023-05-26
# Universal Weak Coreset

Universal Weak Coreset ( http://arxiv.org/abs/2305.16890v1 )

ライセンス: Link先を確認
Ragesh Jaiswal and Amit Kumar(参考訳) coresets for $k$-means and $k$-median problems(英語版)ではデータの小さな要約が行われ、任意の$k$センターに対するクラスタリングコストが保たれる。 最近、制約付き$k$-meansと$k$-median問題のためにcoresetも構築されている。 しかし、コアセットの概念には欠点がある。 (i)入力点の重み付けが許される設定でのみ適用可能であり、 (ii) 一般計量空間において、コアセットのサイズは点の数に対数的に依存することができる。 弱コアセットの概念は、コアセットよりも厳密な要求が少なく、古典的な$k$-平均問題や$k$-中間問題の文脈で研究されている。 弱コアセットは点の部分集合のペア$(j,s)$であり、ここでは$s$は点集合の要約として、$j$はポテンシャル中心のセットとして振る舞う。 このペアは、その特性を満たす。 (i)$S$は、$k$センターが$J$のみから選ばれている限り、データの良い要約です。 (ii) 最適なコストに近いコストで、$j$で$k$センターを選択するのがよい。 制約のあるクラスタリング設定のために、ユニバーサル弱いコアセットと呼ばれるこのフレームワークを開発します。 最近の制約付き設定のためのcoreset構成と連動して、我々の設計はより大きなデータ圧縮を提供し、概念的にシンプルであり、制約付き$k$medianおよび$k$-means問題に適用できる。

Coresets for $k$-means and $k$-median problems yield a small summary of the data, which preserve the clustering cost with respect to any set of $k$ centers. Recently coresets have also been constructed for constrained $k$-means and $k$-median problems. However, the notion of coresets has the drawback that (i) they can only be applied in settings where the input points are allowed to have weights, and (ii) in general metric spaces, the size of the coresets can depend logarithmically on the number of points. The notion of weak coresets, which have less stringent requirements than coresets, has been studied in the context of classical $k$-means and $k$-median problems. A weak coreset is a pair $(J,S)$ of subsets of points, where $S$ acts as a summary of the point set and $J$ as a set of potential centers. This pair satisfies the properties that (i) $S$ is a good summary of the data as long as the $k$ centers are chosen from $J$ only, and (ii) there is a good choice of $k$ centers in $J$ with cost close to the optimal cost. We develop this framework, which we call universal weak coresets, for constrained clustering settings. In conjunction with recent coreset constructions for constrained settings, our designs give greater data compression, are conceptually simpler, and apply to a wide range of constrained $k$-median and $k$-means problems.
翻訳日:2023-05-29 15:04:48 公開日:2023-05-26
# 多部グラフ表現を用いたスパースニューラルネットワーク内探索

Peeking inside Sparse Neural Networks using Multi-Partite Graph Representations ( http://arxiv.org/abs/2305.16886v1 )

ライセンス: Link先を確認
Elia Cunegatti, Doina Bucur, Giovanni Iacca(参考訳) 現代のディープニューラルネットワーク(DNN)は計算資源を犠牲にして非常に高い性能を実現している。 計算負荷を低減するため,ネットワークパラメータ数を削減しつつ,性能を維持できる効率的なサブネットワークであるDNNから抽出する手法が提案されている。 この文献は、そのようなサブネットワークを発見するための幅広いテクニックを提供しているが、そのような刈り取られたアーキテクチャの特異なトポロジを研究した作品はほとんどない。 本稿では,入力データとの関係に基づき,スパースニューラルネットワークか高密度ニューラルネットワークのそれぞれの層に対して,対応するグラフ表現を生成することができる,新規な 'emph{unrolled input-aware} bipartite Graph Encoding (GE) を提案する。 また、レイヤー間の関係を捉えるために、それを多部GEに拡張します。 そこで,我々はトポロジ特性を活用し,既存のプルーニングアルゴリズムとアルゴリズムのカテゴリの違い,およびトポロジと性能の関係について検討する。

Modern Deep Neural Networks (DNNs) have achieved very high performance at the expense of computational resources. To decrease the computational burden, several techniques have proposed to extract, from a given DNN, efficient subnetworks which are able to preserve performance while reducing the number of network parameters. The literature provides a broad set of techniques to discover such subnetworks, but few works have studied the peculiar topologies of such pruned architectures. In this paper, we propose a novel \emph{unrolled input-aware} bipartite Graph Encoding (GE) that is able to generate, for each layer in an either sparse or dense neural network, its corresponding graph representation based on its relation with the input data. We also extend it into a multipartite GE, to capture the relation between layers. Then, we leverage on topological properties to study the difference between the existing pruning algorithms and algorithm categories, as well as the relation between topologies and performance.
翻訳日:2023-05-29 15:04:23 公開日:2023-05-26
# 階層型テキスト分類のための階層型バーバリザ

Hierarchical Verbalizer for Few-Shot Hierarchical Text Classification ( http://arxiv.org/abs/2305.16885v1 )

ライセンス: Link先を確認
Ke Ji and Yixin Lian and Jingsheng Gao and Baoyuan Wang(参考訳) 複雑なラベル階層と高頻度なラベリングコストのため、階層的テキスト分類(HTC)は、特に低リソースや少数ショットの設定を考慮すると、パフォーマンスが低下する。 近年,プレトレーニング言語モデル(PLM)にプロンプトを適用する傾向が高まり,平易なテキスト分類タスクにおいて有効性を示している。 しかし、トレーニングデータが極めて少ないHTC問題において、プロンプトベースの学習のパラダイムを研究する研究は限られている。 そこで本研究では, 経路に基づく少数ショット設定を定義し, 厳密な経路ベースの評価基準を定め, 少数ショットhtcタスクをさらに探究する。 この問題に対処するために,HTCを複数の階層で単一あるいは複数ラベルの分類問題として扱い,ベクトルを階層構造や階層的コントラスト学習に制約された言語化問題として扱うマルチバーバリザ(HierVerb)を提案する。 このように、HierVerbはラベル階層の知識を動詞化子に融合させ、グラフエンコーダを通じて階層を注入する者よりも著しく優れ、PLMの利点を最大化する。 少数の設定で人気のある3つのhtcデータセットに関する広範囲な実験は、hierverbによるプロンプトがhtcのパフォーマンスを著しく向上させ、一方、大きな事前訓練されたモデルと下流階層分類タスクの間のギャップを埋めるエレガントな方法を示している。 私たちのコードと少数のデータセットはhttps://github.com/1KE-JI/HierVerb.comで公開されています。

Due to the complex label hierarchy and intensive labeling cost in practice, the hierarchical text classification (HTC) suffers a poor performance especially when low-resource or few-shot settings are considered. Recently, there is a growing trend of applying prompts on pre-trained language models (PLMs), which has exhibited effectiveness in the few-shot flat text classification tasks. However, limited work has studied the paradigm of prompt-based learning in the HTC problem when the training data is extremely scarce. In this work, we define a path-based few-shot setting and establish a strict path-based evaluation metric to further explore few-shot HTC tasks. To address the issue, we propose the hierarchical verbalizer ("HierVerb"), a multi-verbalizer framework treating HTC as a single- or multi-label classification problem at multiple layers and learning vectors as verbalizers constrained by hierarchical structure and hierarchical contrastive learning. In this manner, HierVerb fuses label hierarchy knowledge into verbalizers and remarkably outperforms those who inject hierarchy through graph encoders, maximizing the benefits of PLMs. Extensive experiments on three popular HTC datasets under the few-shot settings demonstrate that prompt with HierVerb significantly boosts the HTC performance, meanwhile indicating an elegant way to bridge the gap between the large pre-trained model and downstream hierarchical classification tasks. Our code and few-shot dataset are publicly available at https://github.com/1KE-JI/HierVerb.
翻訳日:2023-05-29 15:04:07 公開日:2023-05-26
# ブロックチェーンの匿名化のための議論スキーム

Argumentation Schemes for Blockchain Deanonymization ( http://arxiv.org/abs/2305.16883v1 )

ライセンス: Link先を確認
Dominic Deuber and Jan Gruber and Merlin Humml and Viktoria Ronge and Nicole Scheler(参考訳) 暗号通貨鑑定は法執行機関の標準的な道具となった。 彼らの基本的な考え方は、暗号通貨取引を匿名化して、背後にいる人々を識別することだ。 暗号通貨の匿名化技術は多くの場合、特に法律実務において暗黙的に残る前提に基づいている。 一方で、この暗黙性は調査を複雑にする。 一方で、影響を受けた人々の権利に対して、はるかに大きな影響をもたらす可能性がある。 議論のスキームは、基盤となる前提を透明にすることで、この不安定な状況を改善することができる。 さらに、暗号通貨の匿名化技術によって得られた結果の確率的価値を批判的に評価するのに役立つ。 議論理論とAIコミュニティでは、議論スキームは異なるタイプの議論に対して暗黙の前提を示すので、影響力がある。 批判的な質問を通じて、議論参加者は議論を批判的に評価するのを助ける。 我々は、暗号通貨の匿名化に関する法的推論に対する議論スキームの概念を専門とする。 さらに,実世界の例の例示を通して,結果のスキームの適用性を示す。 最終的には、当社のスキームを法律実務に使用することで、ブロックチェーン調査の正当な価値を確固たるものにするとともに、基盤となる前提における不確実性の発見と対処を支援することができると考えています。

Cryptocurrency forensics became standard tools for law enforcement. Their basic idea is to deanonymise cryptocurrency transactions to identify the people behind them. Cryptocurrency deanonymisation techniques are often based on premises that largely remain implicit, especially in legal practice. On the one hand, this implicitness complicates investigations. On the other hand, it can have far-reaching consequences for the rights of those affected. Argumentation schemes could remedy this untenable situation by rendering underlying premises transparent. Additionally, they can aid in critically evaluating the probative value of any results obtained by cryptocurrency deanonymisation techniques. In the argumentation theory and AI community, argumentation schemes are influential as they state implicit premises for different types of arguments. Through their critical questions, they aid the argumentation participants in critically evaluating arguments. We specialise the notion of argumentation schemes to legal reasoning about cryptocurrency deanonymisation. Furthermore, we demonstrate the applicability of the resulting schemes through an exemplary real-world case. Ultimately, we envision that using our schemes in legal practice can solidify the evidential value of blockchain investigations as well as uncover and help address uncertainty in underlying premises - thus contributing to protect the rights of those affected by cryptocurrency forensics.
翻訳日:2023-05-29 15:03:35 公開日:2023-05-26
# クローズド文字列は排他的検索より早く解けるか?

Can You Solve Closest String Faster than Exhaustive Search? ( http://arxiv.org/abs/2305.16878v1 )

ライセンス: Link先を確認
Amir Abboud, Nick Fischer, Elazar Goldenberg, Karthik C. S., and Ron Safier(参考訳) x \subseteq \sigma^d$ of $n$ string が与えられたとき、最小のハミングボールの半径を最小化する$x^*$ を、$x$ で囲む$x^*$ で求める。 本稿では,最も近い文字列問題は,自明な探索アルゴリズムよりも高速なアルゴリズムを許容するかどうかを検討する。 問題の2つの自然なバージョンについて以下の結果が得られる: $\bullet$ 連続的最も近い文字列問題において、目標は$\sigma^d$ で解文字列 $x^*$ を見つけることである。 二進文字列の場合、全探索アルゴリズムは時間$O(2^d poly(nd))$で実行され、強い指数時間仮説が失敗しない限り、任意の$\epsilon > 0$に対して、時間$O(2(1-\epsilon) d} poly(nd))$で改善できないことが証明される。 $\bullet$ 離散クローズスト文字列問題では、$x^*$ は入力セット $X$ にある必要がある。 この問題は多項式時間で明らかであるが、そのきめ細かい複雑さは、次元が $\omega(\log n) < d < n^{o(1)}$ であるとき、二次時間 $n^{2 \pm o(1)}$ と特定されている。 この既知の難易度を新しいアルゴリズムで補完し、基本的に$d$がハードレンジから外れると、離散的最寄り文字列問題は徹底的な探索よりも早く解くことができることを証明します。 我々のアルゴリズムは、小額のd$レジームにおいて、包含-排他原理の新たな応用に基づいている。 興味深いことに、我々の結果のすべては、最も近い文字列問題の自然双対問題、すなわち \emph{remotest string}問題に適用され、ここでは、すべての文字列に対するハミング距離を最大化する文字列を$x$で見つけることがタスクである。

We study the fundamental problem of finding the best string to represent a given set, in the form of the Closest String problem: Given a set $X \subseteq \Sigma^d$ of $n$ strings, find the string $x^*$ minimizing the radius of the smallest Hamming ball around $x^*$ that encloses all the strings in $X$. In this paper, we investigate whether the Closest String problem admits algorithms that are faster than the trivial exhaustive search algorithm. We obtain the following results for the two natural versions of the problem: $\bullet$ In the continuous Closest String problem, the goal is to find the solution string $x^*$ anywhere in $\Sigma^d$. For binary strings, the exhaustive search algorithm runs in time $O(2^d poly(nd))$ and we prove that it cannot be improved to time $O(2^{(1-\epsilon) d} poly(nd))$, for any $\epsilon > 0$, unless the Strong Exponential Time Hypothesis fails. $\bullet$ In the discrete Closest String problem, $x^*$ is required to be in the input set $X$. While this problem is clearly in polynomial time, its fine-grained complexity has been pinpointed to be quadratic time $n^{2 \pm o(1)}$ whenever the dimension is $\omega(\log n) < d < n^{o(1)}$. We complement this known hardness result with new algorithms, proving essentially that whenever $d$ falls out of this hard range, the discrete Closest String problem can be solved faster than exhaustive search. In the small-$d$ regime, our algorithm is based on a novel application of the inclusion-exclusion principle. Interestingly, all of our results apply (and some are even stronger) to the natural dual of the Closest String problem, called the \emph{Remotest String} problem, where the task is to find a string maximizing the Hamming distance to all the strings in $X$.
翻訳日:2023-05-29 15:03:17 公開日:2023-05-26
# Dual expectile-Quantile Regressionを用いた分散強化学習

Distributional Reinforcement Learning with Dual Expectile-Quantile Regression ( http://arxiv.org/abs/2305.16877v1 )

ライセンス: Link先を確認
Sami Jullien, Romain Deffayet, Jean-Michel Renders, Paul Groth, Maarten de Rijke(参考訳) 分位量回帰を用いた分布強化学習の成功は、自然な疑問を提起する。 特に、予測回帰は、特に極端値の近似における量子回帰よりも効率的であることが知られており、平均の直接推定器を提供することにより、強化学習の自然な候補となる。 先行研究は、期待値の場合、この疑問に肯定的な回答をしており、収束を保証するために高価な計算を行う必要があることに注意が必要である。 本研究では,先行研究の欠点を解消し,期待値と分位数の相補的性質を生かしながら,二元的期待分位法を提案する。 本手法は,ムジョコ連続制御ベンチマークにおいて,量的ベースラインと期待ベースベースラインの両方を上回っている。

Successful applications of distributional reinforcement learning with quantile regression prompt a natural question: can we use other statistics to represent the distribution of returns? In particular, expectile regression is known to be more efficient than quantile regression for approximating distributions, especially on extreme values, and by providing a straightforward estimator of the mean it is a natural candidate for reinforcement learning. Prior work has answered this question positively in the case of expectiles, with the major caveat that expensive computations must be performed to ensure convergence. In this work, we propose a dual expectile-quantile approach which solves the shortcomings of previous work while leveraging the complementary properties of expectiles and quantiles. Our method outperforms both quantile-based and expectile-based baselines on the MuJoCo continuous control benchmark.
翻訳日:2023-05-29 15:02:36 公開日:2023-05-26
# 全体表現における構成構造の効率的な復号化

Efficient Decoding of Compositional Structure in Holistic Representations ( http://arxiv.org/abs/2305.16873v1 )

ライセンス: Link先を確認
Denis Kleyko, Connor Bybee, Ping-Chen Huang, Christopher J. Kymn, Bruno A. Olshausen, E. Paxon Frady, Friedrich T. Sommer(参考訳) 本稿では,超次元計算/ベクトル記号アーキテクチャによる構成分散表現から情報を取得するタスクと,新しい情報レート境界を実現する新しい手法を提案する。 まず,検索タスクへのアプローチに使用できる復号化手法の概要を紹介する。 技法は4つのグループに分けられる。 次に、外部ノイズや記憶要素を精度の低いものに含めるなど、いくつかの設定で検討した手法を評価する。 特に、スパースコーディングや圧縮センシング文学(超次元コンピューティングやベクトルシンボリックアーキテクチャによく用いられる)からの復号技術は、構成的分散表現から情報を復号するのにも適している。 これらの復号技術と通信からの干渉キャンセルのアイデアを組み合わせることで、より小さなコードブックでは1.20ビットから1.40ビット、大きなコードブックでは0.60ビットから1.26ビットに分散表現の情報レートが向上した(hersche et al., 2021)。

We investigate the task of retrieving information from compositional distributed representations formed by Hyperdimensional Computing/Vector Symbolic Architectures and present novel techniques which achieve new information rate bounds. First, we provide an overview of the decoding techniques that can be used to approach the retrieval task. The techniques are categorized into four groups. We then evaluate the considered techniques in several settings that involve, e.g., inclusion of external noise and storage elements with reduced precision. In particular, we find that the decoding techniques from the sparse coding and compressed sensing literature (rarely used for Hyperdimensional Computing/Vector Symbolic Architectures) are also well-suited for decoding information from the compositional distributed representations. Combining these decoding techniques with interference cancellation ideas from communications improves previously reported bounds (Hersche et al., 2021) of the information rate of the distributed representations from 1.20 to 1.40 bits per dimension for smaller codebooks and from 0.60 to 1.26 bits per dimension for larger codebooks.
翻訳日:2023-05-29 15:02:23 公開日:2023-05-26
# 多インスタンス部分ラベル学習のための曖昧な注意埋め込み

Disambiguated Attention Embedding for Multi-Instance Partial-Label Learning ( http://arxiv.org/abs/2305.16912v1 )

ライセンス: Link先を確認
Wei Tang, Weijia Zhang, Min-Ling Zhang(参考訳) 多くの実世界のタスクでは、関係するオブジェクトは1つの接地ラベルと複数の偽陽性ラベルからなる候補ラベルセットに関連付けられたマルチインスタンスバッグとして表現することができる。 マルチインスタンス部分ラベル学習(MIPL)は、そのようなタスクに対処する学習パラダイムであり、良好なパフォーマンスを実現している。 既存のmiplアプローチはインスタンス空間のパラダイムに従い、拡張されたバッグのラベルセットを各インスタンスに割り当て、インスタンスレベルのラベルからバッグレベルのラベルを集約する。 しかし、グローバルバッグレベルの情報は無視され、予測されたバッグのラベルは負のインスタンスの予測に敏感であるため、このスキームは最適ではないかもしれない。 本論文では,マルチインスタンスバッグを1つのベクトル表現に埋め込んだ代替手法を提案する。 そこで,マルチインテンス部分ラベル学習のための非あいまいな注意埋め込み法である demipl という直感的アルゴリズムを提案する。 DEMIPLは、マルチインスタンスバッグを単一のベクトル表現に集約するための曖昧な注意機構を採用し、続いて、モーメントに基づく曖昧な戦略を用いて、候補ラベルセットから基底トラスラベルを識別する。 さらに,大腸癌分類のための実世界のmiplデータセットも紹介する。 ベンチマークおよび実世界のデータセットによる実験結果は、DEMIPLの他の確立されたMIPLおよび部分ラベル学習手法に対する優位性を検証する。 私たちのコードとデータセットは公開される予定だ。

In many real-world tasks, the concerned objects can be represented as a multi-instance bag associated with a candidate label set, which consists of one ground-truth label and several false positive labels. Multi-instance partial-label learning (MIPL) is a learning paradigm to deal with such tasks and has achieved favorable performances. Existing MIPL approach follows the instance-space paradigm by assigning augmented candidate label sets of bags to each instance and aggregating bag-level labels from instance-level labels. However, this scheme may be suboptimal as global bag-level information is ignored and the predicted labels of bags are sensitive to predictions of negative instances. In this paper, we study an alternative scheme where a multi-instance bag is embedded into a single vector representation. Accordingly, an intuitive algorithm named DEMIPL, i.e., Disambiguated attention Embedding for Multi-Instance Partial-Label learning, is proposed. DEMIPL employs a disambiguation attention mechanism to aggregate a multi-instance bag into a single vector representation, followed by a momentum-based disambiguation strategy to identify the ground-truth label from the candidate label set. Furthermore, we introduce a real-world MIPL dataset for colorectal cancer classification. Experimental results on benchmark and real-world datasets validate the superiority of DEMIPL against other well-established MIPL and partial-label learning methods. Our code and datasets will be made publicly available.
翻訳日:2023-05-29 14:56:13 公開日:2023-05-26
# 複素数値深部ニューラルネットワークを用いた普遍近似

Universal approximation with complex-valued deep narrow neural networks ( http://arxiv.org/abs/2305.16910v1 )

ライセンス: Link先を確認
Paul Geuchen, Thomas Jahn, Hannes Matt(参考訳) 有界幅と任意の深さを持つ複素値ニューラルネットワークの普遍性について検討する。 穏やかな仮定の下で、これらの活性化関数の完全な説明を、それらの関連ネットワークが普遍的であること、すなわち、コンパクトな領域において任意の精度で連続関数を近似することができる性質を持つ、$\varrho:\mathbb{cc}\to \mathbb{c}$ を与える。 正確には、深い狭い複素数値ネットワークが普遍であることと、それらの活性化関数が正則でないこと、正則でないこと、反正則でないこと、あるいは$\mathbb{R}$-affine であることを示せる。 これは任意の幅と固定深さの双対設定よりもはるかに大きな関数のクラスである。 実際の場合とは異なり、十分な幅は考慮された活性化関数によって大きく異なる。 2n+2m+5$の幅は常に十分であり、一般に$\max\{2n,2m\}$の幅が必要である。 しかし、許容アクティベーション関数のリッチなサブクラスに対して、n+m+4$の幅が十分であることを証明します。 ここで、$n$と$m$は考慮されたネットワークの入力と出力の次元を表す。

We study the universality of complex-valued neural networks with bounded widths and arbitrary depths. Under mild assumptions, we give a full description of those activation functions $\varrho:\mathbb{CC}\to \mathbb{C}$ that have the property that their associated networks are universal, i.e., are capable of approximating continuous functions to arbitrary accuracy on compact domains. Precisely, we show that deep narrow complex-valued networks are universal if and only if their activation function is neither holomorphic, nor antiholomorphic, nor $\mathbb{R}$-affine. This is a much larger class of functions than in the dual setting of arbitrary width and fixed depth. Unlike in the real case, the sufficient width differs significantly depending on the considered activation function. We show that a width of $2n+2m+5$ is always sufficient and that in general a width of $\max\{2n,2m\}$ is necessary. We prove, however, that a width of $n+m+4$ suffices for a rich subclass of the admissible activation functions. Here, $n$ and $m$ denote the input and output dimensions of the considered networks.
翻訳日:2023-05-29 14:55:47 公開日:2023-05-26
# CyPhERS: 攻撃と障害応答をリアルタイムに認識するサイバー物理イベント推論システム

CyPhERS: A Cyber-Physical Event Reasoning System providing real-time situational awareness for attack and fault response ( http://arxiv.org/abs/2305.16907v1 )

ライセンス: Link先を確認
Nils M\"uller, Kaibin Bao, J\"org Matthes, Kai Heussen(参考訳) サイバー物理システム(CPS)は電力網や配水網などの重要なインフラのバックボーンを構成する。 これらのシステムにおける運用障害は社会に深刻なリスクをもたらす可能性がある。 ダウンタイムを回避または最小化するために、オペレータは重要なインシデントに対するリアルタイムの認識を必要とする。 しかし、CPSのオンラインイベント識別は、多くの物理的およびデジタルコンポーネントの複雑な相互依存により、サイバー攻撃と物理的失敗を考慮に入れなければならない。 オンラインイベント識別問題は、重要だが稀な出来事の歴史的観察の欠如と、サイバー攻撃戦略の継続的な進化によってさらに複雑になっている。 本稿では,サイバー物理イベント推論システムであるCyPhERSを紹介し,実演する。 CyPhERSは、歴史的事象の観測を必要とせず、CPSにおける潜在的に重要な事象の発生、位置、物理的影響、根本原因に関するリアルタイム情報を提供する。 CyPhERSの重要な特徴は、既知の、未知のタイプのサイバー攻撃と物理的障害の両方の、情報的で解釈可能なイベントシグネチャを生成する能力である。 この概念は、CPSの様々なコンポーネントをターゲットにした多数の攻撃や障害イベントを含むデモケースで評価され、ベンチマークされる。 その結果、イベントシグネチャは、既知のイベントタイプと未知のイベントタイプの両方について、関連性および推測可能な情報を提供することが示された。

Cyber-physical systems (CPSs) constitute the backbone of critical infrastructures such as power grids or water distribution networks. Operating failures in these systems can cause serious risks for society. To avoid or minimize downtime, operators require real-time awareness about critical incidents. However, online event identification in CPSs is challenged by the complex interdependency of numerous physical and digital components, requiring to take cyber attacks and physical failures equally into account. The online event identification problem is further complicated through the lack of historical observations of critical but rare events, and the continuous evolution of cyber attack strategies. This work introduces and demonstrates CyPhERS, a Cyber-Physical Event Reasoning System. CyPhERS provides real-time information pertaining the occurrence, location, physical impact, and root cause of potentially critical events in CPSs, without the need for historical event observations. Key novelty of CyPhERS is the capability to generate informative and interpretable event signatures of known and unknown types of both cyber attacks and physical failures. The concept is evaluated and benchmarked on a demonstration case that comprises a multitude of attack and fault events targeting various components of a CPS. The results demonstrate that the event signatures provide relevant and inferable information on both known and unknown event types.
翻訳日:2023-05-29 14:55:25 公開日:2023-05-26
# Laplace- Approximated Neural Additive Model: ベイズ推論による解釈性の向上

Laplace-Approximated Neural Additive Models: Improving Interpretability with Bayesian Inference ( http://arxiv.org/abs/2305.16905v1 )

ライセンス: Link先を確認
Kouroche Bouchiat, Alexander Immer, Hugo Y\`eche, Gunnar R\"atsch, Vincent Fortuin(参考訳) ディープニューラルネットワーク(DNN)は多くの分野で成功しているが、ブラックボックスの性質は解釈可能性を妨げる。 これはneural additive model(nam)によって対処され、ネットワークは加法サブネットワークに分割され、入力特徴と予測の間の相互作用が明らかになる。 本稿では,ベイズ的視点から加法構造にアプローチし,実用的なラプラス近似を開発する。 これは3つの主要な方法で解釈可能性を高める。 a) サブネットワークの機能空間の不確かさを推定することにより、回収された特徴的相互作用に対して信頼できる間隔を提供する。 b) 経験的ベイズ手続きを通じて,暗黙的な特徴の選択を行うために使用できる,限界可能性の追跡可能な推定値が得られること。 c) 微調整された相互作用モデルにおける2次相互作用の候補として特徴対をランク付けするのに使用できる。 提案したLaplace-approximated NAM (LA-NAM) は,表の回帰および分類データセットの性能と解釈性を向上し,現実の医療課題に挑戦することを実証的に示す。

Deep neural networks (DNNs) have found successful applications in many fields, but their black-box nature hinders interpretability. This is addressed by the neural additive model (NAM), in which the network is divided into additive sub-networks, thus making apparent the interaction between input features and predictions. In this paper, we approach the additive structure from a Bayesian perspective and develop a practical Laplace approximation. This enhances interpretability in three primary ways: a) It provides credible intervals for the recovered feature interactions by estimating function-space uncertainty of the sub-networks; b) it yields a tractable estimate of the marginal likelihood, which can be used to perform an implicit selection of features through an empirical Bayes procedure; and c) it can be used to rank feature pairs as candidates for second-order interactions in fine-tuned interaction models. We show empirically that our proposed Laplace-approximated NAM (LA-NAM) improves performance and interpretability on tabular regression and classification datasets and challenging real-world medical tasks.
翻訳日:2023-05-29 14:55:02 公開日:2023-05-26
# Submodular Minimax Optimization: Finding Effective Sets

Submodular Minimax Optimization: Finding Effective Sets ( http://arxiv.org/abs/2305.16903v1 )

ライセンス: Link先を確認
Loay Mualem, Ethan R. Elenberg, Moran Feldman, Amin Karbasi(参考訳) 連続設定におけるミニマックス最適化に関する豊富な文献にもかかわらず、コンビネータ設定で得られるのはこの種の部分的な結果のみである。 本稿では,各応答に対して有効となる集合(minまたはmaxプレーヤ)を見つけることの問題点である,部分モジュラー極小最適化の特性を提供することで,このギャップを埋める。 どのような条件でそのような集合が見つかるかを示す。 また,minimaxサブモジュール最適化が下流の機械学習アプリケーションに対して堅牢なソリューションを提供する方法を示す。 (i)質問応答のための効率的なプロンプトエンジニアリング (ii)ダイアログ状態追跡のためのプロンプトエンジニアリング (iii)ライドシェアリングのロバストな待機場所を特定すること。 (iv)ライドシェアリングの難しさ、及び (v) 敵画像の発見。 我々の実験は,提案アルゴリズムが他のベースラインより一貫して優れていることを示した。

Despite the rich existing literature about minimax optimization in continuous settings, only very partial results of this kind have been obtained for combinatorial settings. In this paper, we fill this gap by providing a characterization of submodular minimax optimization, the problem of finding a set (for either the min or the max player) that is effective against every possible response. We show when and under what conditions we can find such sets. We also demonstrate how minimax submodular optimization provides robust solutions for downstream machine learning applications such as (i) efficient prompt engineering for question answering, (ii) prompt engineering for dialog state tracking, (iii) identifying robust waiting locations for ride-sharing, (iv) ride-share difficulty kernelization, and (v) finding adversarial images. Our experiments demonstrate that our proposed algorithms consistently outperform other baselines.
翻訳日:2023-05-29 14:54:42 公開日:2023-05-26
# 逐次測定とコチェン・スペクター論

Sequential measurements and the Kochen-Specker arguments ( http://arxiv.org/abs/2305.16902v1 )

ライセンス: Link先を確認
G\'abor Hofer-Szab\'o(参考訳) ペレス=メルミン正方形は、作用素に付随する観測可能値が逐次的にのみ測定できるが同時には測定できない場合、値が定まる非コンテキストの隠れ変数モデルを認める。 シーケンシャルな測定は、連続した測定の間に隠れた状態を更新する非コンテキストモデルを可能にする。 シーケンシャルな測定によってペレスメルミン正方形を実現する2つの最近の実験も、これらの実験を説明する他の隠れ変数モデルとともに分析される。

It will be shown that the Peres-Mermin square admits value-definite noncontextual hidden-variable models if the observables associated with the operators can be measured only sequentially but not simultaneously. Namely, sequential measurements allow for noncontextual models in which hidden states update between consecutive measurements. Two recent experiments realizing the Peres-Mermin square by sequential measurements will also be analyzed along with other hidden-variable models accounting for these experiments.
翻訳日:2023-05-29 14:54:30 公開日:2023-05-26
# 変圧器を効率的に訓練するAdamをマニフォールドに一般化

Generalizing Adam To Manifolds For Efficiently Training Transformers ( http://arxiv.org/abs/2305.16901v1 )

ライセンス: Link先を確認
Benedikt Brantner(参考訳) ニューラルネットワークが成功した主な理由の1つは、新しい、非常に成功したオプティマイザ、おそらく最も重要なのはadamオプティマイザの出現だった。 ニューラルネットワークのトレーニングによく使われているが、解釈が難しい。 明快な物理的直観を欠くため、アダムは多様体への一般化が難しい。 アダムアルゴリズムの一部を多様体に直接適用したり、基礎構造を見つけようとする試みもあるが、完全な一般化はいまだに解明されていない。 本稿では、スティフェル多様体、シンプレクティックスティーフェル多様体、グラスマン多様体、シンプレクティックグラスマン多様体などのニューラルネットワークの最適化に関連する多様体の特殊構造を利用する新しいアプローチを提案する。 このグローバル接空間表現は、アダム最適化器のすべてのステップを実行するために使われる。 得られたアルゴリズムは、直交制約を機械の精度まで強制する変圧器の訓練に適用され、トレーニングプロセスにおいてかなりのスピードアップが観察される。 重みが多様体上にないニューラルネットワークの最適化は、提示されたフラムクワークの特別な場合として同定される。 これにより、一般多様体やベクトル空間の要素であるかどうかに関わらず、学習率を全てのパラメータに同時に適用できる柔軟な実装が可能になる。

One of the primary reasons behind the success of neural networks has been the emergence of an array of new, highly-successful optimizers, perhaps most importantly the Adam optimizer. It is wiedely used for training neural networks, yet notoriously hard to interpret. Lacking a clear physical intuition, Adam is difficult to generalize to manifolds. Some attempts have been made to directly apply parts of the Adam algorithm to manifolds or to find an underlying structure, but a full generalization has remained elusive. In this work a new approach is presented that leverages the special structure of the manifolds which are relevant for optimization of neural networks, such as the Stiefel manifold, the symplectic Stiefel manifold, the Grassmann manifold and the symplectic Grassmann manifold: all of these are homogeneous spaces and as such admit a global tangent space representation. This global tangent space representation is used to perform all of the steps in the Adam optimizer. The resulting algorithm is then applied to train a transformer for which orthogonality constraints are enforced up to machine precision and we observe significant speed-ups in the training process. Optimization of neural networks where they weights do not lie on a manifold is identified as a special case of the presented framkework. This allows for a flexible implementation in which the learning rate is adapted simultaneously for all parameters, irrespective of whether they are an element of a general manifold or a vector space.
翻訳日:2023-05-29 14:54:22 公開日:2023-05-26
# インターコネクション: 音声翻訳のための事前学習エンコーダとデコーダの効果的接続

Inter-connection: Effective Connection between Pre-trained Encoder and Decoder for Speech Translation ( http://arxiv.org/abs/2305.16897v1 )

ライセンス: Link先を確認
Yuta Nishikawa, Satoshi Nakamura(参考訳) エンドツーエンドの音声翻訳では、音声とテキストの事前学習モデルによって翻訳品質が向上する。 最近提案されたモデルは、音声とテキストの事前学習されたモデルをエンコーダとデコーダとして接続する。 従って、エンコーダの最終層からの情報のみがデコーダに入力される。 音声事前学習モデルが各層から異なる情報を出力することは明らかであり、簡易接続法は、音声事前学習モデルが有する情報を完全に活用することはできない。 本研究では,重み付き和とデコーダへの入力により,音声事前学習モデルの各層からの情報を集約する相互接続機構を提案する。 この機構は, 音声事前学習モデルが凍結した場合に, パラメータを2K増加させることで, en-de, en-ja, en-zhでBLEUを約2ポイント増加させた。 さらに,各言語に対する各レイヤの寄与について,各レイヤの重みを可視化することにより検討した。

In end-to-end speech translation, speech and text pre-trained models improve translation quality. Recently proposed models simply connect the pre-trained models of speech and text as encoder and decoder. Therefore, only the information from the final layer of encoders is input to the decoder. Since it is clear that the speech pre-trained model outputs different information from each layer, the simple connection method cannot fully utilize the information that the speech pre-trained model has. In this study, we propose an inter-connection mechanism that aggregates the information from each layer of the speech pre-trained model by weighted sums and inputs into the decoder. This mechanism increased BLEU by approximately 2 points in en-de, en-ja, and en-zh by increasing parameters by 2K when the speech pre-trained model was frozen. Furthermore, we investigated the contribution of each layer for each language by visualizing layer weights and found that the contributions were different.
翻訳日:2023-05-29 14:53:59 公開日:2023-05-26
# MultiTool-CoT: GPT-3は思考プロンプトの連鎖で複数の外部ツールを使用できる

MultiTool-CoT: GPT-3 Can Use Multiple External Tools with Chain of Thought Prompting ( http://arxiv.org/abs/2305.16896v1 )

ライセンス: Link先を確認
Tatsuro Inaba, Hirokazu Kiyomaru, Fei Cheng, Sadao Kurohashi(参考訳) 大規模言語モデル(llm)は様々な推論タスクで印象的なパフォーマンスを達成している。 提案するMultiTool-CoT(MultiTool-CoT)は,思考の連鎖(CoT)を利用して,推論プロセス中に計算機や知識検索などの複数の外部ツールを組み込むことを促す新しいフレームワークである。 NumGLUEのタスク2データセットにMultiTool-CoTを適用し,数値推論とドメイン固有知識の両方を必要とする。 実験の結果,本手法は強いベースラインを著しく上回り,最先端の性能を実現していることがわかった。

Large language models (LLMs) have achieved impressive performance on various reasoning tasks. To further improve the performance, we propose MultiTool-CoT, a novel framework that leverages chain-of-thought (CoT) prompting to incorporate multiple external tools, such as a calculator and a knowledge retriever, during the reasoning process. We apply MultiTool-CoT to the Task 2 dataset of NumGLUE, which requires both numerical reasoning and domain-specific knowledge. The experiments show that our method significantly outperforms strong baselines and achieves state-of-the-art performance.
翻訳日:2023-05-29 14:53:43 公開日:2023-05-26
# UMSE:統一マルチシナリオ要約評価

UMSE: Unified Multi-scenario Summarization Evaluation ( http://arxiv.org/abs/2305.16895v1 )

ライセンス: Link先を確認
Shen Gao, Zhitao Yao, Chongyang Tao, Xiuying Chen, Pengjie Ren, Zhaochun Ren and Zhumin Chen(参考訳) 要約品質評価は、テキスト要約における非自明なタスクである。 現代の手法は主に,(1)参照ベース:人間ラベル付き参照要約による評価,(2)参照フリー:文書の要約一貫性の評価の2つのシナリオに分類される。 最近の研究は、主にこれらのシナリオの1つに焦点を当て、人間の基準に合わせるためにPLM上に構築されたニューラルネットワークモデルを訓練する。 しかし、異なるシナリオからのモデルは個別に最適化されており、異なるシナリオ間で共有される知識を無視しているため、最適以下のパフォーマンスをもたらす可能性がある。 さらに、シナリオ毎に個別のモデルを設計することは、ユーザに不便をもたらします。 そこで我々は,UMSE(Unified Multi-scenario Summarization Evaluation Model)を提案する。 より具体的には,シナリオ間のクロスセナリオ知識を共有できる摂動プレフィックスチューニング手法を提案し,人間のラベル付けを必要とせず,自己教師付きトレーニングパラダイムを用いてモデルを最適化する。 UMSEは3つの評価シナリオで使用できる能力に係わる最初の統合要約評価フレームワークである。 ベンチマークデータセット SummEval における3つの典型的なシナリオに対する実験結果から、UMSE は、各シナリオ用に特別に設計されたいくつかの既存の強力なメソッドで同等のパフォーマンスを達成できることを示している。

Summarization quality evaluation is a non-trivial task in text summarization. Contemporary methods can be mainly categorized into two scenarios: (1) reference-based: evaluating with human-labeled reference summary; (2) reference-free: evaluating the summary consistency of the document. Recent studies mainly focus on one of these scenarios and explore training neural models built on PLMs to align with human criteria. However, the models from different scenarios are optimized individually, which may result in sub-optimal performance since they neglect the shared knowledge across different scenarios. Besides, designing individual models for each scenario caused inconvenience to the user. Inspired by this, we propose Unified Multi-scenario Summarization Evaluation Model (UMSE). More specifically, we propose a perturbed prefix tuning method to share cross-scenario knowledge between scenarios and use a self-supervised training paradigm to optimize the model without extra human labeling. Our UMSE is the first unified summarization evaluation framework engaged with the ability to be used in three evaluation scenarios. Experimental results across three typical scenarios on the benchmark dataset SummEval indicate that our UMSE can achieve comparable performance with several existing strong methods which are specifically designed for each scenario.
翻訳日:2023-05-29 14:53:33 公開日:2023-05-26
# アーリティーが小さい関数による区分線形関数の表現

Representing Piecewise Linear Functions by Functions with Small Arity ( http://arxiv.org/abs/2305.16933v1 )

ライセンス: Link先を確認
Christoph Koutschan, Bernhard Moser, Anton Ponomarchuk, Josef Schicho(参考訳) ピースワイズ線型函数は異なる形式で記述できる:$\min$- と$\max$-函数の任意の入れ子式として、2つの凸なピースワイズ線型函数の差として、またはアフィン線型関数の最大和の線型結合として。 本稿では、まず、各ピースワイド線型関数に対して、少なくとも$n+1$の引数を持つ$\max$-functionsの線形結合が存在し、その計算にアルゴリズムを与えることを示す。 さらに、これらの引数は、ある開集合における与えられた函数と一致するアフィン線型函数の有限集合に含まれる。 第二に、区分線型函数 $\max(0, x_{1}, \ldots, x_{n})$ は、最大値が $n+1$ アフィン線形引数の線形結合として表現できないことを証明する。 これは2005年にwang と sun によって、極大の線型結合としての区分線型関数の表現に関する論文で予想された。

A piecewise linear function can be described in different forms: as an arbitrarily nested expression of $\min$- and $\max$-functions, as a difference of two convex piecewise linear functions, or as a linear combination of maxima of affine-linear functions. In this paper, we provide two main results: first, we show that for every piecewise linear function there exists a linear combination of $\max$-functions with at most $n+1$ arguments, and give an algorithm for its computation. Moreover, these arguments are contained in the finite set of affine-linear functions that coincide with the given function in some open set. Second, we prove that the piecewise linear function $\max(0, x_{1}, \ldots, x_{n})$ cannot be represented as a linear combination of maxima of less than $n+1$ affine-linear arguments. This was conjectured by Wang and Sun in 2005 in a paper on representations of piecewise linear functions as linear combination of maxima.
翻訳日:2023-05-29 14:46:44 公開日:2023-05-26
# 神経状態空間モデルによる効率的な音声分離

A Neural State-Space Model Approach to Efficient Speech Separation ( http://arxiv.org/abs/2305.16932v1 )

ライセンス: Link先を確認
Chen Chen, Chao-Han Huck Yang, Kai Li, Yuchen Hu, Pin-Jui Ku, Eng Siong Chng(参考訳) 本研究では,ニューラル状態空間モデル(SSM)に基づく新しい効率的な音声分離フレームワークであるS4Mを紹介する。 シーケンスモデリングのための線形時間不変システムにより、SSMベースのアプローチは、入力信号を表現学習のための線形常微分方程式(ODE)の形式に効率的にモデル化することができる。 SSM手法を音声分離タスクに拡張するために、まず入力混合物を異なる解像度のマルチスケール表現に分解する。 このメカニズムにより、S4Mはグローバルにコヒーレントな分離と再構築を学ぶことができる。 実験の結果,S4Mは他の分離バックボーンとSI-SDRiで比較可能であり,モデルの複雑さは極めて小さく,トレーニング可能なパラメータは極めて少ないことがわかった。 さらに, s4m-tinyモデル (1.8mパラメータ) は, マルチプリアキュムレート演算 (macs) の9.2 しか持たない雑音条件下では, 注意に基づくセプフォーマ (26.0mパラメータ) を超えることさえある。

In this work, we introduce S4M, a new efficient speech separation framework based on neural state-space models (SSM). Motivated by linear time-invariant systems for sequence modeling, our SSM-based approach can efficiently model input signals into a format of linear ordinary differential equations (ODEs) for representation learning. To extend the SSM technique into speech separation tasks, we first decompose the input mixture into multi-scale representations with different resolutions. This mechanism enables S4M to learn globally coherent separation and reconstruction. The experimental results show that S4M performs comparably to other separation backbones in terms of SI-SDRi, while having a much lower model complexity with significantly fewer trainable parameters. In addition, our S4M-tiny model (1.8M parameters) even surpasses attention-based Sepformer (26.0M parameters) in noisy conditions with only 9.2 of multiply-accumulate operation (MACs).
翻訳日:2023-05-29 14:46:12 公開日:2023-05-26
# 測定不整合性は外乱よりも強い

Measurement incompatibility is strictly stronger than disturbance ( http://arxiv.org/abs/2305.16931v1 )

ライセンス: Link先を確認
Marco Erba (1), Paolo Perinotti (2), Davide Rolino (2), Alessandro Tosini (2) ((1) Uniwersytet Gda\'nski, ul. Jana Ba\.zy\'nskiego 1A, 80-309 Gda\'nsk, Polska, (2) Universit\`a degli Studi di Pavia, Dipartimento di Fisica, QUIT Group and INFN Gruppo IV, Sezione di Pavia, via Bassi 6, 27100 Pavia, Italia)(参考訳) 有名な$\gamma$-ray顕微鏡のゲダンケン実験を含む不確実性原理に関するハイゼンベルクの主張の核心は、それらが作用する系の状態を不可逆的に変化させる測定の存在であり、その後の測定に不可解な障害を引き起こす。 この議論は、非互換な測定の存在、すなわち共同で実行できない測定の存在を正当化するために進められた。 一方,本書では,不和が乱れの十分な条件であることを示す説得力のある論証を提示する一方で,逆含みの反例である玩具理論を示す。

The core of Heisenberg's argument for the uncertainty principle, involving the famous $\gamma$-ray microscope Gedankenexperiment, consists in the existence of measurements that irreversibly alter the state of the system on which they are acting, causing an irreducible disturbance on subsequent measurements. The argument was put forward to justify the existence of incompatible measurements, namely, measurements that cannot be performed jointly. In this Letter, on the one hand, we provide a compelling argument showing that incompatibility is indeed a sufficient condition for disturbance, while, on the other hand, we exhibit a toy theory that is a counterexample for the converse implication.
翻訳日:2023-05-29 14:45:29 公開日:2023-05-26
# 論理に基づくエンティティ解決におけるグローバルとローカルの統合

Combining Global and Local Merges in Logic-based Entity Resolution ( http://arxiv.org/abs/2305.16926v1 )

ライセンス: Link先を確認
Meghyn Bienvenu, Gianluca Cima, V\'ictor Guti\'errez-Basulto, Yazm\'in Ib\'a\~nez-Garc\'ia(参考訳) 最近提案された集合的エンティティ解決のためのlaceフレームワークでは、論理ルールと制約が、同じエンティティを表すエンティティ参照のペア(著者やペーパーidなど)を識別するために使用される。 これらのエンティティ参照(おそらくは複数のデータベースタプルにまたがる)のすべての発生は等しく、マージ可能である。 対照的に、局所的なマージの形式は、例えば「J・スミス」のいくつかの発生が「ジョー・スミス」と同一視される場合や、「ジェーン・スミス」とマージする場合には、より自然なものであることが多い。 これは、Laceを局所的な値のマージで拡張し、結果の形式主義の計算的性質を探求する動機となる。

In the recently proposed Lace framework for collective entity resolution, logical rules and constraints are used to identify pairs of entity references (e.g. author or paper ids) that denote the same entity. This identification is global: all occurrences of those entity references (possibly across multiple database tuples) are deemed equal and can be merged. By contrast, a local form of merge is often more natural when identifying pairs of data values, e.g. some occurrences of 'J. Smith' may be equated with 'Joe Smith', while others should merge with 'Jane Smith'. This motivates us to extend Lace with local merges of values and explore the computational properties of the resulting formalism.
翻訳日:2023-05-29 14:45:02 公開日:2023-05-26
# ドラゴンを訓練しない:セマンティックフロンティアを使ったトレーニング不要の身体的目標ナビゲーション

How To Not Train Your Dragon: Training-free Embodied Object Goal Navigation with Semantic Frontiers ( http://arxiv.org/abs/2305.16925v1 )

ライセンス: Link先を確認
Junting Chen, Guohao Li, Suryansh Kumar, Bernard Ghanem, Fisher Yu(参考訳) オブジェクトゴールナビゲーションは、エージェントに未知の環境(典型的には屋内シーン)のオブジェクトカテゴリのインスタンスにナビゲートするよう指示する、Embodied AIにおける重要な問題である。 残念なことに、この問題に対する現在の最先端の手法は、データ駆動アプローチ、例えば、エンドツーエンド強化学習、模倣学習などに大きく依存しています。 さらに、そのような手法は訓練にコストがかかり、デバッグが難しいため、転送性や説明性が欠如している。 従来の手法と学習手法を組み合わせた最近の成功に触発されて,より古典的なアプローチを取り入れたモジュール式およびトレーニング不要なソリューションを提案し,目標ナビゲーション問題に対処する。 本手法は,v-slam(classic visual concurrent localization and mapping)フレームワークを用いて,構造化されたシーン表現を構築する。 次に、幾何学に基づくフロンティア探索にセマンティクスを注入して、目標オブジェクトを探索するための有望な領域を推論します。 構成されたシーン表現は,2次元占有マップ,意味点雲,空間シーングラフから構成される。 本手法は,言語先行情報とシーン統計に基づいてシーングラフのセマンティクスを伝搬し,幾何学的フロンティアに意味知識を導入する。 インジェクトされたセマンティクスにより、エージェントは最も有望なフロンティアを探索することができる。 提案するパイプラインは、gibsonベンチマークデータセット上のオブジェクト目標ナビゲーションの強力な実験性能を示し、以前の最先端を上回っている。 また,オブジェクトナビゲーションタスクにおける現在のボトルネックを特定するため,包括的なアブレーション研究を行う。

Object goal navigation is an important problem in Embodied AI that involves guiding the agent to navigate to an instance of the object category in an unknown environment -- typically an indoor scene. Unfortunately, current state-of-the-art methods for this problem rely heavily on data-driven approaches, \eg, end-to-end reinforcement learning, imitation learning, and others. Moreover, such methods are typically costly to train and difficult to debug, leading to a lack of transferability and explainability. Inspired by recent successes in combining classical and learning methods, we present a modular and training-free solution, which embraces more classic approaches, to tackle the object goal navigation problem. Our method builds a structured scene representation based on the classic visual simultaneous localization and mapping (V-SLAM) framework. We then inject semantics into geometric-based frontier exploration to reason about promising areas to search for a goal object. Our structured scene representation comprises a 2D occupancy map, semantic point cloud, and spatial scene graph. Our method propagates semantics on the scene graphs based on language priors and scene statistics to introduce semantic knowledge to the geometric frontiers. With injected semantic priors, the agent can reason about the most promising frontier to explore. The proposed pipeline shows strong experimental performance for object goal navigation on the Gibson benchmark dataset, outperforming the previous state-of-the-art. We also perform comprehensive ablation studies to identify the current bottleneck in the object navigation task.
翻訳日:2023-05-29 14:44:47 公開日:2023-05-26
# 人間フィードバックからの強化学習による航空機操縦行動の理解モデル

Learning Interpretable Models of Aircraft Handling Behaviour by Reinforcement Learning from Human Feedback ( http://arxiv.org/abs/2305.16924v1 )

ライセンス: Link先を確認
Tom Bewley, Jonathan Lawry, Arthur Richards(参考訳) 本稿では,人間の嗜好フィードバックから強化学習(rl)によるソフトウェアモデルにおける高速ジェットパイロットのハンドリング能力の把握手法を提案する。 我々は、模擬飛行軌跡に対するペアワイズ選好を用いて、報酬木と呼ばれる解釈可能なルールベースモデルを学習し、説明的根拠とともに軌道の自動スコアリングを可能にする。 我々は,報酬ツリーを目的とし,高品質な処理を行うためにrlエージェントを訓練し,反復的選好収集のためのデータを生成し,さらにツリーとエージェントの両方を改良する。 合成選好の実験は、定量的および定性的な評価において、解釈不能なニューラルネットワーク報酬モデルと競合する報酬木を示す。

We propose a method to capture the handling abilities of fast jet pilots in a software model via reinforcement learning (RL) from human preference feedback. We use pairwise preferences over simulated flight trajectories to learn an interpretable rule-based model called a reward tree, which enables the automated scoring of trajectories alongside an explanatory rationale. We train an RL agent to execute high-quality handling behaviour by using the reward tree as the objective, and thereby generate data for iterative preference collection and further refinement of both tree and agent. Experiments with synthetic preferences show reward trees to be competitive with uninterpretable neural network reward models on quantitative and qualitative evaluations.
翻訳日:2023-05-29 14:44:19 公開日:2023-05-26
# 生成型ニューラルネットワークによるmr画像の高速再表示による再同定リスクの低減とボリューム一貫性の維持

Fast refacing of MR images with a generative neural network lowers re-identification risk and preserves volumetric consistency ( http://arxiv.org/abs/2305.16922v1 )

ライセンス: Link先を確認
Nataliia Molchanova, B\'en\'edicte Mar\'echal, Jean-Philippe Thiran, Tobias Kober, Till Huelnhagen, Jonas Richiardi(参考訳) オープンデータの増加に伴い,頭部のMRI画像から得られる3Dレンダリングに基づく個体の識別性は,プライバシの懸念が高まっている。 被写体プライバシーを保護するため、ぼやけたり、顔を消したりして画像データを識別するアルゴリズムが開発されている。 顔の構造を完全に取り除くことは、最高の再識別保護を提供するが、脳形態計測のような後処理ステップに大きな影響を及ぼす可能性がある。 代替として、個々の顔構造をジェネリックテンプレートに置き換える再提示法は、元のスキャンの幾何学的および強度分布に低い影響を与え、より高い再識別リスクと複雑性の価格でより一貫性のある後処理結果を提供することができる。 本研究は,3次元条件生成対向ネットワークに基づく3次元T1重み付きスキャンにおける顔の匿名化手法を提案する。 提案する非識別ツールの性能を評価するために,2つの異なるセグメンテーションアルゴリズム(fastとmorphobox)を用いて,既存の複数の非識別ツールと再表示ツールの比較検討を行った。 目的は評価することであった i)脳形態計測の再現性への影響 (ii)再確認リスク。 (iii)バランス (i)および (ii)および(iv)処理時間。 提案手法は, 顔生成に9秒を要し, 剥離後の一貫した後処理結果の復元に適している。

With the rise of open data, identifiability of individuals based on 3D renderings obtained from routine structural magnetic resonance imaging (MRI) scans of the head has become a growing privacy concern. To protect subject privacy, several algorithms have been developed to de-identify imaging data using blurring, defacing or refacing. Completely removing facial structures provides the best re-identification protection but can significantly impact post-processing steps, like brain morphometry. As an alternative, refacing methods that replace individual facial structures with generic templates have a lower effect on the geometry and intensity distribution of original scans, and are able to provide more consistent post-processing results by the price of higher re-identification risk and computational complexity. In the current study, we propose a novel method for anonymised face generation for defaced 3D T1-weighted scans based on a 3D conditional generative adversarial network. To evaluate the performance of the proposed de-identification tool, a comparative study was conducted between several existing defacing and refacing tools, with two different segmentation algorithms (FAST and Morphobox). The aim was to evaluate (i) impact on brain morphometry reproducibility, (ii) re-identification risk, (iii) balance between (i) and (ii), and (iv) the processing time. The proposed method takes 9 seconds for face generation and is suitable for recovering consistent post-processing results after defacing.
翻訳日:2023-05-29 14:44:07 公開日:2023-05-26
# 代名詞解釈における大規模言語モデルの部分的素因

Large Language Models Are Partially Primed in Pronoun Interpretation ( http://arxiv.org/abs/2305.16917v1 )

ライセンス: Link先を確認
Suet-Ying Lam, Qingcheng Zeng, Kexun Zhang, Chenyu You, Rob Voigt(参考訳) 大きな言語モデル(LLM)が豊かな言語表現を取得することを示唆する文献が多数存在するが、それらが人間のように言語バイアスに適応するかどうかはほとんど分かっていない。 本研究は, LLMが実際の心理言語実験から, 刺激や手順を用いて人間のような参照バイアスを呈するかどうかを問うことにより, この問題を調査する。 Recent psycholinguistic studies suggest that humans adapt their referential biases with recent exposure to referential patterns; closely replicating three relevant psycholinguistic experiments from Johnson & Arnold (2022) in an in-context learning (ICL) framework, we found that InstructGPT adapts its pronominal interpretations in response to the frequency of referential patterns in the local discourse, though in a limited fashion: adaptation was only observed relative to syntactic but not semantic biases. 対照的に、FLAN-UL2は意味のあるパターンを生成できない。 この結果から,現代LLMの言論表現は局所的な文脈における構文パターンに敏感であるが,意味パターンには敏感であることを示す。 我々のデータとコードは \url{https://github.com/zkx06111/llm_priming} で利用可能です。

While a large body of literature suggests that large language models (LLMs) acquire rich linguistic representations, little is known about whether they adapt to linguistic biases in a human-like way. The present study probes this question by asking whether LLMs display human-like referential biases using stimuli and procedures from real psycholinguistic experiments. Recent psycholinguistic studies suggest that humans adapt their referential biases with recent exposure to referential patterns; closely replicating three relevant psycholinguistic experiments from Johnson & Arnold (2022) in an in-context learning (ICL) framework, we found that InstructGPT adapts its pronominal interpretations in response to the frequency of referential patterns in the local discourse, though in a limited fashion: adaptation was only observed relative to syntactic but not semantic biases. By contrast, FLAN-UL2 fails to generate meaningful patterns. Our results provide further evidence that contemporary LLMs discourse representations are sensitive to syntactic patterns in the local context but less so to semantic patterns. Our data and code are available at \url{https://github.com/zkx06111/llm_priming}.
翻訳日:2023-05-29 14:43:44 公開日:2023-05-26
# PlaNeRF: SVD非教師型3次元平面規則化による大規模シーン再構成

PlaNeRF: SVD Unsupervised 3D Plane Regularization for NeRF Large-Scale Scene Reconstruction ( http://arxiv.org/abs/2305.16914v1 )

ライセンス: Link先を確認
Fusang Wang, Arnaud Louys, Nathan Piasco, Moussab Bennehar, Luis Rold\~ao, Dzmitry Tsishkou(参考訳) neural radiance fields (nerf) は2次元画像からの3次元シーン再構成を可能にする。 NeRFはフォトリアリスティックな結果を生み出すことができるが、しばしばトレーニングビューに過度に適合し、特に低テクスチュア領域において幾何再構成が不十分になる。 この制限は、外挿されたnvs、hdマッピング、シーン編集など、正確な幾何を必要とする多くの重要なアプリケーションを制限する。 そこで本研究では,RGB画像とセマンティックマップのみを用いて,NeRFの3次元構造を改善する手法を提案する。 本手法では,幾何的事前に依存しない特異値分解(SVD)に基づく新しい平面正規化を導入する。 さらに、損失設計における構造類似度指標(SSIM)を利用して、NeRFの体積表現を適切に初期化する。 KITTI-360 NVSベンチマークにおいて,大規模屋外シーンの正確な形状再構成において,本手法が一般的な正規化手法より優れ,SoTAレンダリング品質が向上していることを示す。

Neural Radiance Fields (NeRF) enable 3D scene reconstruction from 2D images and camera poses for Novel View Synthesis (NVS). Although NeRF can produce photorealistic results, it often suffers from overfitting to training views, leading to poor geometry reconstruction, especially in low-texture areas. This limitation restricts many important applications which require accurate geometry, such as extrapolated NVS, HD mapping and scene editing. To address this limitation, we propose a new method to improve NeRF's 3D structure using only RGB images and semantic maps. Our approach introduces a novel plane regularization based on Singular Value Decomposition (SVD), that does not rely on any geometric prior. In addition, we leverage the Structural Similarity Index Measure (SSIM) in our loss design to properly initialize the volumetric representation of NeRF. Quantitative and qualitative results show that our method outperforms popular regularization approaches in accurate geometry reconstruction for large-scale outdoor scenes and achieves SoTA rendering quality on the KITTI-360 NVS benchmark.
翻訳日:2023-05-29 14:43:26 公開日:2023-05-26
# 逆計画としての行動

Acting as Inverse Inverse Planning ( http://arxiv.org/abs/2305.16913v1 )

ライセンス: Link先を確認
Kartik Chandra, Tzu-Mao Li, Josh Tenenbaum, Jonathan Ragan-Kelley(参考訳) 偉大なストーリーテラーは私たちを旅に連れて行く方法を知っています。 彼らはキャラクターに行動するように指示する -- 必ずしももっとも合理的な方法でではなく、むしろ興味深い状況につながる方法で -- し、最終的に観客が見ているインパクトのある体験を生み出します。 オーディエンス体験が最も重要なものであるならば,アーティストやアニメーターが,その体験を喚起するために必要な具体的な性格行動とは無関係に,このようなエクスペリエンスを直接的に創造する上で,役に立ちますか? 本稿では,そのようなツールのための新しい計算フレームワークを提案する。 私たちのキーとなるアイデアは、*シミュレートされた*オーディエンスの体験に関するアニメーションを最適化することです。 人間の社会的直観は、その(観察された)行動からエージェントの(隠された)目標を推論するタスクである「逆計画」としてモデル化することができる。 このモデルに基づいて、ストーリーテリングを、逆プランナーの推論を操作するアクションを選択するタスクである「*逆*逆計画」として扱う。 我々の枠組みは文学理論に根ざしており、自然に第一原理から多くのストーリーテリング要素を捉えている。 我々は、人間の被験者による研究の証拠を裏付けて、これを実証する一連の例を示す。

Great storytellers know how to take us on a journey. They direct characters to act -- not necessarily in the most rational way -- but rather in a way that leads to interesting situations, and ultimately creates an impactful experience for audience members looking on. If audience experience is what matters most, then can we help artists and animators *directly* craft such experiences, independent of the concrete character actions needed to evoke those experiences? In this paper, we offer a novel computational framework for such tools. Our key idea is to optimize animations with respect to *simulated* audience members' experiences. To simulate the audience, we borrow an established principle from cognitive science: that human social intuition can be modeled as "inverse planning," the task of inferring an agent's (hidden) goals from its (observed) actions. Building on this model, we treat storytelling as "*inverse* inverse planning," the task of choosing actions to manipulate an inverse planner's inferences. Our framework is grounded in literary theory, naturally capturing many storytelling elements from first principles. We give a series of examples to demonstrate this, with supporting evidence from human subject studies.
翻訳日:2023-05-29 14:43:06 公開日:2023-05-26
# 文脈モデルを用いた木探索

Levin Tree Search with Context Models ( http://arxiv.org/abs/2305.16945v1 )

ライセンス: Link先を確認
Laurent Orseau, Marcus Hutter, Levi H.S. Leli(参考訳) Levin Tree Search (LTS) は、ポリシー(アクション上の確率分布)を利用する検索アルゴリズムであり、ポリシーの質に応じてゴールノードに到達する前に展開数について理論的に保証される。 この保証は、LTS損失と呼ばれる損失関数として使用することができ、ポリシー(LTS+NN)を表すニューラルネットワークを最適化する。 本研究では,ニューラルネットワークをオンライン圧縮文献(LTS+CM)から派生したパラメータ化コンテキストモデルに代用できることを示す。 この新モデルでは、LTS損失は凸であり、標準的な凸最適化ツールを使用でき、与えられた解軌跡のオンライン設定における最適パラメータへの収束保証が得られる。 新しいLTS+CMアルゴリズムは、ソコバン(Boxoban)、The Witness、24-Sliding Tile puzzle(STP)といったいくつかのベンチマークでLTS+NNと好意的に比較する。 LTS+NNはテストインスタンスのほとんどを解決できず、LTS+CMは各テストインスタンスを1秒で解決する。 さらに、lts+cmは数百の展開でルービックキューブを解くポリシーを学習できることを示し、従来の機械学習技術により大幅に改善することを示した。

Levin Tree Search (LTS) is a search algorithm that makes use of a policy (a probability distribution over actions) and comes with a theoretical guarantee on the number of expansions before reaching a goal node, depending on the quality of the policy. This guarantee can be used as a loss function, which we call the LTS loss, to optimize neural networks representing the policy (LTS+NN). In this work we show that the neural network can be substituted with parameterized context models originating from the online compression literature (LTS+CM). We show that the LTS loss is convex under this new model, which allows for using standard convex optimization tools, and obtain convergence guarantees to the optimal parameters in an online setting for a given set of solution trajectories -- guarantees that cannot be provided for neural networks. The new LTS+CM algorithm compares favorably against LTS+NN on several benchmarks: Sokoban (Boxoban), The Witness, and the 24-Sliding Tile puzzle (STP). The difference is particularly large on STP, where LTS+NN fails to solve most of the test instances while LTS+CM solves each test instance in a fraction of a second. Furthermore, we show that LTS+CM is able to learn a policy that solves the Rubik's cube in only a few hundred expansions, which considerably improves upon previous machine learning techniques.
翻訳日:2023-05-29 14:37:17 公開日:2023-05-26
# 概念を学ぶ:視覚的に拡張された自然言語生成

Learning to Imagine: Visually-Augmented Natural Language Generation ( http://arxiv.org/abs/2305.16944v1 )

ライセンス: Link先を確認
Tianyi Tang, Yushuo Chen, Yifan Du, Junyi Li, Wayne Xin Zhao, and Ji-Rong Wen(参考訳) 人々はしばしば、執筆プロセスを支援するために関連するシーンを想像します。 本研究では,人間と同じような構成で視覚情報を活用することを目的とする。 本稿では,事前学習型言語モデル(PLM)を視覚的に拡張した自然言語gEnerationのために学習するLIVEを提案する。 まず,テキストに基づくシーンを想像する。我々は拡散モデルを用いて,入力テキストを条件とした高品質な画像を合成する。 次に、CLIPを使用して、テキストが後方方向のイマジネーションを誘発できるかどうかを判断する。 最後に、想像力は動的であり、段落全体に対して1つの画像だけを生成するのではなく、各文の合成を行います。 技術的には、各テキストに対する視覚的に拡張された表現を得るために、新しいプラグアンドプレイ融合層を提案する。 視覚テキスト融合層はトランスフォーマーベースのアーキテクチャと互換性があります。 我々は,BARTとT5を用いた4世代タスクの広範な実験を行い,提案手法の有効性を実証した。 コード、モデル、データをリンクでリリースします。 https://github.com/rucaibox/live。

People often imagine relevant scenes to aid in the writing process. In this work, we aim to utilize visual information for composition in the same manner as humans. We propose a method, LIVE, that makes pre-trained language models (PLMs) Learn to Imagine for Visuallyaugmented natural language gEneration. First, we imagine the scene based on the text: we use a diffusion model to synthesize high-quality images conditioned on the input texts. Second, we use CLIP to determine whether the text can evoke the imagination in a posterior way. Finally, our imagination is dynamic, and we conduct synthesis for each sentence rather than generate only one image for an entire paragraph. Technically, we propose a novel plug-and-play fusion layer to obtain visually-augmented representations for each text. Our vision-text fusion layer is compatible with Transformerbased architecture. We have conducted extensive experiments on four generation tasks using BART and T5, and the automatic results and human evaluation demonstrate the effectiveness of our proposed method. We will release the code, model, and data at the link: https://github.com/RUCAIBox/LIVE.
翻訳日:2023-05-29 14:36:53 公開日:2023-05-26
# DiffusionNAG: 拡散モデルを用いたタスク誘導型ニューラルネットワーク生成

DiffusionNAG: Task-guided Neural Architecture Generation with Diffusion Models ( http://arxiv.org/abs/2305.16943v1 )

ライセンス: Link先を確認
Sohyun An, Hayeon Lee, Jaehyeong Jo, Seanie Lee, Sung Ju Hwang(参考訳) neural architecture search(nas)は、ニューラルネットワーク設計を自動化する強力な技術として登場した。 しかし、既存のNASメソッドは繰り返しトレーニングや多くのタスク非関連アーキテクチャのサンプリングに過剰な時間を必要とする。 さらに、それらは異なるタスクにまたがる一般化を欠き、通常、以前のNASタスクからの知識を再利用することなく、スクラッチから各タスクに最適なアーキテクチャを探す必要がある。 既存のNAS手法の制限に対処するため,DiffusionNAGと呼ばれる拡散モデルに基づく,伝達可能なタスク誘導型ニューラルアーキテクチャ生成(NAG)フレームワークを提案する。 与えられたタスクのパフォーマンス予測器などの代理モデルのガイダンスにより、DiffusionNAGは、目に見えないタスクを含む多様なタスクのためのタスク最適化アーキテクチャを生成することができる。 拡散NAGは、以前のタスクから得られた知識とニューラルアーキテクチャ分布を活用することにより、タスク最適化ニューラルアーキテクチャを生成するため、非常に効率的である。 さらに,非有向グラフ生成に注目した既存のグラフ生成モデルとは異なり,有向非巡回グラフとして表現される有効なアーキテクチャを生成するためのスコアネットワークを提案する。 大規模な実験により、DiffusionNAGはアーキテクチャ生成品質において最先端のトランスファー可能なNAGモデルと、計算コストを大幅に削減した4つのコンピュータビジョンデータセット上のNAS手法を著しく上回っていることが示された。

Neural Architecture Search (NAS) has emerged as a powerful technique for automating neural architecture design. However, existing NAS methods either require an excessive amount of time for repetitive training or sampling of many task-irrelevant architectures. Moreover, they lack generalization across different tasks and usually require searching for optimal architectures for each task from scratch without reusing the knowledge from the previous NAS tasks. To tackle such limitations of existing NAS methods, we propose a novel transferable task-guided Neural Architecture Generation (NAG) framework based on diffusion models, dubbed DiffusionNAG. With the guidance of a surrogate model, such as a performance predictor for a given task, our DiffusionNAG can generate task-optimal architectures for diverse tasks, including unseen tasks. DiffusionNAG is highly efficient as it generates task-optimal neural architectures by leveraging the prior knowledge obtained from the previous tasks and neural architecture distribution. Furthermore, we introduce a score network to ensure the generation of valid architectures represented as directed acyclic graphs, unlike existing graph generative models that focus on generating undirected graphs. Extensive experiments demonstrate that DiffusionNAG significantly outperforms the state-of-the-art transferable NAG model in architecture generation quality, as well as previous NAS methods on four computer vision datasets with largely reduced computational cost.
翻訳日:2023-05-29 14:36:36 公開日:2023-05-26
# twitterのアルゴリズム:怒り、敵意、感情的分極を増幅する

Twitter's Algorithm: Amplifying Anger, Animosity, and Affective Polarization ( http://arxiv.org/abs/2305.16941v1 )

ライセンス: Link先を確認
Smitha Milli, Micah Carroll, Sashrika Pandey, Yike Wang, Anca D. Dragan(参考訳) ソーシャルメディアが世論に大きな影響を与え続けている中、コンテンツをフィルタリングし、キュレートする機械学習アルゴリズムの影響を理解することは重要である。 しかし、既存の研究では、観察方法への依存、実際のユーザではなくシミュレートされた使用、特定のタイプのコンテンツに対する制限、興味の衝突を引き起こす可能性のある内部アクセス要件など、一貫性のない結果が得られている可能性がある。 これらの問題を克服するため,我々はtwitterのアルゴリズムを内部アクセスなしで事前に登録した実験を行った。 私たちのデザインの鍵は、アクティブなTwitterユーザーのグループが同時に集めることでした。 (a)パーソナライズされたアルゴリズムが示すつぶやき (b)フォローしている人の最新のつぶやきを表示するだけで、ユーザーが見たであろうつぶやきは、ランダムな順序で両方のつぶやきについて調査した。 以上の結果から,アルゴリズムは感情内容,特に怒りやグループ外敵意を表すツイートを増幅することが示された。 さらに、アルゴリズムによる政治的つぶやきによって、読者は、彼らの政治グループ内をよりポジティブに、そして彼らの政治外集団をよりネガティブに知覚するようになる。 興味深いことに、読者はアルゴリズムによってキュレートされたツイートを好むが、アルゴリズムによって選択された政治ツイートを好む可能性が高い。 本研究は,ソーシャルメディアランキングアルゴリズムの効果に関する重要な知見を提供するとともに,世論や民主的エンゲージメントの形成にも寄与する。

As social media continues to have a significant influence on public opinion, understanding the impact of the machine learning algorithms that filter and curate content is crucial. However, existing studies have yielded inconsistent results, potentially due to limitations such as reliance on observational methods, use of simulated rather than real users, restriction to specific types of content, or internal access requirements that may create conflicts of interest. To overcome these issues, we conducted a pre-registered controlled experiment on Twitter's algorithm without internal access. The key to our design was to, for a large group of active Twitter users, simultaneously collect (a) the tweets the personalized algorithm shows, and (b) the tweets the user would have seen if they were just shown the latest tweets from people they follow; we then surveyed users about both sets of tweets in a random order. Our results indicate that the algorithm amplifies emotional content, and especially those tweets that express anger and out-group animosity. Furthermore, political tweets from the algorithm lead readers to perceive their political in-group more positively and their political out-group more negatively. Interestingly, while readers generally say they prefer tweets curated by the algorithm, they are less likely to prefer algorithm-selected political tweets. Overall, our study provides important insights into the impact of social media ranking algorithms, with implications for shaping public discourse and democratic engagement.
翻訳日:2023-05-29 14:36:11 公開日:2023-05-26
# l^2$空間におけるポテンシャル散乱:(1)定常状態の非直交性

Potential scatterings in $L^2$ space: (1) non-orthogonality of stationary states ( http://arxiv.org/abs/2305.16939v1 )

ライセンス: Link先を確認
Kenzo Ishikawa(参考訳) 有界状態にある異なるエネルギーの固有状態の直交性は重要な役割を果たすが、散乱状態では疑わしい。 定常散乱状態のスカラー積を可解モデルを用いて解析し, 多数電位で直交性を示す。 したがって、それらの重ね合わせは時間依存ノルムを持ち、物理的状態には適さない。 様々な例外が明確化されている。 最初の論文の結果から,正規化初期状態と最終状態の遷移確率を求めるための有効な手法として摂動的および変分的手法が出現した。

Orthogonality of eigenstates of different energies held in bound states plays important roles, but is dubious in scattering states. Scalar products of stationary scattering states are analyzed using solvable models, and an orthogonality is shown violated in majority potentials. Consequently their superposition has time dependent norm and is not suitable for a physical state. Various exceptional cases are clarified. From the results of the first paper,a perturbative and variational methods emerge as viable methods for finding a transition probability of normalized initial and final states.
翻訳日:2023-05-29 14:35:46 公開日:2023-05-26
# ファインチューニングとインコンテキスト学習 : 公正な比較と評価

Few-shot Fine-tuning vs. In-context Learning: A Fair Comparison and Evaluation ( http://arxiv.org/abs/2305.16938v1 )

ライセンス: Link先を確認
Marius Mosbach, Tiago Pimentel, Shauli Ravfogel, Dietrich Klakow, Yanai Elazar(参考訳) 事前訓練された言語モデルのタスク適応のための2つの代替戦略として、ファインチューニングとインコンテキスト学習がある。 近年,その単純さとドメイン外一般化の改善により,文脈内学習が微調整よりも人気となり,微調整モデルが急激な相関関係を拾い上げることが証明されている。 残念ながら、2つのアプローチの以前の比較は、異なるサイズのモデルを使用して行われた。 これにより、観測された細調整されたモデルのより弱い領域外一般化が、微調整の固有の性質であるか、または実験装置の制限なのかという疑問が提起される。 本稿では,データセットに挑戦し,使用したモデル,サンプル数,パラメータ数を125Mから30Bの範囲で制御しながら,少数ショットの微調整と文脈内学習の一般化を比較した。 この結果から,微調整言語モデルがドメイン外をうまく一般化できることが示唆された。 それらは大きな変動を示し、モデルのサイズやサンプル数などの特性に依存しており、堅牢なタスク適応が依然として課題であることを示している。

Few-shot fine-tuning and in-context learning are two alternative strategies for task adaptation of pre-trained language models. Recently, in-context learning has gained popularity over fine-tuning due to its simplicity and improved out-of-domain generalization, and because extensive evidence shows that fine-tuned models pick up on spurious correlations. Unfortunately, previous comparisons of the two approaches were done using models of different sizes. This raises the question of whether the observed weaker out-of-domain generalization of fine-tuned models is an inherent property of fine-tuning or a limitation of the experimental setup. In this paper, we compare the generalization of few-shot fine-tuning and in-context learning to challenge datasets, while controlling for the models used, the number of examples, and the number of parameters, ranging from 125M to 30B. Our results show that fine-tuned language models can in fact generalize well out-of-domain. We find that both approaches generalize similarly; they exhibit large variation and depend on properties such as model size and the number of examples, highlighting that robust task adaptation remains a challenge.
翻訳日:2023-05-29 14:35:36 公開日:2023-05-26
# finspector:基礎モデル間のバイアスを探索し比較する、人間中心の視覚検査ツール

Finspector: A Human-Centered Visual Inspection Tool for Exploring and Comparing Biases among Foundation Models ( http://arxiv.org/abs/2305.16937v1 )

ライセンス: Link先を確認
Bum Chul Kwon, Nandana Mihindukulasooriya(参考訳) 事前訓練されたトランスフォーマーベースの言語モデルは、様々なベンチマークでの例外的な性能のため、人気が高まっている。 しかし、これらのモデルの中に隠れバイアスが存在することへの懸念が続き、差別的な結果をもたらし、有害なステレオタイプを補強する可能性がある。 この問題に対処するために,言語モデルによって生成されたログライクなスコアを用いて,異なるカテゴリのバイアスを検出する人中心視覚検査ツールであるFinspectorを提案する。 このツールの目標は、研究者がビジュアルアナリティクスを使って潜在的なバイアスを容易に特定できるようにすることであり、最終的には、学術的および工業的な環境でこれらのモデルの公平で単純なデプロイに寄与する。 Finspectorはhttps://github.com/IBM/finspector.comで入手できる。

Pre-trained transformer-based language models are becoming increasingly popular due to their exceptional performance on various benchmarks. However, concerns persist regarding the presence of hidden biases within these models, which can lead to discriminatory outcomes and reinforce harmful stereotypes. To address this issue, we propose Finspector, a human-centered visual inspection tool designed to detect biases in different categories through log-likelihood scores generated by language models. The goal of the tool is to enable researchers to easily identify potential biases using visual analytics, ultimately contributing to a fairer and more just deployment of these models in both academic and industrial settings. Finspector is available at https://github.com/IBM/finspector.
翻訳日:2023-05-29 14:35:18 公開日:2023-05-26
# CRoSS: 制御可能、ロバスト、セキュアな画像ステガノグラフィーを実現する拡散モデル

CRoSS: Diffusion Model Makes Controllable, Robust and Secure Image Steganography ( http://arxiv.org/abs/2305.16936v1 )

ライセンス: Link先を確認
Jiwen Yu, Xuanyu Zhang, Youmin Xu, Jian Zhang(参考訳) 現在の画像ステガノグラフィ技術は主に、秘密画像の漏洩リスクと劣化したコンテナ画像に対する堅牢性の低いカバーベースの手法に焦点を当てている。 拡散モデルの最近の発展に触発されて,拡散モデルの2つの特性,トレーニングなしで2つの画像間の変換を実現する能力,ノイズの多いデータに対する頑健性は,画像ステガノグラフィータスクの安全性と自然な堅牢性向上に有効であることがわかった。 拡散モデルの選択には,条件拡散モデルの一種であるstable diffusionを選択し,lorasやcontrolnetsといったオープンソースコミュニティの最新のツールを完全に活用して,コンテナイメージの制御性や多様性を改善した。 本稿では,制御性,ロバスト性,セキュアな画像ステガノグラフィ(cross)と呼ばれる新しい画像ステガノグラフィフレームワークを提案する。 これらの利点は追加の訓練なしで得られる。 我々の知る限り、これは画像ステガノグラフィーの分野に拡散モデルを導入する最初の試みである。 実験部では,提案するクロスフレームワークの制御性,ロバスト性,セキュリティにおける利点を実証するために,詳細な実験を行った。

Current image steganography techniques are mainly focused on cover-based methods, which commonly have the risk of leaking secret images and poor robustness against degraded container images. Inspired by recent developments in diffusion models, we discovered that two properties of diffusion models, the ability to achieve translation between two images without training, and robustness to noisy data, can be used to improve security and natural robustness in image steganography tasks. For the choice of diffusion model, we selected Stable Diffusion, a type of conditional diffusion model, and fully utilized the latest tools from open-source communities, such as LoRAs and ControlNets, to improve the controllability and diversity of container images. In summary, we propose a novel image steganography framework, named Controllable, Robust and Secure Image Steganography (CRoSS), which has significant advantages in controllability, robustness, and security compared to cover-based image steganography methods. These benefits are obtained without additional training. To our knowledge, this is the first work to introduce diffusion models to the field of image steganography. In the experimental section, we conducted detailed experiments to demonstrate the advantages of our proposed CRoSS framework in controllability, robustness, and security.
翻訳日:2023-05-29 14:35:05 公開日:2023-05-26
# 言語間のギャップを埋めることが、ゼロショット多言語翻訳におけるジェンダーバイアスに与える影響

Gender Lost In Translation: How Bridging The Gap Between Languages Affects Gender Bias in Zero-Shot Multilingual Translation ( http://arxiv.org/abs/2305.16935v1 )

ライセンス: Link先を確認
Lena Cabrera, Jan Niehues(参考訳) ニューラルマシン翻訳(NMT)モデルは、しばしばユーザーや社会全体に害を与える性別バイアスに悩まされる。 本研究では,並列データが得られない言語間のギャップを埋めることが,多言語NMTにおける性差に与える影響について考察する。 対象言語のソースから固有の性別情報を保存する必要がある文法的ジェンダー言語間の翻訳を評価する。 本研究では, 言語に依存しない隠蔽表現が, 性別保存能力に及ぼす影響について検討し, 性別保存能力に及ぼすブリッジ言語の影響について, ピボットベース, ゼロショット翻訳能力の比較を行った。 我々は,ゼロショットモデルの男性バイアスを言語非依存表現が軽減し,ブリッジ言語における性転換のレベルが増加すると,話者関連性合意の公正な性維持に関するゼロショット翻訳をピボットが上回ることを見出した。

Neural machine translation (NMT) models often suffer from gender biases that harm users and society at large. In this work, we explore how bridging the gap between languages for which parallel data is not available affects gender bias in multilingual NMT, specifically for zero-shot directions. We evaluate translation between grammatical gender languages which requires preserving the inherent gender information from the source in the target language. We study the effect of encouraging language-agnostic hidden representations on models' ability to preserve gender and compare pivot-based and zero-shot translation regarding the influence of the bridge language (participating in all language pairs during training) on gender preservation. We find that language-agnostic representations mitigate zero-shot models' masculine bias, and with increased levels of gender inflection in the bridge language, pivoting surpasses zero-shot translation regarding fairer gender preservation for speaker-related gender agreement.
翻訳日:2023-05-29 14:34:39 公開日:2023-05-26
# 大規模視覚言語モデルの逆ロバスト性評価について

On Evaluating Adversarial Robustness of Large Vision-Language Models ( http://arxiv.org/abs/2305.16934v1 )

ライセンス: Link先を確認
Yunqing Zhao, Tianyu Pang, Chao Du, Xiao Yang, Chongxuan Li, Ngai-Man Cheung, Min Lin(参考訳) GPT-4のような大きな視覚言語モデル(VLM)は、特に視覚入力で応答生成において前例のない性能を達成し、ChatGPTのような大きな言語モデルよりも創造的で適応的な相互作用を可能にした。 にもかかわらず、マルチモーダル生成は、最も脆弱なモダリティ(視覚など)を微妙に操作することで、敵がシステム全体を回避できるため、安全上の懸念を悪化させる。 そこで本研究では,敵がブラックボックスシステムアクセスのみを持ち,ターゲットとした応答を返すモデルを騙そうとする,最も現実的でハイリスクな環境において,オープンソースの大規模vlmのロバスト性を評価することを提案する。 特に,CLIP や BLIP などの事前学習モデルに対して,まず対象とする対向例を作成し,その対向例を MiniGPT-4,LLaVA,UniDiffuser,BLIP-2,Img2Prompt などの他の VLM に転送する。 さらに,これらのvlm上でのブラックボックスクエリは,目標回避の有効性をさらに向上させ,目標応答の生成に驚くほど高い成功率をもたらすことを確認した。 本研究は,大規模なVLMの敵意的脆弱性について定量的に把握し,実際に展開する前に,その潜在的なセキュリティ欠陥をより徹底的に調査することを求めるものである。 コードはhttps://github.com/yunqing-me/AttackVLMにある。

Large vision-language models (VLMs) such as GPT-4 have achieved unprecedented performance in response generation, especially with visual inputs, enabling more creative and adaptable interaction than large language models such as ChatGPT. Nonetheless, multimodal generation exacerbates safety concerns, since adversaries may successfully evade the entire system by subtly manipulating the most vulnerable modality (e.g., vision). To this end, we propose evaluating the robustness of open-source large VLMs in the most realistic and high-risk setting, where adversaries have only black-box system access and seek to deceive the model into returning the targeted responses. In particular, we first craft targeted adversarial examples against pretrained models such as CLIP and BLIP, and then transfer these adversarial examples to other VLMs such as MiniGPT-4, LLaVA, UniDiffuser, BLIP-2, and Img2Prompt. In addition, we observe that black-box queries on these VLMs can further improve the effectiveness of targeted evasion, resulting in a surprisingly high success rate for generating targeted responses. Our findings provide a quantitative understanding regarding the adversarial vulnerability of large VLMs and call for a more thorough examination of their potential security flaws before deployment in practice. Code is at https://github.com/yunqing-me/AttackVLM.
翻訳日:2023-05-29 14:34:21 公開日:2023-05-26
# ショートカットサンプリングによる逆問題に対する拡散促進モデル

Accelerating Diffusion Models for Inverse Problems through Shortcut Sampling ( http://arxiv.org/abs/2305.16965v1 )

ライセンス: Link先を確認
Gongye Liu, Haoze Sun, Jiayi Li, Fei Yin, Yujiu Yang(参考訳) 近年、拡散モデルは教師なしの方法で逆問題を解くという驚くべき能力を示している。 既存の手法は主に前方プロセスの可能性を無視しながら後方サンプリングプロセスの変更に焦点を当てている。 本研究では,逆問題に対処する新しいパイプラインであるSSD(Shortcut Sampling for Diffusion)を提案する。 ランダムノイズから始める代わりに、SSDのキーコンセプトは、計測画像yと復元された画像xをブリッジする遷移状態である"Embryo"を見つけることである。 Input-Embryo-outputの"ショートカット"パスを利用することで、SSDは正確かつ高速に復元できる。 前進過程における胚を得るために、歪み適応反転(da反転)を提案する。 さらに,生成プロセス中に追加の一貫性制約として,バックプロジェクションとアテンションインジェクションを適用する。 実験では,超解像,脱色,着色など,複数の代表課題におけるSSDの有効性を実証した。 現状のゼロショット法と比較すると,30NFEで競合する結果が得られる。 さらに、100 NFEのSSDは、特定のタスクで最先端のゼロショットメソッドより優れている。

Recently, diffusion models have demonstrated a remarkable ability to solve inverse problems in an unsupervised manner. Existing methods mainly focus on modifying the posterior sampling process while neglecting the potential of the forward process. In this work, we propose Shortcut Sampling for Diffusion (SSD), a novel pipeline for solving inverse problems. Instead of initiating from random noise, the key concept of SSD is to find the "Embryo", a transitional state that bridges the measurement image y and the restored image x. By utilizing the "shortcut" path of "input-Embryo-output", SSD can achieve precise and fast restoration. To obtain the Embryo in the forward process, We propose Distortion Adaptive Inversion (DA Inversion). Moreover, we apply back projection and attention injection as additional consistency constraints during the generation process. Experimentally, we demonstrate the effectiveness of SSD on several representative tasks, including super-resolution, deblurring, and colorization. Compared to state-of-the-art zero-shot methods, our method achieves competitive results with only 30 NFEs. Moreover, SSD with 100 NFEs can outperform state-of-the-art zero-shot methods in certain tasks.
翻訳日:2023-05-29 14:26:43 公開日:2023-05-26
# スピン-ボソンモデルにおける異方性シグネチャ

Anisotropic signatures in the spin-boson model ( http://arxiv.org/abs/2305.16964v1 )

ライセンス: Link先を確認
Felix Hartmann, Stefano Scali and Janet Anders(参考訳) ナノスケール系の熱平衡特性は、環境への非無視結合による標準的なマクロな予測から逸脱する。 異方性3次元材料に対しては、古典スピンベクトルの平衡状態に対する平均力補正を導出する。 結果は任意の結合強度で有効である。 具体的には, 立方体, オルソロン, モノクリニック対称性を考察し, スピン期待値を温度関数として比較する。 シミュレーションされた非マルコフスピンダイナミクスの定常状態と一致させることにより、平均力状態の正しさを導出する。 その結果, 焼結材料の対称性に明らかな依存が認められた。 さらに、いくつかのカップリング対称性は、ゼロ温度でのスピンアライメント遷移を示す。 最後に,エネルギー殻における平均力発生不均一性の作業抽出電位を定量化する。 このような不均一性は量子コヒーレンスと同値である。

Thermal equilibrium properties of nanoscale systems deviate from standard macroscopic predictions due to a non-negligible coupling to the environment. For anisotropic three-dimensional materials, we derive the mean force corrections to the equilibrium state of a classical spin vector. The result is valid at arbitrary coupling strength. Specifically, we consider cubic, orthorhombic, and monoclinic symmetries, and compare their spin expectation values as a function of temperature. We underpin the correctness of the mean force state by evidencing its match with the steady state of the simulated non-Markovian spin dynamics. The results show an explicit dependence on the symmetry of the confining material. In addition, some coupling symmetries show a spin alignment transition at zero temperature. Finally, we quantify the work extraction potential of the mean force-generated inhomogeneities in the energy shells. Such inhomogeneities constitute a classical equivalent to quantum coherences.
翻訳日:2023-05-29 14:26:25 公開日:2023-05-26
# 葉・木判別のためのスパース不規則点雲のセマンティックセグメンテーション

Semantic segmentation of sparse irregular point clouds for leaf/wood discrimination ( http://arxiv.org/abs/2305.16963v1 )

ライセンス: Link先を確認
Yuchen Bai, Jean-Baptiste Durand, Florence Forbes, Gr\'egoire Vincent(参考訳) LiDAR(Light Detection and Ranging)はバイオスフィアモニタリングに使用されるリモートセンシングツールボックスの不可欠な部分となっている。 特に、LiDARは、森林の葉面積を前例のない精度でマッピングする機会を提供する一方、葉面積は、植生と大気の間のガス交換モデルに影響を及ぼす重要な不確実性の源である。 無人航空機(UAV)は容易に動員でき、頻繁に再訪して気候変動に対する植生の反応を追跡することができる。 しかし、uavに搭載されたミニチュアセンサーは通常、限られた密度のポイント雲を提供するが、これは徐々に強い閉塞によってキャノピーの上部から下部への密度の強い低下によってさらに影響を受ける。 このような文脈において、木材点から葉点を区別することは、特に強いクラス不均衡と空間的に不規則なサンプリング強度のために大きな課題となる。 ここでは、(スペクトル情報を除く)点幾何学のみを利用するPointnet ++アーキテクチャに基づくニューラルネットワークモデルを紹介する。 そこで本研究では,局所的に重要な幾何学的情報を保存するための新しいサンプリング手法を提案する。 また,重度クラス不均衡に適応した損失関数を提案する。 我々のモデルは、UAVポイントクラウドにおける最先端の代替品よりも優れていることを示す。 今後の改良について,特に天蓋下から獲得したより濃密な点雲について論じる。

LiDAR (Light Detection and Ranging) has become an essential part of the remote sensing toolbox used for biosphere monitoring. In particular, LiDAR provides the opportunity to map forest leaf area with unprecedented accuracy, while leaf area has remained an important source of uncertainty affecting models of gas exchanges between the vegetation and the atmosphere. Unmanned Aerial Vehicles (UAV) are easy to mobilize and therefore allow frequent revisits to track the response of vegetation to climate change. However, miniature sensors embarked on UAVs usually provide point clouds of limited density, which are further affected by a strong decrease in density from top to bottom of the canopy due to progressively stronger occlusion. In such a context, discriminating leaf points from wood points presents a significant challenge due in particular to strong class imbalance and spatially irregular sampling intensity. Here we introduce a neural network model based on the Pointnet ++ architecture which makes use of point geometry only (excluding any spectral information). To cope with local data sparsity, we propose an innovative sampling scheme which strives to preserve local important geometric information. We also propose a loss function adapted to the severe class imbalance. We show that our model outperforms state-of-the-art alternatives on UAV point clouds. We discuss future possible improvements, particularly regarding much denser point clouds acquired from below the canopy.
翻訳日:2023-05-29 14:26:14 公開日:2023-05-26
# シミュレーション人間社会における社会適応型言語モデルの訓練

Training Socially Aligned Language Models in Simulated Human Society ( http://arxiv.org/abs/2305.16960v1 )

ライセンス: Link先を確認
Ruibo Liu, Ruixin Yang, Chenyan Jia, Ge Zhang, Denny Zhou, Andrew M. Dai, Diyi Yang, Soroush Vosoughi(参考訳) AIシステムにおける社会的アライメントは、確立された社会的価値に応じてこれらのモデルが振舞うことを保証することを目的としている。 しかし、社会的相互作用を通じて価値判断に関するコンセンサスを導出する人間とは異なり、現在の言語モデル(lms)は、トレーニングコーパスを分離して厳格に複製するように訓練され、未知のシナリオと敵の攻撃に対する脆弱性のサブパー一般化に繋がる。 この研究は、シミュレーションされた社会的相互作用から学ぶことができる新しい訓練パラダイムを示す。 既存の手法と比較して、我々のアプローチはかなりスケーラブルで効率的であり、アライメントベンチマークや人間評価において優れた性能を示している。 LMのトレーニングにおけるこのパラダイムシフトは、社会的規範と価値を堅牢かつ正確に反映できるAIシステムの開発に一歩近づきます。

Social alignment in AI systems aims to ensure that these models behave according to established societal values. However, unlike humans, who derive consensus on value judgments through social interaction, current language models (LMs) are trained to rigidly replicate their training corpus in isolation, leading to subpar generalization in unfamiliar scenarios and vulnerability to adversarial attacks. This work presents a novel training paradigm that permits LMs to learn from simulated social interactions. In comparison to existing methodologies, our approach is considerably more scalable and efficient, demonstrating superior performance in alignment benchmarks and human evaluations. This paradigm shift in the training of LMs brings us a step closer to developing AI systems that can robustly and accurately reflect societal norms and values.
翻訳日:2023-05-29 14:25:54 公開日:2023-05-26
# MixCE: 前向きと逆エントロピーの混合による自己回帰言語モデルのトレーニング

MixCE: Training Autoregressive Language Models by Mixing Forward and Reverse Cross-Entropies ( http://arxiv.org/abs/2305.16958v1 )

ライセンス: Link先を確認
Shiyue Zhang, Shijie Wu, Ozan Irsoy, Steven Lu, Mohit Bansal, Mark Dredze, David Rosenberg(参考訳) 自己回帰型言語モデルは、データ分布pに対するモデル分布qの交叉エントロピーを最小化し、すなわち、最大公約推定(mle)に相当する前方交叉エントロピーを最小化することによって訓練される。 この方法で訓練されたモデルは、非人間的なテキストを生成するという意味で「過度に一般化する」可能性がある。 さらに、逆のクロスエントロピー、すなわちQに対するPのクロスエントロピーは、人間がモデルによって生成されたテキストをどのように評価するかをよりよく反映していると信じている。 そこで我々は,前と逆のクロスエントロピーを混合する目的であるMixCEを用いた学習を提案する。 pが知られている)合成データ設定と実際のデータでトレーニングされたモデルを評価し、得られたモデルが複雑な復号戦略を伴わずにより良いテキストを生成することを示す。 私たちのコードとモデルはhttps://github.com/bloomberg/mixce-acl2023で公開されている。

Autoregressive language models are trained by minimizing the cross-entropy of the model distribution Q relative to the data distribution P -- that is, minimizing the forward cross-entropy, which is equivalent to maximum likelihood estimation (MLE). We have observed that models trained in this way may "over-generalize", in the sense that they produce non-human-like text. Moreover, we believe that reverse cross-entropy, i.e., the cross-entropy of P relative to Q, is a better reflection of how a human would evaluate text generated by a model. Hence, we propose learning with MixCE, an objective that mixes the forward and reverse cross-entropies. We evaluate models trained with this objective on synthetic data settings (where P is known) and real data, and show that the resulting models yield better generated text without complex decoding strategies. Our code and models are publicly available at https://github.com/bloomberg/mixce-acl2023
翻訳日:2023-05-29 14:25:39 公開日:2023-05-26
# DisfluencyFixer: 音声から音声への拡散補正による言語学習を強化するツール

DisfluencyFixer: A tool to enhance Language Learning through Speech To Speech Disfluency Correction ( http://arxiv.org/abs/2305.16957v1 )

ライセンス: Link先を確認
Vineet Bhat, Preethi Jyothi and Pushpak Bhattacharyya(参考訳) 会話音声は、しばしば音声計画からの逸脱からなり、下流のNLPタスクに影響を及ぼす不適切な発話を生成する。 流動的で一貫性のあるスピーチを作るには、これらの障害を取り除く必要がある。 本稿では,ASR,Disfluency Correction(DC),Text-To-Speech(TTS)モデルのパイプラインを用いて,英語とヒンディー語で音声から音声への不一致を補正するツールであるDisfluencyFixerを提案する。 提案システムは,入力音声からの拡散を除去し,その書き起こし,拡散型および全拡散数とともに出力として流音を返却し,学習者の発話の流音を改善するためのワンストップ目的地を提供する。 提案ツールの性能を主観的に評価し,ASR性能,DC性能,使いやすさの5点中4.26,4.29,4.42点のスコアを得た。 当社のツールは、以下のリンクで公開アクセス可能です。

Conversational speech often consists of deviations from the speech plan, producing disfluent utterances that affect downstream NLP tasks. Removing these disfluencies is necessary to create fluent and coherent speech. This paper presents DisfluencyFixer, a tool that performs speech-to-speech disfluency correction in English and Hindi using a pipeline of Automatic Speech Recognition (ASR), Disfluency Correction (DC) and Text-To-Speech (TTS) models. Our proposed system removes disfluencies from input speech and returns fluent speech as output along with its transcript, disfluency type and total disfluency count in source utterance, providing a one-stop destination for language learners to improve the fluency of their speech. We evaluate the performance of our tool subjectively and receive scores of 4.26, 4.29 and 4.42 out of 5 in ASR performance, DC performance and ease-of-use of the system. Our tool can be accessed openly at the following link.
翻訳日:2023-05-29 14:25:20 公開日:2023-05-26
# 局所探索・意味論・遺伝的プログラミング:グローバル分析

Local Search, Semantics, and Genetic Programming: a Global Analysis ( http://arxiv.org/abs/2305.16956v1 )

ライセンス: Link先を確認
Fabio Anselmi, Mauro Castelli, Alberto d'Onofrio, Luca Manzoni, Luca Mariot, Martina Saletta(参考訳) Geometric Semantic Geometric Programming (GSGP) は、その理論的背景、優れた性能、標準構文に基づくGPよりも実行時間が大幅に小さいことによる、最も顕著な遺伝的プログラミング(GP)の亜種の一つである。 近年,新しい突然変異演算子gsm-ls(gemetry semantic mutation with local search)が,突然変異過程における局所的な探索ステップを含むことが提案されている。 GSM-LSは進化探索の収束に役立つが、過剰適合する傾向がある。 したがって、GSM-LSは限られた世代でのみ使用し、その後、標準的な幾何学的意味突然変異に戻すことが提案された。 より最近定義されたGSGP(GSGP-regと呼ばれる)の変種は、局所的な探索ステップを含むが、GSM-LSと類似の長所と短所を共有する。 本稿では,GSM-LSとGSGP-regの過剰適合を制限する複数の可能性について検討する。 その結果、オーバーフィッティングを制限する手法はそれほど重要ではなく、オーバーフィッティングを制御する技術が使われるようになれば、トレーニングデータと未確認データの両方において標準GSGPを一貫して上回る結果が得られることがわかった。 得られた結果は,gsgpにおける局所探索の役割をよりよく理解し,単純な正規化戦略が過剰フィッティングの制御に有効であることを示す。

Geometric Semantic Geometric Programming (GSGP) is one of the most prominent Genetic Programming (GP) variants, thanks to its solid theoretical background, the excellent performance achieved, and the execution time significantly smaller than standard syntax-based GP. In recent years, a new mutation operator, Geometric Semantic Mutation with Local Search (GSM-LS), has been proposed to include a local search step in the mutation process based on the idea that performing a linear regression during the mutation can allow for a faster convergence to good-quality solutions. While GSM-LS helps the convergence of the evolutionary search, it is prone to overfitting. Thus, it was suggested to use GSM-LS only for a limited number of generations and, subsequently, to switch back to standard geometric semantic mutation. A more recently defined variant of GSGP (called GSGP-reg) also includes a local search step but shares similar strengths and weaknesses with GSM-LS. Here we explore multiple possibilities to limit the overfitting of GSM-LS and GSGP-reg, ranging from adaptive methods to estimate the risk of overfitting at each mutation to a simple regularized regression. The results show that the method used to limit overfitting is not that important: providing that a technique to control overfitting is used, it is possible to consistently outperform standard GSGP on both training and unseen data. The obtained results allow practitioners to better understand the role of local search in GSGP and demonstrate that simple regularization strategies are effective in controlling overfitting.
翻訳日:2023-05-29 14:24:59 公開日:2023-05-26
# マルチセットタグと潜時置換を用いた木なし合成一般化

Compositional Generalization without Trees using Multiset Tagging and Latent Permutations ( http://arxiv.org/abs/2305.16954v1 )

ライセンス: Link先を確認
Matthias Lindemann, Alexander Koller, Ivan Titov(参考訳) Seq2seqモデルは、セマンティックパーシングにおける構成一般化、すなわちモデルが孤立して正しく扱う現象の目に見えない組成に一般化するのに苦労することが示されている。 まず、各入力トークンに複数の出力トークンをタグ付けします。 次に、パラメータ化と置換予測の新しい手法を用いて、トークンを出力シーケンスに配置する。 正規化線形プログラムの解法として置換の予測を定式化し,その解法をバックプロパゲートする。 先行研究とは対照的に、我々の手法は置換の可能性に事前制限を設けておらず、非常に表現力がある。 我々のモデルは、事前訓練されたSeq2seqモデルと、より長い例への一般化を必要とする現実的な意味解析タスクの先行研究より優れている。 また,COGSベンチマークにおける構造一般化の非木モデルよりも優れていた。 まず,木が与える帰納バイアスのないモデルが,より深い再帰への一般化において高い精度が得られることを示す。

Seq2seq models have been shown to struggle with compositional generalization in semantic parsing, i.e. generalizing to unseen compositions of phenomena that the model handles correctly in isolation. We phrase semantic parsing as a two-step process: we first tag each input token with a multiset of output tokens. Then we arrange the tokens into an output sequence using a new way of parameterizing and predicting permutations. We formulate predicting a permutation as solving a regularized linear program and we backpropagate through the solver. In contrast to prior work, our approach does not place a priori restrictions on possible permutations, making it very expressive. Our model outperforms pretrained seq2seq models and prior work on realistic semantic parsing tasks that require generalization to longer examples. We also outperform non-tree-based models on structural generalization on the COGS benchmark. For the first time, we show that a model without an inductive bias provided by trees achieves high accuracy on generalization to deeper recursion.
翻訳日:2023-05-29 14:24:28 公開日:2023-05-26
# 未確認データセット上の蒸留対応NASのメタ予測モデル

Meta-prediction Model for Distillation-Aware NAS on Unseen Datasets ( http://arxiv.org/abs/2305.16948v1 )

ライセンス: Link先を確認
Hayeon Lee, Sohyun An, Minseon Kim, Sung Ju Hwang(参考訳) 蒸留対応ニューラルアーキテクチャサーチ(DaNAS)は、与えられた教師モデルから知識を蒸留する際に最適な性能と効率を得る最適な学生アーキテクチャを探索することを目的としている。 従来のDaNAS手法は、固定データセットと教師のニューラルアーキテクチャの探索に主に取り組んだが、これは目に見えないデータセットと目に見えない教師からなる新しいタスクでうまく一般化されていないため、データセットと教師の新たな組み合わせを高価な検索を行う必要がある。 KDのない標準的なNASタスクに対しては、メタラーニングに基づく計算効率の高いNAS手法が提案され、複数のタスク(データセット)上で一般化された探索過程を学習し、それらのタスク上で得られた知識を新しいタスクに転送する。 しかし、教師のKDを使わずにゼロから学習すると仮定するため、DaNASシナリオには適さないかもしれない。 そこで本研究では,danas法における計算コストの過大な低減と高速nas法の最適化を実現するため,目的とするタスクで実際にkdを行うことなく,データセット上でのアーキテクチャの最終性能を予測できる蒸留・アウェアなメタ精度予測モデルdass(蒸留・アウェア学生探索)を提案する。 実験結果から,提案したメタ予測モデルは,既存のメタNAS法と高速NASベースラインよりも優れており,DaNASタスクの未確認データセットの一般化に成功していることが示された。 コードはhttps://github.com/CownowAn/DaSSで入手できる。

Distillation-aware Neural Architecture Search (DaNAS) aims to search for an optimal student architecture that obtains the best performance and/or efficiency when distilling the knowledge from a given teacher model. Previous DaNAS methods have mostly tackled the search for the neural architecture for fixed datasets and the teacher, which are not generalized well on a new task consisting of an unseen dataset and an unseen teacher, thus need to perform a costly search for any new combination of the datasets and the teachers. For standard NAS tasks without KD, meta-learning-based computationally efficient NAS methods have been proposed, which learn the generalized search process over multiple tasks (datasets) and transfer the knowledge obtained over those tasks to a new task. However, since they assume learning from scratch without KD from a teacher, they might not be ideal for DaNAS scenarios. To eliminate the excessive computational cost of DaNAS methods and the sub-optimality of rapid NAS methods, we propose a distillation-aware meta accuracy prediction model, DaSS (Distillation-aware Student Search), which can predict a given architecture's final performances on a dataset when performing KD with a given teacher, without having actually to train it on the target task. The experimental results demonstrate that our proposed meta-prediction model successfully generalizes to multiple unseen datasets for DaNAS tasks, largely outperforming existing meta-NAS methods and rapid NAS baselines. Code is available at https://github.com/CownowAn/DaSS
翻訳日:2023-05-29 14:24:11 公開日:2023-05-26
# 文-増分ニューラルコア参照分解能

Sentence-Incremental Neural Coreference Resolution ( http://arxiv.org/abs/2305.16947v1 )

ライセンス: Link先を確認
Matt Grenander, Shay B. Cohen, Mark Steedman(参考訳) 本稿では,シフト・リデュース法で参照境界をマークした後,段階的にクラスタを構築できる文増分ニューラルコア参照解決システムを提案する。 本システムは,(1)文書長の2次複雑性を高い計算コストで生ずる非インクリメンタルモデル,(2)漸進的に動作しながら代名詞以外の一般化を行わないメモリネットワークモデル,の2つのコリファレンス解決手法を橋渡しすることを目的としている。 比較のために,新しい文を観察する前に,非インクリメンタルシステムを制約して部分的コリファレンスチェインを形成することにより,インクリメンタルな設定をシミュレートする。 本システムでは,CODI-CRAC 2021コーパスにおいて,OntoNotesで2F1,CODI-CRAC 2021コーパスで7F1の2F1で比較した。 従来のコア設定では,OntoNotes の76.3 F1 と CODI-CRAC 2021 の45.8 F1 を達成している。 また,システムの変化を分析し,エンコーダのインクリメンタルさの程度が結果として得られる性能に驚くほど大きな影響を与えることを示した。

We propose a sentence-incremental neural coreference resolution system which incrementally builds clusters after marking mention boundaries in a shift-reduce method. The system is aimed at bridging two recent approaches at coreference resolution: (1) state-of-the-art non-incremental models that incur quadratic complexity in document length with high computational cost, and (2) memory network-based models which operate incrementally but do not generalize beyond pronouns. For comparison, we simulate an incremental setting by constraining non-incremental systems to form partial coreference chains before observing new sentences. In this setting, our system outperforms comparable state-of-the-art methods by 2 F1 on OntoNotes and 7 F1 on the CODI-CRAC 2021 corpus. In a conventional coreference setup, our system achieves 76.3 F1 on OntoNotes and 45.8 F1 on CODI-CRAC 2021, which is comparable to state-of-the-art baselines. We also analyze variations of our system and show that the degree of incrementality in the encoder has a surprisingly large effect on the resulting performance.
翻訳日:2023-05-29 14:23:44 公開日:2023-05-26
# Inverse Dynamics Pretrainingはマルチタスク模倣のための良い表現を学習する

Inverse Dynamics Pretraining Learns Good Representations for Multitask Imitation ( http://arxiv.org/abs/2305.16985v1 )

ライセンス: Link先を確認
David Brandfonbrener, Ofir Nachum, Joan Bruna(参考訳) 近年、自然言語処理や画像認識といったドメインは、ダウンストリームタスクに効果的に転送可能な表現を事前学習するために大規模なデータセットを使用するというパラダイムを広めている。 本研究では,事前学習と微調整の両方が未知の環境と対話する専門家によって収集される軌跡である模倣学習において,そのようなパラダイムをどのように行うべきかを評価する。 すなわち、プリトレーニングコーパスがマルチタスクのデモンストレーションで構成され、各デモンストレーションのタスクが観測できない潜在コンテキスト変数によって設定されるような設定を考える。 目標は、プレトレーニングコーパスを使用して、デモの限られたデータセットを微調整するための新しいコンテキストに転送できる高次元(例えば、視覚)観測空間の低次元表現を学習することである。 様々な事前訓練対象のうち、逆動力学モデリング、すなわち、実験の前後で観察された結果から行動を予測することは、この設定に適していると主張する。 この主張の実証的証拠として, 種々の模擬振動子操作問題の評価を行った。 前回の研究は逆ダイナミクスモデリングの利点に関する様々な理論的な説明を試みたが、これらの議論は我々の設定でよく見られる経験的利点を説明するには不十分であり、単純だが一般的な環境モデルを用いて新しい分析を導出する。

In recent years, domains such as natural language processing and image recognition have popularized the paradigm of using large datasets to pretrain representations that can be effectively transferred to downstream tasks. In this work we evaluate how such a paradigm should be done in imitation learning, where both pretraining and finetuning data are trajectories collected by experts interacting with an unknown environment. Namely, we consider a setting where the pretraining corpus consists of multitask demonstrations and the task for each demonstration is set by an unobserved latent context variable. The goal is to use the pretraining corpus to learn a low dimensional representation of the high dimensional (e.g., visual) observation space which can be transferred to a novel context for finetuning on a limited dataset of demonstrations. Among a variety of possible pretraining objectives, we argue that inverse dynamics modeling -- i.e., predicting an action given the observations appearing before and after it in the demonstration -- is well-suited to this setting. We provide empirical evidence of this claim through evaluations on a variety of simulated visuomotor manipulation problems. While previous work has attempted various theoretical explanations regarding the benefit of inverse dynamics modeling, we find that these arguments are insufficient to explain the empirical advantages often observed in our settings, and so we derive a novel analysis using a simple but general environment model.
翻訳日:2023-05-29 14:17:28 公開日:2023-05-26
# TranSFormer: 機械翻訳用低速変圧器

TranSFormer: Slow-Fast Transformer for Machine Translation ( http://arxiv.org/abs/2305.16982v1 )

ライセンス: Link先を確認
Bei Li, Yi Jing, Xu Tan, Zhen Xing, Tong Xiao and Jingbo Zhu(参考訳) マルチスケールトランスフォーマーモデルの学習は、機械翻訳システムを強化するための有効なアプローチとして証明されている。 先行研究は主に、そのようなシステムの開発において、サブワードを基本単位として扱うことに焦点を当ててきた。 しかし,マルチスケールトランスへのキャラクタレベルの微細化は未だ検討されていない。 本稿では,'slow' の分岐を用いてサブワード列と ``fast'' の分岐を処理し,より長い文字列列を扱う,二流学習モデルである tran\textbf{sf}ormer を提案する。 このモデルは、モデル幅を小さくすることで高速分岐が非常に軽量であるため効率的であるが、緩やかな分岐に便利な機能を提供している。 私たちのトランスフォーマーは、いくつかの機械翻訳ベンチマークで一貫性のあるbleu改善(1 bleu点より大きい)を示しました。

Learning multiscale Transformer models has been evidenced as a viable approach to augmenting machine translation systems. Prior research has primarily focused on treating subwords as basic units in developing such systems. However, the incorporation of fine-grained character-level features into multiscale Transformer has not yet been explored. In this work, we present a \textbf{S}low-\textbf{F}ast two-stream learning model, referred to as Tran\textbf{SF}ormer, which utilizes a ``slow'' branch to deal with subword sequences and a ``fast'' branch to deal with longer character sequences. This model is efficient since the fast branch is very lightweight by reducing the model width, and yet provides useful fine-grained features for the slow branch. Our TranSFormer shows consistent BLEU improvements (larger than 1 BLEU point) on several machine translation benchmarks.
翻訳日:2023-05-29 14:17:06 公開日:2023-05-26
# 局部遠隔遠隔操作における深部強化学習を用いた適応型PD制御

Adaptive PD Control using Deep Reinforcement Learning for Local-Remote Teleoperation with Stochastic Time Delays ( http://arxiv.org/abs/2305.16979v1 )

ライセンス: Link先を確認
Luc McCutcheon and Saber Fallah(参考訳) ローカルリモートシステムにより、ロボットは宇宙や原子力発電所のような危険な環境で複雑なタスクを実行できる。 しかし、システム性能と安定性を損なうような時間遅延のため、ローカルデバイスとリモートデバイス間の正確な位置マッピングを確立することは困難である。 ローカルリモートシステムの同期性と安定性の強化は、ロボットがより遠く、時間遅延を含む非常に困難なネットワーク条件下で環境と対話できるようにするのに不可欠である。 時間遅れ制御問題に対処するために,強化学習を用いた適応制御手法を提案する。 制御パラメータをリアルタイムで調整することにより、確率的遅延を補償し、局所ロボットマニピュレータと遠隔ロボットマニピュレータの同期性を改善する。 適応型PDコントローラの性能を向上させるため,多段階遅延を効果的に学習フレームワークに組み込むモデルベース強化学習手法を考案した。 提案手法を用いることで,最大290msの確率的通信遅延に対して局部遠隔システムの性能を安定化する。 提案手法は,ソフトアクター批判法と拡張状態のソフトアクター批判法を超越したモデルベース強化学習法を示す。 https://github.com/cav-research-lab/predictive-model-delay-correction コードにアクセスする。

Local-remote systems allow robots to execute complex tasks in hazardous environments such as space and nuclear power stations. However, establishing accurate positional mapping between local and remote devices can be difficult due to time delays that can compromise system performance and stability. Enhancing the synchronicity and stability of local-remote systems is vital for enabling robots to interact with environments at greater distances and under highly challenging network conditions, including time delays. We introduce an adaptive control method employing reinforcement learning to tackle the time-delayed control problem. By adjusting controller parameters in real-time, this adaptive controller compensates for stochastic delays and improves synchronicity between local and remote robotic manipulators. To improve the adaptive PD controller's performance, we devise a model-based reinforcement learning approach that effectively incorporates multi-step delays into the learning framework. Utilizing this proposed technique, the local-remote system's performance is stabilized for stochastic communication time-delays of up to 290ms. Our results demonstrate that the suggested model-based reinforcement learning method surpasses the Soft-Actor Critic and augmented state Soft-Actor Critic techniques. Access the code at: https://github.com/CAV-Research-Lab/Predictive-Model-Delay-Correction
翻訳日:2023-05-29 14:16:51 公開日:2023-05-26
# 外部入力を用いた自己回帰システムの最小分散制御のための有限時間後悔限

Finite Time Regret Bounds for Minimum Variance Control of Autoregressive Systems with Exogenous Inputs ( http://arxiv.org/abs/2305.16974v1 )

ライセンス: Link先を確認
Rahul Singh, Akshay Mete, Avik Kar, P. R. Kumar(参考訳) 最小分散制御器は幅広い産業用途で採用されている。 多くの適応コントローラが経験する重要な課題は、学習の初期段階における経験的パフォーマンスの低さである。 本稿では,これらを初期化して許容的な過渡性を提供するとともに,それに伴う有限時間後悔解析を行い,外因性入力(ARX)を持つ自己回帰システムの適応最小分散制御を行う。 3]に従うと、探索に探索入力を利用するPIECEと呼ばれるCertainty Equivalence (CE)適応コントローラの修正版を考える。 有界雑音に対するt$の時間ステップの後、後悔に縛られた$c \log t$と、サブガウス雑音の場合には$c\log^2 t$を持つことを示す。 シミュレーションの結果、[3]で提案したアルゴリズムと、特に初期学習フェーズにおける標準Certainty Equivalenceコントローラに対するPIECEの利点が示された。 我々の知る限りでは、適応最小分散制御器に対して有限時間後悔境界を提供する最初の研究である。

Minimum variance controllers have been employed in a wide-range of industrial applications. A key challenge experienced by many adaptive controllers is their poor empirical performance in the initial stages of learning. In this paper, we address the problem of initializing them so that they provide acceptable transients, and also provide an accompanying finite-time regret analysis, for adaptive minimum variance control of an auto-regressive system with exogenous inputs (ARX). Following [3], we consider a modified version of the Certainty Equivalence (CE) adaptive controller, which we call PIECE, that utilizes probing inputs for exploration. We show that it has a $C \log T$ bound on the regret after $T$ time-steps for bounded noise, and $C\log^2 T$ in the case of sub-Gaussian noise. The simulation results demonstrate the advantage of PIECE over the algorithm proposed in [3] as well as the standard Certainty Equivalence controller especially in the initial learning phase. To the best of our knowledge, this is the first work that provides finite-time regret bounds for an adaptive minimum variance controller.
翻訳日:2023-05-29 14:16:27 公開日:2023-05-26
# 仮面:ゼロショットマスク異常分割

Maskomaly:Zero-Shot Mask Anomaly Segmentation ( http://arxiv.org/abs/2305.16972v1 )

ライセンス: Link先を確認
Jan Ackermann, Christos Sakaridis and Fisher Yu(参考訳) マスコマリーと呼ばれる異常分割のための単純かつ実用的な枠組みを提案する。 マスクベースの標準的なセマンティックセグメンテーションネットワークを構築し、そのようなネットワークの生マスク出力を利用する単純な推論時間後処理ステップを追加する。 Maskomalyは追加のトレーニングを必要とせず、推論に小さな計算オーバーヘッドを追加するだけである。 最も重要なのは、トレーニング時に異常なデータを必要としないことだ。 smiyc, roadanomaly, streethazardにおいて,提案手法の上位結果を示す。 最も中心的なベンチマークであるSMIYCでは、Maskomalyが直接的に比較可能なアプローチよりも優れている。 さらに,ロバストな異常セグメンテーション手法の開発に資する新しい指標を導入し,その道路上の情報性を示す。

We present a simple and practical framework for anomaly segmentation called Maskomaly. It builds upon mask-based standard semantic segmentation networks by adding a simple inference-time post-processing step which leverages the raw mask outputs of such networks. Maskomaly does not require additional training and only adds a small computational overhead to inference. Most importantly, it does not require anomalous data at training. We show top results for our method on SMIYC, RoadAnomaly, and StreetHazards. On the most central benchmark, SMIYC, Maskomaly outperforms all directly comparable approaches. Further, we introduce a novel metric that benefits the development of robust anomaly segmentation methods and demonstrate its informativeness on RoadAnomaly.
翻訳日:2023-05-29 14:16:09 公開日:2023-05-26
# 機能への影響に関する理論的・実践的展望

Theoretical and Practical Perspectives on what Influence Functions Do ( http://arxiv.org/abs/2305.16971v1 )

ライセンス: Link先を確認
Andrea Schioppa and Katja Filippova and Ivan Titov and Polina Zablotskaia(参考訳) 影響関数(if)は、トレーニングデータのレンズを通してモデル予測を説明する技術と見なされている。 それらのユーティリティは、例えば、これらの例に介入し(削除または編集)、モデルをリトレーニングすることで、予測を修正できるように、予測の"責任"のトレーニング例を特定することであると仮定されている。 しかし、近年の実証研究により、残欠再訓練効果を予測できない場合の既存の推定方法が低かったことが示されている。 理論上の期待値と実用結果のミスマッチを理解するために,現代のディープニューラルネットワークでは問題となる手法であり,凸性,数値安定性,トレーニング軌道,パラメータ発散に関する5つの仮定を解析した。 これにより、IFから理論上何が期待できるかを明らかにすることができる。 多くの仮定はうまく対処できるが、パラメータの発散はifの予測能力に明確な制限を与える: 決定論的トレーニングにおいても、影響はトレーニング時間とともに弱まる。 この理論結果をBERTモデルとResNetモデルで説明する。 理論解析によるもう1つの結論は、IFがモデルデバッギングや修正に有用であり、たとえ事前の作業でなされた仮定のいくつかが成り立っていないとしても: 自然言語処理とコンピュータビジョンタスクを使用することで、影響のある例についていくつかの微調整のステップを踏むことで、誤予測が正常に修正できることを検証することである。

Influence functions (IF) have been seen as a technique for explaining model predictions through the lens of the training data. Their utility is assumed to be in identifying training examples "responsible" for a prediction so that, for example, correcting a prediction is possible by intervening on those examples (removing or editing them) and retraining the model. However, recent empirical studies have shown that the existing methods of estimating IF predict the leave-one-out-and-retrain effect poorly. In order to understand the mismatch between the theoretical promise and the practical results, we analyse five assumptions made by IF methods which are problematic for modern-scale deep neural networks and which concern convexity, numeric stability, training trajectory and parameter divergence. This allows us to clarify what can be expected theoretically from IF. We show that while most assumptions can be addressed successfully, the parameter divergence poses a clear limitation on the predictive power of IF: influence fades over training time even with deterministic training. We illustrate this theoretical result with BERT and ResNet models. Another conclusion from the theoretical analysis is that IF are still useful for model debugging and correcting even though some of the assumptions made in prior work do not hold: using natural language processing and computer vision tasks, we verify that mis-predictions can be successfully corrected by taking only a few fine-tuning steps on influential examples.
翻訳日:2023-05-29 14:15:52 公開日:2023-05-26
# l^2$空間におけるポテンシャル散乱:(2)波束の厳密な散乱確率

Potential scattering in $L^2$ space: (2) Rigorous scattering probability of wave packets ( http://arxiv.org/abs/2305.16970v1 )

ライセンス: Link先を確認
Kenzo Ishikawa(参考訳) 実験系におけるポテンシャル散乱は初期状態と最終状態の完全正規化状態を用いて定式化される。 定常状態の非直交性に起因する標準法における様々な曖昧さを解消し、前方散乱における干渉を明らかにする一貫した散乱確率を求める。 ユニタリティを満足する結合強度の時系列展開を示すとともに,遷移確率の変動法を提案する。

Potential scatterings in experimental setups are formulated using a complete set of normalized states for initial and final states. Various ambiguities in a standard method caused by non-orthogonality of stationary states are resolved, and consistent scattering probabilities that clarify an interference at a forward scattering are found. A power series expansions in the coupling strength satisfying manifest unitarity is presented, and a variational method for the transition probability is proposed.
翻訳日:2023-05-29 14:15:23 公開日:2023-05-26
# 複数物体追跡による文書画像の線形物体検出

Linear Object Detection in Document Images using Multiple Object Tracking ( http://arxiv.org/abs/2305.16968v1 )

ライセンス: Link先を確認
Philippe Bernet (1), Joseph Chazalon (1), Edwin Carlinet (1), Alexandre Bourquelot (1), Elodie Puybareau (1) ((1) EPITA Research Lab.)(参考訳) 線形オブジェクトは文書構造に関する実質的な情報を提供するが、劣化(カーブ、消去)や装飾(ダブル、ダッシュ)のため、正確に検出することが難しい。 多くのアプローチはベクトル表現を復元できるが、1994年にカルマンフィルタ(特に多重オブジェクト追跡アルゴリズム)に基づいて導入された1つのクローズドソース技術のみが、線形オブジェクトのピクセル精度の高いインスタンスセグメンテーションを実行でき、元の画像からそれらを選択的に除去することができる。 このアプローチを再普及させることを目標とし、次のように提案する。 1.多重オブジェクトトラッキング(mot)を用いた文書画像中の線形オブジェクトの正確なインスタンス分割のためのフレームワーク 2. ベクトルおよび画素に基づく線形物体検出の評価を可能にする文書画像データセット及びメトリクス 3.近代セグメント検出器に対するMOTアプローチの性能測定 4. 従来のカルマンフィルタの代替策として, 各種追跡戦略の性能対策 5. 曲線、消去、破砕、交差及び/又は重なり合う線形オブジェクトのインスタンスを識別できる検出器のオープンソース実装。

Linear objects convey substantial information about document structure, but are challenging to detect accurately because of degradation (curved, erased) or decoration (doubled, dashed). Many approaches can recover some vector representation, but only one closed-source technique introduced in 1994, based on Kalman filters (a particular case of Multiple Object Tracking algorithm), can perform a pixel-accurate instance segmentation of linear objects and enable to selectively remove them from the original image. We aim at re-popularizing this approach and propose: 1. a framework for accurate instance segmentation of linear objects in document images using Multiple Object Tracking (MOT); 2. document image datasets and metrics which enable both vector- and pixel-based evaluation of linear object detection; 3. performance measures of MOT approaches against modern segment detectors; 4. performance measures of various tracking strategies, exhibiting alternatives to the original Kalman filters approach; and 5. an open-source implementation of a detector which can discriminate instances of curved, erased, dashed, intersecting and/or overlapping linear objects.
翻訳日:2023-05-29 14:15:16 公開日:2023-05-26
# 次文予測と相互情報を用いた潜在空間におけるオープンドメイン対話の評価

Evaluating Open-Domain Dialogues in Latent Space with Next Sentence Prediction and Mutual Information ( http://arxiv.org/abs/2305.16967v1 )

ライセンス: Link先を確認
Kun Zhao, Bohao Yang, Chenghua Lin, Wenge Rong, Aline Villavicencio and Xiaohui Cui(参考訳) オープンドメイン対話の長年にわたる1対1の問題は、自動評価手法において重要な課題、すなわち、与えられた会話の文脈に対する意味論が異なる複数の適切な応答が存在する可能性がある。 この課題に取り組むために,条件付き変分オートエンコーダ(cvaes)を次文予測(nsp)目標で拡張し,相互情報(mi)を用いて潜在空間におけるテキストの意味的類似性をモデル化することにより,オープンドメイン対話を頑健に評価できる新しい学習型自動評価指標(cmn)を提案する。 2つのオープンドメイン対話データセットにおける実験結果から,本手法は広範囲のベースライン,特にセマンティクスにおけるゴールデンリファレンス応答に遠く及ばない応答の処理において優れていることが示された。

The long-standing one-to-many issue of the open-domain dialogues poses significant challenges for automatic evaluation methods, i.e., there may be multiple suitable responses which differ in semantics for a given a conversational context. To tackle this challenge, we propose a novel learning-based automatic evaluation metric (CMN), which can robustly evaluate open-domain dialogues by augmenting Conditional Variational Autoencoders (CVAEs) with a Next Sentence Prediction (NSP) objective and employing Mutual Information (MI) to model the semantic similarity of text in the latent space. Experimental results on two open-domain dialogue datasets demonstrate the superiority of our method compared with a wide range of baselines, especially in handling responses which are distant to the golden reference responses in semantics.
翻訳日:2023-05-29 14:14:57 公開日:2023-05-26
# 分散検出のための特徴空間におけるハイブリッドエネルギーモデル

Hybrid Energy Based Model in the Feature Space for Out-of-Distribution Detection ( http://arxiv.org/abs/2305.16966v1 )

ライセンス: Link先を確認
Marc Lafon, Elias Ramzi, Cl\'ement Rambour, Nicolas Thome(参考訳) Out-of-distribution(OOD)検出は、ディープニューラルネットワークのデプロイにおいて重要な要件である。 本稿では,事前学習したバックボーンの特徴空間におけるハイブリッドエネルギーベースモデル(EBM)を用いて,分布内サンプルの密度を推定するポストホックOOD検出手法であるHEATモデルを提案する。 HEATは、例えばガウス混合モデル(GMM)のようなパラメトリックモデルのようなID密度の事前密度推定器を補完し、正確で頑健な密度推定を提供する。 第2の貢献は、EBMフレームワークを活用し、統一された密度推定を提供し、いくつかのエネルギー用語を構成することである。 大規模な実験は2つの貢献の重要性を示している。 HEATはCIFAR-10/CIFAR-100ベンチマークと大規模イメージネットベンチマークに、最先端のOOD検出結果を新たに設定する。 コードは、https://github.com/MarcLafon/heat_ood.comで入手できる。

Out-of-distribution (OOD) detection is a critical requirement for the deployment of deep neural networks. This paper introduces the HEAT model, a new post-hoc OOD detection method estimating the density of in-distribution (ID) samples using hybrid energy-based models (EBM) in the feature space of a pre-trained backbone. HEAT complements prior density estimators of the ID density, e.g. parametric models like the Gaussian Mixture Model (GMM), to provide an accurate yet robust density estimation. A second contribution is to leverage the EBM framework to provide a unified density estimation and to compose several energy terms. Extensive experiments demonstrate the significance of the two contributions. HEAT sets new state-of-the-art OOD detection results on the CIFAR-10 / CIFAR-100 benchmark as well as on the large-scale Imagenet benchmark. The code is available at: https://github.com/MarcLafon/heat_ood.
翻訳日:2023-05-29 14:14:39 公開日:2023-05-26
# 正規化特徴ノルムと方向による知識蒸留の改善

Improving Knowledge Distillation via Regularizing Feature Norm and Direction ( http://arxiv.org/abs/2305.17007v1 )

ライセンス: Link先を確認
Yuzhu Wang, Lechao Cheng, Manni Duan, Yongheng Wang, Zunlei Feng, Shu Kong(参考訳) 知識蒸留(KD)は、大きな訓練されたモデル(例えば教師)を利用して、同じタスクのために同じデータセット上で小さな学生モデルを訓練する。 教師の特徴を知識として扱うこと、知識蒸留訓練の学生は、その特徴を教師の特徴と整合させることによって、例えば、ロジット間のKL偏差を最小化し、中間特徴間のL2距離を最小化する。 教師に対する生徒の特徴の整合性の向上は教師の知識をよりよく蒸留すると考えるのは自然なことだが、この整合性を強制することは生徒のパフォーマンス、例えば分類精度に直接寄与しない。 本研究では,学生の特徴を教師の特徴のクラス平均と整合させ,クラス平均が自然に強力な分類器として機能することを提案する。 そこで本研究では, 生徒の特徴と教師のクラス平均との類似性を高めるために, 余弦距離に基づく損失の活用などのベースライン手法について検討する。 さらに,大規模ノルム機能をより重要視する他の作業(モデルプランニングやドメイン適応など)にインスパイアされた,大規模ノルム機能の作成を学生に指導する。 最後に,(1) 学生に大きな「emph{norm}」特徴の獲得を促し,(2) 生徒の特徴の「emph{direction}」を整列させるための,比較的単純な損失項(dubed ND loss)を提案する。 標準ベンチマーク実験により、既存のKD手法により、ImageNetおよびCIFAR100データセットの分類精度が向上し、COCOデータセットにおける検出精度が向上することが示された。 重要なことは、提案されたND損失が最も役立ち、これらのベンチマークにおける最先端のパフォーマンスにつながります。 ソースコードは \url{https://github.com/wangyz1608/knowledge-distillation-via-nd} で入手できる。

Knowledge distillation (KD) exploits a large well-trained model (i.e., teacher) to train a small student model on the same dataset for the same task. Treating teacher features as knowledge, prevailing methods of knowledge distillation train student by aligning its features with the teacher's, e.g., by minimizing the KL-divergence between their logits or L2 distance between their intermediate features. While it is natural to believe that better alignment of student features to the teacher better distills teacher knowledge, simply forcing this alignment does not directly contribute to the student's performance, e.g., classification accuracy. In this work, we propose to align student features with class-mean of teacher features, where class-mean naturally serves as a strong classifier. To this end, we explore baseline techniques such as adopting the cosine distance based loss to encourage the similarity between student features and their corresponding class-means of the teacher. Moreover, we train the student to produce large-norm features, inspired by other lines of work (e.g., model pruning and domain adaptation), which find the large-norm features to be more significant. Finally, we propose a rather simple loss term (dubbed ND loss) to simultaneously (1) encourage student to produce large-\emph{norm} features, and (2) align the \emph{direction} of student features and teacher class-means. Experiments on standard benchmarks demonstrate that our explored techniques help existing KD methods achieve better performance, i.e., higher classification accuracy on ImageNet and CIFAR100 datasets, and higher detection precision on COCO dataset. Importantly, our proposed ND loss helps the most, leading to the state-of-the-art performance on these benchmarks. The source code is available at \url{https://github.com/WangYZ1608/Knowledge-Distillation-via-ND}.
翻訳日:2023-05-29 14:07:42 公開日:2023-05-26
# 言語モデルフィードバックによるゼロショット視覚質問応答

Zero-shot Visual Question Answering with Language Model Feedback ( http://arxiv.org/abs/2305.17006v1 )

ライセンス: Link先を確認
Yifan Du, Junyi Li, Tianyi Tang, Wayne Xin Zhao, Ji-Rong Wen(参考訳) 本稿では,知識に基づく視覚的質問応答(VQA)のための新しい言語モデルであるLAMOCを提案する。 本手法は,事前学習型言語モデル (plm) である応答予測モデルの文脈としてキャプションモデルによって生成されたキャプションを用いる。 主な貢献として,予測モデルの指導とフィードバックを活用し,キャプションモデルの能力を向上させる。 このようにして、キャプションモデルは、PLMから必要なタスク目標と情報を認識することができる。 本手法を開発するために,第1段階は予測モデルにキャプションモデルを適応させ(トレーニングに適したキャプション命題を選択する),第2段階はタスク目標(PLMのフィードバックから学ぶ)に応じてキャプションモデルを調整する,2つの特定のトレーニング段階を設計する。 知識に基づくVQA課題における提案手法の有効性を実証した。 特に、挑戦的なA-OKVQAデータセットでは、LAMOCはいくつかの競合するゼロショット法より優れており、微調整されたVLPモデルと同等の結果が得られる。 私たちのコードはhttps://github.com/RUCAIBox/LAMOCで公開されています。

In this paper, we propose a novel language model guided captioning approach, LAMOC, for knowledge-based visual question answering (VQA). Our approach employs the generated captions by a captioning model as the context of an answer prediction model, which is a Pre-trained Language model (PLM). As the major contribution, we leverage the guidance and feedback of the prediction model to improve the capability of the captioning model. In this way, the captioning model can become aware of the task goal and information need from the PLM. To develop our approach, we design two specific training stages, where the first stage adapts the captioning model to the prediction model (selecting more suitable caption propositions for training) and the second stage tunes the captioning model according to the task goal (learning from feedback of the PLM). Extensive experiments demonstrate the effectiveness of the proposed approach on the knowledge-based VQA task. Specifically, on the challenging A-OKVQA dataset, LAMOC outperforms several competitive zero-shot methods and even achieves comparable results to a fine-tuned VLP model. Our code is publicly available at https://github.com/RUCAIBox/LAMOC.
翻訳日:2023-05-29 14:07:09 公開日:2023-05-26
# 計算制約型デバイスのための連続層学習によるflの集約能力

Aggregating Capacity in FL through Successive Layer Training for Computationally-Constrained Devices ( http://arxiv.org/abs/2305.17005v1 )

ライセンス: Link先を確認
Kilian Pfeiffer, Ramin Khalili, J\"org Henkel(参考訳) フェデレートラーニング(FL)は通常、リソース制約のあるエッジデバイス上で実行され、計算のメモリは限られている。 モデルをトレーニングするために必要なメモリがこの制限を超えた場合、デバイスはトレーニングから除外される。 これにより、貴重なデータや計算リソースがトレーニングから除外され、バイアスや不公平が生じるため、精度が低下する可能性がある。 flトレーニングプロセスは、そのような制約に合わせて調整されるべきである。 最先端技術では、制約のあるデバイスにおけるFLモデルのトレーニングサブセットを提案し、トレーニングに必要なリソースを削減している。 しかし、これらの手法はモデルのパラメータ間の共適応をほとんど制限し、非常に非効率である: 実際に、すべてのデバイスが、そのような手法を適用するよりも、エンド・ツー・エンドでモデルを訓練できるシステムによって、より小さな(正確にない)モデルを訓練する方がよい。 本稿では,デバイスにおけるFLモデルのパラメータの連続的な凍結とトレーニングを可能にし,デバイスにおけるトレーニングのリソース要求を低減し,パラメータ間の共適応を十分に可能とした新しい手法を提案する。 実験により,本手法はトレーニングされたモデルの精度(52.4 p.p.)を大幅に向上させ,分散デバイス上で利用可能な計算能力を効率的に集約することを示した。

Federated learning (FL) is usually performed on resource-constrained edge devices, e.g., with limited memory for the computation. If the required memory to train a model exceeds this limit, the device will be excluded from the training. This can lead to a lower accuracy as valuable data and computation resources are excluded from training, also causing bias and unfairness. The FL training process should be adjusted to such constraints. The state-of-the-art techniques propose training subsets of the FL model at constrained devices, reducing their resource requirements for training. But these techniques largely limit the co-adaptation among parameters of the model and are highly inefficient, as we show: it is actually better to train a smaller (less accurate) model by the system where all the devices can train the model end-to-end, than applying such techniques. We propose a new method that enables successive freezing and training of the parameters of the FL model at devices, reducing the training's resource requirements at the devices, while still allowing enough co-adaptation between parameters. We show through extensive experimental evaluation that our technique greatly improves the accuracy of the trained model (by 52.4 p.p.) compared with the state of the art, efficiently aggregating the computation capacity available on distributed devices.
翻訳日:2023-05-29 14:06:48 公開日:2023-05-26
# LMに基づく質問と回答生成手法の実証比較

An Empirical Comparison of LM-based Question and Answer Generation Methods ( http://arxiv.org/abs/2305.17002v1 )

ライセンス: Link先を確認
Asahi Ushio and Fernando Alva-Manchego and Jose Camacho-Collados(参考訳) 質問と回答の生成(QAG)は、コンテキスト(例えば、段落)が与えられた質問と回答のペアのセットを生成することである。 このタスクには、質問応答(qa)モデルのためのデータ拡張、情報検索、教育など、さまざまな応用がある。 本稿では,シーケンス・ツー・シーケンス言語モデル(LM)を微調整する3つの異なるQAG手法を用いてベースラインを確立する。 実験により、学習時間と推論時間の両方で計算的に軽量なエンドツーエンドQAGモデルが一般に堅牢であり、他のより複雑なアプローチよりも優れていることが示された。 しかし、基礎となる生成的lmには違いがある。 最後に,得られた質問応答ペアのみに微調整されたQAモデルは,人間のラベル付きデータに基づいてトレーニングされた教師付きQAモデルと比較して競合する可能性があることを示す。

Question and answer generation (QAG) consists of generating a set of question-answer pairs given a context (e.g. a paragraph). This task has a variety of applications, such as data augmentation for question answering (QA) models, information retrieval and education. In this paper, we establish baselines with three different QAG methodologies that leverage sequence-to-sequence language model (LM) fine-tuning. Experiments show that an end-to-end QAG model, which is computationally light at both training and inference times, is generally robust and outperforms other more convoluted approaches. However, there are differences depending on the underlying generative LM. Finally, our analysis shows that QA models fine-tuned solely on generated question-answer pairs can be competitive when compared to supervised QA models trained on human-labeled data.
翻訳日:2023-05-29 14:06:24 公開日:2023-05-26
# 対向音例同定のための出力確率分布の特徴の活用

Leveraging characteristics of the output probability distribution for identifying adversarial audio examples ( http://arxiv.org/abs/2305.17000v1 )

ライセンス: Link先を確認
Mat\'ias P. Pizarro B., Dorothea Kolossa and Asja Fischer(参考訳) 敵攻撃は、機械学習に基づく自動音声認識(ASR)システムに対するセキュリティ上の脅威を表す。 このような攻撃を防止するため,各段階における出力トークン上の確率分布を予測するASRシステムに適用可能な逆例検出戦略を提案する。 出力確率に対する中央値,最大値,最小値,エントロピー,およびその後の時間ステップの分布のジェンセン・シャノン分散といった,この分布の一連の特性を測定する。 次に,良性データで観測される特徴にガウス分布を適合させる。 新たなオーディオを受信する可能性を計算することで、受信演算子特性(AUROC)が0.99より高い領域を持つクリーンデータからサンプルからの悪意のある入力を区別することができる。 提案手法のロバスト性を評価するため,適応攻撃を行う。 これによりAUROCは0.96に減少するが、ノイズの多い敵のクリップとなる。

Adversarial attacks represent a security threat to machine learning based automatic speech recognition (ASR) systems. To prevent such attacks we propose an adversarial example detection strategy applicable to any ASR system that predicts a probability distribution over output tokens in each time step. We measure a set of characteristics of this distribution: the median, maximum, and minimum over the output probabilities, the entropy, and the Jensen-Shannon divergence of the distributions of subsequent time steps. Then, we fit a Gaussian distribution to the characteristics observed for benign data. By computing the likelihood of incoming new audio we can distinguish malicious inputs from samples from clean data with an area under the receiving operator characteristic (AUROC) higher than 0.99, which drops to 0.98 for less-quality audio. To assess the robustness of our method we build adaptive attacks. This reduces the AUROC to 0.96 but results in more noisy adversarial clips.
翻訳日:2023-05-29 14:06:09 公開日:2023-05-26
# 3つのタワー:事前学習によるフレキシブルコントラスト学習

Three Towers: Flexible Contrastive Learning with Pretrained Image Models ( http://arxiv.org/abs/2305.16999v1 )

ライセンス: Link先を確認
Jannik Kossen, Mark Collier, Basil Mustafa, Xiao Wang, Xiaohua Zhai, Lucas Beyer, Andreas Steiner, Jesse Berent, Rodolphe Jenatton, Efi Kokiopoulou(参考訳) 本稿では,視覚言語モデルのコントラスト学習を改善するためのフレキシブルな手法である3つのタワー(3t)を提案する。 対照的なモデルは通常、ゼロからトレーニングされるが、LiT (Zhai et al., 2022) は、最近、事前訓練された分類器の埋め込みによる性能向上を示している。 しかし、ライトはイメージタワーを、対照的にイメージタワーを訓練することの利点を除いて、凍結した埋め込みに置き換える。 3tでは,事前学習された組込みとコントラストトレーニングの両方の恩恵を受ける,より柔軟なストラテジーを提案する。 これを実現するため,凍結した既設埋設塔を含む第3の塔を導入し,この第3の塔と主画像テキスト塔との整合を奨励する。 経験的に、3TはLiTとCLIPスタイルの検索タスクのベースラインを一貫して改善する。 分類において、3Tはオフスクラッチベースラインよりも確実に改善され、JFT事前トレーニングモデルではLiTと比較して性能が劣るが、ImageNet-21kとPlaces365事前トレーニングではLiTより優れている。

We introduce Three Towers (3T), a flexible method to improve the contrastive learning of vision-language models by incorporating pretrained image classifiers. While contrastive models are usually trained from scratch, LiT (Zhai et al., 2022) has recently shown performance gains from using pretrained classifier embeddings. However, LiT directly replaces the image tower with the frozen embeddings, excluding any potential benefits of contrastively training the image tower. With 3T, we propose a more flexible strategy that allows the image tower to benefit from both pretrained embeddings and contrastive training. To achieve this, we introduce a third tower that contains the frozen pretrained embeddings, and we encourage alignment between this third tower and the main image-text towers. Empirically, 3T consistently improves over LiT and the CLIP-style from-scratch baseline for retrieval tasks. For classification, 3T reliably improves over the from-scratch baseline, and while it underperforms relative to LiT for JFT-pretrained models, it outperforms LiT for ImageNet-21k and Places365 pretraining.
翻訳日:2023-05-29 14:05:52 公開日:2023-05-26
# 2つの近似の物語:下近似によるDNNロバスト性検証のための過剰近似の強化

A Tale of Two Approximations: Tightening Over-Approximation for DNN Robustness Verification via Under-Approximation ( http://arxiv.org/abs/2305.16998v1 )

ライセンス: Link先を確認
Zhiyi Xue, Si Liu, Zhaodi Zhang, Yiting Wu, Min Zhang(参考訳) ディープニューラルネットワーク(DNN)の堅牢性は、ホスティングシステムの信頼性とセキュリティに不可欠である。 形式的検証は証明可能な堅牢性保証の提供に有効であることが示されている。 拡張性を向上させるため,線形制約によるDNNの非線形活性化関数の過度な近似が広く採用され,検証問題を効率よく解ける線形プログラミング問題に変換する。 過剰近似によって課される過大評価を減らすために、いわゆる最も厳密な近似を定義するために多くの努力がなされてきた。 本稿では,既存手法について検討し,タイト近似,すなわち活性化関数の近似領域を定義する主因子を同定する。 近似領域上で定義された厳密な近似は、実際の領域よりも厳密でないかもしれないが、既存のアプローチはすべて近似領域にのみ依存している。 この観測に基づいて、活性化関数の過小評価領域を利用して、過剰近似を厳密化するための新しい双対近似手法を提案する。 我々はモンテカルロシミュレーションと勾配降下に基づく2つの補完アルゴリズムを用いて,DualAppと呼ばれるツールにアプローチを実装した。 異なるアーキテクチャを持つDNNの包括的なベンチマークで評価する。 実験の結果、dualappは、認証されたロバスト性比で100%-1000%、認定下限で平均で10.64%(最大66.53%)改善し、最先端のアプローチを大きく上回っていることがわかった。

The robustness of deep neural networks (DNNs) is crucial to the hosting system's reliability and security. Formal verification has been demonstrated to be effective in providing provable robustness guarantees. To improve its scalability, over-approximating the non-linear activation functions in DNNs by linear constraints has been widely adopted, which transforms the verification problem into an efficiently solvable linear programming problem. Many efforts have been dedicated to defining the so-called tightest approximations to reduce overestimation imposed by over-approximation. In this paper, we study existing approaches and identify a dominant factor in defining tight approximation, namely the approximation domain of the activation function. We find out that tight approximations defined on approximation domains may not be as tight as the ones on their actual domains, yet existing approaches all rely only on approximation domains. Based on this observation, we propose a novel dual-approximation approach to tighten over-approximations, leveraging an activation function's underestimated domain to define tight approximation bounds. We implement our approach with two complementary algorithms based respectively on Monte Carlo simulation and gradient descent into a tool called DualApp. We assess it on a comprehensive benchmark of DNNs with different architectures. Our experimental results show that DualApp significantly outperforms the state-of-the-art approaches with 100% - 1000% improvement on the verified robustness ratio and 10.64% on average (up to 66.53%) on the certified lower bound.
翻訳日:2023-05-29 14:05:32 公開日:2023-05-26
# ランダム混合状態と局所計測を用いたスクランブルおよびオペレータサイズ分布の探索

Probing scrambling and operator size distributions using random mixed states and local measurements ( http://arxiv.org/abs/2305.16992v1 )

ライセンス: Link先を確認
Philip Daniel Blocher, Karthik Chinni, Sivaprasad Omanakuttan, Pablo M. Poggi(参考訳) 量子情報の多体系(一般にスクランブルと呼ばれる)への動的拡散は、非平衡量子系の多くの性質を記述するのに必須であることが証明された複雑な過程である。 スクランブルは、原則として、実験的なアクセスが難しいことで悪名高い、時間外の相関関数の使用によって完全に特徴付けられる。 本研究では,多体系における可観測性の支持の大きさを経時的に追跡する演算子サイズ確率分布の特性にアクセスして,スクランブルを実験的に探索するための測定プロトコルの代替ツールボックスを提案する。 我々の測定プロトコルは、局所的な演算と測定とともに分離可能な混合状態の調製を必要とし、ランダム化された演算のツール、近距離量子アルゴリズムの現代的開発、NMR実験における標準ツールである混合状態の使用を組み合わせなければならない。 演算子分布の確率生成関数を効率的に探究する方法を実証し、演算子分布のモーメントを得る際の課題について考察する。 さらに,プロトコルの初期状態を操作することで,分散の個々の要素を小さなシステムサイズで直接得ることができることを示した。

The dynamical spreading of quantum information through a many-body system, typically called scrambling, is a complex process that has proven to be essential to describe many properties of out-of-equilibrium quantum systems. Scrambling can, in principle, be fully characterized via the use of out-of-time-ordered correlation functions, which are notoriously hard to access experimentally. In this work, we put forward an alternative toolbox of measurement protocols to experimentally probe scrambling by accessing properties of the operator size probability distribution, which tracks the size of the support of observables in a many-body system over time. Our measurement protocols require the preparation of separable mixed states together with local operations and measurements, and combine the tools of randomized operations, a modern development of near-term quantum algorithms, with the use of mixed states, a standard tool in NMR experiments. We demonstrate how to efficiently probe the probability-generating function of the operator distribution and discuss the challenges associated with obtaining the moments of the operator distribution. We further show that manipulating the initial state of the protocol allows us to directly obtain the individual elements of the distribution for small system sizes.
翻訳日:2023-05-29 14:05:06 公開日:2023-05-26
# 一般化因果感度解析のためのシャープ境界

Sharp Bounds for Generalized Causal Sensitivity Analysis ( http://arxiv.org/abs/2305.16988v1 )

ライセンス: Link先を確認
Dennis Frauen, Valentyn Melnychuk, Stefan Feuerriegel(参考訳) 観測データからの因果推論は医学や経済学など多くの分野において重要である。 しかし、未確定性仮定(因果感度解析)の緩和の下での因果効果の鋭い境界は、現在進行中の研究である。 これまでのところ、シャープな境界を持つ作業は、非常に単純な設定(例えば単一のバイナリ処理)に限定されている。 本稿では,種々の環境下での観測不能な条件下での因果感度分析のための統一的な枠組みを提案する。 そこで我々は,限界感度モデル(MSM)のフレキシブルな一般化を提案し,その上で,幅広い因果効果に対する鋭い境界を導出する。 これには、(条件付き)平均治療効果、媒介分析および経路分析に対する効果、分布効果が含まれる。 さらに, 感度モデルは, 離散処理, 連続処理, 時間変化処理にも適用できる。 興味の因果効果を評価しながら、潜在共同設立者の分布シフトとして、観察できない共起の下での部分的識別問題を解釈することができる。 単一二分処理の特別な場合、平均治療効果(条件付き)の限界は、因果感度分析の最近の最適性結果と一致する。 最後に,観測データから鋭い境界を推定するスケーラブルなアルゴリズムを提案する。

Causal inference from observational data is crucial for many disciplines such as medicine and economics. However, sharp bounds for causal effects under relaxations of the unconfoundedness assumption (causal sensitivity analysis) are subject to ongoing research. So far, works with sharp bounds are restricted to fairly simple settings (e.g., a single binary treatment). In this paper, we propose a unified framework for causal sensitivity analysis under unobserved confounding in various settings. For this, we propose a flexible generalization of the marginal sensitivity model (MSM) and then derive sharp bounds for a large class of causal effects. This includes (conditional) average treatment effects, effects for mediation analysis and path analysis, and distributional effects. Furthermore, our sensitivity model is applicable to discrete, continuous, and time-varying treatments. It allows us to interpret the partial identification problem under unobserved confounding as a distribution shift in the latent confounders while evaluating the causal effect of interest. In the special case of a single binary treatment, our bounds for (conditional) average treatment effects coincide with recent optimality results for causal sensitivity analysis. Finally, we propose a scalable algorithm to estimate our sharp bounds from observational data.
翻訳日:2023-05-29 14:04:46 公開日:2023-05-26
# navgpt: 大きな言語モデルを用いた視覚言語ナビゲーションにおける明示的な推論

NavGPT: Explicit Reasoning in Vision-and-Language Navigation with Large Language Models ( http://arxiv.org/abs/2305.16986v1 )

ライセンス: Link先を確認
Gengze Zhou, Yicong Hong, Qi Wu(参考訳) 前例のない規模のデータで訓練されたChatGPTやGPT-4のような大規模言語モデル(LLM)は、モデルスケーリングによる重要な推論能力の出現を示している。 このような傾向は、LLMを無制限の言語データで訓練する可能性を強調し、普遍的なエンボディエージェントの開発を進めた。 本研究では,LLMに基づく指示追従ナビゲーションエージェントであるNavGPTを導入し,視覚・言語ナビゲーション(VLN)のためのゼロショットシーケンシャル動作予測を行うことにより,複雑なエンボディシーンにおけるGPTモデルの推論能力を明らかにする。 それぞれのステップにおいて、NavGPTは、視覚的な観察、ナビゲーション履歴、将来の探索可能な方向のテキスト記述を入力として、エージェントの現在の状態を推論し、ターゲットに近づく決定を下す。 包括的実験を通じて,NavGPTは,ナビゲーションタスク解決に関する共通知識の統合,観察されたシーンからのランドマークの識別,ナビゲーション進行の追跡,計画調整による例外への適応など,ナビゲーションの高レベルな計画を実行することができることを示す。 さらに, llmsは, 経路に沿った観測や行動から高品質なナビゲーション命令を生成できると同時に, エージェントのナビゲーション履歴に基づいて, 正確なトップダウンメトリック軌跡を描画できることを示した。 NavGPTをゼロショットのR2Rタスクに使用する性能は訓練されたモデルにはまだ及ばないが、視覚ナビゲーションエージェントとしてLLMにマルチモーダリティ入力を適用し、学習ベースモデルの恩恵を受けるためにLLMの明示的な推論を適用することを提案している。

Trained with an unprecedented scale of data, large language models (LLMs) like ChatGPT and GPT-4 exhibit the emergence of significant reasoning abilities from model scaling. Such a trend underscored the potential of training LLMs with unlimited language data, advancing the development of a universal embodied agent. In this work, we introduce the NavGPT, a purely LLM-based instruction-following navigation agent, to reveal the reasoning capability of GPT models in complex embodied scenes by performing zero-shot sequential action prediction for vision-and-language navigation (VLN). At each step, NavGPT takes the textual descriptions of visual observations, navigation history, and future explorable directions as inputs to reason the agent's current status, and makes the decision to approach the target. Through comprehensive experiments, we demonstrate NavGPT can explicitly perform high-level planning for navigation, including decomposing instruction into sub-goal, integrating commonsense knowledge relevant to navigation task resolution, identifying landmarks from observed scenes, tracking navigation progress, and adapting to exceptions with plan adjustment. Furthermore, we show that LLMs is capable of generating high-quality navigational instructions from observations and actions along a path, as well as drawing accurate top-down metric trajectory given the agent's navigation history. Despite the performance of using NavGPT to zero-shot R2R tasks still falling short of trained models, we suggest adapting multi-modality inputs for LLMs to use as visual navigation agents and applying the explicit reasoning of LLMs to benefit learning-based models.
翻訳日:2023-05-29 14:04:31 公開日:2023-05-26
# 深部ニューラルネットワークは人間の視覚知覚の行動モデルに適切か?

Are Deep Neural Networks Adequate Behavioural Models of Human Visual Perception? ( http://arxiv.org/abs/2305.17023v1 )

ライセンス: Link先を確認
Felix A. Wichmann and Robert Geirhos(参考訳) ディープニューラルネットワーク(Deep Neural Network, DNN)は、オブジェクトの分類やセグメンテーションといったタスクで顕著に成功したコンピュータビジョンに革命をもたらした機械学習アルゴリズムである。 コンピュータビジョンアルゴリズムとしてのDNNの成功は、DNNが人間の視覚知覚の優れたモデルである可能性も示唆している。 本稿では、人間のコアオブジェクト認識の適切な行動モデルとして、現在のDNNに関する証拠をレビューする。 この目的のために、統計的ツールと計算モデルとを区別し、モデル品質をモデリング目標の明確さが重要である多次元概念として理解することが重要であると主張する。 人間とDNNのコアオブジェクト認識性能に関する多くの心理学的・計算的な調査をレビューし、DNNは極めて貴重な科学的ツールであるが、現在、DNNは人間のコアオブジェクト認識行動の有望な(しかしまだ不十分な)計算モデルとしてのみ見なされるべきである、と論じる。 その過程で私たちは、視覚科学においてDNNを取り巻く多くの神話を排除しました。

Deep neural networks (DNNs) are machine learning algorithms that have revolutionised computer vision due to their remarkable successes in tasks like object classification and segmentation. The success of DNNs as computer vision algorithms has led to the suggestion that DNNs may also be good models of human visual perception. We here review evidence regarding current DNNs as adequate behavioural models of human core object recognition. To this end, we argue that it is important to distinguish between statistical tools and computational models, and to understand model quality as a multidimensional concept where clarity about modelling goals is key. Reviewing a large number of psychophysical and computational explorations of core object recognition performance in humans and DNNs, we argue that DNNs are highly valuable scientific tools but that as of today DNNs should only be regarded as promising -- but not yet adequate -- computational models of human core object recognition behaviour. On the way we dispel a number of myths surrounding DNNs in vision science.
翻訳日:2023-05-29 13:59:33 公開日:2023-05-26
# globe-ce:グローバル反事実説明のための翻訳に基づくアプローチ

GLOBE-CE: A Translation-Based Approach for Global Counterfactual Explanations ( http://arxiv.org/abs/2305.17021v1 )

ライセンス: Link先を確認
Dan Ley, Saumitra Mishra, Daniele Magazzeni(参考訳) 対物的説明は、公正性、リコース、モデル理解に顕著な様々な応用依存手法を用いて、説明可能性において広く研究されてきた。 しかし、これらのメソッドに関連する主な欠点は、ローカルレベルやインスタンスレベルで説明できないことである。 多くの研究がグローバルな説明の概念に触れており、典型的にはグローバルな性質を確かめるために局所的な説明の大量を集約することを示唆しているが、信頼性と計算的に抽出可能なフレームワークを提供するものはほとんどない。 一方、実践者はより効率的でインタラクティブな説明ツールを求めている。 我々はこの機会を生かして,現在の最先端,特に高次元データセットや継続的機能の存在に伴う信頼性とスケーラビリティの問題に対処する,フレキシブルなフレームワークであるGLOBE-CE(Global & Efficient Counterfactual Explanations)を提案する。 さらに,分類的特徴翻訳のユニークな数学的解析を行い,本手法で活用する。 公開データセットとユーザスタディによる実験的評価では、GLOBE-CEは複数のメトリクス(例えば、速度、信頼性)にわたる現在の最先端よりもはるかに優れたパフォーマンスを示している。

Counterfactual explanations have been widely studied in explainability, with a range of application dependent methods prominent in fairness, recourse and model understanding. The major shortcoming associated with these methods, however, is their inability to provide explanations beyond the local or instance-level. While many works touch upon the notion of a global explanation, typically suggesting to aggregate masses of local explanations in the hope of ascertaining global properties, few provide frameworks that are both reliable and computationally tractable. Meanwhile, practitioners are requesting more efficient and interactive explainability tools. We take this opportunity to propose Global & Efficient Counterfactual Explanations (GLOBE-CE), a flexible framework that tackles the reliability and scalability issues associated with current state-of-the-art, particularly on higher dimensional datasets and in the presence of continuous features. Furthermore, we provide a unique mathematical analysis of categorical feature translations, utilising it in our method. Experimental evaluation with publicly available datasets and user studies demonstrate that GLOBE-CE performs significantly better than the current state-of-the-art across multiple metrics (e.g., speed, reliability).
翻訳日:2023-05-29 13:59:14 公開日:2023-05-26
# Diable: テーブル上の操作として効率的な対話状態追跡

Diable: Efficient Dialogue State Tracking as Operations on Tables ( http://arxiv.org/abs/2305.17020v1 )

ライセンス: Link先を確認
Pietro Lesci, Yoshinari Fujinuma, Momchil Hardalov, Chao Shang, Lluis Marquez(参考訳) 対話状態追跡システム(DST)は、全対話履歴を入力として使用し、現在の状態を全てのスロットでリストとして表現し、各対話ターンでスクラッチから全状態を生成する。 このアプローチは、特にスロットの数が大きく、会話が長い場合、非効率である。 本稿では,効率的なDSTシステムの設計と実装を簡略化し,大規模言語モデルのプラグインや再生を容易にする新しいタスク形式であるDiableを提案する。 対話状態をテーブルとして表現し,テーブル操作タスクとしてDSTを定式化する。 各ターンで、システムは対話コンテキストに基づいてテーブル操作を生成することにより、前の状態を更新する。 MultiWozデータセットの大規模な実験がDiableを実証 i)強い効率的なDSTベースラインを上回る。 (ii) 競争力のあるジョイントゴール精度を維持しつつ, 現在の最先端手法よりも2.4倍の時間効率を有すること, (iii) テーブル操作アプローチのため、騒がしいデータアノテーションに対して堅牢である。

Sequence-to-sequence state-of-the-art systems for dialogue state tracking (DST) use the full dialogue history as input, represent the current state as a list with all the slots, and generate the entire state from scratch at each dialogue turn. This approach is inefficient, especially when the number of slots is large and the conversation is long. In this paper, we propose Diable, a new task formalisation that simplifies the design and implementation of efficient DST systems and allows one to easily plug and play large language models. We represent the dialogue state as a table and formalise DST as a table manipulation task. At each turn, the system updates the previous state by generating table operations based on the dialogue context. Extensive experimentation on the MultiWoz datasets demonstrates that Diable (i) outperforms strong efficient DST baselines, (ii) is 2.4x more time efficient than current state-of-the-art methods while retaining competitive Joint Goal Accuracy, and (iii) is robust to noisy data annotations due to the table operations approach.
翻訳日:2023-05-29 13:58:55 公開日:2023-05-26
# Commonsenseの知識グラフ補完 - 対照的な事前トレーニングとノードクラスタリング

Commonsense Knowledge Graph Completion Via Contrastive Pretraining and Node Clustering ( http://arxiv.org/abs/2305.17019v1 )

ライセンス: Link先を確認
Siwei Wu, Xiangqing Shen, Rui Xia(参考訳) コモンセンス知識グラフ(CSKG)のノードは通常、自由形式の短いテキスト(例えば、単語やフレーズ)で表される。 異なるノードは同じ概念を表現できる。 これは、CSKGの表現と完了に挑戦するエッジ空間とノードの冗長性の問題につながる。 一方、エッジスパーシティはグラフ表現学習の性能を制限し、一方、ノード冗長性は、同じ概念に対応する異なるノードが他のノードと一貫性のない関係を持つようにする。 この2つの問題に対処するために,コントラスト事前学習とノードクラスタリング(CPNC)に基づくCSKG補完フレームワークを提案する。 Contrastive PretrainingはCSKG上で正と負のヘッドテールノードペアを構築し、コントラスト学習を利用してより良いセマンティックノード表現を得る。 ノードクラスタリングは、同じ概念を持つノードを潜在概念に集約し、cskg補完のタスクを支援する。 CN-100K と ATOMIC の2つの CSKG 補完ベンチマークにおけるCPNC のアプローチを評価する。 大規模な実験では、Contrastive PretrainingとNode Clusteringの両方がCSKG補完の性能を大幅に向上させることができる。 CPNCのソースコードは \url{https://github.com/NUSTM/CPNC} で公開されている。

The nodes in the commonsense knowledge graph (CSKG) are normally represented by free-form short text (e.g., word or phrase). Different nodes may represent the same concept. This leads to the problems of edge sparsity and node redundancy, which challenges CSKG representation and completion. On the one hand, edge sparsity limits the performance of graph representation learning; On the other hand, node redundancy makes different nodes corresponding to the same concept have inconsistent relations with other nodes. To address the two problems, we propose a new CSKG completion framework based on Contrastive Pretraining and Node Clustering (CPNC). Contrastive Pretraining constructs positive and negative head-tail node pairs on CSKG and utilizes contrastive learning to obtain better semantic node representation. Node Clustering aggregates nodes with the same concept into a latent concept, assisting the task of CSKG completion. We evaluate our CPNC approach on two CSKG completion benchmarks (CN-100K and ATOMIC), where CPNC outperforms the state-of-the-art methods. Extensive experiments demonstrate that both Contrastive Pretraining and Node Clustering can significantly improve the performance of CSKG completion. The source code of CPNC is publicly available on \url{https://github.com/NUSTM/CPNC}.
翻訳日:2023-05-29 13:58:38 公開日:2023-05-26
# 不確実性下におけるマルチロボットシステムの形式モデリング

Formal Modelling for Multi-Robot Systems Under Uncertainty ( http://arxiv.org/abs/2305.17018v1 )

ライセンス: Link先を確認
Charlie Street, Masoumeh Mansouri, Bruno Lacerda(参考訳) 目的: マルチロボット動作を効果的に合成・解析するためには, マルチロボット実行を正確にキャプチャする形式的なタスクレベルモデルが必要である。 本稿では,不確実性下でのマルチロボットシステムのモデリング形式を概観し,計画,強化学習,モデルチェック,シミュレーションにどのように使用できるかについて議論する。 最近の研究は、時間的不確実性や部分的可観測性など、異なる形式の不確実性を考慮して、より正確にマルチロボットの実行を捉えるモデルを調査し、ロボットの相互作用がアクション実行に与える影響をモデル化している。 他の一連の研究は、より効率的な解法を認めるためにマルチロボットモデルのサイズを減らすアプローチを提示している。 これは、独立の前提の下でロボットを分離したり、より高いレベルのマクロアクションを推論することで達成できる。 結論: 既存のマルチロボットモデルは、ロボットの依存関係と不確実性を正確に捉えることと、現実世界の問題を解決するのに十分小さいことのトレードオフを示す。 そこで,本研究では,不確実性やロボットの相互作用を正確に表現したモデルを開発するために,複数ロボットの挙動に関する現実的な仮定を活用すべきである。

Purpose of Review: To effectively synthesise and analyse multi-robot behaviour, we require formal task-level models which accurately capture multi-robot execution. In this paper, we review modelling formalisms for multi-robot systems under uncertainty, and discuss how they can be used for planning, reinforcement learning, model checking, and simulation. Recent Findings: Recent work has investigated models which more accurately capture multi-robot execution by considering different forms of uncertainty, such as temporal uncertainty and partial observability, and modelling the effects of robot interactions on action execution. Other strands of work have presented approaches for reducing the size of multi-robot models to admit more efficient solution methods. This can be achieved by decoupling the robots under independence assumptions, or reasoning over higher level macro actions. Summary: Existing multi-robot models demonstrate a trade off between accurately capturing robot dependencies and uncertainty, and being small enough to tractably solve real world problems. Therefore, future research should exploit realistic assumptions over multi-robot behaviour to develop smaller models which retain accurate representations of uncertainty and robot interactions; and exploit the structure of multi-robot problems, such as factored state spaces, to develop scalable solution methods.
翻訳日:2023-05-29 13:58:15 公開日:2023-05-26
# ReLU-networksによる対称性のエンコード方法の検討

Investigating how ReLU-networks encode symmetries ( http://arxiv.org/abs/2305.17017v1 )

ライセンス: Link先を確認
Georg B\"okman and Fredrik Kahl(参考訳) 多くのデータ対称性は、群同値性と、ニューラルネットワークにおける群同分散を符号化する最も一般的な方法は、群同値である線形層を構築することである。 本研究は,ネットワークの等式がすべての層が等式であることを示すか否かを考察する。 理論面では、等式が層的等式を意味する場合が見つかるが、一般にはそうではないことを示す。 それでも、同変として訓練されたCNNが階層的に同値であることは予想し、この予想がエンテザリらによる最近の置換予想の弱いバージョンであることを示す。 [2022]. 我々は,CIFAR10上でのVGG-netを用いた定量的実験と,ImageNet上でのResNetsによる定性実験を行い,理論的知見を実証し,支持する。 これらの実験は、群同分散がrelu-ネットワークにどのようにエンコードされているかを理解することだけでなく、エンテザリらによる置換予想に対する新たな視点を与えている。

Many data symmetries can be described in terms of group equivariance and the most common way of encoding group equivariances in neural networks is by building linear layers that are group equivariant. In this work we investigate whether equivariance of a network implies that all layers are equivariant. On the theoretical side we find cases where equivariance implies layerwise equivariance, but also demonstrate that this is not the case generally. Nevertheless, we conjecture that CNNs that are trained to be equivariant will exhibit layerwise equivariance and explain how this conjecture is a weaker version of the recent permutation conjecture by Entezari et al. [2022]. We perform quantitative experiments with VGG-nets on CIFAR10 and qualitative experiments with ResNets on ImageNet to illustrate and support our theoretical findings. These experiments are not only of interest for understanding how group equivariance is encoded in ReLU-networks, but they also give a new perspective on Entezari et al.'s permutation conjecture as we find that it is typically easier to merge a network with a group-transformed version of itself than merging two different networks.
翻訳日:2023-05-29 13:57:50 公開日:2023-05-26
# D-CALM: 動的クラスタリングに基づくバイアス緩和のためのアクティブラーニングアプローチ

D-CALM: A Dynamic Clustering-based Active Learning Approach for Mitigating Bias ( http://arxiv.org/abs/2305.17013v1 )

ライセンス: Link先を確認
Sabit Hassan and Malihe Alikhani(参考訳) 最近の進歩にもかかわらず、NLPモデルはバイアスに弱いままである。 このバイアスは、しばしば現実世界のデータの不均一な分布から生じ、アノテーションプロセスを通じて伝播する。 私たちの生活におけるこれらのモデルの統合は、アノテーションのコストを過大評価することなくバイアスを軽減する方法を求めている。 アクティブラーニング(AL)は、少量の注釈付きデータを持つトレーニングモデルにおいて有望であるが、選択的サンプリングに対するモデルの振る舞いへの依存は、バイアス軽減よりも望ましくないバイアスの蓄積につながる可能性がある。 しかし、ALによるクラスタリングは、ALのアノテーション効率を利用して、ALおよび従来のアノテーションメソッドのバイアス問題を克服することができる。 本稿では,推定された分類器誤り率に応じて動的にクラスタリングとアノテーションを調整できる適応型クラスタリングに基づくアクティブラーニングアルゴリズムd-calmを提案する。 感情,ヘイトスピーチ,ダイアログアクト,書籍タイプ検出など,さまざまなテキスト分類タスクのための8つのデータセットの実験により,提案アルゴリズムは,事前学習されたトランスフォーマーと従来のサポートベクトルマシンの両方で,ベースラインALアプローチを著しく上回ることを示した。 D-CALMは情報ゲインの異なる尺度に対する堅牢性を示し、ラベルと誤差分布の分析から明らかなように、不要なモデルバイアスを著しく低減することができる。

Despite recent advancements, NLP models continue to be vulnerable to bias. This bias often originates from the uneven distribution of real-world data and can propagate through the annotation process. Escalated integration of these models in our lives calls for methods to mitigate bias without overbearing annotation costs. While active learning (AL) has shown promise in training models with a small amount of annotated data, AL's reliance on the model's behavior for selective sampling can lead to an accumulation of unwanted bias rather than bias mitigation. However, infusing clustering with AL can overcome the bias issue of both AL and traditional annotation methods while exploiting AL's annotation efficiency. In this paper, we propose a novel adaptive clustering-based active learning algorithm, D-CALM, that dynamically adjusts clustering and annotation efforts in response to an estimated classifier error-rate. Experiments on eight datasets for a diverse set of text classification tasks, including emotion, hatespeech, dialog act, and book type detection, demonstrate that our proposed algorithm significantly outperforms baseline AL approaches with both pretrained transformers and traditional Support Vector Machines. D-CALM showcases robustness against different measures of information gain and, as evident from our analysis of label and error distribution, can significantly reduce unwanted model bias.
翻訳日:2023-05-29 13:57:30 公開日:2023-05-26
# soc:ビデオオブジェクトのセグメンテーション参照のためのセマンティック支援オブジェクトクラスタ

SOC: Semantic-Assisted Object Cluster for Referring Video Object Segmentation ( http://arxiv.org/abs/2305.17011v1 )

ライセンス: Link先を確認
Zhuoyan Luo, Yicheng Xiao, Yong Liu, Shuyan Li, Yitong Wang, Yansong Tang, Xiu Li, Yujiu Yang(参考訳) 本稿では,映像レベルの視覚言語的アライメントを高めることによって,映像オブジェクトセグメンテーション(RVOS)について述べる。 最近のアプローチでは、RVOSタスクをシーケンス予測問題としてモデル化し、各フレームのセグメンテーションとマルチモーダルインタラクションを行う。 しかし,映像コンテンツの世界観の欠如は,フレーム間の関係を効果的に活用し,時間変動のテキスト記述を理解するのに困難をもたらす。 この問題に対処するために,ビデオコンテンツとテキストガイダンスを集約したセマンティック支援オブジェクトクラスタ(SOC)を提案する。 フレームレベルのオブジェクトの埋め込みを言語トークンに関連付けることで、SOCはモダリティと時間ステップをまたいだ共同空間学習を促進する。 さらに,ビデオレベルでの協調空間構築を支援するために,マルチモーダルコントラスト監視を提案する。 我々は、人気のあるRVOSベンチマークで広範な実験を行い、我々の手法は、すべてのベンチマークにおける最先端の競合よりも顕著に優れている。 また,時間的コヒーレンスに重きを置くことで,文表現処理におけるセグメンテーションの安定性と適応性が向上する。 コードは利用可能だ。

This paper studies referring video object segmentation (RVOS) by boosting video-level visual-linguistic alignment. Recent approaches model the RVOS task as a sequence prediction problem and perform multi-modal interaction as well as segmentation for each frame separately. However, the lack of a global view of video content leads to difficulties in effectively utilizing inter-frame relationships and understanding textual descriptions of object temporal variations. To address this issue, we propose Semantic-assisted Object Cluster (SOC), which aggregates video content and textual guidance for unified temporal modeling and cross-modal alignment. By associating a group of frame-level object embeddings with language tokens, SOC facilitates joint space learning across modalities and time steps. Moreover, we present multi-modal contrastive supervision to help construct well-aligned joint space at the video level. We conduct extensive experiments on popular RVOS benchmarks, and our method outperforms state-of-the-art competitors on all benchmarks by a remarkable margin. Besides, the emphasis on temporal coherence enhances the segmentation stability and adaptability of our method in processing text expressions with temporal variations. Code will be available.
翻訳日:2023-05-29 13:56:50 公開日:2023-05-26
# let the flow tell: gflownetsによるグラフ組合せ最適化問題を解く

Let the Flows Tell: Solving Graph Combinatorial Optimization Problems with GFlowNets ( http://arxiv.org/abs/2305.17010v1 )

ライセンス: Link先を確認
Dinghuai Zhang, Hanjun Dai, Nikolay Malkin, Aaron Courville, Yoshua Bengio, Ling Pan(参考訳) 組合せ最適化(CO)問題はしばしばNPハードであり、正確なアルゴリズムでは到達できないため、機械学習手法を適用する誘惑的な領域となっている。 これらの問題における高度に構造化された制約は、最適化またはソリューション空間でのサンプリングを妨げうる。 一方、gflownetsは最近、複合非正規化密度から効率的にサンプリングし、coにおけるそのような解探索過程を償却し、多様な解候補を生成する強力な機械として登場している。 本稿では,異なる組合せ問題に対するマルコフ決定過程(MDP)を設計し,条件付きGFlowNetを学習して解空間からサンプルを作成することを提案する。 長距離クレジットの割り当てに有効な訓練技術も開発されている。 合成および現実的なデータを用いた様々なCOタスクに関する広範な実験を通じて、GFlowNetポリシが高品質なソリューションを効率的に見つけることができることを示す。

Combinatorial optimization (CO) problems are often NP-hard and thus out of reach for exact algorithms, making them a tempting domain to apply machine learning methods. The highly structured constraints in these problems can hinder either optimization or sampling directly in the solution space. On the other hand, GFlowNets have recently emerged as a powerful machinery to efficiently sample from composite unnormalized densities sequentially and have the potential to amortize such solution-searching processes in CO, as well as generate diverse solution candidates. In this paper, we design Markov decision processes (MDPs) for different combinatorial problems and propose to train conditional GFlowNets to sample from the solution space. Efficient training techniques are also developed to benefit long-range credit assignment. Through extensive experiments on a variety of different CO tasks with synthetic and realistic data, we demonstrate that GFlowNet policies can efficiently find high-quality solutions.
翻訳日:2023-05-29 13:55:57 公開日:2023-05-26
# NormBank: 状況的社会的ノルムの知識銀行

NormBank: A Knowledge Bank of Situational Social Norms ( http://arxiv.org/abs/2305.17008v1 )

ライセンス: Link先を確認
Caleb Ziems, Jane Dwivedi-Yu, Yi-Chia Wang, Alon Halevy and Diyi Yang(参考訳) 我々は155万の状況規範の知識銀行であるNormBankを紹介します。 このリソースは、インタラクティブで補助的で協調的なAIシステムのための柔軟な規範的推論の基礎として設計されている。 従来のコモンセンスのリソースとは違って、NormBankは、設定(レストランなど)、エージェントの随伴役割(ウェイター、顧客)、属性(年齢、性別)、その他の物理的、社会的、文化的制約(例えば、温度や活動国)を含む、多価の社会文化的枠内で、推論を行う。 NormBankには、ここで導入し反復的に洗練する分類学の制約が63万件含まれている。 制約は異なる組み合わせで社会規範を定めている。 これらの操作では、ノルムはモノトニックではない。フレームを少し更新することで推論をキャンセルすることができる。 それでも、ニューラルモデルがNormBankのスコープとカバレッジを確実に拡張できる証拠を見つける。 さらに, 一連の移動実験により, この資源の有用性を実証する。

We present NormBank, a knowledge bank of 155k situational norms. This resource is designed to ground flexible normative reasoning for interactive, assistive, and collaborative AI systems. Unlike prior commonsense resources, NormBank grounds each inference within a multivalent sociocultural frame, which includes the setting (e.g., restaurant), the agents' contingent roles (waiter, customer), their attributes (age, gender), and other physical, social, and cultural constraints (e.g., the temperature or the country of operation). In total, NormBank contains 63k unique constraints from a taxonomy that we introduce and iteratively refine here. Constraints then apply in different combinations to frame social norms. Under these manipulations, norms are non-monotonic - one can cancel an inference by updating its frame even slightly. Still, we find evidence that neural models can help reliably extend the scope and coverage of NormBank. We further demonstrate the utility of this resource with a series of transfer experiments.
翻訳日:2023-05-29 13:55:30 公開日:2023-05-26
# RFiD:オープンドメイン質問応答のためのレーショナルフュージョン・イン・デコーダを目指して

RFiD: Towards Rational Fusion-in-Decoder for Open-Domain Question Answering ( http://arxiv.org/abs/2305.17041v1 )

ライセンス: Link先を確認
Cunxiang Wang, Haofei Yu, Yue Zhang(参考訳) Open-Domain Question Answering (ODQA) システムは、複数の節を同時に参照することで回答を生成できるリーダーモデルを必要とする。 この課題に対処するために、fusion-in-decoder(fid)のような代表的なモデルが提案されているが、これらのシステムは、質問と回答を生成するためのパスの間の真正な因果関係ではなく、不注意な特徴に頼ることができる。 この問題を解決するために、Rational Fusion-in-Decoder (RFiD)モデルを導入する。 我々のモデルはfidのエンコーダを利用して因果関係と散発的な特徴を区別し、その後、デコーダにこの認識によって得られた回答を生成するように誘導する。 ODQAデータセットであるNatural Questions(NQ)とTriviaQA(TQ)の2つの実験結果から,NQにおけるエクササイズマッチスコアの1.5と0.7の改善を実現し,因果関係を識別する能力の向上が示された。

Open-Domain Question Answering (ODQA) systems necessitate a reader model capable of generating answers by simultaneously referring to multiple passages. Although representative models like Fusion-in-Decoder (FiD) have been proposed to address this challenge, these systems can inadvertently rely on spurious features instead of genuine causal relationships between the question and the passages to generate answers. To counter this problem, we introduce the Rational Fusion-in-Decoder (RFiD) model. Our model leverages the encoders of FiD to differentiate between causal relationships and spurious features, subsequently guiding the decoder to generate answers informed by this discernment. Experimental results on two ODQA datasets, Natural Questions (NQ) and TriviaQA (TQ), demonstrate that our model surpasses previous methods, achieving improvements of up to 1.5 and 0.7 in Exact Match scores on NQ, and exhibits an enhanced ability to identify causal relationships.
翻訳日:2023-05-29 13:47:50 公開日:2023-05-26
# スパース検索タスクにおけるサンプル効率の良いインコンテキスト学習のメカニズム

A Mechanism for Sample-Efficient In-Context Learning for Sparse Retrieval Tasks ( http://arxiv.org/abs/2305.17040v1 )

ライセンス: Link先を確認
Jacob Abernethy, Alekh Agarwal, Teodor V. Marinov, Manfred K. Warmuth(参考訳) 本稿では,大規模言語モデルによって提示される \textit{in-context learning} (icl) 現象について検討する。 本研究の目的は,事前学習したトランスフォーマーモデルが,事前学習プロセスと下流タスクの合理的な仮定の下でどのようにiclを実行できるかを説明することである。 変換器が次のようなことを実現できる機構を仮定する。 (a)潜在的な曖昧なデリミタを用いてプロンプトに変換された例のi.d.シーケンスを受け取る。 (b)プロンプトをサンプルやラベルに正しく分割する。 (c)データから \textit{sparse linear regressor}仮説を推測し、最後に (d)この仮説を与えられたテスト例に適用し、予測ラベルを返します。 我々は、この手順全体がトランスフォーマー機構を用いて実装可能であることを証明し、この学習フレームワークにサンプル複雑さの保証を与える。 実験により, セグメンテーションの課題を実証し, 提案機構と観察された注意図との対応を示す。 (c)。

We study the phenomenon of \textit{in-context learning} (ICL) exhibited by large language models, where they can adapt to a new learning task, given a handful of labeled examples, without any explicit parameter optimization. Our goal is to explain how a pre-trained transformer model is able to perform ICL under reasonable assumptions on the pre-training process and the downstream tasks. We posit a mechanism whereby a transformer can achieve the following: (a) receive an i.i.d. sequence of examples which have been converted into a prompt using potentially-ambiguous delimiters, (b) correctly segment the prompt into examples and labels, (c) infer from the data a \textit{sparse linear regressor} hypothesis, and finally (d) apply this hypothesis on the given test example and return a predicted label. We establish that this entire procedure is implementable using the transformer mechanism, and we give sample complexity guarantees for this learning framework. Our empirical findings validate the challenge of segmentation, and we show a correspondence between our posited mechanisms and observed attention maps for step (c).
翻訳日:2023-05-29 13:47:31 公開日:2023-05-26
# agi labsには内部監査機能が必要だ

AGI labs need an internal audit function ( http://arxiv.org/abs/2305.17038v1 )

ライセンス: Link先を確認
Jonas Schuett(参考訳) 論文は、人工知能(AGI)を構築することの明確な目標を持つ組織には、内部監査機能が必要であると主張している。 まず、内部監査とは何かを説明します。組織のリスク管理プラクティスを継続的に評価し、幹部管理から組織的に独立したまま、取締役会に直接報告する特定のチーム。 次に、AGI研究所の内部監査の主な利点として、リスク管理の実践をより効果的にし、取締役会が現在のリスクのレベルと研究室のリスク管理の実践の有効性をより正確に把握し、研究所が企業経営におけるベストプラクティスに従うことを示唆し、内部告発者の接触点として機能することを挙げる。 しかし、AGIラボは、いくつかの制限に気付く必要がある:内部監査は摩擦を増す; 上記の利益を支持する実証的な証拠は多くない; 利益は、関係する人々とその非効果的なリスク管理プラクティスを特定する能力と意志に依存する; 内部監査チームのセットアップと維持にはコストがかかる; 追加の「防衛の層」としてのみ見なされるべきであり、AIの新たなリスクに対する銀の弾丸ではない。 最後に、この論文は、AGIラボが内部監査チームを立ち上げる方法の青写真を提供し、チームが日々行う具体的なことを提案している。 これらの提案は、内部監査標準の専門的実践に関する国際標準に基づいている。 AI研究開発の急速な進歩を踏まえ、AGIラボはリスク管理の実践を専門化する必要がある。 車輪を再発明する”代わりに、企業ガバナンスにおける既存のベストプラクティスに従うべきです。 これはAGIに近づくほど不十分だが、この明確な第一歩をスキップするべきではない。

The paper argues that organizations that have the stated goal of building artificial general intelligence (AGI) need an internal audit function. First, it explains what internal audit is: a specific team that performs an ongoing assessment of an organization's risk management practices and reports directly to the board of directors, while being organizationally independent from senior management. Next, the paper discusses the main benefits of internal audit for AGI labs: it can make their risk management practices more effective; ensure that the board of directors has a more accurate view of the current level of risk and the effectiveness of the lab's risk management practices; signal that the lab follows best practices in corporate governance; and serve as a contact point for whistleblowers. However, AGI labs should be aware of a number of limitations: internal audit adds friction; there is not much empirical evidence in support of the above-mentioned benefits; the benefits depend on the people involved and their ability and willingness to identify ineffective risk management practices; setting up and maintaining an internal audit team is costly; and it should only be seen as an additional "layer of defense", not a silver bullet against emerging risks from AI. Finally, the paper provides a blueprint for how AGI labs could set up an internal audit team and suggests concrete things the team would do on a day-to-day basis. These suggestions are based on the International Standards for the Professional Practice of Internal Auditing Standards. In light of rapid progress in AI research and development, AGI labs need to professionalize their risk management practices. Instead of "reinventing the wheel", they should follow existing best practices in corporate governance. This will not be sufficient as they approach AGI, but they should not skip this obvious first step.
翻訳日:2023-05-29 13:47:13 公開日:2023-05-26
# 正当性対透明性:科学文献レコメンダシステムにおける視覚的説明の理由と方法

Justification vs. Transparency: Why and How Visual Explanations in a Scientific Literature Recommender System ( http://arxiv.org/abs/2305.17034v1 )

ライセンス: Link先を確認
Mouadh Guesmi and Mohamed Amine Chatti and Shoeb Joarder and Qurat Ul Ain and Clara Siepmann and Hoda Ghanbarzadeh and Rawaa Alatrash(参考訳) ユーザが情報的意思決定を行い、RSに対する信頼と満足を高めるための説明機能を備えたレコメンデーターシステム(RS)の強化に注目が集まっている。 正当化と透明性は、説明可能な推奨において2つの重要な目標を表します。 推奨機構の背後にある推論を忠実に公開する透明性とは異なり、正当化は基礎となるアルゴリズムと異なる概念モデルを提供する。 説明は質問に対する答えである。 説明可能なレコメンデーションでは、ユーザーは、rsが与えた結果を理解するために(知性タイプとして参照)質問をしたい。 本稿では,説明の理解可能性タイプと正当化と透明性の説明目標との関係を明らかにする。 我々は、Human-Centered Design(HCD)アプローチに従い、What-Why-How可視化フレームワークを利用して、透明な勧告と関心モデリングアプリケーション(RIMA)における視覚的説明を体系的に設計し実装した。 さらに, 説明可能なrsにおける説明が, 透明性, 信頼, 満足度に関するユーザの認識に与える影響を検討するために, 質的ユーザ調査 (n=12) を実施した。 本研究は,説明可能型の選択が説明目標とユーザタイプに依存することを確認する質的証拠を示した。

Significant attention has been paid to enhancing recommender systems (RS) with explanation facilities to help users make informed decisions and increase trust in and satisfaction with the RS. Justification and transparency represent two crucial goals in explainable recommendation. Different from transparency, which faithfully exposes the reasoning behind the recommendation mechanism, justification conveys a conceptual model that may differ from that of the underlying algorithm. An explanation is an answer to a question. In explainable recommendation, a user would want to ask questions (referred to as intelligibility types) to understand results given by the RS. In this paper, we identify relationships between Why and How explanation intelligibility types and the explanation goals of justification and transparency. We followed the Human-Centered Design (HCD) approach and leveraged the What-Why-How visualization framework to systematically design and implement Why and How visual explanations in the transparent Recommendation and Interest Modeling Application (RIMA). Furthermore, we conducted a qualitative user study (N=12) to investigate the potential effects of providing Why and How explanations together in an explainable RS on the users' perceptions regarding transparency, trust, and satisfaction. Our study showed qualitative evidence confirming that the choice of the explanation intelligibility types depends on the explanation goal and user type.
翻訳日:2023-05-29 13:46:40 公開日:2023-05-26
# 脳腫瘍分離(BraTS)チャレンジ2023:小児(CBTN-CONNECT-DIPGR-ASNR-MICCAI BraTS-PEDs)に焦点を当てて

The Brain Tumor Segmentation (BraTS) Challenge 2023: Focus on Pediatrics (CBTN-CONNECT-DIPGR-ASNR-MICCAI BraTS-PEDs) ( http://arxiv.org/abs/2305.17033v1 )

ライセンス: Link先を確認
Anahita Fathi Kazerooni, Nastaran Khalili, Xinyang Liu, Debanjan Haldar, Zhifan Jiang, Syed Muhammed Anwar, Jake Albrecht, Maruf Adewole, Udunna Anazodo, Hannah Anderson, Sina Bagheri, Ujjwal Baid, Timothy Bergquist, Evan Calabrese, Verena Chung, Gian-Marco Conte, Farouk Dako, James Eddy, Ivan Ezhov, Ariana Familiar, Keyvan Farahani, Shuvanjan Haldar, Juan Eugenio Iglesias, Anastasia Janas, Elaine Johansen, Florian Kofler, Dominic LaBella, Koen Van Leemput, Hongwei Bran Li, Nazanin Maleki, Zeke Meier, Bjoern Menze, Ahmed W Moawad, Marie Piraud, Tina Poussaint, Zachary Reitman, Jeffrey D Rudie, Ibraheem Salman Shaikh, Russel Taki Shinohara, Wenxin Tu, Karthik Viswanathan, Chunhao Wang, Jeffrey B Ware, Benedikt Wiestler, Walter Wiggins, Anna Zapaishchykova, Mariam Aboian, Miriam Bornhorst, Peter de Blank, Michelle Deutsch, Maryam Fouladi, Lindsey Hoffman, Benjamin Kann, Margot Lazow, Leonie Mikael, Ali Nabavizadeh, Roger Packer, Adam Resnick, Brian Rood, Arastoo Vossough, Spyridon Bakas, Marius George Linguraru(参考訳) 小児の中枢神経系腫瘍は、小児のがん関連死の最も一般的な原因である。 小児の高次グリオーマに対する5年間の生存率は20\%未満である。 希少性のため、診断が遅れることが多く、治療は主に歴史的治療の概念に基づいており、臨床試験には複数施設の協力が必要である。 MICCAI Brain tumor Segmentation (BraTS) Challengeは、成人グリオーマのセグメンテーションと分析のための12年間の歴史を持つ、目覚ましいコミュニティベンチマークイベントである。 本稿では,小児の脳腫瘍に対する最初のbratsチャレンジであるcbtn-connect-dipgr-asnr-miccai brats-peds 2023 challengeについて述べる。 brats-peds 2023 チャレンジは、brats 2023 クラスタ全体で使用される標準化された定量的性能評価指標を用いて、小児脳グリオーマの体積分節化アルゴリズムの開発をベンチマークすることに焦点を当てている。 BraTS-PEDsマルチパラメトリック構造MRI(mpMRI)トレーニングデータから知識を得たモデルは、高次小児グリオーマの別個の検証と未確認検査mpMRIデータに基づいて評価される。 CBTN-CONNECT-DIPGR-ASNR-MICCAI BraTS-PEDs 2023チャレンジは、臨床治験に役立つ自動セグメンテーション技術の開発と、最終的には脳腫瘍の子どものケアにつながる。

Pediatric tumors of the central nervous system are the most common cause of cancer-related death in children. The five-year survival rate for high-grade gliomas in children is less than 20\%. Due to their rarity, the diagnosis of these entities is often delayed, their treatment is mainly based on historic treatment concepts, and clinical trials require multi-institutional collaborations. The MICCAI Brain Tumor Segmentation (BraTS) Challenge is a landmark community benchmark event with a successful history of 12 years of resource creation for the segmentation and analysis of adult glioma. Here we present the CBTN-CONNECT-DIPGR-ASNR-MICCAI BraTS-PEDs 2023 challenge, which represents the first BraTS challenge focused on pediatric brain tumors with data acquired across multiple international consortia dedicated to pediatric neuro-oncology and clinical trials. The BraTS-PEDs 2023 challenge focuses on benchmarking the development of volumentric segmentation algorithms for pediatric brain glioma through standardized quantitative performance evaluation metrics utilized across the BraTS 2023 cluster of challenges. Models gaining knowledge from the BraTS-PEDs multi-parametric structural MRI (mpMRI) training data will be evaluated on separate validation and unseen test mpMRI dataof high-grade pediatric glioma. The CBTN-CONNECT-DIPGR-ASNR-MICCAI BraTS-PEDs 2023 challenge brings together clinicians and AI/imaging scientists to lead to faster development of automated segmentation techniques that could benefit clinical trials, and ultimately the care of children with brain tumors.
翻訳日:2023-05-29 13:46:16 公開日:2023-05-26
# 確率的時系列予測のためのより良いバッチ

Better Batch for Deep Probabilistic Time Series Forecasting ( http://arxiv.org/abs/2305.17028v1 )

ライセンス: Link先を確認
Vincent Zhihao Zheng, Seongjin Choi, Lijun Sun(参考訳) 深い確率的時系列予測は、意思決定タスクに価値ある不確実性定量化を提供する能力によって、大きな注目を集めている。 しかし、既存のモデルの多くは、エラープロセスが時間に依存しないことを仮定して問題を単純化し、エラープロセスのシリアル相関を見落としている。 この監視は予測の精度を低下させる可能性があり、これらのモデルによる意思決定の目的に対する効果を低下させる。 この制限を克服するため,確率予測の精度を高めるために,誤り自己相関を取り入れた革新的なトレーニング手法を提案する。 本手法では, モデルトレーニングのためのD$連続時系列セグメントの集合としてミニバッチを構築し, 隣接する時間ステップ間の誤差相関を符号化する各ミニバッチ上で共分散行列を明示的に学習する。 その結果得られる共分散行列は、予測精度の向上と不確かさの定量化に利用できる。 提案手法は複数の公開データセット上でDeepARを用いて評価し,本フレームワークがエラー自己相関を効果的に捕捉し,確率予測を向上できることを確認した。

Deep probabilistic time series forecasting has gained significant attention due to its ability to provide valuable uncertainty quantification for decision-making tasks. However, many existing models oversimplify the problem by assuming the error process is time-independent, thereby overlooking the serial correlation in the error process. This oversight can potentially diminish the accuracy of the forecasts, rendering these models less effective for decision-making purposes. To overcome this limitation, we propose an innovative training method that incorporates error autocorrelation to enhance the accuracy of probabilistic forecasting. Our method involves constructing a mini-batch as a collection of $D$ consecutive time series segments for model training and explicitly learning a covariance matrix over each mini-batch that encodes the error correlation among adjacent time steps. The resulting covariance matrix can be used to improve prediction accuracy and enhance uncertainty quantification. We evaluate our method using DeepAR on multiple public datasets, and the experimental results confirm that our framework can effectively capture the error autocorrelation and enhance probabilistic forecasting.
翻訳日:2023-05-29 13:45:45 公開日:2023-05-26
# スピン型量子センサのためのロボットベクトル場アライメント

Robotic vectorial field alignment for spin-based quantum sensors ( http://arxiv.org/abs/2305.17027v1 )

ライセンス: Link先を確認
Joe A. Smith, Dandan Zhang, Krishna C. Balram(参考訳) 実用的な量子技術を開発するには、堅牢で繰り返し可能な方法で脆弱なシステムの精巧な操作が必要である。 量子技術が生物センシングから宇宙でのコミュニケーションまで、現実世界の応用に向かって進むにつれ、実験的な複雑さが増し、新しい技術の導入によって緩和できる制約がもたらされる。 ロボットは、ますます賢く、自律的で、巧妙なマシンを実現することで、技術的に大きな進歩を見せている。 ここでは、ロボットがNV中心の量子磁気センサを感知できることを示す。 磁石を装着したロボットアームは, 最大1^\circ$角精度のベクトル磁界を0.1mTの振幅誤差以下に提供するために, 非常に複雑な実験環境を横切ることができ, 単一の確率的に整列されたスピンベースセンサの向きを決定することができる。 我々の研究は、制約された環境で多くの量子自由度にロボティクスを統合する可能性を広げ、量子技術応用におけるプロトタイピングのスピード、制御、堅牢性を高めることができる。

Developing practical quantum technologies will require the exquisite manipulation of fragile systems in a robust and repeatable way. As quantum technologies move towards real world applications, from biological sensing to communication in space, increasing experimental complexity introduces constraints that can be alleviated by the introduction of new technologies. Robotics has shown tremendous technological progress by realising increasingly smart, autonomous and highly dexterous machines. Here, we show that a robot can sensitise an NV centre quantum magnetometer. We demonstrate that a robotic arm equipped with a magnet can traverse a highly complex experimental setting to provide a vector magnetic field with up to $1^\circ$ angular accuracy and below 0.1 mT amplitude error, and determine the orientation of a single stochastically-aligned spin-based sensor. Our work opens up the prospect of integrating robotics across many quantum degrees of freedom in constrained environments, allowing for increased prototyping speed, control, and robustness in quantum technology applications.
翻訳日:2023-05-29 13:45:26 公開日:2023-05-26
# Decoder-Only Transformer言語モデルの計算力について

On the Computational Power of Decoder-Only Transformer Language Models ( http://arxiv.org/abs/2305.17026v1 )

ライセンス: Link先を確認
Jesse Roberts(参考訳) 本稿ではデコーダのみの変圧器モデルの計算普遍性を理論的に評価する。 トランスフォーマモデルに関する理論的文献を拡張し、デコーダのみのトランスフォーマアーキテクチャ(単層と単層のみ)が妥当な仮定の下でチューリング完全であることを示す。 理論的解析から,単語埋め込みがチューリング完全性を保持するために必要な条件であることを示す。

This article presents a theoretical evaluation of the computational universality of decoder-only transformer models. We extend the theoretical literature on transformer models and show that decoder-only transformer architectures (even with only a single layer and single attention head) are Turing complete under reasonable assumptions. From the theoretical analysis, we show sparsity/compressibility of the word embedding to be a necessary condition for Turing completeness to hold.
翻訳日:2023-05-29 13:45:09 公開日:2023-05-26
# ニュートリノ振動における量子拡散複雑性

Quantum Spread Complexity in Neutrino Oscillations ( http://arxiv.org/abs/2305.17025v1 )

ライセンス: Link先を確認
Khushboo Dixit, S. Shajidul Haque, Soebur Razzaque(参考訳) 量子情報理論は、その強力な測度の一つである研究と量子複雑性の盛んな領域として最近登場し、物理学の多くの分野における複雑なシステムの研究に応用されている。 しかし、実際の物理的状況への応用は、いまだにごくわずかである。 ニュートリノのフレーバー振動(英: Neutrino flavor oscillation)は、粒子物理学の標準モデルを理解し、それを超える物理を探究する上で、はるかに大きな成果をもたらす、広く研究されている物理現象である。 振動は、フレーバーと質量固有状態の混合と、その時間的変化によって生じる。 伝統的にフレーバー転移を確率論的尺度で研究する固有量子システムである。 量子複雑性形式をニュートリノ振動の研究の代替手段として応用した。 特に量子拡散複雑性は、ニュートリノセクタにおける電荷パリティ対称性の破れに関する追加情報を示した。 以上の結果から,最近実験データから示唆された,電荷パリティの最大違反は複雑であることが示唆された。

Quantum information theory has recently emerged as a flourishing area of research and quantum complexity, one of its powerful measures, is being applied for investigating complex systems in many areas of physics. Its application to practical physical situations, however, is still few and far between. Neutrino flavor oscillation is a widely studied physical phenomena with far reaching consequences in understanding the standard model of particle physics and to search for physics beyond it. Oscillation arises because of mixing between the flavor and mass eigenstates, and their evolution over time. It is an inherent quantum system for which flavor transitions are traditionally studied with probabilistic measures. We have applied quantum complexity formalism as an alternate measure to study neutrino oscillations. In particular, quantum spread complexity revealed additional information on the violation of charge-parity symmetry in the neutrino sector. Our results indicate that complexity favors the maximum violation of charge-parity, hinted recently by experimental data.
翻訳日:2023-05-29 13:45:00 公開日:2023-05-26
# 単位ベクトル場回帰によるコントーリング

Contouring by Unit Vector Field Regression ( http://arxiv.org/abs/2305.17024v1 )

ライセンス: Link先を確認
Amir Jamaludin, Sarim Ather, Timor Kadir, Rhydian Windsor(参考訳) 本研究は,学習単位ベクトル場に沿って「ウォーキング」によって輪郭を表現できる,単純な深層学習に基づく手法を提案する。 脊髄MRIで仙腸関節(SIJ)を規定する作業において,開放輪郭のユニークな症例に対するパイプラインの有効性を実証した。 ご覧の通りです (i)原点真理に対する予測輪郭の平均根平均二乗誤差の95%は4.5ピクセル以下である(標準t1強調sijmriの2.5mm)。 (II)提案手法は,後退する頂点や輪郭のランドマークの基準よりも優れている。

This work introduces a simple deep-learning based method to delineate contours by `walking' along learnt unit vector fields. We demonstrate the effectiveness of our pipeline on the unique case of open contours on the task of delineating the sacroiliac joints (SIJs) in spinal MRIs. We show that: (i) 95% of the time the average root mean square error of the predicted contour against the original ground truth is below 4.5 pixels (2.5mm for a standard T1-weighted SIJ MRI), and (ii) the proposed method is better than the baseline of regressing vertices or landmarks of contours.
翻訳日:2023-05-29 13:44:42 公開日:2023-05-26
# 自然言語社会におけるマインドストーム

Mindstorms in Natural Language-Based Societies of Mind ( http://arxiv.org/abs/2305.17066v1 )

ライセンス: Link先を確認
Mingchen Zhuge, Haozhe Liu, Francesco Faccio, Dylan R. Ashley, R\'obert Csord\'as, Anand Gopalakrishnan, Abdullah Hamdi, Hasan Abed Al Kader Hammoud, Vincent Herrmann, Kazuki Irie, Louis Kirsch, Bing Li, Guohao Li, Shuming Liu, Jinjie Mai, Piotr Pi\k{e}kos, Aditya Ramesh, Imanol Schlag, Weimin Shi, Aleksandar Stani\'c, Wenyi Wang, Yuhui Wang, Mengmeng Xu, Deng-Ping Fan, Bernard Ghanem, J\"urgen Schmidhuber(参考訳) ミンスキーの "society of mind" と schmidhuber の "learning to think" は、"mindstorm" で互いにインタビューすることで問題を解決する大規模マルチモーダルニューラルネットワーク (nns) の多様な社会を刺激している。 最近のnn-based society of mindsの実装は、大言語モデル(llms)や他のnn-based expertが自然言語インターフェイスを介してコミュニケーションしている。 そのため、単一のLLMの制限を克服し、マルチモーダルなゼロショット推論を改善した。 これらの自然言語に基づく心の社会(nlsoms)では、同じ普遍的なシンボリック言語を介してコミュニケーションする新しいエージェントがモジュール化された方法で簡単に追加される。 NLSOMのパワーを実証するために、私たちはこれらのいくつか(最大129人のメンバ)を組み立てて、マインドストームを活用して、視覚的質問応答、画像キャプション、テキスト・ツー・イメージ合成、3D生成、エゴセントリック検索、エボデードAI、一般言語ベースのタスク解決といった、いくつかの実用的なAIタスクを解く。 私たちはこれを、何十億ものエージェントを持つより大きなNLSOMへの出発点と捉えています。 そして、異種精神の偉大な社会が出現するにつれ、多くの新しい研究課題が人工知能の未来にとって突然最重要になっている。 NLSOMの社会的構造とは何か? 民主的な構造というよりは君主制を持つという利点は何だろうか? NNエコノミーの原則は、強化学習NLSOMの総報酬を最大化するにはどうすればよいのか? この作業では、これらの質問のいくつかを識別し、議論し、答えようと試みます。

Both Minsky's "society of mind" and Schmidhuber's "learning to think" inspire diverse societies of large multimodal neural networks (NNs) that solve problems by interviewing each other in a "mindstorm." Recent implementations of NN-based societies of minds consist of large language models (LLMs) and other NN-based experts communicating through a natural language interface. In doing so, they overcome the limitations of single LLMs, improving multimodal zero-shot reasoning. In these natural language-based societies of mind (NLSOMs), new agents -- all communicating through the same universal symbolic language -- are easily added in a modular fashion. To demonstrate the power of NLSOMs, we assemble and experiment with several of them (having up to 129 members), leveraging mindstorms in them to solve some practical AI tasks: visual question answering, image captioning, text-to-image synthesis, 3D generation, egocentric retrieval, embodied AI, and general language-based task solving. We view this as a starting point towards much larger NLSOMs with billions of agents-some of which may be humans. And with this emergence of great societies of heterogeneous minds, many new research questions have suddenly become paramount to the future of artificial intelligence. What should be the social structure of an NLSOM? What would be the (dis)advantages of having a monarchical rather than a democratic structure? How can principles of NN economies be used to maximize the total reward of a reinforcement learning NLSOM? In this work, we identify, discuss, and try to answer some of these questions.
翻訳日:2023-05-29 13:39:01 公開日:2023-05-26
# 深層ニューラルネットワークの内部表現に関するvecchia gaussianプロセスアンサンブル

Vecchia Gaussian Process Ensembles on Internal Representations of Deep Neural Networks ( http://arxiv.org/abs/2305.17063v1 )

ライセンス: Link先を確認
Felix Jimenez, Matthias Katzfuss(参考訳) レグレッションタスクでは、標準ガウス過程(GP)は自然な不確実性定量化を提供し、ディープニューラルネットワーク(DNN)は表現学習に優れる。 本稿では,DNNの隠れ層の出力上に構築されたGPのアンサンブルからなるハイブリッド手法で,これらの2つのアプローチを相乗的に組み合わせることを提案する。 GPスケーラビリティは最隣接条件独立性を利用するVecchia近似によって達成される。 その結果、深部ヴェッキアのアンサンブルはDNNに不確実な定量化を与えるだけでなく、より正確で堅牢な予測を与えることができる。 提案手法では,複数のデータセット上でモデルの有用性を実証し,提案手法の内部動作を理解する実験を行う。

For regression tasks, standard Gaussian processes (GPs) provide natural uncertainty quantification, while deep neural networks (DNNs) excel at representation learning. We propose to synergistically combine these two approaches in a hybrid method consisting of an ensemble of GPs built on the output of hidden layers of a DNN. GP scalability is achieved via Vecchia approximations that exploit nearest-neighbor conditional independence. The resulting deep Vecchia ensemble not only imbues the DNN with uncertainty quantification but can also provide more accurate and robust predictions. We demonstrate the utility of our model on several datasets and carry out experiments to understand the inner workings of the proposed method.
翻訳日:2023-05-29 13:38:32 公開日:2023-05-26
# 確率生成関数による離散モデルに関する厳密なベイズ推論:確率的プログラミングアプローチ

Exact Bayesian Inference on Discrete Models via Probability Generating Functions: A Probabilistic Programming Approach ( http://arxiv.org/abs/2305.17058v1 )

ライセンス: Link先を確認
Fabian Zaiser, Andrzej S. Murawski, Luke Ong(参考訳) 離散統計モデルに対する正確なベイズ推定法を提案する。これは無限サポートや連続前兆であっても、多くの離散推論問題に対する厳密な解を見つけることができる。 このようなモデルを表現するために、離散的かつ連続的なサンプリング、離散的観測、アフィン関数、(確率的)分岐、イベントの条件付けをサポートする確率的プログラミング言語を導入する。 我々の鍵となるツールは確率生成関数であり、プログラムによって定義可能な分布のコンパクトな閉形式表現を提供し、後確率、期待、分散、より高いモーメントの正確な計算を可能にする。 提案手法は精度が高く,完全自動化されており,自動微分 (特にテイラー多項式) を用いるが,計算機代数学は不要である。 実験の結果,実世界の実例での性能は近似誤差を回避しつつ近似モンテカルロ法と競合することが示された。

We present an exact Bayesian inference method for discrete statistical models, which can find exact solutions to many discrete inference problems, even with infinite support and continuous priors. To express such models, we introduce a probabilistic programming language that supports discrete and continuous sampling, discrete observations, affine functions, (stochastic) branching, and conditioning on events. Our key tool is probability generating functions: they provide a compact closed-form representation of distributions that are definable by programs, thus enabling the exact computation of posterior probabilities, expectation, variance, and higher moments. Our inference method is provably correct, fully automated and uses automatic differentiation (specifically, Taylor polynomials), but does not require computer algebra. Our experiments show that its performance on a range of real-world examples is competitive with approximate Monte Carlo methods, while avoiding approximation errors.
翻訳日:2023-05-29 13:38:21 公開日:2023-05-26
# カウンターファクトリアルのカウンターファクトリアル--逆翻訳にインスパイアされた反ファクトリアルエディターの分析アプローチ

Counterfactuals of Counterfactuals: a back-translation-inspired approach to analyse counterfactual editors ( http://arxiv.org/abs/2305.17055v1 )

ライセンス: Link先を確認
Giorgos Filandrianos, Edmund Dervakos, Orfeas Menis-Mastromichalakis, Chrysoula Zerva, Giorgos Stamou(参考訳) 責任あるAIの結果として、ニューラルネットワークの予測に関する説明を提供しようとする解釈可能性の手法が急速に進歩した。 本研究は,自然言語処理(nlp)モデルやタスクに適用可能な説明に焦点をあて,反事実的,対照的な説明の分析に焦点をあてる。 反事実的説明はいくつか提案されているが,その行動は著しく変化し,反事実的編集における普遍的根拠の真理の欠如は,評価に不可解な障壁を課している。 提案手法は,説明者の先行出力を基礎的真理プロキシとして利用し,説明者の一貫性を検討する。 説明者に対して反事実を反復的に与えることで、予測者および説明者モデルの振る舞いに対する貴重な洞察を得ることができ、それ以外の不明瞭なパターンを推測できることを示す。 本研究では,本手法を徹底的に分析し,利用可能な性能指標にまたがる異なる特性を持つ反事実生成手法の一貫性を評価するための新しい指標を提案する。

In the wake of responsible AI, interpretability methods, which attempt to provide an explanation for the predictions of neural models have seen rapid progress. In this work, we are concerned with explanations that are applicable to natural language processing (NLP) models and tasks, and we focus specifically on the analysis of counterfactual, contrastive explanations. We note that while there have been several explainers proposed to produce counterfactual explanations, their behaviour can vary significantly and the lack of a universal ground truth for the counterfactual edits imposes an insuperable barrier on their evaluation. We propose a new back translation-inspired evaluation methodology that utilises earlier outputs of the explainer as ground truth proxies to investigate the consistency of explainers. We show that by iteratively feeding the counterfactual to the explainer we can obtain valuable insights into the behaviour of both the predictor and the explainer models, and infer patterns that would be otherwise obscured. Using this methodology, we conduct a thorough analysis and propose a novel metric to evaluate the consistency of counterfactual generation approaches with different characteristics across available performance indicators.
翻訳日:2023-05-29 13:38:05 公開日:2023-05-26
# 生理的生合成とドメイン適応による極端に弱い血管セグメンテーション

Extremely weakly-supervised blood vessel segmentation with physiologically based synthesis and domain adaptation ( http://arxiv.org/abs/2305.17054v1 )

ライセンス: Link先を確認
Peidi Xu, Olga Sosnovtseva, Charlotte Mehlin S{\o}rensen, Kenny Erleben, Sune Darkner(参考訳) 腎機能の正確な分析とモデリングには、腎血管の正確な分割が必要である。 微小CTスキャンは高解像度の画像データを提供し、腎皮質に近い小さな血管を可視化する。 深層学習に基づく手法は、自動血管セグメンテーションにおける最先端のパフォーマンスを示しているが、大量のラベル付きトレーニングデータが必要である。 しかし、マイクロctスキャンにおけるvoxel-wiseラベリングは非常に時間を要する。 そこで本研究では, 合成腎血管系を生理的にシミュレートし, 非ラベルスキャンによる生成モデルを訓練し, 対応するシミュレートツリーのスキャンを生成する。 これにより、画像取得プロセスをエミュレートする明示的な関数を必要とせずに、生成モデルが暗黙的にマッピングを学習できる。 さらに,生成したスキャンに基づいてトレーニングした生成モデルに対して,新たなセグメンテーションブランチを提案する。 本モデルは,ラット腎の3次元微小CTスキャンと2次元網膜画像における概念実証実験の両方において,血管を直接スキャンし,本手法の有効性を実証する。 コードと3dの結果はhttps://github.com/miccai2023anony/renalvesselsegで入手できる。

Accurate analysis and modeling of renal functions require a precise segmentation of the renal blood vessels. Micro-CT scans provide image data at higher resolutions, making more small vessels near the renal cortex visible. Although deep-learning-based methods have shown state-of-the-art performance in automatic blood vessel segmentations, they require a large amount of labeled training data. However, voxel-wise labeling in micro-CT scans is extremely time-consuming given the huge volume sizes. To mitigate the problem, we simulate synthetic renal vascular trees physiologically while generating corresponding scans of the simulated trees by training a generative model on unlabeled scans. This enables the generative model to learn the mapping implicitly without the need for explicit functions to emulate the image acquisition process. We further propose an additional segmentation branch over the generative model trained on the generated scans. We demonstrate that the model can directly segment blood vessels on real scans and validate our method on both 3D micro-CT scans of rat kidneys and a proof-of-concept experiment on 2D retinal images. Code and 3D results are available at https://github.com/miccai2023anony/RenalVesselSeg
翻訳日:2023-05-29 13:37:43 公開日:2023-05-26
# インセンティブ付き協調学習のための枠組み

A Framework for Incentivized Collaborative Learning ( http://arxiv.org/abs/2305.17052v1 )

ライセンス: Link先を確認
Xinran Wang, Qi Le, Ahmad Faraz Khan, Jie Ding, Ali Anwar(参考訳) 企業、研究所、AIエージェント、エッジデバイスといったさまざまなエンティティ間のコラボレーションは、単一のエンティティだけでは達成できない機械学習タスクを達成するためにますます重要になっている。 これはおそらく、セキュリティの制約、プライバシの懸念、計算リソースの制限などによるものだ。 その結果,協調学習(CL)研究が勢いを増している。 しかし、CLの実践的応用における重要な課題は、コラボレーションが起こる前に複数のエンティティを効果的に協調させる方法である。 本研究では,協調学習をインセンティブ化するための汎用フレームワークであるiclを提案し,インセンティブがコラボレーションパフォーマンスを向上させる理由と時期に関する批判的問題に対する洞察を提供する。 さらに,連合学習,支援学習,多腕バンディットにおけるiclの応用可能性について,理論と実験の両方から検討した。

Collaborations among various entities, such as companies, research labs, AI agents, and edge devices, have become increasingly crucial for achieving machine learning tasks that cannot be accomplished by a single entity alone. This is likely due to factors such as security constraints, privacy concerns, and limitations in computation resources. As a result, collaborative learning (CL) research has been gaining momentum. However, a significant challenge in practical applications of CL is how to effectively incentivize multiple entities to collaborate before any collaboration occurs. In this study, we propose ICL, a general framework for incentivized collaborative learning, and provide insights into the critical issue of when and why incentives can improve collaboration performance. Furthermore, we show the broad applicability of ICL to specific cases in federated learning, assisted learning, and multi-armed bandit with both theory and experimental results.
翻訳日:2023-05-29 13:37:25 公開日:2023-05-26
# データ駆動記事を読み取るための可視化サムネイル設計に向けて

Towards Visualization Thumbnail Designs that Entice Reading Data-driven Articles ( http://arxiv.org/abs/2305.17051v1 )

ライセンス: Link先を確認
Hwiyeon Kim, Joohee Kim, Yunha Han, Hwajung Hong, Oh-Sang Kwon, Young-Woo Park, Niklas Elmqvist, Sungahn Ko, Bum Chul Kwon(参考訳) オンラインニュースはますますデータジャーナリズムを包含しているため、記事サムネイル画像の可視化が組み込まれている。 しかし、サムネイルを視覚化するための設計的根拠については、リサイズ、収穫、簡易化、そして関連する記事の本体に現れる図表などはほとんど研究されていない。 そこで本稿では,これらの設計選択を理解し,ビジュアライゼーションのサムネイルを誘惑的かつ解釈可能なものにすることを目的とする。 そこで本研究では,オンライン上で収集したサムネイルの可視化調査を行い,データジャーナリストやニュースグラフィックデザイナーによるサムネイルの可視化手法について検討した。 調査および議論の結果に基づき,サムネイルの可視化のためのデザイン空間を定義し,デザイン空間から派生した4種類の可視化サムネイルを用いてユーザスタディを行う。 その結果、異なるチャート要素が、読者の注意を引き付け、可視化サムネイルの読者理解性を高める上で、異なる役割を担っていることが示唆された。 また,ハイライトやデータラベルを用いたデータ要約や,テキストラベルやヒューマン認識可能なオブジェクト(HRO)を用いた視覚的伝説など,チャートのコンポーネントを効果的に組み合わせるためのさまざまなサムネイル設計戦略も見出した。 最終的には、データ豊富なニュース記事のサムネイルデザインを効果的に視覚化できる設計上の意味を抽出する。 私たちの仕事は、データストーリーの魅力的なサムネイルを設計するための構造化されたガイダンスを提供するための第一歩と見ることができます。

As online news increasingly include data journalism, there is a corresponding increase in the incorporation of visualization in article thumbnail images. However, little research exists on the design rationale for visualization thumbnails, such as resizing, cropping, simplifying, and embellishing charts that appear within the body of the associated article. Therefore, in this paper we aim to understand these design choices and determine what makes a visualization thumbnail inviting and interpretable. To this end, we first survey visualization thumbnails collected online and discuss visualization thumbnail practices with data journalists and news graphics designers. Based on the survey and discussion results, we then define a design space for visualization thumbnails and conduct a user study with four types of visualization thumbnails derived from the design space. The study results indicate that different chart components play different roles in attracting reader attention and enhancing reader understandability of the visualization thumbnails. We also find various thumbnail design strategies for effectively combining the charts' components, such as a data summary with highlights and data labels, and a visual legend with text labels and Human Recognizable Objects (HROs), into thumbnails. Ultimately, we distill our findings into design implications that allow effective visualization thumbnail designs for data-rich news articles. Our work can thus be seen as a first step toward providing structured guidance on how to design compelling thumbnails for data stories.
翻訳日:2023-05-29 13:37:11 公開日:2023-05-26
# Open-Domain Question Answering における抽象的意味表現の展開

Exploiting Abstract Meaning Representation for Open-Domain Question Answering ( http://arxiv.org/abs/2305.17050v1 )

ライセンス: Link先を確認
Cunxiang Wang, Zhikun Xu, Qipeng Guo, Xiangkun Hu, Xuefeng Bai, Zheng Zhang, Yue Zhang(参考訳) Open-Domain Question Answering (ODQA)タスクでは、データベース内の詳細な関連するパスから回答を取り出し、生成する。 現在のシステムは、事前学習言語モデル(PLM)を利用して、質問と通過の関係をモデル化している。 しかし、曲面表現の多様性は、特に複雑な文脈において、正確な相関を捉えるモデルの能力を妨げうる。 そこで我々は抽象的意味表現(AMR)グラフを用いて複雑な意味情報の理解を支援する。 本稿では,AMRをPLMに組み込むGST(Graph-as-Token)手法を提案する。 Natural Questions (NQ) と TriviaQA (TQ) の結果、GST法は性能を著しく向上し、2.44/3.17 Exact Match score improve on NQ/TQ。 さらに,AMRを統合するためのグラフニューラルネットワーク(GNN)法よりも頑健性を高め,性能を向上する。 私たちの知る限りでは、ODQAでセマンティックグラフを使うのは初めてです。

The Open-Domain Question Answering (ODQA) task involves retrieving and subsequently generating answers from fine-grained relevant passages within a database. Current systems leverage Pretrained Language Models (PLMs) to model the relationship between questions and passages. However, the diversity in surface form expressions can hinder the model's ability to capture accurate correlations, especially within complex contexts. Therefore, we utilize Abstract Meaning Representation (AMR) graphs to assist the model in understanding complex semantic information. We introduce a method known as Graph-as-Token (GST) to incorporate AMRs into PLMs. Results from Natural Questions (NQ) and TriviaQA (TQ) demonstrate that our GST method can significantly improve performance, resulting in up to 2.44/3.17 Exact Match score improvements on NQ/TQ respectively. Furthermore, our method enhances robustness and outperforms alternative Graph Neural Network (GNN) methods for integrating AMRs. To the best of our knowledge, we are the first to employ semantic graphs in ODQA.
翻訳日:2023-05-29 13:36:45 公開日:2023-05-26
# SelfClean: 自己監視型のデータクリーニング戦略

SelfClean: A Self-Supervised Data Cleaning Strategy ( http://arxiv.org/abs/2305.17048v1 )

ライセンス: Link先を確認
Fabian Gr\"oger, Simone Lionetti, Philippe Gottfrois, Alvaro Gonzalez-Jimenez, Ludovic Amruthalingam, Labelling Consortium, Matthew Groh, Alexander A. Navarini, Marc Pouly(参考訳) 最も一般的に使用されるベンチマークデータセットは、無関係の画像、ほぼ重複画像、ラベルエラーを含む。 したがって、これらのベンチマークでのモデル性能は、一般化能力の正確な推定ではないかもしれない。 これは、一般的にデータセットが小さく、利害関係が高く、アノテーションプロセスが高価でエラーを起こしやすい医学におけるコンピュータビジョンにおいて特に深刻な関心事である。 本稿では,自己スーパービジョンで学習した潜在空間を利用した画像データセットのクリーニング手法であるselfcleanを提案する。 自己教師付き学習を頼りにすることで,データ固有の特性に着目し,アノテーションバイアスを回避する。 我々は、データセットのクリーニングを、人間の専門家が大幅に少ない労力で意思決定できるランキング問題、あるいはスコア分布に基づいて決定を完全に自動化できるスコア問題のいずれかとして定式化する。 合成ノイズで拡張された一般的なコンピュータビジョンベンチマークでは、他のアルゴリズムと比較し、無関係な画像、近傍の重複、ラベルエラーの検出における最先端のパフォーマンスを示す。 さらに,本手法を複数の画像データセットに適用し,評価信頼性の向上を確認した。

Most commonly used benchmark datasets for computer vision contain irrelevant images, near duplicates, and label errors. Consequently, model performance on these benchmarks may not be an accurate estimate of generalization ability. This is a particularly acute concern in computer vision for medicine where datasets are typically small, stakes are high, and annotation processes are expensive and error-prone. In this paper, we propose SelfClean, a general procedure to clean up image datasets exploiting a latent space learned with self-supervision. By relying on self-supervised learning, our approach focuses on intrinsic properties of the data and avoids annotation biases. We formulate dataset cleaning as either a set of ranking problems, where human experts can make decisions with significantly reduced effort, or a set of scoring problems, where decisions can be fully automated based on score distributions. We compare SelfClean against other algorithms on common computer vision benchmarks enhanced with synthetic noise and demonstrate state-of-the-art performance on detecting irrelevant images, near duplicates, and label errors. In addition, we apply our method to multiple image datasets and confirm an improvement in evaluation reliability.
翻訳日:2023-05-29 13:36:27 公開日:2023-05-26
# ecg分析のためのディープラーニングの説明:監査と知識発見のためのビルディングブロック

Explaining Deep Learning for ECG Analysis: Building Blocks for Auditing and Knowledge Discovery ( http://arxiv.org/abs/2305.17043v1 )

ライセンス: Link先を確認
Patrick Wagner, Temesgen Mehari, Wilhelm Haverkamp, Nils Strodthoff(参考訳) 深層ニューラルネットワークは、心臓の状態と隠れた臨床因子を正確に識別する能力から、心電図データの解析に人気が高まっている。 しかし、これらのモデルのブラックボックスの性質による透明性の欠如は共通の懸念である。 この問題を解決するために、説明可能なAI(XAI)メソッドを用いることができる。 本研究では,局所的な(サンプル毎の貢献)とグローバルな(ドメインエキスパートの概念に基づく)視点を考察し,ポストホックなXAI手法の包括的分析を行う。 我々は,賢明な帰属方法を見極めるための一連の健全性チェックを確立し,専門家の規則に従って定量的な証拠を提供する。 このデータセット全体の分析は、患者のサブグループ間でデータを集約することで、逸話的な証拠を超える。 さらに、これらのXAI技術が、心筋梗塞のサブタイプを特定するなど、知識発見にどのように活用できるかを実証する。 本提案手法は,ECG解析の分野における知識発見だけでなく,認証プロセス中の内部妥当性を補完的に評価するためのビルディングブロックとして機能すると考えられる。

Deep neural networks have become increasingly popular for analyzing ECG data because of their ability to accurately identify cardiac conditions and hidden clinical factors. However, the lack of transparency due to the black box nature of these models is a common concern. To address this issue, explainable AI (XAI) methods can be employed. In this study, we present a comprehensive analysis of post-hoc XAI methods, investigating the local (attributions per sample) and global (based on domain expert concepts) perspectives. We have established a set of sanity checks to identify sensible attribution methods, and we provide quantitative evidence in accordance with expert rules. This dataset-wide analysis goes beyond anecdotal evidence by aggregating data across patient subgroups. Furthermore, we demonstrate how these XAI techniques can be utilized for knowledge discovery, such as identifying subtypes of myocardial infarction. We believe that these proposed methods can serve as building blocks for a complementary assessment of the internal validity during a certification process, as well as for knowledge discovery in the field of ECG analysis.
翻訳日:2023-05-29 13:36:08 公開日:2023-05-26
# 迷路探索のための群ロボットネットワークにおけるコミュニケーション効率の高い強化学習

Communication-Efficient Reinforcement Learning in Swarm Robotic Networks for Maze Exploration ( http://arxiv.org/abs/2305.17087v1 )

ライセンス: Link先を確認
Ehsan Latif and WenZhan Song and Ramviyas Parasuraman(参考訳) スウォームロボットシステム内のスムーズな協調は、集団ロボットミッションの効果的な実行に不可欠である。 効率的なコミュニケーションを持つことは、Swarmロボットの協調を成功させる鍵となる。 本稿では,Swarmロボットをコーディネートする通信効率の高い分散協調強化学習アルゴリズムを提案する。 局所的な情報交換を利用して階層的に構築することで効率的である。 本研究では,ロボット群間の協調による迷路解決のケーススタディとして,ロボット同士の衝突や経路の重複を回避しつつ,時間とコストを最小化する手法を提案する。 理論的には,現実的なCOREネットワークシミュレーションを用いてアルゴリズムを広範に解析し,通信劣化環境下での迷路被覆率と効率の観点から,最先端のソリューションに対して評価する。 その結果,高いパケット損失と低通信範囲のシナリオであっても,コストと重なりを低減しつつ,カバレッジの精度と効率が著しく向上した。

Smooth coordination within a swarm robotic system is essential for the effective execution of collective robot missions. Having efficient communication is key to the successful coordination of swarm robots. This paper proposes a new communication-efficient decentralized cooperative reinforcement learning algorithm for coordinating swarm robots. It is made efficient by hierarchically building on the use of local information exchanges. We consider a case study application of maze solving through cooperation among a group of robots, where the time and costs are minimized while avoiding inter-robot collisions and path overlaps during exploration. With a solid theoretical basis, we extensively analyze the algorithm with realistic CORE network simulations and evaluate it against state-of-the-art solutions in terms of maze coverage percentage and efficiency under communication-degraded environments. The results demonstrate significantly higher coverage accuracy and efficiency while reducing costs and overlaps even in high packet loss and low communication range scenarios.
翻訳日:2023-05-29 13:28:10 公開日:2023-05-26
# 統合されたPOMDPのポリシー勾配法

A Policy Gradient Method for Confounded POMDPs ( http://arxiv.org/abs/2305.17083v1 )

ライセンス: Link先を確認
Mao Hong, Zhengling Qi, Yanxun Xu(参考訳) 本稿では,オフライン環境下での連続状態と観測空間を持つ部分観測可能マルコフ決定過程(POMDP)を整合化するためのポリシー勾配法を提案する。 まず、オフラインデータを用いて、POMDPの履歴依存ポリシー勾配を非パラメトリックに推定する新しい識別結果を確立する。 この同定により条件付きモーメント制約の系列を解き、一般的な関数近似を用いたmin-max学習手順を採用し、政策勾配を推定できる。 次に,条件モーメント制約の解法におけるサンプルサイズ,地平線長,集束係数,不適性尺度の観点から,事前指定したポリシークラス上で一様に勾配を推定するための有限サンプル非漸近境界を提案する。 最後に、勾配上昇アルゴリズムに勾配推定を展開させることにより、いくつかの技術的条件下での履歴依存最適ポリシーの発見において、提案アルゴリズムのグローバル収束性を示す。 我々の知る限り、これはPOMDPのポリシー勾配法をオフライン環境下で研究する最初の試みである。

In this paper, we propose a policy gradient method for confounded partially observable Markov decision processes (POMDPs) with continuous state and observation spaces in the offline setting. We first establish a novel identification result to non-parametrically estimate any history-dependent policy gradient under POMDPs using the offline data. The identification enables us to solve a sequence of conditional moment restrictions and adopt the min-max learning procedure with general function approximation for estimating the policy gradient. We then provide a finite-sample non-asymptotic bound for estimating the gradient uniformly over a pre-specified policy class in terms of the sample size, length of horizon, concentratability coefficient and the measure of ill-posedness in solving the conditional moment restrictions. Lastly, by deploying the proposed gradient estimation in the gradient ascent algorithm, we show the global convergence of the proposed algorithm in finding the history-dependent optimal policy under some technical conditions. To the best of our knowledge, this is the first work studying the policy gradient method for POMDPs under the offline setting.
翻訳日:2023-05-29 13:27:56 公開日:2023-05-26
# 原子性スピンダイナミクスにおける量子効果の会計

Accounting for Quantum Effects in Atomistic Spin Dynamics ( http://arxiv.org/abs/2305.17082v1 )

ライセンス: Link先を確認
Marco Berritta, Stefano Scali, Federico Cerisola, Janet Anders(参考訳) atomistic spin dynamics (asd) は様々な材料の磁化ダイナミクスをモデル化する標準的なツールである。 ASDの基礎となる基本的な力学モデルは、完全に古典的である。 本稿では,ASDシミュレーションに量子効果を効果的に組み込むための2つの手法を提案する。 1つ目は、古典的なスピン系の運動方程式を有効温度で解くことで、量子スピン系の磁気挙動をシミュレートすることができる。 この有効温度は、システムの微視的特性から予め決定される。 2つ目のアプローチは、古典スピンが量子のようなパワースペクトルを持つ環境と相互作用する半古典的モデルに基づいている。 このモデルを特徴づけるパラメータは ab initio または実験から抽出することができる。 この半古典モデルは磁気系の低温挙動を定量的に再現するので、力学の量子力学的側面を考慮に入れることができる。 ここで提示される手法は、複雑さを伴わずに現在のSDシミュレーションで容易に実装できる。

Atomistic spin dynamics (ASD) is a standard tool to model the magnetization dynamics of a variety of materials. The fundamental dynamical model underlying ASD is entirely classical. In this letter, we present two approaches to effectively incorporate quantum effects into ASD simulations, thus enhancing their low temperature predictions. The first allows to simulate the magnetic behavior of a quantum spin system by solving the equations of motions of a classical spin system at an effective temperature. This effective temperature is determined a priori from the microscopic properties of the system. The second approach is based on a semi-classical model where classical spins interact with an environment with a quantum-like power spectrum. The parameters that characterize this model can be calculated ab initio or extracted from experiments. This semi-classical model quantitatively reproduces the low-temperature behavior of a magnetic system, thus accounting for the quantum mechanical aspects of its dynamics. The methods presented here can be readily implemented in current ASD simulations with no additional complexity cost.
翻訳日:2023-05-29 13:27:39 公開日:2023-05-26
# Expand, Rerank, Retrieve: オープンドメイン質問回答のためのクエリリランク

Expand, Rerank, and Retrieve: Query Reranking for Open-Domain Question Answering ( http://arxiv.org/abs/2305.17080v1 )

ライセンス: Link先を確認
Yung-Sung Chuang, Wei Fang, Shang-Wen Li, Wen-tau Yih, James Glass(参考訳) 提案手法は,問合せ検索の改善のためのクエリ拡張と再格付け手法であるEARであり,オープンドメイン質問応答への応用である。 EARはまず、クエリ拡張モデルを適用して、さまざまなクエリセットを生成した後、クエリリランカを使用して、より良い検索結果につながるクエリを選択する。 EARは、最良のクエリ拡張がgreedy復号化によって選択されないという観察に感銘を受け、拡張クエリを所定のレトリバーに発行する際、そのリランカを訓練して、金の通路のランク順序を予測する。 クエリ拡張モデルとレトリバーの接続により、EARは従来のスパース検索手法BM25を大幅に強化する。 EARは、バニラクエリ拡張モデルであるGARと高密度検索モデルであるDPRと比較して、ドメイン内設定で3~8ポイント、ドメイン外設定で5~10ポイント、それぞれトップ5/20精度を改善する。

We propose EAR, a query Expansion And Reranking approach for improving passage retrieval, with the application to open-domain question answering. EAR first applies a query expansion model to generate a diverse set of queries, and then uses a query reranker to select the ones that could lead to better retrieval results. Motivated by the observation that the best query expansion often is not picked by greedy decoding, EAR trains its reranker to predict the rank orders of the gold passages when issuing the expanded queries to a given retriever. By connecting better the query expansion model and retriever, EAR significantly enhances a traditional sparse retrieval method, BM25. Empirically, EAR improves top-5/20 accuracy by 3-8 and 5-10 points in in-domain and out-of-domain settings, respectively, when compared to a vanilla query expansion model, GAR, and a dense retrieval model, DPR.
翻訳日:2023-05-29 13:27:24 公開日:2023-05-26
# 事前学習型言語モデルの計画能力向上のための検証器の学習と活用

Learning and Leveraging Verifiers to Improve Planning Capabilities of Pre-trained Language Models ( http://arxiv.org/abs/2305.17077v1 )

ライセンス: Link先を確認
Daman Arora and Subbarao Kambhampati(参考訳) 事前訓練された大規模言語モデルの創発的推論能力に関する文献には広く主張されている。 しかし、近年の研究で計画する能力は疑問視されている。 GPT-2を用いた実験を通して, 微調整されたベースラインの性能は, 生成する計画の事前条件に反するため, 依然として不良であることを示す。 微調整LDMの計画能力を向上させるため,特定の状態において動作が有効か無効かを分類できる検証器を訓練する。 同じデータセットからランダムにアクションをサンプリングすることで、無効なアクションの例を生成し、検証者のトレーニングに使用し、アクション適用性をチェックする。 無効な軌道をプーンできる発電機と検証器からの多種多様なサンプリングの存在下では、Blocksworldドメインの成功率が著しく向上することを示す。 さらに, GPT-2 生成器自体を微調整して検証器を作成することは, ベース GPT-2 の微調整よりも優れていることを示す。 最後に,探査・探査のトレードオフを制御できるサンプリング温度の役割について検討する。

There have been wide spread claims in the literature about the emergent reasoning capabilities of Pretrained Large Language Models. However, recent studies, have found that their ability to plan remains questionable. Through our experiments using GPT-2, we empirically demonstrate that the performance of a finetuned baseline remains poor because it violates pre-conditions of actions in the plans that it generates. To improve the planning capabilities of a finetuned LLM, we train a verifier, which can classify actions as being valid or invalid in a particular state. By randomly sampling actions from the same dataset, we generate examples of invalid actions which are then used to train a verifier which can check for action applicability. In the presence of diverse sampling from a generator and a verifier which can prune invalid trajectories, we show significant gains in the success rate on the Blocksworld domain. Additionally, we show that finetuning the GPT-2 generator itself to create the verifier generalizes better than finetuning the base GPT-2. Lastly, we investigate the role of the sampling temperature which can be used to control the exploration-exploitation tradeoff.
翻訳日:2023-05-29 13:27:05 公開日:2023-05-26
# 正規化)ワッサーシュタイン分布ロバストモデルに対する厳密な一般化保証

Exact Generalization Guarantees for (Regularized) Wasserstein Distributionally Robust Models ( http://arxiv.org/abs/2305.17076v1 )

ライセンス: Link先を確認
Wa\"iss Azizian (DAO), Franck Iutzeler (DAO), J\'er\^ome Malick (DAO)(参考訳) ワッサースタイン分布にロバストな推定器は、不確実性の下で予測と意思決定の強力なモデルとして現れた。 これらの推定器は魅力的な一般化を保証する: 訓練分布から得られる頑健な目標は、高い確率で真のリスクの正確な上限である。 しかし、既存の保証は次元の呪いに苦しむか、特定の設定に制限されるか、あるいは散発的なエラー用語に繋がる。 本稿では,これらの一般化保証がモデルの一般的なクラスを実際に保持し,次元性の呪いに苦しむことなく,テスト時の分布シフトをカバーできることを示す。 また,これらの結果は,新たに導入されたwasserstein分布的ロバストな問題の正規化問題に引き継がれることも証明した。

Wasserstein distributionally robust estimators have emerged as powerful models for prediction and decision-making under uncertainty. These estimators provide attractive generalization guarantees: the robust objective obtained from the training distribution is an exact upper bound on the true risk with high probability. However, existing guarantees either suffer from the curse of dimensionality, are restricted to specific settings, or lead to spurious error terms. In this paper, we show that these generalization guarantees actually hold on general classes of models, do not suffer from the curse of dimensionality, and can even cover distribution shifts at testing. We also prove that these results carry over to the newly-introduced regularized versions of Wasserstein distributionally robust problems.
翻訳日:2023-05-29 13:26:45 公開日:2023-05-26
# CREST: 合理化と対実テキスト生成のための統合フレームワーク

CREST: A Joint Framework for Rationalization and Counterfactual Text Generation ( http://arxiv.org/abs/2305.17075v1 )

ライセンス: Link先を確認
Marcos Treviso, Alexis Ross, Nuno M. Guerreiro, Andr\'e F. T. Martins(参考訳) 選択的理性と反実例は、NLPモデルを解析し、訓練するための2つの効果的な補完的解釈可能性のクラスとして現れている。 しかし,従来の研究では,これらの手法を相補的な利点と組み合わせる方法については検討されていない。 CREST(ContRastive Edits with Sparse raTionalization)は、選択的合理化と対実テキスト生成のための統合フレームワークであり、このフレームワークが対実品質、モデル堅牢性、解釈可能性の改善につながることを示す。 まず、CRESTは、従来の方法よりも自然な有効な偽物を生成し、その後、大規模にデータ拡張に使用でき、人為的な例の必要性を減らすことができる。 第2に,クレストカウンターファクチュアを利用した新たな損失関数を導入し,この正規化によりモデルロバスト性と合理的品質の両方が向上することを示す。 その結果,選択的合理性と反事実的例とのギャップを埋めることに成功し,既存手法の限界に対処し,モデルの予測をより包括的にとらえることができた。

Selective rationales and counterfactual examples have emerged as two effective, complementary classes of interpretability methods for analyzing and training NLP models. However, prior work has not explored how these methods can be integrated to combine their complementary advantages. We overcome this limitation by introducing CREST (ContRastive Edits with Sparse raTionalization), a joint framework for selective rationalization and counterfactual text generation, and show that this framework leads to improvements in counterfactual quality, model robustness, and interpretability. First, CREST generates valid counterfactuals that are more natural than those produced by previous methods, and subsequently can be used for data augmentation at scale, reducing the need for human-generated examples. Second, we introduce a new loss function that leverages CREST counterfactuals to regularize selective rationales and show that this regularization improves both model robustness and rationale quality, compared to methods that do not leverage CREST counterfactuals. Our results demonstrate that CREST successfully bridges the gap between selective rationales and counterfactual examples, addressing the limitations of existing methods and providing a more comprehensive view of a model's predictions.
翻訳日:2023-05-29 13:26:31 公開日:2023-05-26
# 深部NLPモデルのニューロン解析のためのNeuroXライブラリー

NeuroX Library for Neuron Analysis of Deep NLP Models ( http://arxiv.org/abs/2305.17073v1 )

ライセンス: Link先を確認
Fahim Dalvi and Hassan Sajjad and Nadir Durrani(参考訳) ニューロン分析は、知識がどのように表現に構造化されているかの洞察を与え、ネットワークにおけるニューロンの役割を発見する。 我々のモデルを理解することに加え、ニューロン分析はデバイアス、ドメイン適応、アーキテクチャ探索といった様々な応用を可能にする。 本稿では,自然言語処理モデルのニューロン解析を行うオープンソースツールキットNeuroXを提案する。 統一されたAPIの下で様々な解釈方法を実装し、データ処理と評価のためのフレームワークを提供し、研究者や実践者がニューロン分析をしやすくする。 python toolkitはhttps://www.github.com/fdalvi/neuroxで入手できる。 デモビデオはhttps://youtu.be/mlhs2ymx4u8。

Neuron analysis provides insights into how knowledge is structured in representations and discovers the role of neurons in the network. In addition to developing an understanding of our models, neuron analysis enables various applications such as debiasing, domain adaptation and architectural search. We present NeuroX, a comprehensive open-source toolkit to conduct neuron analysis of natural language processing models. It implements various interpretation methods under a unified API, and provides a framework for data processing and evaluation, thus making it easier for researchers and practitioners to perform neuron analysis. The Python toolkit is available at https://www.github.com/fdalvi/NeuroX. Demo Video available at https://youtu.be/mLhs2YMx4u8.
翻訳日:2023-05-29 13:26:09 公開日:2023-05-26
# ステレオタイプとsmut:(mis)テキストから画像へのモデルによる非cisgender identityの表現

Stereotypes and Smut: The (Mis)representation of Non-cisgender Identities by Text-to-Image Models ( http://arxiv.org/abs/2305.17072v1 )

ライセンス: Link先を確認
Eddie L. Ungless, Bj\"orn Ross and Anne Lauscher(参考訳) カットエッジ画像生成は高品質な画像を生成することで称賛され、様々なアプリケーションにおいてユビキタスな未来を示唆している。 しかしながら、初期の研究は、予測バイアス、反射、潜在的に文化的ステレオタイプによる害の可能性を示している。 本研究では,マルチモーダルモデルが性同一性をどのように扱うかについて検討する。 具体的には,シッゲンダーを含むプロンプトに対して3つの画像生成モデルの出力を非シッゲンダー識別項と比較する詳細な解析を行う。 以上の結果から,特定の非男性性同一性は,人間性,ステレオタイプ,セクシュアリゼーションの低下とともに,一貫して (mis) 呈示されることが示された。 我々は実験分析を補完する (a)~非市民のアンケート及び調査 (b)影響を受けた個人がどのような被害を受けるか、どのように表現したいかを確立するための一連の面接。 回答者は特に、誤った表現や有害な行動や信念を促進する可能性を懸念している。 攻撃的なコンテンツを制限する単純なヒューリスティックは広く拒絶され、回答者はコミュニティの関与、トレーニングデータのキュレーション、カスタマイズの能力を求める。 これらの改善は、影響のあるコミュニティによって変化が導かれる未来への道を開く可能性があり、テクノロジーは、時代遅れで不快なステレオタイプを再現するよりもむしろ、私たちが考えもしなかった方法で、『[ポートレイ]クィアネス』を肯定的に評価するために使われるだろう。

Cutting-edge image generation has been praised for producing high-quality images, suggesting a ubiquitous future in a variety of applications. However, initial studies have pointed to the potential for harm due to predictive bias, reflecting and potentially reinforcing cultural stereotypes. In this work, we are the first to investigate how multimodal models handle diverse gender identities. Concretely, we conduct a thorough analysis in which we compare the output of three image generation models for prompts containing cisgender vs. non-cisgender identity terms. Our findings demonstrate that certain non-cisgender identities are consistently (mis)represented as less human, more stereotyped and more sexualised. We complement our experimental analysis with (a)~a survey among non-cisgender individuals and (b) a series of interviews, to establish which harms affected individuals anticipate, and how they would like to be represented. We find respondents are particularly concerned about misrepresentation, and the potential to drive harmful behaviours and beliefs. Simple heuristics to limit offensive content are widely rejected, and instead respondents call for community involvement, curated training data and the ability to customise. These improvements could pave the way for a future where change is led by the affected community, and technology is used to positively ``[portray] queerness in ways that we haven't even thought of'' rather than reproducing stale, offensive stereotypes.
翻訳日:2023-05-29 13:25:59 公開日:2023-05-26
# クリックフィードバックでランク付けするオンライン学習に対する敵対的攻撃

Adversarial Attacks on Online Learning to Rank with Click Feedback ( http://arxiv.org/abs/2305.17071v1 )

ライセンス: Link先を確認
Jinhang Zuo, Zhiyao Zhang, Zhiyong Wang, Shuai Li, Mohammad Hajiesmaili, Adam Wierman(参考訳) オンラインラーニング・トゥ・ランク(oltr)は、学習エージェントがアイテムの順序リストを選択し、ユーザークリックを通じてフィードバックを受け取る、逐次的な意思決定問題である。 OLTRアルゴリズムに対する潜在的な攻撃は、現実世界のアプリケーションに重大な損失をもたらす可能性があるが、OLTRに対する敵攻撃についてはほとんど知られていない。 本稿では,OLTRの複数変種に対する攻撃戦略について検討する。 最初の結果から,従来の確率的帯域幅に対するUCBアルゴリズムに対する攻撃戦略をバイナリフィードバックで実現し,従来の作業では処理できない有界および離散的なフィードバックによって生じる重要な問題を解消する。 この結果に基づいて、位置ベースおよびカスケードモデルにおけるUCBベースのOLTRアルゴリズムに対する攻撃アルゴリズムを設計する。 最後に,汎用クリックモデルに基づく任意のアルゴリズムに対する汎用攻撃戦略を提案する。 各攻撃アルゴリズムは学習エージェントを操作して目標攻撃項目の$T-o(T)$倍を選択し、累積コスト$o(T)$を発生させる。 合成データと実データを用いた実験により,提案手法の有効性をさらに検証した。

Online learning to rank (OLTR) is a sequential decision-making problem where a learning agent selects an ordered list of items and receives feedback through user clicks. Although potential attacks against OLTR algorithms may cause serious losses in real-world applications, little is known about adversarial attacks on OLTR. This paper studies attack strategies against multiple variants of OLTR. Our first result provides an attack strategy against the UCB algorithm on classical stochastic bandits with binary feedback, which solves the key issues caused by bounded and discrete feedback that previous works can not handle. Building on this result, we design attack algorithms against UCB-based OLTR algorithms in position-based and cascade models. Finally, we propose a general attack strategy against any algorithm under the general click model. Each attack algorithm manipulates the learning agent into choosing the target attack item $T-o(T)$ times, incurring a cumulative cost of $o(T)$. Experiments on synthetic and real data further validate the effectiveness of our proposed attack algorithms.
翻訳日:2023-05-29 13:25:33 公開日:2023-05-26
# 材料テクスチャのランダム・アクセススニューラル圧縮

Random-Access Neural Compression of Material Textures ( http://arxiv.org/abs/2305.17105v1 )

ライセンス: Link先を確認
Karthik Vaidyanathan, Marco Salvi, Bartlomiej Wronski, Tomas Akenine-M\"oller, Pontus Ebelin, Aaron Lefohn(参考訳) レンダリングにおけるフォトリアリズムの継続的な進歩には、テクスチャデータの増加と、ストレージとメモリ要求の増加が伴う。 そこで本研究では,素材テクスチャに特化したニューラル圧縮手法を提案する。 AVIFやJPEG XLのような先進的な画像圧縮技術よりも優れた画質を持つ低ビットレート圧縮を用いて、さらに2つの詳細レベル、すなわち16倍のテクセルをアンロックする。 同時に,GPU上のブロックテクスチャ圧縮と同様のランダムアクセスによるオンデマンドリアルタイム圧縮が可能となり,ディスクやメモリ上での圧縮が可能となった。 このアプローチの背後にある重要なアイデアは、複数の素材テクスチャとそのミップマップチェーンを圧縮し、各材料に最適化された小さなニューラルネットワークを使用してそれらを圧縮することです。 最後に、PyTorchのような一般的なフレームワークのパフォーマンスを桁違いに上回る、実用的な圧縮速度を達成するために、カスタムトレーニング実装を使用します。

The continuous advancement of photorealism in rendering is accompanied by a growth in texture data and, consequently, increasing storage and memory demands. To address this issue, we propose a novel neural compression technique specifically designed for material textures. We unlock two more levels of detail, i.e., 16x more texels, using low bitrate compression, with image quality that is better than advanced image compression techniques, such as AVIF and JPEG XL. At the same time, our method allows on-demand, real-time decompression with random access similar to block texture compression on GPUs, enabling compression on disk and memory. The key idea behind our approach is compressing multiple material textures and their mipmap chains together, and using a small neural network, that is optimized for each material, to decompress them. Finally, we use a custom training implementation to achieve practical compression speeds, whose performance surpasses that of general frameworks, like PyTorch, by an order of magnitude.
翻訳日:2023-05-29 13:19:56 公開日:2023-05-26
# PromptNER: 名前付きエンティティ認識のためのプロンプト位置とタイピング

PromptNER: Prompt Locating and Typing for Named Entity Recognition ( http://arxiv.org/abs/2305.17104v1 )

ライセンス: Link先を確認
Yongliang Shen, Zeqi Tan, Shuhui Wu, Wenqi Zhang, Rongsheng Zhang, Yadong Xi, Weiming Lu, Yueting Zhuang(参考訳) プロンプト学習は、事前学習された言語モデルを活用するための新しいパラダイムであり、多くのタスクで大きな成功を収めた。 NERタスクで即時学習を採用するために、2種類のメソッドが対称的な視点から探索され、スパンを列挙してエンティティの型を予測するか、エンティティを見つけるためにタイプ固有のプロンプトを構築する。 しかし、これらの手法は、高速なオーバヘッドと計算コストで複数ラウンドのプロンプト方式を必要とするだけでなく、実用的なシナリオでは適用が難しい複雑なプロンプトテンプレートを必要とする。 本稿では,エンティティの特定とエンティティの型付けをプロンプト・ラーニングに統一し,位置スロットと型スロットを備えたデュアルスロット・マルチプロンプトテンプレートを設計し,それぞれ型付けと型付けをプロンプトする。 複数のプロンプトが同時にモデルに入力され、モデルがスロット上の並列予測によってすべてのエンティティを抽出する。 トレーニング中にスロットのラベルを割り当てるために,プロンプトと接地構造体とのマッチングを拡張した二部グラフを用いて動的テンプレート充填機構を設計する。 リソース豊富なフラットおよびネストされたNERデータセットや低リソースのインドメインデータセット、クロスドメインデータセットなど、さまざまな環境で実験を行います。 実験結果から,提案モデルは,特にドメイン間数ショット設定において,平均7.7%以上の性能向上を実現していることがわかった。

Prompt learning is a new paradigm for utilizing pre-trained language models and has achieved great success in many tasks. To adopt prompt learning in the NER task, two kinds of methods have been explored from a pair of symmetric perspectives, populating the template by enumerating spans to predict their entity types or constructing type-specific prompts to locate entities. However, these methods not only require a multi-round prompting manner with a high time overhead and computational cost, but also require elaborate prompt templates, that are difficult to apply in practical scenarios. In this paper, we unify entity locating and entity typing into prompt learning, and design a dual-slot multi-prompt template with the position slot and type slot to prompt locating and typing respectively. Multiple prompts can be input to the model simultaneously, and then the model extracts all entities by parallel predictions on the slots. To assign labels for the slots during training, we design a dynamic template filling mechanism that uses the extended bipartite graph matching between prompts and the ground-truth entities. We conduct experiments in various settings, including resource-rich flat and nested NER datasets and low-resource in-domain and cross-domain datasets. Experimental results show that the proposed model achieves a significant performance improvement, especially in the cross-domain few-shot setting, which outperforms the state-of-the-art model by +7.7% on average.
翻訳日:2023-05-29 13:19:38 公開日:2023-05-26
# GeoVLN:視覚・言語ナビゲーションのためのスロット注意による幾何学的視覚表現の学習

GeoVLN: Learning Geometry-Enhanced Visual Representation with Slot Attention for Vision-and-Language Navigation ( http://arxiv.org/abs/2305.17102v1 )

ライセンス: Link先を確認
Jingyang Huo, Qiang Sun, Boyan Jiang, Haitao Lin, Yanwei Fu(参考訳) Room-to-Room VLN問題はRGB画像のみを用いており、周囲の環境に関する十分な視覚的手がかりが不足している候補ビューに関するローカルコンテキストを考慮していない。 さらに、自然言語には複雑な意味情報が含まれており、視覚入力との相関は、単に横断的な注意だけではモデル化が困難である。 本稿では,ロバストな視覚言語ナビゲーションのためのスロットアテンションに基づいて,幾何エンハンスド視覚表現を学習するgeovlnを提案する。 rgb画像は対応する深度マップとomnidataが予測した正常マップを視覚入力として補償する。 技術的には,局所スロットアテンションとクリップモデルを組み合わせた2段階モジュールを導入し,入力から幾何エンハンスド表現を生成する。 我々はV&L BERTを用いて言語情報と視覚情報の両方を組み込んだクロスモーダル表現を学習する。 さらに、視覚入力から最も関連性の高い特徴を活用するために、入力命令の異なるフレーズを奨励する新しいマルチウェイアテンションモジュールが設計されている。 大規模実験により,新たに設計したモジュールの有効性を実証し,提案手法の有効性を示す。

Most existing works solving Room-to-Room VLN problem only utilize RGB images and do not consider local context around candidate views, which lack sufficient visual cues about surrounding environment. Moreover, natural language contains complex semantic information thus its correlations with visual inputs are hard to model merely with cross attention. In this paper, we propose GeoVLN, which learns Geometry-enhanced visual representation based on slot attention for robust Visual-and-Language Navigation. The RGB images are compensated with the corresponding depth maps and normal maps predicted by Omnidata as visual inputs. Technically, we introduce a two-stage module that combine local slot attention and CLIP model to produce geometry-enhanced representation from such input. We employ V&L BERT to learn a cross-modal representation that incorporate both language and vision informations. Additionally, a novel multiway attention module is designed, encouraging different phrases of input instruction to exploit the most related features from visual input. Extensive experiments demonstrate the effectiveness of our newly designed modules and show the compelling performance of the proposed method.
翻訳日:2023-05-29 13:19:11 公開日:2023-05-26
# BiomedGPT:視覚・言語・マルチモーダルタスクのための統一的で汎用的なバイオメディカル生成事前学習トランス

BiomedGPT: A Unified and Generalist Biomedical Generative Pre-trained Transformer for Vision, Language, and Multimodal Tasks ( http://arxiv.org/abs/2305.17100v1 )

ライセンス: Link先を確認
Kai Zhang, Jun Yu, Zhiling Yan, Yixin Liu, Eashan Adhikarla, Sunyang Fu, Xun Chen, Chen Chen, Yuyin Zhou, Xiang Li, Lifang He, Brian D. Davison, Quanzheng Li, Yong Chen, Hongfang Liu, Lichao Sun(参考訳) 本稿では,大規模・多種多様なデータセットの自己スーパービジョンを利用してマルチモーダル入力を受信し,様々な下流タスクを実行する,統一的で汎用的なバイオメディカル生成事前学習変換(BiomedGPT)モデルを提案する。 実験の結果,BiomedGPTはバイオメディカルデータの拡張と包括的表現を実現し,従来の最先端モデルの大部分を5つの異なるタスクで上回り,20の公開データセットが15以上のユニークなバイオメディカルモダリティにまたがっている。 アブレーション研究を通じて,従来の未知データへの知識伝達におけるマルチモーダルおよびマルチタスク事前学習手法の有効性を示す。 全体として、我々の研究は、バイオメディシンの統一モデルと一般モデルの開発において重要な一歩を踏み出した。

In this paper, we introduce a unified and generalist Biomedical Generative Pre-trained Transformer (BiomedGPT) model, which leverages self-supervision on large and diverse datasets to accept multi-modal inputs and perform a range of downstream tasks. Our experiments demonstrate that BiomedGPT delivers expansive and inclusive representations of biomedical data, outperforming the majority of preceding state-of-the-art models across five distinct tasks with 20 public datasets spanning over 15 unique biomedical modalities. Through the ablation study, we also showcase the efficacy of our multi-modal and multi-task pretraining approach in transferring knowledge to previously unseen data. Overall, our work presents a significant step forward in developing unified and generalist models for biomedicine, with far-reaching implications for improving healthcare outcomes.
翻訳日:2023-05-29 13:18:51 公開日:2023-05-26
# コヒーレント状態分解による量子光学のシミュレーション

Simulation of quantum optics by coherent state decomposition ( http://arxiv.org/abs/2305.17099v1 )

ライセンス: Link先を確認
Jeffrey Marshall, Namit Anand(参考訳) 我々は、系をコヒーレント状態の有限ランク(項数)重ね合わせに分解することで量子光学をシミュレートする枠組みを導入する。 これにより、線型光学演算が'自由'(つまりランクを増加させない)であり、$m$-モード系のシミュレーション複雑性は、ヒルベルト空間次元とは対照的に、二乗的に$m$でスケールできる資源理論を定義することができる。 特にボソンサンプリング(boson sampling)では、出力振幅を計算するためのシミュレーション時間(スペース)の複雑さが、任意の精度で、$m$モードに分散した$n$光子に対して$o(m^2 2^n)$(o(m2^n)$)とスケールされる。 また、最初に同じモードスケールで$n$光子を用いた線形光学シミュレーションを、$O(m^2 n)$として効率よく示す。 このパラダイムは、シミュレーションに必要な古典的資源である「古典的でない」という実践的な概念を提供し、恒星の形式主義と結びつくことによって、これは2つの独立した寄与、単光子加算の数、およびスクイージングの量から生じる。

We introduce a framework for simulating quantum optics by decomposing the system into a finite rank (number of terms) superposition of coherent states. This allows us to define a resource theory, where linear optical operations are `free' (i.e., do not increase the rank), and the simulation complexity for an $m$-mode system scales quadratically in $m$, in stark contrast to the Hilbert space dimension. We outline this approach explicitly in the Fock basis, relevant in particular for Boson sampling, where the simulation time (space) complexity for computing output amplitudes, to arbitrary accuracy, scales as $O(m^2 2^n)$ ($O(m2^n)$), for $n$ photons distributed amongst $m$ modes. We additionally demonstrate linear optical simulations with the $n$ photons initially in the same mode scales efficiently, as $O(m^2 n)$. This paradigm provides a practical notion of `non-classicality', i.e., the classical resources required for simulation, which by making connections to the stellar formalism, we show this comes from two independent contributions, the number of single-photon additions, and the amount of squeezing.
翻訳日:2023-05-29 13:18:32 公開日:2023-05-26
# ControlVideo: ワンショットテキスト・ビデオ編集のための条件付きコントロールの追加

ControlVideo: Adding Conditional Control for One Shot Text-to-Video Editing ( http://arxiv.org/abs/2305.17098v1 )

ライセンス: Link先を確認
Min Zhao, Rongzhen Wang, Fan Bao, Chongxuan Li, Jun Zhu(参考訳) 本稿では,テキスト駆動ビデオ編集の新しい手法であるControlVideoを提案する。 ControlVideoは、テキストから画像への拡散モデルとコントロールネットの機能を活用し、ソースビデオの構造を保ちながら、与えられたテキストと整合するビデオの忠実度と時間的一貫性を高めることを目的としている。 これは、エッジマップ、キーフレームの微調整、ソースビデオテキストペアの時間的注意と慎重に設計された戦略などの追加条件を組み込むことによって達成される。 ワンショットチューニングビデオ拡散モデルに関する今後の研究を知らせるため,コントロールビデオの設計を詳細に調査する。 ControlVideoは、テキストのプロンプトと整合性を保ちながら、忠実さと一貫性という点で競争力のあるベースラインを上回ります。 さらに、ソースコンテンツに対する高い視覚的リアリズムと忠実度を持つビデオを提供し、ソース情報を含む制御の柔軟性と複数の制御の組み合わせの可能性を示す。 プロジェクトページは \href{https://ml.cs.tsinghua.edu.cn/}{https://ml.cs.tsinghua.edu/controlvideo/} で利用可能である。

In this paper, we present ControlVideo, a novel method for text-driven video editing. Leveraging the capabilities of text-to-image diffusion models and ControlNet, ControlVideo aims to enhance the fidelity and temporal consistency of videos that align with a given text while preserving the structure of the source video. This is achieved by incorporating additional conditions such as edge maps, fine-tuning the key-frame and temporal attention on the source video-text pair with carefully designed strategies. An in-depth exploration of ControlVideo's design is conducted to inform future research on one-shot tuning video diffusion models. Quantitatively, ControlVideo outperforms a range of competitive baselines in terms of faithfulness and consistency while still aligning with the textual prompt. Additionally, it delivers videos with high visual realism and fidelity w.r.t. the source content, demonstrating flexibility in utilizing controls containing varying degrees of source video information, and the potential for multiple control combinations. The project page is available at \href{https://ml.cs.tsinghua.edu.cn/controlvideo/}{https://ml.cs.tsinghua.edu.cn/controlvideo/}.
翻訳日:2023-05-29 13:18:06 公開日:2023-05-26
# 準静的近似を超えた時間依存ハミルトニアンの量子シミュレーション

Quantum simulations of time-dependent Hamiltonians beyond the quasi-static approximation ( http://arxiv.org/abs/2305.17097v1 )

ライセンス: Link先を確認
Boyuan Shi and Florian Mintert(参考訳) 時間依存量子システムの量子シミュレーションをアナログ化する既存のアプローチは、シミュレーションされるシステムの時間依存に対する摂動的補正に依存している。 摂動的アプローチに対するこの制限を克服し、ラムダ系の教育的例と有限時間におけるクエンチを駆動ハバード系におけるチャーン絶縁体の量子相転移を通じて実現可能な量子シミュレーションの可能性を示す。

Existing approaches to analogue quantum simulations of time-dependent quantum systems rely on perturbative corrections to the time-independence of the systems to be simulated. We overcome this restriction to perturbative approaches and demonstrate the potential of achievable quantum simulations with the pedagogical example of a Lambda-system and the quench in finite time through a quantum phase transition of a Chern insulator in a driven Hubbard system.
翻訳日:2023-05-29 13:17:46 公開日:2023-05-26
# GRAtt-VIS: 自動修正ビデオインスタンスセグメンテーションのための残像注意

GRAtt-VIS: Gated Residual Attention for Auto Rectifying Video Instance Segmentation ( http://arxiv.org/abs/2305.17096v1 )

ライセンス: Link先を確認
Tanveer Hannan, Rajat Koner, Maximilian Bernhard, Suprosanna Shit, Bjoern Menze, Volker Tresp, Matthias Schubert, Thomas Seidl(参考訳) ビデオインスタンスセグメンテーション(VIS)の最近のトレンドは、複雑で長いビデオシーケンスをモデル化するオンライン手法に依存している。 しかし,オンライン手法,特に咬合時および急変時における表現の劣化とノイズ蓄積は,大きな課題となっている。 トランスフォーマティブベースのクエリプロパゲーションは、二次記憶の注意を犠牲にして、有望な方向性を提供する。 しかし、上記の課題によりインスタンスの特徴の低下に影響を受けやすく、カスケード効果に苦しむ。 このようなエラーの検出と修正は、ほとんど未調査のままである。 この目的のために、 \textbf{GRAtt-VIS}, \textbf{G}ated \textbf{R}esidual \textbf{Att}ention for \textbf{V}ideo \textbf{I}nstance \textbf{S}egmentationを紹介する。 まず、gumbel-softmaxベースのゲートを利用して、現在のフレームで起こりうるエラーを検出する。 次に、ゲートアクティベーションに基づいて、過去の表現から劣化した特徴を補正する。 このような残差構成は専用メモリの必要性を緩和し、関連するインスタンス機能の継続的なストリームを提供する。 第二に,ゲートアクティベーションを自己注意マスクとして用いた新しいインスタンス間相互作用を提案する。 このマスキング戦略は、自己アテンションにおける非表現インスタンスクエリを動的に制限し、長期追跡のための重要な情報を保持する。 我々は、ゲート付き残差接続とマスク付き自己アテンションの新たな組み合わせを \textbf{gratt} ブロックと呼び、既存の伝播ベースのフレームワークに容易に統合できる。 さらに、grattブロックは注意のオーバーヘッドを大幅に削減し、動的テンポラリモデリングを単純化する。 GRAtt-VISは、YouTube-VISと非常に挑戦的なOVISデータセット上で最先端のパフォーマンスを実現し、以前の方法よりも大幅に改善された。 コードは \url{https://github.com/Tanveer81/GRAttVIS} で入手できる。

Recent trends in Video Instance Segmentation (VIS) have seen a growing reliance on online methods to model complex and lengthy video sequences. However, the degradation of representation and noise accumulation of the online methods, especially during occlusion and abrupt changes, pose substantial challenges. Transformer-based query propagation provides promising directions at the cost of quadratic memory attention. However, they are susceptible to the degradation of instance features due to the above-mentioned challenges and suffer from cascading effects. The detection and rectification of such errors remain largely underexplored. To this end, we introduce \textbf{GRAtt-VIS}, \textbf{G}ated \textbf{R}esidual \textbf{Att}ention for \textbf{V}ideo \textbf{I}nstance \textbf{S}egmentation. Firstly, we leverage a Gumbel-Softmax-based gate to detect possible errors in the current frame. Next, based on the gate activation, we rectify degraded features from its past representation. Such a residual configuration alleviates the need for dedicated memory and provides a continuous stream of relevant instance features. Secondly, we propose a novel inter-instance interaction using gate activation as a mask for self-attention. This masking strategy dynamically restricts the unrepresentative instance queries in the self-attention and preserves vital information for long-term tracking. We refer to this novel combination of Gated Residual Connection and Masked Self-Attention as \textbf{GRAtt} block, which can easily be integrated into the existing propagation-based framework. Further, GRAtt blocks significantly reduce the attention overhead and simplify dynamic temporal modeling. GRAtt-VIS achieves state-of-the-art performance on YouTube-VIS and the highly challenging OVIS dataset, significantly improving over previous methods. Code is available at \url{https://github.com/Tanveer81/GRAttVIS}.
翻訳日:2023-05-29 13:17:35 公開日:2023-05-26
# 分類のための最先端勾配強化アルゴリズムのベンチマーク

Benchmarking state-of-the-art gradient boosting algorithms for classification ( http://arxiv.org/abs/2305.17094v1 )

ライセンス: Link先を確認
Piotr Florek, Adam Zagda\'nski(参考訳) 本研究は,分類の文脈における勾配ブースティングの利用を考察する。 オリジナルのGBMアルゴリズムや選択された最先端の勾配向上フレームワーク(XGBoost、LightGBM、CatBoost)を含む4つの一般的な実装は、十分に多様性のある公開されている実世界のデータセットで徹底的に比較されている。 本研究では,高パラメータ最適化を特に重視し,木構造パーゼン推定器を用いたランダム化探索とベイズ最適化の2つのチューニング戦略を比較した。 検討した手法の性能は, 実行時間とチューニング時間だけでなく, 共通分類精度指標の観点から検討した。 さらに, 適切な統計的検査により得られた結果が検証された。 有効性、信頼性、使いやすさの適切なバランスを示す勾配促進変種を示す試みが行われた。

This work explores the use of gradient boosting in the context of classification. Four popular implementations, including original GBM algorithm and selected state-of-the-art gradient boosting frameworks (i.e. XGBoost, LightGBM and CatBoost), have been thoroughly compared on several publicly available real-world datasets of sufficient diversity. In the study, special emphasis was placed on hyperparameter optimization, specifically comparing two tuning strategies, i.e. randomized search and Bayesian optimization using the Tree-stuctured Parzen Estimator. The performance of considered methods was investigated in terms of common classification accuracy metrics as well as runtime and tuning time. Additionally, obtained results have been validated using appropriate statistical testing. An attempt was made to indicate a gradient boosting variant showing the right balance between effectiveness, reliability and ease of use.
翻訳日:2023-05-29 13:17:04 公開日:2023-05-26
# SSSegmenation: PyTorchをベースとしたSemantic Segmentationツールボックス

SSSegmenation: An Open Source Supervised Semantic Segmentation Toolbox Based on PyTorch ( http://arxiv.org/abs/2305.17091v1 )

ライセンス: Link先を確認
Zhenchao Jin(参考訳) 本稿では,PyTorchに基づくオープンソースの教師付きセマンティックイメージセグメンテーションツールボックスであるSSSegmenationを提案する。 このツールボックスの設計は、MMSegmentationによって動機付けられているが、依存関係が少ないため使いやすく、同等のトレーニングとテストのセットアップ下でのセグメンテーション性能が優れている。 さらにこのツールボックスは、Deeplab、PSPNet、OCRNet、MaskFormer、 \emph{etc}など、ポピュラーで現代的なセマンティックセグメンテーションメソッドに対して、多くのトレーニングされたウェイトも提供する。 このツールボックスはセマンティックセグメンテーションの今後の発展に貢献できると期待している。 コードとモデル動物園は \href{https://github.com/SegmentationBLWX/ssegmentation/}{SSSegmenation} で公開されている。

This paper presents SSSegmenation, which is an open source supervised semantic image segmentation toolbox based on PyTorch. The design of this toolbox is motivated by MMSegmentation while it is easier to use because of fewer dependencies and achieves superior segmentation performance under a comparable training and testing setup. Moreover, the toolbox also provides plenty of trained weights for popular and contemporary semantic segmentation methods, including Deeplab, PSPNet, OCRNet, MaskFormer, \emph{etc}. We expect that this toolbox can contribute to the future development of semantic segmentation. Codes and model zoos are available at \href{https://github.com/SegmentationBLWX/sssegmentation/}{SSSegmenation}.
翻訳日:2023-05-29 13:16:50 公開日:2023-05-26
# NeuManifold: 効率的かつ高品質なレンダリング支援によるニューラルウォータータイトマニフォールド再構成

NeuManifold: Neural Watertight Manifold Reconstruction with Efficient and High-Quality Rendering Support ( http://arxiv.org/abs/2305.17134v1 )

ライセンス: Link先を確認
Xinyue Wei, Fanbo Xiang, Sai Bi, Anpei Chen, Kalyan Sunkavalli, Zexiang Xu, Hao Su(参考訳) マルチビュー入力画像から高品質な水密多様体メッシュを生成する手法を提案する。 既存のボリュームレンダリング手法は最適化には堅牢だが、トポロジに乏しいノイズの多いメッシュを生成する傾向がある。 異なるラスタライゼーションに基づく手法は高品質なメッシュを生成することができるが、初期化に敏感である。 本手法は両世界の利点を組み合わせ, ニューラル体積場から得られる幾何初期化を考慮し, さらに, ラスタライザを用いたコンパクトなニューラルテクスチャ表現を最適化する。 広範な実験により,従来のボリュームレンダリング法に匹敵する忠実な外観のメッシュ再構成を,レンダリングの桁違いな速度で生成できることを実証した。 また、生成したメッシュとニューラルテクスチャの再構成が既存のグラフィックスパイプラインと互換性があることを示し、シミュレーションのような下流3Dアプリケーションを可能にする。 プロジェクトページ: https://sarahweiii.github.io/neumanifold/

We present a method for generating high-quality watertight manifold meshes from multi-view input images. Existing volumetric rendering methods are robust in optimization but tend to generate noisy meshes with poor topology. Differentiable rasterization-based methods can generate high-quality meshes but are sensitive to initialization. Our method combines the benefits of both worlds; we take the geometry initialization obtained from neural volumetric fields, and further optimize the geometry as well as a compact neural texture representation with differentiable rasterizers. Through extensive experiments, we demonstrate that our method can generate accurate mesh reconstructions with faithful appearance that are comparable to previous volume rendering methods while being an order of magnitude faster in rendering. We also show that our generated mesh and neural texture reconstruction is compatible with existing graphics pipelines and enables downstream 3D applications such as simulation. Project page: https://sarahweiii.github.io/neumanifold/
翻訳日:2023-05-29 13:09:35 公開日:2023-05-26
# ramp: 属性制御翻訳のための検索と属性マーク強化プロンプト

RAMP: Retrieval and Attribute-Marking Enhanced Prompting for Attribute-Controlled Translation ( http://arxiv.org/abs/2305.17131v1 )

ライセンス: Link先を確認
Gabriele Sarti, Phu Mon Htut, Xing Niu, Benjamin Hsu, Anna Currey, Georgiana Dinu, Maria Nadejde(参考訳) 属性制御翻訳(ACT)は機械翻訳のサブタスクであり、翻訳出力の形式的または言語的属性(形式性や性別など)を制御する。 actは現実のアプリケーションで有用であることから近年注目を集めているが、以前のアプローチは教師付きメソッドに依存しているため、現在、そのタスクの進捗はデータセットの可用性によって制限されている。 この制限に対処するために、大規模な多言語言語モデルを利用して、少数ショットおよびゼロショット設定でACTを実行するRetrieval and Attribute-Marking enhanced Prompting (RAMP)を提案する。 RAMPは,(1)類似したインコンテキストの例を選択するための意味的類似性検索コンポーネントを組み込んで,(2)属性アノテーションでインコンテキストの例をマークすることで,標準プロンプトアプローチよりも生成精度を向上させる。 包括的な実験によると、RAMPはゼロショットと少数ショットの両方で実行可能なアプローチである。

Attribute-controlled translation (ACT) is a subtask of machine translation that involves controlling stylistic or linguistic attributes (like formality and gender) of translation outputs. While ACT has garnered attention in recent years due to its usefulness in real-world applications, progress in the task is currently limited by dataset availability, since most prior approaches rely on supervised methods. To address this limitation, we propose Retrieval and Attribute-Marking enhanced Prompting (RAMP), which leverages large multilingual language models to perform ACT in few-shot and zero-shot settings. RAMP improves generation accuracy over the standard prompting approach by (1) incorporating a semantic similarity retrieval component for selecting similar in-context examples, and (2) marking in-context examples with attribute annotations. Our comprehensive experiments show that RAMP is a viable approach in both zero-shot and few-shot settings.
翻訳日:2023-05-29 13:09:20 公開日:2023-05-26
# 言語的データセットドリフトの特性と測定

Characterizing and Measuring Linguistic Dataset Drift ( http://arxiv.org/abs/2305.17127v1 )

ライセンス: Link先を確認
Tyler A. Chang, Kishaloy Halder, Neha Anna John, Yogarshi Vyas, Yassine Benajiba, Miguel Ballesteros, Dan Roth(参考訳) NLPモデルは、実世界のデータ分布がトレーニングデータと著しく異なる場合、しばしば性能が低下する。 しかしながら、NLPの既存のデータセットドリフトメトリクスは、一般的に、モデル性能に影響を与える言語ドリフトの特定の次元を考慮せず、そのような指標が実際によく使用される個々のサンプルレベルでモデルパフォーマンスを予測する能力については検証されていない。 本稿では,言語データセットのドリフトの3次元(語彙,構造,意味的ドリフト)を提案する。 これらの次元は、内容語周波数の発散、統語的発散、および単語周波数で捉えない変化(語彙的意味変化など)に対応する。 本研究では,3つのドリフト次元すべてに対する解釈可能なメトリクスを提案し,過去のパフォーマンス予測法を改良して,英語感情分類と自然言語推論の例とデータセットレベルでのモデル性能を予測する。 特に一般的な微調整された埋め込み距離(47.7%の誤差減少)と比較すると、ドリフトメトリクスはドメイン外のモデルの確率を予測するのに以前の指標よりも効果的であることがわかった。 微調整された埋め込み距離は、期待された性能で個々の例をランク付けするのにはるかに効果的であるが、語彙、構造的、意味的なドリフトに分解すると、すべてのモデルに依存しないドリフト指標(平均6.7% ROC AUCの増加)の最良の例ランキングを生成する。

NLP models often degrade in performance when real world data distributions differ markedly from training data. However, existing dataset drift metrics in NLP have generally not considered specific dimensions of linguistic drift that affect model performance, and they have not been validated in their ability to predict model performance at the individual example level, where such metrics are often used in practice. In this paper, we propose three dimensions of linguistic dataset drift: vocabulary, structural, and semantic drift. These dimensions correspond to content word frequency divergences, syntactic divergences, and meaning changes not captured by word frequencies (e.g. lexical semantic change). We propose interpretable metrics for all three drift dimensions, and we modify past performance prediction methods to predict model performance at both the example and dataset level for English sentiment classification and natural language inference. We find that our drift metrics are more effective than previous metrics at predicting out-of-domain model accuracies (mean 16.8% root mean square error decrease), particularly when compared to popular fine-tuned embedding distances (mean 47.7% error decrease). Fine-tuned embedding distances are much more effective at ranking individual examples by expected performance, but decomposing into vocabulary, structural, and semantic drift produces the best example rankings of all considered model-agnostic drift metrics (mean 6.7% ROC AUC increase).
翻訳日:2023-05-29 13:09:00 公開日:2023-05-26
# ツールメーカとしての大規模言語モデル

Large Language Models as Tool Makers ( http://arxiv.org/abs/2305.17126v1 )

ライセンス: Link先を確認
Tianle Cai, Xuezhi Wang, Tengyu Ma, Xinyun Chen, Denny Zhou(参考訳) 近年の研究では,外部ツールを用いて大規模言語モデル(llm)の問題解決能力を向上させる可能性が示唆されている。 しかし、このラインでの事前の作業は、既存のツールの可用性に依存する。 本研究は,LLMs As Tool Makers (LATM) と呼ばれるクローズドループフレームワークを提案することで,この依存関係を取り除くための最初の一歩を踏み出したものである。 私たちのアプローチは2つの重要なフェーズで構成されています。 1) ツール作成: llmは、pythonユーティリティ関数としてツールが実装される特定のタスクのためのツールを作成するツールメーカーとして機能する。 2) ツール使用: llmはツールユーザとして動作し、ツールメーカが構築したツールを問題解決に適用する。 ツールユーザは、ツールメーカと同一または異なるLLMであってもよい。 ツール作成により、LLMは、異なるリクエストに適用可能なツールを継続的に生成し、タスクの解決に有益な場合には、将来のリクエストが対応するAPIを呼び出すことができる。 さらに、ツール製造・ツール利用段階におけるLCM間の分業は、生成したツールや問題解の品質を損なうことなく、コスト効率を達成する機会をもたらす。 例えば、ツール作成の要求がツールの使用よりも高度な機能であることを認識し、ツールメーカーとして強力なリソース集約モデル、ツールユーザとして軽量かつ費用対効果のモデルを適用することができます。 我々は、ビッグベンチタスクを含む様々な複雑な推論タスクにわたるアプローチの有効性を検証する。 ツールメーカとしてGPT-4、ツールユーザとしてGPT-3.5を使用すると、ツールメーカとツール使用の両方でGPT-4と同等の性能を達成でき、推論コストは大幅に削減される。

Recent research shows the potential of enhancing the problem-solving ability of large language models (LLMs) through the use of external tools. However, prior work along this line depends on the availability of existing tools. In this work, we take an initial step towards removing this dependency by proposing a closed-loop framework, referred to as LLMs As Tool Makers (LATM), where LLMs create their own reusable tools for problem-solving. Our approach consists of two key phases: 1) tool making: an LLM acts as the tool maker that crafts tools for given tasks, where a tool is implemented as a Python utility function. 2) tool using: an LLM acts as the tool user, which applies the tool built by the tool maker for problem-solving. The tool user can be either the same or a different LLM from the tool maker. Tool-making enables an LLM to continually generate tools that can be applied to different requests so that future requests can call the corresponding APIs when beneficial for solving the tasks. Furthermore, the division of labor among LLMs for tool-making and tool-using phases introduces the opportunity to achieve cost effectiveness without degrading the quality of generated tools and problem solutions. For example, recognizing that tool-making demands more sophisticated capabilities than tool-using, we can apply a powerful yet resource-intensive model as the tool maker, and a lightweight while cost-effective model as the tool user. We validate the effectiveness of our approach across a variety of complex reasoning tasks, including Big-Bench tasks. With GPT-4 as the tool maker and GPT-3.5 as the tool user, LATM can achieve performance that is on par with using GPT-4 for both tool making and tool using, while the inference cost is significantly reduced.
翻訳日:2023-05-29 13:08:33 公開日:2023-05-26
# フォトニック量子状態の制御におけるslmの利用の検証

Inspecting the use of SLMs for the control of photonic quantum states ( http://arxiv.org/abs/2305.17125v1 )

ライセンス: Link先を確認
Sebasti\'an Bordakevich, Dudbil Pab\'on, Lorena Reb\'on, Silvia Ledesma(参考訳) 空間光変調器(SLM)は光の量子状態をコヒーレントに制御するために広く用いられている。 これらの実験を行う際、いくつかの仮定がなされる。 例えば、双対光子対の位置-運動相関は、液晶ディスプレイ(LCD)をSLMとして使用することにより影響を受けないと考えられる。 さらに、高強度レーザー源を用いた装置のキャラクタリゼーションは、単一光子系においても有効であると仮定した。 本研究では,シリコン(lcos)ディスプレイ上の液晶に対して,実験的な不確かさの中で,このような仮定が許容できることを示す。 これは、双対光子源に基づく量子状態のコヒーレント制御のためにこの種のディスプレイを使用する場合、特に重要である。

Spatial light modulators (SLMs) are widely used to coherently control quantum states of light. When carrying out these experiments, some assumptions are made. For instance, it is supposed that the position-momentum correlations between twin photon pairs are not affected by the use of a liquid crystal display (LCD) as a SLM. Furthermore, it is assumed that the characterization of such devices performed with an intense laser source, is still valid in the single photon regime. In this work, we show that such assumptions are acceptable, within the experimental uncertainties, for a liquid crystal on silicon (LCoS) display. This is especially important when considering the use of this kind of displays for the coherent control of quantum states based on twin photon sources.
翻訳日:2023-05-29 13:08:05 公開日:2023-05-26
# 深層ニューラルネットワークのメモリ効率トレーニングのための多様体正規化

Manifold Regularization for Memory-Efficient Training of Deep Neural Networks ( http://arxiv.org/abs/2305.17119v1 )

ライセンス: Link先を確認
Shadi Sartipi and Edgar A. Bernal(参考訳) 機械学習とディープラーニングのコミュニティで広く普及しているトレンドの1つは、最先端のパフォーマンスエンベロープを押し続けるために、ますます大きなモデルの利用に傾くことだ。 この傾向は、関連する技術へのアクセスを平均的な実践者にとってより難しくし、この分野の知識生産を民主化したいという願望とは対照的である。 本稿では,インダクティブバイアス駆動ネットワーク設計原理とレイヤワイズ多様体指向正規化目標を活用し,従来のニューラルネットワーク学習過程におけるメモリ効率の向上を実現するためのフレームワークを提案する。 フレームワークの使用により、従来の学習技術と比較して絶対性能と経験的一般化誤差が改善される。 我々は、cifar-10とcifar-100という2つの標準画像データセットの有効性の質的、定量的な証拠を含む、フレームワークの実証的検証を提供する。 提案フレームワークは既存のネットワーク圧縮手法とシームレスに組み合わせてメモリの節約を図ることができる。

One of the prevailing trends in the machine- and deep-learning community is to gravitate towards the use of increasingly larger models in order to keep pushing the state-of-the-art performance envelope. This tendency makes access to the associated technologies more difficult for the average practitioner and runs contrary to the desire to democratize knowledge production in the field. In this paper, we propose a framework for achieving improved memory efficiency in the process of learning traditional neural networks by leveraging inductive-bias-driven network design principles and layer-wise manifold-oriented regularization objectives. Use of the framework results in improved absolute performance and empirical generalization error relative to traditional learning techniques. We provide empirical validation of the framework, including qualitative and quantitative evidence of its effectiveness on two standard image datasets, namely CIFAR-10 and CIFAR-100. The proposed framework can be seamlessly combined with existing network compression methods for further memory savings.
翻訳日:2023-05-29 13:07:55 公開日:2023-05-26
# scissorhands: テスト時のllm kvキャッシュ圧縮における重要度仮説の永続性を活用する

Scissorhands: Exploiting the Persistence of Importance Hypothesis for LLM KV Cache Compression at Test Time ( http://arxiv.org/abs/2305.17118v1 )

ライセンス: Link先を確認
Zichang Liu, Aditya Desai, Fangshuo Liao, Weitao Wang, Victor Xie, Zhaozhuo Xu, Anastasios Kyrillidis, Anshumali Shrivastava(参考訳) 大規模言語モデル(LLM)は、エキサイティングなAIアプリケーションに新たな波を巻き起こした。 これらのモデルを大規模にホストするには、かなりのメモリリソースが必要です。 デプロイメントにおける重要なメモリボトルネックのひとつは、コンテキストウィンドウにある。 モデル重みはメモリに飢えていると一般的に認識されるが、生成プロセス(kvキャッシュ)中に格納されたキー値埋め込みのサイズはモデルサイズを上回ることができる。 KVキャッシュの巨大なサイズは、高いスループットの推論ワークロードにとって重要な推論バッチサイズに制約を課します。 注意点の興味深い観察から着想を得た我々は、重要さの持続性を仮説を立てた。 この仮説に関する実証的検証と理論的解析に基づいて、モデルを微調整することなくKVキャッシュのメモリ使用率を一定予算で維持するシステムであるScisorhandsを提案する。 本質的に、ScisorhandsはKVキャッシュを管理するために、より高い確率でキートークンを格納する。 モデル品質を損なうことなく,KVキャッシュの推論メモリ使用量を最大5倍に削減できることを確認した。 さらに,シッソルハンドと4ビット量子化を組み合わせることで,従来モデル重みを圧縮し,最大20倍の圧縮を実現することを実証した。

Large language models(LLMs) have sparked a new wave of exciting AI applications. Hosting these models at scale requires significant memory resources. One crucial memory bottleneck for the deployment stems from the context window. It is commonly recognized that model weights are memory hungry; however, the size of key-value embedding stored during the generation process (KV cache) can easily surpass the model size. The enormous size of the KV cache puts constraints on the inference batch size, which is crucial for high throughput inference workload. Inspired by an interesting observation of the attention scores, we hypothesize the persistence of importance: only pivotal tokens, which had a substantial influence at one step, will significantly influence future generations. Based on our empirical verification and theoretical analysis around this hypothesis, we propose Scissorhands, a system that maintains the memory usage of the KV cache at a fixed budget without finetuning the model. In essence, Scissorhands manages the KV cache by storing the pivotal tokens with a higher probability. We validate that Scissorhands reduces the inference memory usage of the KV cache by up to 5X without compromising model quality. We further demonstrate that Scissorhands can be combined with 4-bit quantization, traditionally used to compress model weights, to achieve up to 20X compression.
翻訳日:2023-05-29 13:07:40 公開日:2023-05-26
# 検索言語モデルを用いた生体データにおけるGPT-3/4結果の精度向上

Improving accuracy of GPT-3/4 results on biomedical data using a retrieval-augmented language model ( http://arxiv.org/abs/2305.17116v1 )

ライセンス: Link先を確認
David Soong, Sriram Sridhar, Han Si, Jan-Samuel Wagner, Ana Caroline Costa S\'a, Christina Y Yu, Kubra Karagoz, Meijian Guan, Hisham Hamadeh, Brandon W Higgs(参考訳) 大規模言語モデル(LLM)は自然言語処理(NLP)に大きな進歩をもたらした。 broad corporaは多様なパターンをキャプチャするが、無関係なパターンを導入することができるが、焦点を合わせると誤解を招く情報を減らすことで信頼性が向上する。 LLMを集中コーパスでトレーニングすることは、計算上の課題を引き起こす。 別のアプローチとして、特定のドメインでテストされた検索拡張(RetA)メソッドを使用する方法がある。 OpenAIのGPT-3, GPT-4, BingのPrometheus, および独自のRetAモデルについて, びまん性大B細胞リンパ腫(DLBCL)19問を比較検討した。 8人の独立したレビュアーが,正確性,妥当性,可読性(評価1-3。 RetAモデルは、12/19の3点スコア、47点、関連13/19, 50点、GPT-4(8/19, 43; 11/19, 49点)の精度が最も高かった。 GPT-4は最高可読性スコア (17/19, 55) を受け、続いて GPT-3 (15/19, 53) と RetA (11/19, 47) が続いた。 prometheusは精度(34)、妥当性(32)、可読性(38)が低かった。 gpt-3.5とgpt-4はいずれもretaモデルとprometheusよりも19反応中より幻覚が多かった。 幻覚は、ほとんどが存在しない参照や効果データと関連していた。 これらの結果から,ドメイン固有コーパスを補足したRetAモデルは,特定のドメイン内での精度および関連性において汎用LLMよりも優れている可能性が示唆された。 しかし、この評価は特定の質問やメトリクスに限られており、セマンティック検索や他のNLPタスクの課題を捉えていない可能性がある。 さらなる研究は、強みと限界をより包括的に評価するための様々なllmアーキテクチャ、reta方法論、評価方法を検討する。

Large language models (LLMs) have made significant advancements in natural language processing (NLP). Broad corpora capture diverse patterns but can introduce irrelevance, while focused corpora enhance reliability by reducing misleading information. Training LLMs on focused corpora poses computational challenges. An alternative approach is to use a retrieval-augmentation (RetA) method tested in a specific domain. To evaluate LLM performance, OpenAI's GPT-3, GPT-4, Bing's Prometheus, and a custom RetA model were compared using 19 questions on diffuse large B-cell lymphoma (DLBCL) disease. Eight independent reviewers assessed responses based on accuracy, relevance, and readability (rated 1-3). The RetA model performed best in accuracy (12/19 3-point scores, total=47) and relevance (13/19, 50), followed by GPT-4 (8/19, 43; 11/19, 49). GPT-4 received the highest readability scores (17/19, 55), followed by GPT-3 (15/19, 53) and the RetA model (11/19, 47). Prometheus underperformed in accuracy (34), relevance (32), and readability (38). Both GPT-3.5 and GPT-4 had more hallucinations in all 19 responses compared to the RetA model and Prometheus. Hallucinations were mostly associated with non-existent references or fabricated efficacy data. These findings suggest that RetA models, supplemented with domain-specific corpora, may outperform general-purpose LLMs in accuracy and relevance within specific domains. However, this evaluation was limited to specific questions and metrics and may not capture challenges in semantic search and other NLP tasks. Further research will explore different LLM architectures, RetA methodologies, and evaluation methods to assess strengths and limitations more comprehensively.
翻訳日:2023-05-29 13:07:19 公開日:2023-05-26
# 分散LTLのためのポリシー合成と強化学習

Policy Synthesis and Reinforcement Learning for Discounted LTL ( http://arxiv.org/abs/2305.17115v1 )

ライセンス: Link先を確認
Rajeev Alur, Osbert Bastani, Kishor Jothimurugan, Mateo Perez, Fabio Somenzi, Ashutosh Trivedi(参考訳) 報酬関数を手動で特定することの難しさは、強化学習(RL)の目的を表現するために線形時間論理(LTL)を使うことに関心を惹きつけた。 しかし、ltlは遷移確率の小さな摂動に敏感であり、追加の仮定なしにほぼ正しい(pac)学習を妨げているという欠点がある。 時間割引は、論理の高表現性を保ちながら、この感度を除去する方法を提供する。 マルコフ決定過程における政策合成における割引LTLの利用について検討し,全ての割引要因が同一である場合,報酬機を介して割引LTLを割引報酬に還元する方法を示す。

The difficulty of manually specifying reward functions has led to an interest in using linear temporal logic (LTL) to express objectives for reinforcement learning (RL). However, LTL has the downside that it is sensitive to small perturbations in the transition probabilities, which prevents probably approximately correct (PAC) learning without additional assumptions. Time discounting provides a way of removing this sensitivity, while retaining the high expressivity of the logic. We study the use of discounted LTL for policy synthesis in Markov decision processes with unknown transition probabilities, and show how to reduce discounted LTL to discounted-sum reward via a reward machine when all discount factors are identical.
翻訳日:2023-05-29 13:06:35 公開日:2023-05-26
# 簡易配列事前化による強化学習

Reinforcement Learning with Simple Sequence Priors ( http://arxiv.org/abs/2305.17109v1 )

ライセンス: Link先を確認
Tankred Saanum, No\'emi \'Eltet\H{o}, Peter Dayan, Marcel Binz, Eric Schulz(参考訳) 他のすべてが平等でシンプルなモデルは、より複雑なモデルよりも好まれるべきです。 強化学習(RL)では、単純さはアクションバイアクションベースで定量化されることが多いが、このタイムスケールは、しばしばシーケンシャル戦略に存在する反復のような時間的規則を無視している。 そこで我々は,圧縮可能な動作列でタスクを解くことを学習するRLアルゴリズムを提案する。 自己回帰モデルで学習可能なシーケンスと、既製のデータ圧縮アルゴリズムで圧縮可能なシーケンスの2つについて検討する。 これらの嗜好をシーケンス先行に拡張することで、エージェントに報酬を最大化するポリシーを学ぶインセンティブを与える新しい情報理論の目的を導き出す。 得られたRLアルゴリズムは学習を高速化し,DeepMind Control Suiteの一連の連続制御タスクにおいて,最先端のモデルフリーアプローチよりも高いリターンが得られることを示す。 これらの事前処理は、ノイズ観測に頑健でオープンループ制御が可能な強力な情報レギュラー化エージェントも生成する。

Everything else being equal, simpler models should be preferred over more complex ones. In reinforcement learning (RL), simplicity is typically quantified on an action-by-action basis -- but this timescale ignores temporal regularities, like repetitions, often present in sequential strategies. We therefore propose an RL algorithm that learns to solve tasks with sequences of actions that are compressible. We explore two possible sources of simple action sequences: Sequences that can be learned by autoregressive models, and sequences that are compressible with off-the-shelf data compression algorithms. Distilling these preferences into sequence priors, we derive a novel information-theoretic objective that incentivizes agents to learn policies that maximize rewards while conforming to these priors. We show that the resulting RL algorithm leads to faster learning, and attains higher returns than state-of-the-art model-free approaches in a series of continuous control tasks from the DeepMind Control Suite. These priors also produce a powerful information-regularized agent that is robust to noisy observations and can perform open-loop control.
翻訳日:2023-05-29 13:06:21 公開日:2023-05-26
# sustain.AI:サステナビリティレポートを分析するレコメンダシステム

sustain.AI: a Recommender System to analyze Sustainability Reports ( http://arxiv.org/abs/2305.08711v3 )

ライセンス: Link先を確認
Lars Hillebrand, Maren Pielka, David Leonhard, Tobias Deu{\ss}er, Tim Dilmaghani, Bernd Kliem, R\"udiger Loitz, Milad Morad, Christian Temath, Thiago Bell, Robin Stenzel, Rafet Sifa(参考訳) 本研究では,企業のサステナビリティレポートを効率的に分析するための,監査人や金融投資家を支援する,インテリジェントでコンテキスト対応のレコメンデーションシステムであるSastainAIを紹介する。 このツールは、BERTベースのエンコーディングモジュールとマルチラベル分類ヘッドを結合したエンドツーエンドのトレーニング可能なアーキテクチャを活用し、持続可能性レポートからGRI(Global Reporting Initiative)標準のそれぞれの法則への関連するテキストパスを一致させる。 我々は,ドイツの新しいサステナビリティレポートデータセットを2つ評価し,複数のベースラインと比較して高い推薦性能を実現した。 maintainaiはhttps://sustain.ki.nrw/で誰でも利用できる。

We present sustainAI, an intelligent, context-aware recommender system that assists auditors and financial investors as well as the general public to efficiently analyze companies' sustainability reports. The tool leverages an end-to-end trainable architecture that couples a BERT-based encoding module with a multi-label classification head to match relevant text passages from sustainability reports to their respective law regulations from the Global Reporting Initiative (GRI) standards. We evaluate our model on two novel German sustainability reporting data sets and consistently achieve a significantly higher recommendation performance compared to multiple strong baselines. Furthermore, sustainAI is publicly available for everyone at https://sustain.ki.nrw/.
翻訳日:2023-05-29 10:51:44 公開日:2023-05-26
# 線形配置を超えた1次元秩序原子鎖における集合状態の光制御

Optical control of collective states in 1D ordered atomic chains beyond the linear regime ( http://arxiv.org/abs/2212.13022v3 )

ライセンス: Link先を確認
Nikos Fayard, Igor Ferrier-Barbut, Antoine Browaeys and Jean-Jacques Greffet(参考訳) 効率的な原子-光子界面を開発する必要性により、近年の取り組みは、サブラジアントまたは超ラジカル集合状態をサポートすることのできる大きな冷原子配列によるキャビティの置換を提案している。 実際には、亜ラジアント状態は放射から分離され、ほとんどの用途にとってハードルとなる。 本研究では,v字型構成でn個の3レベル原子からなる1次元(1次元)鎖を用いて,この限界をバイパスするプロトコルを理論的に検討する。 プロトコル全体を通して、チェーンは時変メタマテリアルとして振る舞う:スペクトル的に空間的に制御されたモードで吸収、貯蔵、オンデマンドの放出を可能にする。 原子の量子的性質を考慮して、線形状態と非線形状態の境界を確立する。 非線形系では、二重励起状態が超放射能状態から亜放射能状態へコヒーレントに移動できることを示し、その絡み合いの光学的特徴づけへの道を開く。

Driven by the need to develop efficient atom-photon interfaces, recent efforts have proposed replacing cavities by large arrays of cold atoms that can support subradiant or superradiant collective states. In practice, subradiant states are decoupled from radiation, which constitutes a hurdle to most applications. In this work, we study theoretically a protocol that bypasses this limit using a one dimensional (1D) chain composed of N three-level atoms in a V-shaped configuration. Throughout the protocol, the chain behaves as a time-varying metamaterial: enabling absorption, storage and on-demand emission in a spectrally and spatially controlled mode. Taking into account the quantum nature of atoms, we establish the boundary between the linear regime and the nonlinear regime. In the nonlinear regime, we demonstrate that doubly-excited states can be coherently transferred from superradiant to subradiant states, opening the way to the optical characterization of their entanglement.
翻訳日:2023-05-29 10:51:18 公開日:2023-05-26
# バイアスゼロのスカラー不変量ネットワーク

Scalar Invariant Networks with Zero Bias ( http://arxiv.org/abs/2211.08486v3 )

ライセンス: Link先を確認
Chuqin Geng, Xiaojie Xu, Haolin Ye, Xujie Si(参考訳) weightsと同じく、バイアス項はニューラルネットワークを含む多くの一般的な機械学習モデルの学習可能なパラメータである。 バイアスはニューラルネットワークの表現力を高め、コンピュータビジョンにおける様々なタスクを解決できると考えられている。 しかし、入力空間における画像の本質的な分布と所望のモデル特性を第一原理から考慮し、画像分類などの画像関連タスクにはバイアスを無視することができると論じる。 以上の結果から,ゼロバイアスニューラルネットワークは,実際の画像分類タスクにおいてバイアス付きネットワークと同等の性能を発揮することが示唆された。 ゼロバイアスニューラルネットワークはスカラー不変性 (multiplication invariance) と呼ばれる貴重な特性を持つことを示した。 これは、入力画像のコントラストが変更されたとき、ネットワークの予測が変わらないことを意味する。 我々はスカラー不変性をより一般的な場合にまで拡張し、入力空間の凸領域の形式的検証を可能にする。 さらに,ゼロバイアスニューラルネットワークがゼロ画像の予測に有効であることを示す。 特定のラベルに対するバイアスを示すような最先端のモデルとは異なり、ゼロバイアスネットワークはすべてのラベルに対して一様である。 我々は、画像分類のためのニューラルネットワークアーキテクチャを設計する上で、バイアス項の減少は幾何学的先行と見なすことができると考えている。 ゼロバイアスニューラルネットワークの堅牢性と公正性は、信頼できる倫理的AIへの有望な道のりを示すかもしれない。

Just like weights, bias terms are the learnable parameters of many popular machine learning models, including neural networks. Biases are thought to enhance the representational power of neural networks, enabling them to solve a variety of tasks in computer vision. However, we argue that biases can be disregarded for some image-related tasks such as image classification, by considering the intrinsic distribution of images in the input space and desired model properties from first principles. Our findings suggest that zero-bias neural networks can perform comparably to biased networks for practical image classification tasks. We demonstrate that zero-bias neural networks possess a valuable property called scalar (multiplication) invariance. This means that the prediction of the network remains unchanged when the contrast of the input image is altered. We extend scalar invariance to more general cases, enabling formal verification of certain convex regions of the input space. Additionally, we prove that zero-bias neural networks are fair in predicting the zero image. Unlike state-of-the-art models that may exhibit bias toward certain labels, zero-bias networks have uniform belief in all labels. We believe dropping bias terms can be considered as a geometric prior in designing neural network architecture for image classification, which shares the spirit of adapting convolutions as the transnational invariance prior. The robustness and fairness advantages of zero-bias neural networks may also indicate a promising path towards trustworthy and ethical AI.
翻訳日:2023-05-29 10:51:01 公開日:2023-05-26
# PAD-Net: 動的ネットワークのための効率的なフレームワーク

PAD-Net: An Efficient Framework for Dynamic Networks ( http://arxiv.org/abs/2211.05528v3 )

ライセンス: Link先を確認
Shwai He, Liang Ding, Daize Dong, Boan Liu, Fuqiang Yu, Dacheng Tao(参考訳) 動的畳み込み(DY-Conv)やMixture of Experts(MoE)といった動的ネットワークは、許容する計算コストでモデルの表現能力を大幅に改善できるため、広く研究されている。 動的ネットワークを実装する一般的なプラクティスは、与えられた静的レイヤを、すべてのパラメータが動的(少なくとも1つの層内で)で入力によって変化する完全に動的層に変換することである。 しかし、このような完全な動的設定は冗長なパラメータと高いデプロイメントコストを引き起こし、ダイナミックネットワークの適用範囲を幅広いタスクやモデルに制限する可能性がある。 私たちの研究の主な貢献は、動的ネットワークにおける基本的な常識に挑戦し、冗長な動的パラメータを静的に変換するために部分動的ネットワーク、すなわちpad-netを提案することです。 また、動的パラメータと静的パラメータを効率的に分割する反復モード分割を設計する。 本手法は画像分類とGLUEベンチマークの両方において,DY-ConvとMoEという2つの典型的な動的アーキテクチャを用いた大規模実験によって包括的に支持されている。 さらに、完全な動的ネットワークを$+0.7\%$ top-1 accで上回り、ResNet-50の動的パラメータは$30\%、BERTの動的パラメータは$50\%で言語理解の平均スコアは$+1.9\%である。 コードは: \url{https://github.com/Shwai-He/PAD-Net}.orgでリリースされる。

Dynamic networks, e.g., Dynamic Convolution (DY-Conv) and the Mixture of Experts (MoE), have been extensively explored as they can considerably improve the model's representation power with acceptable computational cost. The common practice in implementing dynamic networks is to convert the given static layers into fully dynamic ones where all parameters are dynamic (at least within a single layer) and vary with the input. However, such a fully dynamic setting may cause redundant parameters and high deployment costs, limiting the applicability of dynamic networks to a broader range of tasks and models. The main contributions of our work are challenging the basic commonsense in dynamic networks and proposing a partially dynamic network, namely PAD-Net, to transform the redundant dynamic parameters into static ones. Also, we further design Iterative Mode Partition to partition dynamic and static parameters efficiently. Our method is comprehensively supported by large-scale experiments with two typical advanced dynamic architectures, i.e., DY-Conv and MoE, on both image classification and GLUE benchmarks. Encouragingly, we surpass the fully dynamic networks by $+0.7\%$ top-1 acc with only $30\%$ dynamic parameters for ResNet-50 and $+1.9\%$ average score in language understanding with only $50\%$ dynamic parameters for BERT. Code will be released at: \url{https://github.com/Shwai-He/PAD-Net}.
翻訳日:2023-05-29 10:50:41 公開日:2023-05-26
# 悪い解は稀であるため、高過パラメータ分類器が一般化する

Highly over-parameterized classifiers generalize since bad solutions are rare ( http://arxiv.org/abs/2211.03570v3 )

ライセンス: Link先を確認
Julius Martinetz, Thomas Martinetz(参考訳) 本研究では,経験的リスク最小化(ERM)が学習誤差をゼロにする過パラメータ分類器について検討する。 このような過度なパラメータ設定では、トレーニングエラーがゼロのグローバルなミニマが多数存在する。 ある条件下では、真の誤差が {\epsilon} より大きい「悪い」大域最小値の分数は、訓練データ n の個数で指数関数的にゼロに崩壊することを示す。 境界は、与えられた分類問題に使用される分類子関数の集合上の真の誤差の分布に依存し、必ずしも分類子関数集合のサイズや複雑さ(例えばパラメータの数)に依存するとは限らない。 これは、高パラメータのニューラルネットワークでさえ予期せぬほどよい一般化を説明するかもしれない。 我々は、合成データセットとmnistのサブセットに関する実験で数学的枠組みを検証するとともに、caltech101のサブセット上でvgg19とresnet18を用いてこの仮説を検証した。

We study over-parameterized classifiers where Empirical Risk Minimization (ERM) for learning leads to zero training error. In these over-parameterized settings there are many global minima with zero training error, some of which generalize better than others. We show that under certain conditions the fraction of "bad" global minima with a true error larger than {\epsilon} decays to zero exponentially fast with the number of training data n. The bound depends on the distribution of the true error over the set of classifier functions used for the given classification problem, and does not necessarily depend on the size or complexity (e.g. the number of parameters) of the classifier function set. This might explain the unexpectedly good generalization even of highly over-parameterized Neural Networks. We validate our mathematical framework with experiments on a synthetic data set and a subset of MNIST, and also test our hypothesis with VGG19 and ResNet18 on a subset of Caltech101.
翻訳日:2023-05-29 10:50:14 公開日:2023-05-26
# geneva: 数百のイベントタイプと引数ロールによるイベント引数抽出のためのベンチマーク汎用性

GENEVA: Benchmarking Generalizability for Event Argument Extraction with Hundreds of Event Types and Argument Roles ( http://arxiv.org/abs/2205.12505v4 )

ライセンス: Link先を確認
Tanmay Parekh, I-Hung Hsu, Kuan-Hao Huang, Kai-Wei Chang, Nanyun Peng(参考訳) イベント引数抽出(EAE)の最近の研究は、新しいイベントやドメインに対応するためのモデル一般化性の改善に焦点を当てている。 しかし、ACEやEREのような標準的なベンチマークデータセットは、40のイベントタイプと25のエンティティ中心の引数ロールをカバーする。 限られた多様性とカバレッジは、これらのデータセットがEAEモデルの一般化可能性を適切に評価することを妨げる。 本稿では,EAEオントロジーを大規模かつ多種多様なものにすることで貢献する。 このオントロジーは、これら2つのタスク間の類似性を利用して、EAEのための包括的なセマンティックロールラベル(SRL)データセットであるFrameNetを変換することによって作成される。 次に、徹底した人間専門家のアノテーションを収集してオントロジーを構築し、115のイベントと220の引数の役割を結論付け、その役割の大部分はエンティティではない。 このオントロジを利用して,4つのテストスイートからなる多種多様な汎用性ベンチマークデータセットであるgenevaをさらに紹介する。 各種のEAEモデルを6種類ベンチマークする。 その結果,非エンタテイメントの議論の役割から,最高の評価モデルであっても39%のF1スコアしか達成できないことが判明した。 全体として、我々の大規模で多様なEAEオントロジーは、より包括的な将来的なリソースを作成するのに役立つ一方、GENEVAは、EAEの一般化性を改善するためのさらなる研究を奨励する、挑戦的なベンチマークデータセットである。 コードとデータはhttps://github.com/PlusLabNLP/GENEVAで確認できる。

Recent works in Event Argument Extraction (EAE) have focused on improving model generalizability to cater to new events and domains. However, standard benchmarking datasets like ACE and ERE cover less than 40 event types and 25 entity-centric argument roles. Limited diversity and coverage hinder these datasets from adequately evaluating the generalizability of EAE models. In this paper, we first contribute by creating a large and diverse EAE ontology. This ontology is created by transforming FrameNet, a comprehensive semantic role labeling (SRL) dataset for EAE, by exploiting the similarity between these two tasks. Then, exhaustive human expert annotations are collected to build the ontology, concluding with 115 events and 220 argument roles, with a significant portion of roles not being entities. We utilize this ontology to further introduce GENEVA, a diverse generalizability benchmarking dataset comprising four test suites, aimed at evaluating models' ability to handle limited data and unseen event type generalization. We benchmark six EAE models from various families. The results show that owing to non-entity argument roles, even the best-performing model can only achieve 39% F1 score, indicating how GENEVA provides new challenges for generalization in EAE. Overall, our large and diverse EAE ontology can aid in creating more comprehensive future resources, while GENEVA is a challenging benchmarking dataset encouraging further research for improving generalizability in EAE. The code and data can be found at https://github.com/PlusLabNLP/GENEVA.
翻訳日:2023-05-29 10:49:58 公開日:2023-05-26
# CLIP3Dstyler:言語ガイドによる3次元任意ニューラルスタイル転送

CLIP3Dstyler: Language Guided 3D Arbitrary Neural Style Transfer ( http://arxiv.org/abs/2305.15732v2 )

ライセンス: Link先を確認
Ming Gao, YanWu Xu, Yang Zhao, Tingbo Hou, Chenkai Zhao, Mingming Gong(参考訳) 本稿では,新しい言語誘導3次元任意ニューラルスタイル伝達法(clip3dstyler)を提案する。 テキスト記述から任意のスタイルで任意の3Dシーンをスタイリングし、画像条件のスタイル転送よりも柔軟な新しいスタイル化されたビューを合成することを目的としている。 従来の2D手法CLIPStylerと比較して、3Dシーンをスタイリングし、新しいシーンに一般化することができる。 簡単な解決策は、以前の画像条件付き3Dスタイル転送とテキスト条件付き2Dスタイル転送 \bigskip メソッドを組み合わせることである。 しかしながら、このソリューションは2つの大きな課題のため、私たちの目標を達成できません。 まず、ポイントクラウドと言語を異なる機能スケール(低レベル、高レベル)でマッチングするマルチモーダルモデルはありません。 第2に,テキストプロンプトとスタイル条件の異なるコンテンツをスタイル化する場合のスタイル混合問題を観察した。 最初の課題に対処するため、ローカルおよびグローバルビューのテキスト機能とクラウド機能を一致させる3Dスタイリングフレームワークを提案する。 2つ目の問題として、任意のテキストスタイルをフレームワークの補体としてより区別しやすくするための方向性のばらつき損失の改善を提案する。 テキスト誘導型3次元シーン転送におけるモデルの有効性を示すため,広範囲な実験を行った。

In this paper, we propose a novel language-guided 3D arbitrary neural style transfer method (CLIP3Dstyler). We aim at stylizing any 3D scene with an arbitrary style from a text description, and synthesizing the novel stylized view, which is more flexible than the image-conditioned style transfer. Compared with the previous 2D method CLIPStyler, we are able to stylize a 3D scene and generalize to novel scenes without re-train our model. A straightforward solution is to combine previous image-conditioned 3D style transfer and text-conditioned 2D style transfer \bigskip methods. However, such a solution cannot achieve our goal due to two main challenges. First, there is no multi-modal model matching point clouds and language at different feature scales (low-level, high-level). Second, we observe a style mixing issue when we stylize the content with different style conditions from text prompts. To address the first issue, we propose a 3D stylization framework to match the point cloud features with text features in local and global views. For the second issue, we propose an improved directional divergence loss to make arbitrary text styles more distinguishable as a complement to our framework. We conduct extensive experiments to show the effectiveness of our model on text-guided 3D scene style transfer.
翻訳日:2023-05-29 10:43:30 公開日:2023-05-26
# 符号混合ヒンディー語データに対する事前学習BERTモデルの比較検討

Comparative Study of Pre-Trained BERT Models for Code-Mixed Hindi-English Data ( http://arxiv.org/abs/2305.15722v2 )

ライセンス: Link先を確認
Aryan Patil, Varad Patwardhan, Abhishek Phaltankar, Gauri Takawane, Raviraj Joshi(参考訳) コード混合」という用語は、同じテキストで複数の言語を使用することを指す。 この現象は、主にソーシャルメディアプラットフォームで観察され、時間が経つにつれて順応が増加している。 かなりの数の人が、それらの言語の1つを理解することで理解できないコード混合言語を使用しているため、言語の外部要素を検出し、それらを正しく処理することが重要である。 本研究では,低リソースのヒンズー英語コード混合言語に注目し,感情分析,感情認識,ヘイトスピーチ認識など,異なるコード混合自然言語処理タスクの性能を向上させる。 教師なしアプローチを用いて事前学習したトランスフォーマー言語モデルの比較分析を行う。 我々は、コードミックスされたHingBERT、HingRoBERTa、HingRoBERTa-Mixed、mBERT、コードミックスされたAlBERT、BERT、RoBERTaといった非コードミックスモデルを含む。 我々は,HingBERTベースのモデルを用いて,実コード混合テキストで事前学習した各データセットの最先端結果について報告する。 HingBERTベースのモデルは大幅に改善され、コードミックステキスト上でのバニラBERTモデルの低パフォーマンスが強調されます。

The term "Code Mixed" refers to the use of more than one language in the same text. This phenomenon is predominantly observed on social media platforms, with an increasing amount of adaptation as time goes on. It is critical to detect foreign elements in a language and process them correctly, as a considerable number of individuals are using code-mixed languages that could not be comprehended by understanding one of those languages. In this work, we focus on low-resource Hindi-English code-mixed language and enhancing the performance of different code-mixed natural language processing tasks such as sentiment analysis, emotion recognition, and hate speech identification. We perform a comparative analysis of different Transformer-based language Models pre-trained using unsupervised approaches. We have included the code-mixed models like HingBERT, HingRoBERTa, HingRoBERTa-Mixed, mBERT, and non-code-mixed models like AlBERT, BERT, and RoBERTa for comparative analysis of code-mixed Hindi-English downstream tasks. We report state-of-the-art results on respective datasets using HingBERT-based models which are specifically pre-trained on real code-mixed text. Our HingBERT-based models provide significant improvements thus highlighting the poor performance of vanilla BERT models on code-mixed text.
翻訳日:2023-05-29 10:43:07 公開日:2023-05-26
# 時空間二重密度演算子-空間的および時間的量子過程を解析するための統一的枠組み

The spatiotemporal doubled density operator: a unified framework for analyzing spatial and temporal quantum processes ( http://arxiv.org/abs/2305.15649v2 )

ライセンス: Link先を確認
Zhian Jia, Dagomir Kaszlikowski(参考訳) 空間的および時間的量子過程の測定統計は、異なるメカニズムによって生成される。 空間的に分離された測定は、非信号的挙動を示す。 しかし、時間のような分離された測定は、過去が未来とは無関係であるため、一方通行のノンシグナリングしか生じないが、逆は真実ではない。 この研究は、時空における量子過程を研究するための包括的なフレームワークとして二重密度演算子を提示する。 プロセスのすべての物理的情報を効果的にキャプチャし、測定とボルン規則は空間的および時間的ケースの両方に一様性を示す。 二重密度演算子上で部分的トレース演算を行うことにより、等時密度演算子を導出できることを実証する。 さらに、二重密度演算子の左または右半分に部分的トレース演算を行うことにより、量子過程の時間性を検出することができる。

The measurement statistics for spatial and temporal quantum processes are produced through distinct mechanisms. Measurements that are space-like separated exhibit non-signaling behavior. However, time-like separated measurements can only result in one-way non-signaling, as the past is independent of the future, but the opposite is not true. This work presents the doubled density operator as a comprehensive framework for studying quantum processes in space-time. It effectively captures all the physical information of the process, with the measurement and Born rule showing uniformity for both spatial and temporal cases. We demonstrate that the equal-time density operator can be derived by performing a partial trace operation on the doubled density operator. Furthermore, the temporality of the quantum process can be detected by conducting a partial trace operation on either the left or right half of the doubled density operator.
翻訳日:2023-05-29 10:42:42 公開日:2023-05-26
# ConvGQR: 対話型検索のための生成クエリ再構成

ConvGQR: Generative Query Reformulation for Conversational Search ( http://arxiv.org/abs/2305.15645v2 )

ライセンス: Link先を確認
Fengran Mo, Kelong Mao, Yutao Zhu, Yihong Wu, Kaiyu Huang, Jian-Yun Nie(参考訳) 会話検索では、ユーザの現在のターンに対する真の検索意図は、前の会話履歴に依存する。 会話のコンテキスト全体から適切な検索クエリを決定することは難しい。 クエリエンコーダの高価な再トレーニングを避けるため、既存のほとんどのメソッドは、手動のクエリ書き換えを模倣して現在のクエリを非テキスト化する書き換えモデルを学習しようとする。 しかし、手書きのクエリは必ずしも最高の検索クエリであるとは限らない。 書き換えモデルのトレーニングは、モデルが優れた検索クエリを生成する能力を制限します。 もう1つの有用なヒントは、質問に対する潜在的な答えである。 本稿では,生成事前学習言語モデル(PLM)に基づく会話クエリを再構成する新しいフレームワークであるConvGQRを提案する。 両方を組み合わせることで、ConvGQRはより良い検索クエリを生成することができる。 さらに,クエリ再構成と検索性能を関連付けるために,クエリ再構成と検索の両方を最適化する知識注入機構を提案する。 4つの対話型検索データセットに対する大規模な実験は、ConvGQRの有効性を示す。

In conversational search, the user's real search intent for the current turn is dependent on the previous conversation history. It is challenging to determine a good search query from the whole conversation context. To avoid the expensive re-training of the query encoder, most existing methods try to learn a rewriting model to de-contextualize the current query by mimicking the manual query rewriting. However, manually rewritten queries are not always the best search queries. Training a rewriting model on them would limit the model's ability to produce good search queries. Another useful hint is the potential answer to the question. In this paper, we propose ConvGQR, a new framework to reformulate conversational queries based on generative pre-trained language models (PLMs), one for query rewriting and another for generating potential answers. By combining both, ConvGQR can produce better search queries. In addition, to relate query reformulation to retrieval performance, we propose a knowledge infusion mechanism to optimize both query reformulation and retrieval. Extensive experiments on four conversational search datasets demonstrate the effectiveness of ConvGQR.
翻訳日:2023-05-29 10:42:27 公開日:2023-05-26
# 時間ステップシフトサンプリングによる拡散モデルにおける露光バイアスの緩和

Alleviating Exposure Bias in Diffusion Models through Sampling with Shifted Time Steps ( http://arxiv.org/abs/2305.15583v2 )

ライセンス: Link先を確認
Mingxiao Li, Tingyu Qu, Wei Sun, Marie-Francine Moens(参考訳) Denoising Diffusion Probabilistic Models (DDPM) は高品質な画像の合成において顕著な効果を示した。 しかし、それらの推論プロセスは、多くの、潜在的に数百の反復的なステップを必要とするため、反復による予測エラーの蓄積による露光バイアスの問題につながる可能性がある。 これまでの研究では、トレーニング中に入力を摂動させることでこの問題を緩和しようと試みており、DDPMの再訓練が義務付けられている。 本研究では,拡散モデルにおける露光バイアスの体系的研究を行い,興味深いことに,モデルの再トレーニングを行わずに,新しいサンプリング法で露光バイアスを軽減できることを示す。 我々は、推論において、各後方時間ステップ $t$ と対応する状態 $\hat{x}_t$ に対して、$\hat{x}_t$ との優れた結合を示す別の時間ステップ $t_s$ が存在することを実証的に理論的に示す。 そこで本研究では,時間シフトサンプリングという推論手法を提案する。 我々のフレームワークはDDIMやDDPMといった既存のサンプリングアルゴリズムとシームレスに統合でき、最小限の追加計算を誘導できる。 実験の結果,提案手法は既存のサンプリングアルゴリズムで生成した画像の品質を効果的に向上できることがわかった。

Denoising Diffusion Probabilistic Models (DDPM) have shown remarkable efficacy in the synthesis of high-quality images. However, their inference process characteristically requires numerous, potentially hundreds, of iterative steps, which could lead to the problem of exposure bias due to the accumulation of prediction errors over iterations. Previous work has attempted to mitigate this issue by perturbing inputs during training, which consequently mandates the retraining of the DDPM. In this work, we conduct a systematic study of exposure bias in diffusion models and, intriguingly, we find that the exposure bias could be alleviated with a new sampling method, without retraining the model. We empirically and theoretically show that, during inference, for each backward time step $t$ and corresponding state $\hat{x}_t$, there might exist another time step $t_s$ which exhibits superior coupling with $\hat{x}_t$. Based on this finding, we introduce an inference method named Time-Shift Sampler. Our framework can be seamlessly integrated with existing sampling algorithms, such as DDIM or DDPM, inducing merely minimal additional computations. Experimental results show that our proposed framework can effectively enhance the quality of images generated by existing sampling algorithms.
翻訳日:2023-05-29 10:42:09 公開日:2023-05-26
# Representation Online Matters: Search and Recommender Systemsにおけるエンド・ツー・エンドの多様化

Representation Online Matters: Practical End-to-End Diversification in Search and Recommender Systems ( http://arxiv.org/abs/2305.15534v2 )

ライセンス: Link先を確認
Pedro Silva, Bhawna Juneja, Shloka Desai, Ashudeep Singh, Nadia Fawaz(参考訳) オンラインプラットフォームの利用が全人口層で拡大を続ける中、ユーザーはコンテンツに代表されるような感覚を欲しがることが多い。 検索結果とレコメンデーションの表現を改善するため,検索からランキングまで,各段階の多様なコンテンツの流れを確実にするエンドツーエンドの多様化を導入する。 Pinterestプラットフォーム上で、検索、関連製品、New User Homefeedを含む複数のプロダクションサーフェスでスケーラブルな多様化メカニズムを開発し、実験し、展開し、美容とファッションコンテンツにおけるさまざまなスキントーンの表現を改善する。 生産システムの多様化には、3つのコンポーネントが含まれている: 多様化を促す要求の識別、検索段階における大規模なコンテンツコーパスからの多様なコンテンツの検索、そして最後に、ランキング段階における自己調整方法で多様性と有効性のトレードオフのバランス。 提案手法は, 検索段階における強力な論理演算子の利用から, 検索段階におけるバケット化検索, 欲張りな再ランク付け者から, ランキング段階における決定的ポイントプロセスを用いた多目的最適化へ進化し, 迅速なイテレーションとスケーラブルな拡張を可能としながら, 多様性と有用性をバランスをとる。 私たちの実験は、これらのアプローチが多様性のメトリクスを著しく改善し、実用度指標にプラスの影響を及ぼし、生産における質的および定量的にユーザ満足度を向上させることを示唆しています。 この記事のPDFはhttps://drive.google.com/file/d/1p5PkqC-sdtX19Y_IAjZCtiSxSEX1IP3q/viewで入手できる。

As the use of online platforms continues to grow across all demographics, users often express a desire to feel represented in the content. To improve representation in search results and recommendations, we introduce end-to-end diversification, ensuring that diverse content flows throughout the various stages of these systems, from retrieval to ranking. We develop, experiment, and deploy scalable diversification mechanisms in multiple production surfaces on the Pinterest platform, including Search, Related Products, and New User Homefeed, to improve the representation of different skin tones in beauty and fashion content. Diversification in production systems includes three components: identifying requests that will trigger diversification, ensuring diverse content is retrieved from the large content corpus during the retrieval stage, and finally, balancing the diversity-utility trade-off in a self-adjusting manner in the ranking stage. Our approaches, which evolved from using Strong-OR logical operator to bucketized retrieval at the retrieval stage and from greedy re-rankers to multi-objective optimization using determinantal point processes for the ranking stage, balances diversity and utility while enabling fast iterations and scalable expansion to diversification over multiple dimensions. Our experiments indicate that these approaches significantly improve diversity metrics, with a neutral to a positive impact on utility metrics and improved user satisfaction, both qualitatively and quantitatively, in production. An accessible PDF of this article is available at https://drive.google.com/file/d/1p5PkqC-sdtX19Y_IAjZCtiSxSEX1IP3q/view
翻訳日:2023-05-29 10:41:45 公開日:2023-05-26
# 厳密なゼロショット階層分類のための単純かつ効果的な枠組み

A Simple and Effective Framework for Strict Zero-Shot Hierarchical Classification ( http://arxiv.org/abs/2305.15282v2 )

ライセンス: Link先を確認
Rohan Bhambhoria, Lei Chen, Xiaodan Zhu(参考訳) 近年、大規模言語モデル(LLM)は、特にゼロまたは少数ショット設定において、ベンチマークタスクにおいて強力なパフォーマンスを実現している。 しかしながら、これらのベンチマークは、階層的な分類のような現実世界の課題に適切に対処しないことが多い。 この課題に対処するために,階層型データセットの従来のタスクを,より示唆的なロングテール予測タスクにリファクタリングすることを提案する。 これらの場合、LSMは失敗しがちである。 これらの制約に対処するため、厳密なゼロショット設定で高い性能を実現するLLMと併用してエンテーメント・コントラディション予測(entailment-contradiction prediction)を提案する。 重要なことに、このメソッドはパラメータ更新やリソース集約的なプロセスを必要としず、複数のデータセットにまたがる強力なパフォーマンスを実現します。

In recent years, large language models (LLMs) have achieved strong performance on benchmark tasks, especially in zero or few-shot settings. However, these benchmarks often do not adequately address the challenges posed in the real-world, such as that of hierarchical classification. In order to address this challenge, we propose refactoring conventional tasks on hierarchical datasets into a more indicative long-tail prediction task. We observe LLMs are more prone to failure in these cases. To address these limitations, we propose the use of entailment-contradiction prediction in conjunction with LLMs, which allows for strong performance in a strict zero-shot setting. Importantly, our method does not require any parameter updates, a resource-intensive process and achieves strong performance across multiple datasets.
翻訳日:2023-05-29 10:41:13 公開日:2023-05-26
# L-CAD:任意のレベル記述による言語ベースの色付け

L-CAD: Language-based Colorization with Any-level Descriptions ( http://arxiv.org/abs/2305.15217v2 )

ライセンス: Link先を確認
Zheng Chang, Shuchen Weng, Peixuan Zhang, Yu Li, Si Li, Boxin Shi(参考訳) 言語ベースのカラー化は、ユーザフレンドリーな自然言語記述の指導の下で、有意義で視覚的な色を生み出す。 従来手法では、画像内のほとんどのオブジェクトに対して、ユーザが包括的な色記述を提供することを暗黙的に仮定していた。 本稿では,任意のレベルの記述で言語ベースの色付けを行う統一モデルを提案する。 我々は、その頑健な言語理解と豊かな色に事前訓練されたモダリティ生成モデルを活用し、あらゆるレベルの記述の本質的なあいまいさに対処する。 さらに,局所的な空間構造を保ち,ゴースト効果を防止するために,入力条件と整合するモジュールを設計する。 提案する新しいサンプリング戦略により,多様で複雑なシナリオでインスタンス対応のカラー化を実現する。 広範な実験結果から,任意のレベル記述を効果的に処理し,言語ベースと自動カラー化手法を両立させる利点が示された。 コードと事前訓練されたモデルは、https://github.com/changzheng123/L-CADで入手できる。

Language-based colorization produces plausible and visually pleasing colors under the guidance of user-friendly natural language descriptions. Previous methods implicitly assume that users provide comprehensive color descriptions for most of the objects in the image, which leads to suboptimal performance. In this paper, we propose a unified model to perform language-based colorization with any-level descriptions. We leverage the pretrained cross-modality generative model for its robust language understanding and rich color priors to handle the inherent ambiguity of any-level descriptions. We further design modules to align with input conditions to preserve local spatial structures and prevent the ghosting effect. With the proposed novel sampling strategy, our model achieves instance-aware colorization in diverse and complex scenarios. Extensive experimental results demonstrate our advantages of effectively handling any-level descriptions and outperforming both language-based and automatic colorization methods. The code and pretrained models are available at: https://github.com/changzheng123/L-CAD.
翻訳日:2023-05-29 10:40:59 公開日:2023-05-26
# 局所sgdは損失関数の2次情報を利用して収束を加速する

Local SGD Accelerates Convergence by Exploiting Second Order Information of the Loss Function ( http://arxiv.org/abs/2305.15013v2 )

ライセンス: Link先を確認
Linxuan Pan, Shenghui Song(参考訳) 複数の更新を繰り返して、局所統計勾配降下(L-SGD)は、フェデレート学習のような分散機械学習スキームに非常に有効であることが証明されている。 実際、多くの革新的な研究により、独立かつ同一に分散された(IID)データを持つL-SGDがSGDより優れていることが示されている。 その結果、L-SGDのパワーを明らかにするために広範囲な努力がなされた。 しかし、既存の分析では、小さなミニバッチデータ(L-SGD)による複数のローカル更新が、1つの大きなバッチデータとより大きな学習率(SGD)で更新に置き換えられない理由を説明できなかった。 本稿では,L-SGDの強みを理解するための新たな視点を提供する。 IIDデータを用いてL-SGDが損失関数の2次情報を効果的に探索できることを理論的に証明する。 特に、SGDと比較して、L-SGDの更新は、小さな固有値を持つヘッセン行列の固有ベクトルに対してはるかに大きい射影を持ち、より速く収束する。 ある条件下では、L-SGD はニュートン法にもアプローチできる。 実験結果は、2つの一般的なデータセットで理論的結果を検証する。

With multiple iterations of updates, local statistical gradient descent (L-SGD) has been proven to be very effective in distributed machine learning schemes such as federated learning. In fact, many innovative works have shown that L-SGD with independent and identically distributed (IID) data can even outperform SGD. As a result, extensive efforts have been made to unveil the power of L-SGD. However, existing analysis failed to explain why the multiple local updates with small mini-batches of data (L-SGD) can not be replaced by the update with one big batch of data and a larger learning rate (SGD). In this paper, we offer a new perspective to understand the strength of L-SGD. We theoretically prove that, with IID data, L-SGD can effectively explore the second order information of the loss function. In particular, compared with SGD, the updates of L-SGD have much larger projection on the eigenvectors of the Hessian matrix with small eigenvalues, which leads to faster convergence. Under certain conditions, L-SGD can even approach the Newton method. Experiment results over two popular datasets validate the theoretical results.
翻訳日:2023-05-29 10:40:42 公開日:2023-05-26
# 画像キャプションのための様々なコンテキスト内構成の探索

Exploring Diverse In-Context Configurations for Image Captioning ( http://arxiv.org/abs/2305.14800v2 )

ライセンス: Link先を確認
Xu Yang, Yongliang Wu, Mingzhuo Yang, Haokun Chen, Xin Geng(参考訳) 言語モデル(LM)が文脈内数ショット学習者にとって良いことを発見した後、コンテキスト内シーケンス設定を最適化するための多くの戦略が提案されている。 近年、Vision-Language(VL)ドメインの研究者たちは、最も単純な方法、すなわちランダムサンプリングを使って、テキスト内画像とテキストのペアを構成している。 様々な構成がVLインコンテキスト学習に与える影響を検討するために,画像選択のための4つの戦略と,画像キャプションのためのインコンテキスト画像-テキストペアを構成するキャプション代入のための4つの戦略を考案した。 ここでは、視覚条件のLMとして見ることができるため、ケーススタディとして画像キャプションが使用される。 我々の総合的な実験は2つの反直感的だが有意義な洞察を与え、マルチモーダル・シナジーによるVLインコンテキスト学習の特徴をNLPの場合と比較した。

After discovering that Language Models (LMs) can be good in-context few-shot learners, numerous strategies have been proposed to optimize in-context sequence configurations. Recently, researchers in Vision-Language (VL) domains also develop their few-shot learners, while they only use the simplest way, i.e., randomly sampling, to configure in-context image-text pairs. In order to explore the effects of varying configurations on VL in-context learning, we devised four strategies for image selection and four for caption assignment to configure in-context image-text pairs for image captioning. Here Image Captioning is used as the case study since it can be seen as the visually-conditioned LM. Our comprehensive experiments yield two counter-intuitive but valuable insights, highlighting the distinct characteristics of VL in-context learning due to multi-modal synergy, as compared to the NLP case.
翻訳日:2023-05-29 10:40:20 公開日:2023-05-26
# Banana: 部分間の等価性を備えたポイントクラウドセグメンテーションのためのBanach固定ポイントネットワーク

Banana: Banach Fixed-Point Network for Pointcloud Segmentation with Inter-Part Equivariance ( http://arxiv.org/abs/2305.16314v2 )

ライセンス: Link先を確認
Congyue Deng, Jiahui Lei, Bokui Shen, Kostas Daniilidis, Leonidas Guibas(参考訳) 等分散は、本質的に堅牢な一般化を保証する望ましいネットワーク特性として強く関心を集めている。 しかし、調音オブジェクトやマルチオブジェクトシーンのような複雑なシステムを扱う場合、部分間の変換を効果的に捉えることは、全体の構造や局所的な変換と絡み合うため、課題となる。 部分割当と各部分群作用の相互依存は、それらの共進化を可能にする新しい同値な定式化を必要とする。 本稿では、構成による部分的等式を持つ同変セグメンテーションのためのバナハ固定点ネットワークについて述べる。 我々の重要な洞察は、ポイント・パート割り当てラベルとパー・パートSE(3)-等分散が同時に共進化する固定点問題を反復的に解くことである。 ステップ当たりの等分散と大域収束の両方を理論的に導出し、同変の最終収束状態を誘導する。 我々の定式化は自然に部分間等式を厳密に定義し、部分間配置に一般化する。 有声物体と多目的走査の両方で行った実験を通じて,点雲幾何とトポロジーの大幅な変化に直面した場合でも,部分間変換下での強汎化を達成するためのアプローチの有効性を実証する。

Equivariance has gained strong interest as a desirable network property that inherently ensures robust generalization. However, when dealing with complex systems such as articulated objects or multi-object scenes, effectively capturing inter-part transformations poses a challenge, as it becomes entangled with the overall structure and local transformations. The interdependence of part assignment and per-part group action necessitates a novel equivariance formulation that allows for their co-evolution. In this paper, we present Banana, a Banach fixed-point network for equivariant segmentation with inter-part equivariance by construction. Our key insight is to iteratively solve a fixed-point problem, where point-part assignment labels and per-part SE(3)-equivariance co-evolve simultaneously. We provide theoretical derivations of both per-step equivariance and global convergence, which induces an equivariant final convergent state. Our formulation naturally provides a strict definition of inter-part equivariance that generalizes to unseen inter-part configurations. Through experiments conducted on both articulated objects and multi-object scans, we demonstrate the efficacy of our approach in achieving strong generalization under inter-part transformations, even when confronted with substantial changes in pointcloud geometry and topology.
翻訳日:2023-05-29 10:32:10 公開日:2023-05-26
# UNITE: テキストからSQL評価のための統一ベンチマーク

UNITE: A Unified Benchmark for Text-to-SQL Evaluation ( http://arxiv.org/abs/2305.16265v2 )

ライセンス: Link先を確認
Wuwei Lan, Zhiguo Wang, Anuj Chauhan, Henghui Zhu, Alexander Li, Jiang Guo, Sheng Zhang, Chung-Wei Hang, Joseph Lilien, Yiqun Hu, Lin Pan, Mingwen Dong, Jun Wang, Jiarong Jiang, Stephen Ash, Vittorio Castelli, Patrick Ng and Bing Xiang(参考訳) 実用的なテキスト-SQLシステムは、さまざまな自然言語の質問、見えないデータベーススキーマ、新しいSQLクエリ構造をうまく一般化する必要がある。 テキストからSQLまでを総合的に評価するために, textbf{T}ext-to-SQL \textbf{E}valuation (UNITE) のための \textbf{UNI}fied ベンチマークを導入する。 12ドメイン以上の自然言語質問、3.9Kパターン以上のSQLクエリ、29Kデータベースを含む、公開されているテキストからSQLまでのデータセットで構成されている。 広く使われているSpiderベンチマークであるcite{yu-etal-2018-spider}と比較して、$\sim$120Kの追加例と比較やブール問題などのSQLパターンの3倍の増加を紹介します。 我々は、新しいベンチマークで6つの最先端(SOTA)テキスト-SQLパーサの体系的研究を行い、そのことを示す。 1) Codexはドメイン外のデータセットで驚くほどよく機能します。 2) 特別に設計された復号法(例えば制約ビーム探索)は、ドメイン内設定と外部設定の両方のパフォーマンスを向上させることができる。 3) 質問とスキーマの関係を明示的にモデル化することで、Seq2Seqモデルをさらに改善する。 さらに重要なことは、我々のベンチマークは構成の一般化とロバストネスの問題に対する重要な課題を示しており、これらSOTAモデルはうまく対応できない。 footnote{our code and data processing scriptは、 \url{https://github.com/xxxx.com/で利用可能になる。 }}

A practical text-to-SQL system should generalize well on a wide variety of natural language questions, unseen database schemas, and novel SQL query structures. To comprehensively evaluate text-to-SQL systems, we introduce a \textbf{UNI}fied benchmark for \textbf{T}ext-to-SQL \textbf{E}valuation (UNITE). It is composed of publicly available text-to-SQL datasets, containing natural language questions from more than 12 domains, SQL queries from more than 3.9K patterns, and 29K databases. Compared to the widely used Spider benchmark \cite{yu-etal-2018-spider}, we introduce $\sim$120K additional examples and a threefold increase in SQL patterns, such as comparative and boolean questions. We conduct a systematic study of six state-of-the-art (SOTA) text-to-SQL parsers on our new benchmark and show that: 1) Codex performs surprisingly well on out-of-domain datasets; 2) specially designed decoding methods (e.g. constrained beam search) can improve performance for both in-domain and out-of-domain settings; 3) explicitly modeling the relationship between questions and schemas further improves the Seq2Seq models. More importantly, our benchmark presents key challenges towards compositional generalization and robustness issues -- which these SOTA models cannot address well. \footnote{Our code and data processing script will be available at \url{https://github.com/XXXX.}}
翻訳日:2023-05-29 10:31:49 公開日:2023-05-26
# 多様性を考慮したニューラルトピックモデル改善のためのコヒーレンス損失

Diversity-Aware Coherence Loss for Improving Neural Topic Models ( http://arxiv.org/abs/2305.16199v2 )

ライセンス: Link先を確認
Raymond Li, Felipe Gonz\'alez-Pizarro, Linzi Xing, Gabriel Murray and Giuseppe Carenini(参考訳) ニューラルトピックモデリングの標準的なアプローチは、リコンストラクション損失に加えて、推定後と前とのKLのばらつきを共同で最小化する変分オートエンコーダ(VAE)フレームワークを使用する。 ニューラルトピックモデルは個々の入力文書を再生することによって訓練されるため、コーパスレベルのトピックワード間のコヒーレンスを明示的に捉えない。 本研究では,トピック間の多様性を高く保ちながらコーパスレベルのコヒーレンススコアを学習することを促す,新たな多様性認識コヒーレンス損失を提案する。 複数のデータセットを用いた実験の結果,前訓練や追加パラメータを必要とせず,ニューラルネットワークのトピックモデルの性能が大幅に向上した。

The standard approach for neural topic modeling uses a variational autoencoder (VAE) framework that jointly minimizes the KL divergence between the estimated posterior and prior, in addition to the reconstruction loss. Since neural topic models are trained by recreating individual input documents, they do not explicitly capture the coherence between topic words on the corpus level. In this work, we propose a novel diversity-aware coherence loss that encourages the model to learn corpus-level coherence scores while maintaining a high diversity between topics. Experimental results on multiple datasets show that our method significantly improves the performance of neural topic models without requiring any pretraining or additional parameters.
翻訳日:2023-05-29 10:31:25 公開日:2023-05-26
# グラム反復による畳み込み層に対するリプシッツ定数の効率的な境界

Efficient Bound of Lipschitz Constant for Convolutional Layers by Gram Iteration ( http://arxiv.org/abs/2305.16173v2 )

ライセンス: Link先を確認
Blaise Delattre, Quentin Barth\'elemy, Alexandre Araujo, Alexandre Allauzen(参考訳) リプシッツ定数の制御は、ニューラルネットワークのトレーニングの安定性、一般化、堅牢性に大きな影響を与えるため、この値の推定は現在では真の科学的課題となっている。 本稿では,循環行列理論を用いた畳み込み層のスペクトルノルムの精度,高速,微分可能な上界とパワー反復の新たな代替について述べる。 グラム反復と呼ばれるこのアプローチは超線形収束を示す。 まず,本手法が他の最先端手法よりも精度,計算コスト,スケーラビリティにおいて優れていることを示す実験を総合的に実施する。 そして、畳み込みニューラルネットワークのリプシッツ正則化に対して高い効果が証明され、並行アプローチに対する競合結果が得られた。 コードはhttps://github.com/blaisedelattre/lip4convで入手できる。

Since the control of the Lipschitz constant has a great impact on the training stability, generalization, and robustness of neural networks, the estimation of this value is nowadays a real scientific challenge. In this paper we introduce a precise, fast, and differentiable upper bound for the spectral norm of convolutional layers using circulant matrix theory and a new alternative to the Power iteration. Called the Gram iteration, our approach exhibits a superlinear convergence. First, we show through a comprehensive set of experiments that our approach outperforms other state-of-the-art methods in terms of precision, computational cost, and scalability. Then, it proves highly effective for the Lipschitz regularization of convolutional neural networks, with competitive results against concurrent approaches. Code is available at https://github.com/blaisedelattre/lip4conv.
翻訳日:2023-05-29 10:31:12 公開日:2023-05-26
# LiDARデータによる逆気象効果のエネルギーベース検出

Energy-based Detection of Adverse Weather Effects in LiDAR Data ( http://arxiv.org/abs/2305.16129v2 )

ライセンス: Link先を確認
Aldi Piroli, Vinzenz Dallabetta, Johannes Kopp, Marc Walessa, Daniel Meissner, Klaus Dietmayer(参考訳) 自動運転車は環境を知覚するためにLiDARセンサーを利用する。 雨、雪、霧などの悪天候はこれらのセンサーに悪影響を及ぼし、測定に望ましくないノイズを導入することで信頼性を低下させる。 本研究では,LiDARデータにおける悪天候の影響を検出する新しい手法を提案する。 我々は,この問題を外れ値検出タスクとして再構成し,エネルギーベースのフレームワークを用いて点群内の外れ値を検出する。 より具体的には、低エネルギースコアと異常点と高エネルギースコアを、悪天候の影響をロバストに検出できる異常値とを関連付けることを学ぶ。 広範な実験において,本手法は従来の手法よりも悪天候検出性能が良好で,気象効果の良さが高まることを示した。 さらに,本手法を用いて,外乱検出とセマンティックセグメンテーションを同時に行う方法を示す。 最後に、悪天候下でのLiDAR知覚の研究分野の拡大を支援するため、高速道路のようなシナリオにラベル付き車両噴霧データを含むセマンティックスパイデータセットをリリースする。 データセットはhttp://dx.doi.org/10.18725/oparu-48815で利用可能である。

Autonomous vehicles rely on LiDAR sensors to perceive the environment. Adverse weather conditions like rain, snow, and fog negatively affect these sensors, reducing their reliability by introducing unwanted noise in the measurements. In this work, we tackle this problem by proposing a novel approach for detecting adverse weather effects in LiDAR data. We reformulate this problem as an outlier detection task and use an energy-based framework to detect outliers in point clouds. More specifically, our method learns to associate low energy scores with inlier points and high energy scores with outliers allowing for robust detection of adverse weather effects. In extensive experiments, we show that our method performs better in adverse weather detection and has higher robustness to unseen weather effects than previous state-of-the-art methods. Furthermore, we show how our method can be used to perform simultaneous outlier detection and semantic segmentation. Finally, to help expand the research field of LiDAR perception in adverse weather, we release the SemanticSpray dataset, which contains labeled vehicle spray data in highway-like scenarios. The dataset is available at http://dx.doi.org/10.18725/OPARU-48815 .
翻訳日:2023-05-29 10:30:59 公開日:2023-05-26
# GenerateCT:テキストガイドによる3D胸部CT生成

GenerateCT: Text-Guided 3D Chest CT Generation ( http://arxiv.org/abs/2305.16037v2 )

ライセンス: Link先を確認
Ibrahim Ethem Hamamci, Sezgin Er, Enis Simsar, Alperen Tezcan, Ayse Gulnihan Simsek, Furkan Almas, Sevval Nil Esirgun, Hadrien Reynaud, Sarthak Pati, Christian Bluethgen, Bjoern Menze(参考訳) 生成モデリングは近年,特にテキスト・ツー・イメージやテキスト・ツー・ビデオ合成において,大きな進歩を遂げている。 しかし、医療分野はまだ、合成データ生成のための大規模基盤モデルの可能性を完全に活用していない。 本稿では,3次元医用画像研究の限界に対処し,我々のフレームワーク全体をオープンソース化するテキスト条件計算断層撮影(CT)の最初の手法であるGenerateCTを紹介する。 GenerateCTは、トレーニング済みの大規模言語モデル、トランスフォーマーベースのテキストコンディショナリ3D胸部CT生成アーキテクチャ、テキストコンディショナリ空間超解像拡散モデルから構成される。 また,ct-vitを提案する。ctボリュームの圧縮を効率良く行うとともに,自己回帰性を深く保ちながら,軸スライス数の可変な3次元ctボリュームの生成を可能にする。 実験により,GenerateCTは医療用テキストプロンプトと整合した現実的,高解像度,高忠実な3D胸部CTボリュームを生成できることが示された。 胸部CTボリュームの多異常度分類のための生成CTボリュームを用いたモデルを用いて,GenerateCTの可能性について検討した。 私たちの貢献は,テキスト条件3次元医用画像生成における今後の研究のための貴重な基盤を提供し,医用画像研究の進展を加速する可能性を秘めている。 我々のコード、事前訓練されたモデル、および生成されたデータはhttps://github.com/ibrahimethemhamamci/GenerateCTで入手できる。

Generative modeling has experienced substantial progress in recent years, particularly in text-to-image and text-to-video synthesis. However, the medical field has not yet fully exploited the potential of large-scale foundational models for synthetic data generation. In this paper, we introduce GenerateCT, the first method for text-conditional computed tomography (CT) generation, addressing the limitations in 3D medical imaging research and making our entire framework open-source. GenerateCT consists of a pre-trained large language model, a transformer-based text-conditional 3D chest CT generation architecture, and a text-conditional spatial super-resolution diffusion model. We also propose CT-ViT, which efficiently compresses CT volumes while preserving auto-regressiveness in-depth, enabling the generation of 3D CT volumes with variable numbers of axial slices. Our experiments demonstrate that GenerateCT can produce realistic, high-resolution, and high-fidelity 3D chest CT volumes consistent with medical language text prompts. We further investigate the potential of GenerateCT by training a model using generated CT volumes for multi-abnormality classification of chest CT volumes. Our contributions provide a valuable foundation for future research in text-conditional 3D medical image generation and have the potential to accelerate advancements in medical imaging research. Our code, pre-trained models, and generated data are available at https://github.com/ibrahimethemhamamci/GenerateCT.
翻訳日:2023-05-29 10:30:40 公開日:2023-05-26
# ChatCAD+:LLMを用いたユニバーサルで信頼性の高いインタラクティブCADを目指して

ChatCAD+: Towards a Universal and Reliable Interactive CAD using LLMs ( http://arxiv.org/abs/2305.15964v2 )

ライセンス: Link先を確認
Zihao Zhao, Sheng Wang, Jinchen Gu, Yitao Zhu, Lanzhuju Mei, Zixu Zhuang, Zhiming Cui, Qian Wang, Dinggang Shen(参考訳) 臨床応用におけるコンピュータ支援診断(CAD)とLarge Language Models(LLMs)の統合の可能性は,特にデジタルファミリードクターやクリニックアシスタントの役割において有望である。 しかし、既存の作業は、信頼性、有効性、および特定の画像領域に適用性に制限があり、その全体的な処理能力を制限している。 さらに、LSMと放射線技師の筆記スタイルのミスマッチは、その実用性を損なう。 これらの課題に対処するために,多様な領域から医用画像を扱う,普遍的で信頼性の高い対話型CADシステムChatCAD+を提案する。 ChatCAD+は、信頼できる医療ウェブサイトから得た現在の情報を利用して、正確な医療アドバイスを提供する。 さらに、実際の診断レポートをエミュレートし、既存の臨床ワークフローへのシームレスな統合を改善するテンプレート検索システムも組み込んでいる。 ソースコードはhttps://github.com/zhaozh10/ChatCADで入手できる。 オンラインデモは近く公開される。

The potential of integrating Computer-Assisted Diagnosis (CAD) with Large Language Models (LLMs) in clinical applications, particularly in digital family doctor and clinic assistant roles, shows promise. However, existing works have limitations in terms of reliability, effectiveness, and their narrow applicability to specific image domains, which restricts their overall processing capabilities. Moreover, the mismatch in writing style between LLMs and radiologists undermines their practical utility. To address these challenges, we present ChatCAD+, an interactive CAD system that is universal, reliable, and capable of handling medical images from diverse domains. ChatCAD+ utilizes current information obtained from reputable medical websites to offer precise medical advice. Additionally, it incorporates a template retrieval system that emulates real-world diagnostic reporting, thereby improving its seamless integration into existing clinical workflows. The source code is available at https://github.com/zhaozh10/ChatCAD. The online demo will be available soon.
翻訳日:2023-05-29 10:30:16 公開日:2023-05-26
# マルコフスイッチングモデルの識別性について

On the Identifiability of Markov Switching Models ( http://arxiv.org/abs/2305.15925v2 )

ライセンス: Link先を確認
Carles Balsells-Rodas, Yixin Wang and Yingzhen Li(参考訳) 潜在変数モデルの識別可能性は最近、その解釈可能性や分布の一般化への応用において関心を集めている。 本研究では,マルコフスイッチングモデルの同定可能性について,最近の結果を逐次潜在変数モデルに拡張するための第一歩として検討する。 我々は,一階マルコフ依存構造内の同定可能性条件を示し,非線形ガウス的遷移分布をパラメトリゼーションする。 実験では,システム依存因果発見と高次元時系列セグメンテーションへのアプローチの適用性を示す。

Identifiability of latent variable models has recently gained interest in terms of its applications to interpretability or out of distribution generalisation. In this work, we study identifiability of Markov Switching Models as a first step towards extending recent results to sequential latent variable models. We present identifiability conditions within first-order Markov dependency structures, and parametrise the transition distribution via non-linear Gaussians. Our experiments showcase the applicability of our approach for regime-dependent causal discovery and high-dimensional time series segmentation.
翻訳日:2023-05-29 10:30:01 公開日:2023-05-26
# 不均一グラフニューラルネットワークの統一勾配正規化

Unifying gradient regularization for Heterogeneous Graph Neural Networks ( http://arxiv.org/abs/2305.15811v2 )

ライセンス: Link先を確認
Xiao Yang and Xuejiao Zhao and Zhiqi Shen(参考訳) Heterogeneous Graph Neural Networks (HGNN) は、異種グラフの表現を学習するために広く使われている強力なディープラーニング手法のクラスである。 HGNNの急速な発展にもかかわらず、過度なスムースメントや非破壊といった課題に直面している。 従来の研究では、勾配正規化法を用いてこれらの問題を低減できることが示されている。 しかし、既存の勾配正規化手法はグラフトポロジーかノードの特徴に焦点を当てている。 これらの特徴を統合するための普遍的なアプローチは存在せず、正規化の効率に大きな影響を及ぼす。 加えて、hgnnに勾配正規化を組み込むことで、不安定なトレーニングプロセス、複雑さの増加、カバレッジ正規化情報の不足など、いくつかの問題を引き起こすことがある。 さらに、勾配正規化がhgnnに与える影響の完全な理論的解析にはまだ不足している。 本稿では,メッセージ伝達プロセス中に伝搬されたメッセージとノード特徴の両方から生成される勾配に対して反復的に正規化を適用する,grogと呼ばれる新しい勾配正規化手法を提案する。 Grugはグラフトポロジとノード特徴を統合した統一的なフレームワークを提供する。 具体的には、グルーグの利点を詳しく分析する。 1) 訓練過程におけるサンプル分散の低減(安定性) 2)モデルの一般化(普遍性)の促進 3) モデルの複雑さを低減する(シンプルさ)。 4)グラフ情報利用(多様性)の完全性と多様性の向上。 その結果、GrugはDropMessage(AAAI-23 Distinguished Papers)によって設定された理論上界を超える可能性がある。 さらに、Grugを2つの下流タスクを持つ5つの公開現実世界データセットで評価する。

Heterogeneous Graph Neural Networks (HGNNs) are a class of powerful deep learning methods widely used to learn representations of heterogeneous graphs. Despite the fast development of HGNNs, they still face some challenges such as over-smoothing, and non-robustness. Previous studies have shown that these problems can be reduced by using gradient regularization methods. However, the existing gradient regularization methods focus on either graph topology or node features. There is no universal approach to integrate these features, which severely affects the efficiency of regularization. In addition, the inclusion of gradient regularization into HGNNs sometimes leads to some problems, such as an unstable training process, increased complexity and insufficient coverage regularized information. Furthermore, there is still short of a complete theoretical analysis of the effects of gradient regularization on HGNNs. In this paper, we propose a novel gradient regularization method called Grug, which iteratively applies regularization to the gradients generated by both propagated messages and the node features during the message-passing process. Grug provides a unified framework integrating graph topology and node features, based on which we conduct a detailed theoretical analysis of their effectiveness. Specifically, the theoretical analyses elaborate the advantages of Grug: 1) Decreasing sample variance during the training process (Stability); 2) Enhancing the generalization of the model (Universality); 3) Reducing the complexity of the model (Simplicity); 4) Improving the integrity and diversity of graph information utilization (Diversity). As a result, Grug has the potential to surpass the theoretical upper bounds set by DropMessage (AAAI-23 Distinguished Papers). In addition, we evaluate Grug on five public real-world datasets with two downstream tasks...
翻訳日:2023-05-29 10:29:52 公開日:2023-05-26
# 学習感覚戦略の理論的保証と時系列予測への応用

Theoretical Guarantees of Learning Ensembling Strategies with Applications to Time Series Forecasting ( http://arxiv.org/abs/2305.15786v2 )

ライセンス: Link先を確認
Hilaf Hasson, Danielle C. Maddix, Yuyang Wang, Gaurav Gupta, Youngsuk Park(参考訳) 機械学習(ML)では、分散を最小化し、一般化を改善する効果があるため、組み立ては最も一般的なツールである。 ブラックボックスベース学習者のためのほとんどのアンサンブル手法は、ベース学習者からの推論を入力として取り込むMLアルゴリズムを訓練する"スタック一般化"の傘の下に置かれる。 積み重ねは実際には広く適用されているが、理論的性質はよく分かっていない。 本稿では, クロスバリデード性能に基づく(有限あるいは有限次元の)重ね合わせ一般化系から, 最良の積み重ね一般化を選択すると, オラクルの最高値よりも「はるかに悪い」結果が得られないことを示す。 我々の結果は、van der laan et al. (2007) の結果を強化し、大幅に拡張する。 理論解析に着想を得て,確率的予測の文脈において,アンサンブル重みがどの程度異なるか,予測地平線におけるタイムスタンプ,および量子化に対して異なる感度を持つ,積み重ね一般化の特定のファミリーを提案する。 実験結果は,提案手法の性能向上を示す。

Ensembling is among the most popular tools in machine learning (ML) due to its effectiveness in minimizing variance and thus improving generalization. Most ensembling methods for black-box base learners fall under the umbrella of "stacked generalization," namely training an ML algorithm that takes the inferences from the base learners as input. While stacking has been widely applied in practice, its theoretical properties are poorly understood. In this paper, we prove a novel result, showing that choosing the best stacked generalization from a (finite or finite-dimensional) family of stacked generalizations based on cross-validated performance does not perform "much worse" than the oracle best. Our result strengthens and significantly extends the results in Van der Laan et al. (2007). Inspired by the theoretical analysis, we further propose a particular family of stacked generalizations in the context of probabilistic forecasting, each one with a different sensitivity for how much the ensemble weights are allowed to vary across items, timestamps in the forecast horizon, and quantiles. Experimental results demonstrate the performance gain of the proposed method.
翻訳日:2023-05-29 10:29:27 公開日:2023-05-26