このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20231007となっている論文です。

PDF登録状況(公開日: 20231007)

TitleAuthorsAbstract論文公表日・翻訳日
# サイバー保険のリスク:報告の遅れ、第三者のサイバーイベント、報告の機会の変化-米司法長官が公表したデータ分析

Cyber Insurance Risk: Reporting Delays, Third-Party Cyber Events, and Changes in Reporting Propensity -- An Analysis Using Data Breaches Published by U.S. State Attorneys General ( http://arxiv.org/abs/2310.04786v1 )

ライセンス: Link先を確認
Benjamin Avanzi, Xingyun Tan, Greg Taylor, Bernard Wong, (参考訳) サイバー脅威の高まりにより、サイバー保険は企業にとって重要な考慮事項になりつつある。 しかし、サイバー保険のリスクに関する研究は、データの全般的な欠如と、データ公開の制限の根底にある制限によって、これまで妨げられてきた。 具体的には、サイバー保険のモデリングにおいて特に重要であり、情報不足による制限 一 報告の遅れ (二 第三者イベントの影響を受けるすべての事業 三 報告の妥当性の変更 本稿では,米国司法長官が提供した未認識の公開データを活用することで,この重要なギャップを埋めるとともに,サイバー保険の真の規模に関する新たな洞察を提供する。 これらのデータは、データ漏洩の必須報告要件に基づいて収集され、実質的で詳細な情報を含んでいる。 さらに、サイバー保険の価格、保留、引受け、および経験モニタリングに関する我々の研究結果の関連性についても広く論じる。

With the rise of cyber threats, cyber insurance is becoming an important consideration for businesses. However, research on cyber insurance risk has so far been hindered by the general lack of data, as well as limitations underlying what limited data are available publicly. Specifically and of particular importance to cyber insurance modelling, limitations arising from lack of information regarding (i) delays in reporting, (ii) all businesses affected by third-party events, and (iii) changes in reporting propensity. In this paper, we fill this important gap by utilising an underrecognised set of public data provided by U.S. state Attorneys General, and provide new insights on the true scale of cyber insurance risk. These data are collected based on mandatory reporting requirements of data breaches, and contain substantial and detailed information. We further discuss extensively the associated implications of our findings for cyber insurance pricing, reserving, underwriting, and experience monitoring.
翻訳日:2024-03-19 03:02:24 公開日:2023-10-07
# 属性に基づく認証における匿名性の確保

Guaranteeing Anonymity in Attribute-Based Authorization ( http://arxiv.org/abs/2310.04896v1 )

ライセンス: Link先を確認
Erin Lanus, Charles J. Colbourn, Gail-Joon Ahn, (参考訳) 属性ベースのアクセス制御や属性ベースの暗号化といった属性ベースの手法は、被験者のアイデンティティではなく、被写体が所有する属性に基づいて決定を行う。 これは匿名の認証を可能にするが、被写体が被写体の身元を知らずに認証されていると判断することは、匿名性を保証するものではない。 ポリシーを構成することで、ポリシーを満たす属性をほとんど持たない場合、そのポリシーがアクセス制御に使用される場合、認可や拒否の判断に加えて、要求を行う対象の同一性を高い確率で推測することができる。 属性ベースの認証において匿名性を実現する他のアプローチは、属性分布の問題に対処しない。 警察は、少なくとも$t$属性の接続を含むと仮定し、システムは、承認のためのポリシーを使用して被検体の同一性に対して$\frac{1}{r}以上の確率で推測することができないと仮定する。 匿名性保証は最大クレデンシャルサイズ$t$に対して$r$です。 匿名化配列(英: anonymizing array)は、配列に現れる$t$属性への値の割り当てが少なくとも$r$倍に現れることを保証することで、基礎となる属性分布問題に対処するための抽象化として提案された組合せ配列である。 配列の匿名化は、より高いカバレッジを持つ配列をカバーすることに関連しているが、アプリケーションドメインのため、さらに望ましい特性、均一性を持っている。 本稿では,属性ベースの手法における匿名認証を保証するために,匿名化アレイの適用について論じる。 さらに、同じパラメータで匿名化配列を比較するために、局所的および大域的均質性というメトリクスを開発する。

Attribute-based methods, such as attribute-based access control and attribute-based encryption, make decisions based on attributes possessed by a subject rather than the subject's identity. While this allows for anonymous authorization -- determining that a subject is authorized without knowing the identity of the subject -- it does not guarantee anonymity. If a policy can be composed such that few subjects possess attributes satisfying the policy, then when the policy is used for access control, in addition to making a grant or deny decision, the system can also guess with high probability the identity of the subject making the request. Other approaches to achieving anonymity in attribute-based authorization do not address this attribute distribution problem. Suppose polices contain conjunctions of at most $t$ attributes and the system must not be able to guess with probability greater than $\frac{1}{r}$ the identity of a subject using a policy for authorization. We say the anonymity guarantee is $r$ for maximum credential size $t$. An anonymizing array is a combinatorial array proposed as an abstraction to address the underlying attribute distribution problem by ensuring that any assignment of values to $t$ attributes appearing in the array appears at least $r$ times. Anonymizing arrays are related to covering arrays with higher coverage, but have an additional desired property, homogeneity, due to their application domain. In this work, we discuss the application of anonymizing arrays to guarantee anonymous authorization in attribute-based methods. Additionally, we develop metrics, local and global homogeneity, to compare anonymizing arrays with the same parameters.
翻訳日:2024-03-19 03:02:24 公開日:2023-10-07
# BitcoinとEthereumのエコシステムにおけるソリューションの混合 - レビューとチュートリアル

Mixing Solutions in Bitcoin and Ethereum Ecosystems: A Review and Tutorial ( http://arxiv.org/abs/2310.04899v1 )

ライセンス: Link先を確認
Alireza Arbabi, Ardeshir Shojaeinasab, Behnam Bahrak, Homayoun Najjaran, (参考訳) この原稿は、学術的なイノベーションと現実世界の実装のギャップを埋めることを目的として、ブロックチェーンベースのミキシングサービスの徹底的なレビューを提示している。 サービス混合のコア機能とテクニックの同定から始まり、これらの運用メカニズムの詳細な説明を行う。 さらに、厳格な評価に適した評価フレームワークを概説し、さまざまなソリューションの重要な脆弱性と強みを強調している。 さらにこの研究は、これらのサービスに侵入する潜在的な攻撃ベクトルを特定する。 ブロックチェーン技術の基盤であるプライバシの保存に寄与する一方で、不正な活動を促進することも可能である。 本研究は、重要な研究課題に対処することによって、サービス混合の現状を包括的に概観するだけでなく、この発展途上の分野における今後の学術的談話の舞台となる。

This manuscript presents an exhaustive review of blockchain-based mixing services, aiming to fill the existing gap between academic innovations and real-world implementations. Starting with an identification of the core functionalities and techniques employed by mixing services, the paper delves into detailed explanations of these operational mechanisms. It further outlines an evaluation framework tailored for a rigorous assessment, highlighting the key vulnerabilities and strengths of various solutions. In addition, the study identifies potential attack vectors that compromise these services. The paper explores the dual nature of mixing services, while they contribute to the preservation of privacy, a cornerstone of blockchain technologies, they can also facilitate illicit activities. By addressing key research questions, this study not only offers a comprehensive overview of the current state of mixing services but also sets the stage for future academic discourse in this evolving field.
翻訳日:2024-03-19 03:02:24 公開日:2023-10-07
# 文学検索と学術著作におけるジェネレーティブAIの利用:ジパーディにおける科学談話の統合性は?

Using Generative AI for Literature Searches and Scholarly Writing: Is the Integrity of the Scientific Discourse in Jeopardy? ( http://arxiv.org/abs/2311.06981v1 )

ライセンス: Link先を確認
Paul G. Schmidt and Amnon J. Meir(参考訳) 2022年11月にChatGPTが公開されて以来、科学的な執筆と出版のために生成AIツールが広く使われることの影響と潜在的に恐ろしい結果について深刻な懸念が持ち上がっている。 We document the ongoing discussion in the science community with a review of news articles, editorials, and position statements by major scientific publishers; discuss the potential pitfalls of using generative AI tools such as ChatGPT as aids in scholarly writing; furnish evidence for the proposition that AI-induced contamination of the scientific literature is not only a threat, but already a reality; and call upon leaders in our field to develop policies and guidelines to stem the spread of such contamination. 最後に、学術的な執筆のためにchatgptと類似のaiツールの潜在的に有用な機能と賢明な応用について簡単に概説する。

Ever since the public release of ChatGPT in November 2022, serious concerns have been raised about the impact and potentially dire consequences of the increasingly widespread use of generative AI tools for purposes of scientific writing and publishing. We document the ongoing discussion in the science community with a review of news articles, editorials, and position statements by major scientific publishers; discuss the potential pitfalls of using generative AI tools such as ChatGPT as aids in scholarly writing; furnish evidence for the proposition that AI-induced contamination of the scientific literature is not only a threat, but already a reality; and call upon leaders in our field to develop policies and guidelines to stem the spread of such contamination. Closing on a positive note, we provide a brief overview of potentially useful capabilities and sensible applications of ChatGPT and similar AI tools for purposes of scholarly writing.
翻訳日:2024-01-15 16:23:16 公開日:2023-10-07
# サーカズム検出のための最先端大規模言語モデルの評価

An Evaluation of State-of-the-Art Large Language Models for Sarcasm Detection ( http://arxiv.org/abs/2312.03706v1 )

ライセンス: Link先を確認
Juliann Zhou(参考訳) サーカズム(英: sarcasm)とは、メリアム=ウェブスター(merriam-webster)が定義しているように、言葉を使うことである。 自然言語処理の感情分析の分野では、人々の真の意見を理解するためには、皮肉を正しく識別する能力が必要である。 sarcasmの使用はしばしば文脈ベースであるため、以前の研究では、SVM(Support Vector Machine)やLSTM(Long Short-Term Memory)といった言語表現モデルを使用して、文脈ベースの情報でsarcasmを識別している。 NLPの最近の革新により、サルカズムを検出する可能性がさらに高まった。 BERT: Deep Bidirectional Transformer for Language Understanding(英語版)の事前学習において、Jacob Devlinらは新しい言語表現モデルを導入し、文脈化された言語を解釈する際に高い精度を示した。 Hazarikaらによって2018年に提案されたように、CASCADEはサルカズムを検出する良い結果をもたらす文脈駆動モデルである。 本研究は,この2つの最先端モデルを用いてredditコーパスを分析し,その基礎モデルに対する性能を評価し,サーカズム検出の理想的なアプローチを見出す。

Sarcasm, as defined by Merriam-Webster, is the use of words by someone who means the opposite of what he is trying to say. In the field of sentimental analysis of Natural Language Processing, the ability to correctly identify sarcasm is necessary for understanding people's true opinions. Because the use of sarcasm is often context-based, previous research has used language representation models, such as Support Vector Machine (SVM) and Long Short-Term Memory (LSTM), to identify sarcasm with contextual-based information. Recent innovations in NLP have provided more possibilities for detecting sarcasm. In BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding, Jacob Devlin et al. (2018) introduced a new language representation model and demonstrated higher precision in interpreting contextualized language. As proposed by Hazarika et al. (2018), CASCADE is a context-driven model that produces good results for detecting sarcasm. This study analyzes a Reddit corpus using these two state-of-the-art models and evaluates their performance against baseline models to find the ideal approach to sarcasm detection.
翻訳日:2024-01-15 15:13:13 公開日:2023-10-07
# データ中心型金融大言語モデル

Data-Centric Financial Large Language Models ( http://arxiv.org/abs/2310.17784v1 )

ライセンス: Link先を確認
Zhixuan Chu, Huaiyu Guo, Xinyuan Zhou, Yijia Wang, Fei Yu, Hong Chen, Wanqing Xu, Xin Lu, Qing Cui, Longfei Li, Jun Zhou, Sheng Li(参考訳) 大規模言語モデル(LLM)は自然言語のタスクを約束するが、金融のような複雑なドメインに直接適用した場合に苦労する。 llmはすべての関連する情報の推論と統合が難しい。 我々は、llmが金融業務をよりうまく扱うためのデータ中心のアプローチを提案する。 私たちの重要な洞察は、すべてを一度にLLMをオーバーロードするのではなく、データの事前処理と事前理解がより効果的であるということです。 我々は,マルチタスク・プロンプトに基づくファインタニングを用いた金融LLM(FLLM)を作成し,データの事前処理と事前理解を実現する。 しかし、ラベル付きデータは各タスクに乏しい。 手動アノテーションのコストを克服するため、FLLMの出力から擬似ラベルを変更することで、誘導的拡張推論(AAR)を用いてトレーニングデータを自動的に生成する。 実験の結果,データ中心のFLLMとAARは,生テキスト用に設計された基本的財務LLMを著しく上回り,財務分析や解釈タスクの最先端を達成していることがわかった。 また、財務分析と解釈のための新しいベンチマークをオープンソースにしています。 我々の方法論は、複雑な現実世界のドメインに対するLLMのポテンシャルを解き放つための有望な道を提供する。

Large language models (LLMs) show promise for natural language tasks but struggle when applied directly to complex domains like finance. LLMs have difficulty reasoning about and integrating all relevant information. We propose a data-centric approach to enable LLMs to better handle financial tasks. Our key insight is that rather than overloading the LLM with everything at once, it is more effective to preprocess and pre-understand the data. We create a financial LLM (FLLM) using multitask prompt-based finetuning to achieve data pre-processing and pre-understanding. However, labeled data is scarce for each task. To overcome manual annotation costs, we employ abductive augmentation reasoning (AAR) to automatically generate training data by modifying the pseudo labels from FLLM's own outputs. Experiments show our data-centric FLLM with AAR substantially outperforms baseline financial LLMs designed for raw text, achieving state-of-the-art on financial analysis and interpretation tasks. We also open source a new benchmark for financial analysis and interpretation. Our methodology provides a promising path to unlock LLMs' potential for complex real-world domains.
翻訳日:2023-11-05 14:04:17 公開日:2023-10-07
# SERA:オフライン-オンライン強化学習における効率的な逆展開

SERA:Sample Efficient Reward Augmentation in offline-to-online Reinforcement Learning ( http://arxiv.org/abs/2310.19805v1 )

ライセンス: Link先を確認
Ziqi Zhang, Xiao Xiong, Zifeng Zhuang, Jinxin Liu, Donglin Wang(参考訳) オフライン強化学習(RL)の先進的な応用は、既存の静的データセットを使用してトレーニング済みのポリシーを初期化することである。 しかし、オフライン事前訓練されたポリシーを直接微調整することは、しばしば準最適性能をもたらす。 主な理由は、オフラインの保守的手法によってエージェントの探索能力が低下し、オンラインの微調整性能に影響を及ぼすためである。 オンラインファインチューニングにおける探索の強化と,オンラインのファインチューニング性能の向上を目的として,SERA(Sample Efficient Reward Augmentation)と呼ばれる汎用的な報酬増強フレームワークを導入する。 seraは、エージェントの探索を促す固有の報酬を設計することによって、オンラインの微調整のパフォーマンスを向上させることを目指している。 具体的には、暗黙的にstate marginal matching(smm)を実装し、out-of-distribution(ood)状態アクションを罰する。 さらに、seraは様々なrlアルゴリズムに無益に接続でき、オンラインの微調整を改善し、非漸近的な改善を持続的に行うことができる。 さらに,オフライン-オンライン問題を行う場合,様々なオフラインアルゴリズムの性能を一貫して効果的に向上させることが実証される。

A prospective application of offline reinforcement learning (RL) involves initializing a pre-trained policy using existing static datasets for subsequent online fine-tuning. However, direct fine-tuning of the offline pre-trained policy often results in sub-optimal performance. A primary reason is that offline conservative methods diminish the agent's capability of exploration, thereby impacting online fine-tuning performance. To enhance exploration during online fine-tuning and thus enhance the overall online fine-tuning performance, we introduce a generalized reward augmentation framework called Sample Efficient Reward Augmentation (SERA). SERA aims to improve the performance of online fine-tuning by designing intrinsic rewards that encourage the agent to explore. Specifically, it implicitly implements State Marginal Matching (SMM) and penalizes out-of-distribution (OOD) state actions, thus encouraging agents to cover the target state density, and achieving better online fine-tuning results. Additionally, SERA can be effortlessly plugged into various RL algorithms to improve online fine-tuning and ensure sustained asymptotic improvement, showing the versatility as well as the effectiveness of SERA. Moreover, extensive experimental results will demonstrate that when conducting offline-to-online problems, SERA consistently and effectively enhances the performance of various offline algorithms.
翻訳日:2023-11-05 13:42:07 公開日:2023-10-07
# Android Phoneとタブレット間のGUI変換と検索のためのペアワイズデータセット

A Pairwise Dataset for GUI Conversion and Retrieval between Android Phones and Tablets ( http://arxiv.org/abs/2307.13225v2 )

ライセンス: Link先を確認
Han Hu, Haolan Zhan, Yujin Huang, Di Liu(参考訳) スマートフォンやタブレットの普及に伴い、ユーザーはスマートフォンを使ってゲームやタブレットで映画を見るなど、さまざまなタスクにさまざまなデバイスを使うことに慣れるようになった。 市場を征服するためには、スマートフォンとタブレットの両方で1つのアプリが利用できる。 しかし、あるアプリには、似たようなグラフィックユーザーインターフェイス(GUI)と電話やタブレットの機能があるが、現在のアプリ開発者は、タブレット互換バージョンのアプリを開発するときにスクラッチから始めるのが普通だ。 研究者は開発者の生産性を高めるために、GUI自動開発にディープラーニングを導入しようとしている。 ディープラーニングモデルは高品質なデータセットに大きく依存する。 現在、携帯電話向けに公開されているGUIページデータセットはいくつかあるが、携帯電話とタブレット間のGUIのペアは存在しない。 これは、GUI自動開発におけるディープラーニングの活用に大きな障壁となる。 本稿では,Android端末とタブレット間のGUI変換と検索のためのペアワイズデータセットであるPaptデータセットの収集と公開を行う。 データセットには5,593の電話タブレットアプリペアから10,035の電話タブレットGUIページペアが含まれている。 本稿では,ペアワイズデータ収集のアプローチと,このデータセットの統計解析について述べる。 また、現在のデータセットと比較して、データセットの利点も説明します。 このデータセットの予備的な実験を通じて、自動GUI開発におけるディープラーニングの利用に関する現在の課題を分析し、私たちのデータセットが、いくつかのディープラーニングモデルを自動GUI開発を含むタスクに適用するのに役立つことを確かめる。

With the popularity of smartphones and tablets, users have become accustomed to using different devices for different tasks, such as using their phones to play games and tablets to watch movies. To conquer the market, one app is often available on both smartphones and tablets. However, although one app has similar graphic user interfaces (GUIs) and functionalities on phone and tablet, current app developers typically start from scratch when developing a tablet-compatible version of their app, which drives up development costs and wastes existing design resources. Researchers are attempting to employ deep learning in automated GUIs development to enhance developers' productivity. Deep learning models rely heavily on high-quality datasets. There are currently several publicly accessible GUI page datasets for phones, but none for pairwise GUIs between phones and tablets. This poses a significant barrier to the employment of deep learning in automated GUI development. In this paper, we collect and make public the Papt dataset, which is a pairwise dataset for GUI conversion and retrieval between Android phones and tablets. The dataset contains 10,035 phone-tablet GUI page pairs from 5,593 phone-tablet app pairs. We illustrate the approaches of collecting pairwise data and statistical analysis of this dataset. We also illustrate the advantages of our dataset compared to other current datasets. Through preliminary experiments on this dataset, we analyse the present challenges of utilising deep learning in automated GUI development and find that our dataset can assist the application of some deep learning models to tasks involving automatic GUI development.
翻訳日:2023-10-23 16:22:58 公開日:2023-10-07
# 不変関係:プログラムから方程式へのブリッジ

Invariant Relations: A Bridge from Programs to Equations ( http://arxiv.org/abs/2310.04684v1 )

ライセンス: Link先を確認
Wided Ghardallou, Hessamaldin Mohammadi, Elijah Brick, Ali Mili(参考訳) プログラム解析の大幅な進歩は、プログラムの関数が入力から出力(またはプログラムのセマンティクスのモデル化方法によって初期状態から最終状態まで)から導出できる場合に有効となる。 ループの関数を導出することの難しさに対して、そうすることの努力は常に行き詰まり、ループの関数を任意の数の反復をアンロールすることで、ループの関数を捕捉する巧妙な解は明らかに不十分である。 本稿では,ループを任意のレベルにネストしたプログラムを含むC型プログラムの関数を導出する関係性に基づく手法を提案する。 ループの意味を捉えるために、不変関係の概念を用いる。

Great advances in program analysis would be enabled if it were possible to derive the function of a program from inputs to outputs (or from initial states to final states, depending on how we model program semantics). Efforts to do so have always stalled against the difficulty to derive the function of loops; the expedient solution to capture the function of loops by unrolling them an arbitrary number of iterations is clearly inadequate. In this paper, we propose a relations-based method to derive the function of a C-like program, including programs that have loops nested to an arbitrary level. To capture the semantics of loops, we use the concept of invariant relation.
翻訳日:2023-10-23 04:14:47 公開日:2023-10-07
# 性能保証付きユニットコミット予測器:サポートベクトルマシン分類器

Unit Commitment Predictor With a Performance Guarantee: A Support Vector Machine Classifier ( http://arxiv.org/abs/2310.08601v1 )

ライセンス: Link先を確認
Farzaneh Pourahmadi, Jalal Kazempour(参考訳) システムオペレータは通常、計算の限られた時間枠内で大規模な単位コミットメント問題を解決する必要がある。 本稿では,従来のユニットのオン/オフコミットメント決定を学習し,予測することで,システムオペレータが解法をウォームスタートし,計算を著しく高速化する可能性を示す,実用的な解法を提案する。 予測のために、線形およびカーネル化されたサポートベクタマシン分類器を訓練し、適切に正規化された場合のアウト・オブ・サンプル性能を保証する。 単位コミットメント問題に対して,混合整数2次円錐問題を解く。 IEEE 6-bus と 118-bus の試験システムを用いた結果,カーネル化された SVM は他の分類器よりも優れた性能を示し,計算時間を 1.7 に短縮した。 さらに、厳密な計算限界が存在する場合、温暖化開始のない単位コミットメント問題は最適解から遠く離れており、その温暖化開始バージョンは、時間限界内で最適に解ける。

The system operators usually need to solve large-scale unit commitment problems within limited time frame for computation. This paper provides a pragmatic solution, showing how by learning and predicting the on/off commitment decisions of conventional units, there is a potential for system operators to warm start their solver and speed up their computation significantly. For the prediction, we train linear and kernelized support vector machine classifiers, providing an out-of-sample performance guarantee if properly regularized, converting to distributionally robust classifiers. For the unit commitment problem, we solve a mixed-integer second-order cone problem. Our results based on the IEEE 6-bus and 118-bus test systems show that the kernelized SVM with proper regularization outperforms other classifiers, reducing the computational time by a factor of 1.7. In addition, if there is a tight computational limit, while the unit commitment problem without warm start is far away from the optimal solution, its warmly started version can be solved to optimality within the time limit.
翻訳日:2023-10-23 02:51:57 公開日:2023-10-07
# ネットワークスライシング適応制御のオンライン最適化のためのデジタルツイン支援深層強化学習

Digital Twin Assisted Deep Reinforcement Learning for Online Optimization of Network Slicing Admission Control ( http://arxiv.org/abs/2310.09299v1 )

ライセンス: Link先を確認
Zhenyu Tao, Wei Xu, Xiaohu You(参考訳) 5gおよびbeyondネットワークにおける多様なネットワークサービスの普及は、ネットワークスライシング技術の出現につながった。 これらのうち、入場制御は、サービス要求の選択的受け入れを通じて、特定の最適化目標を達成する上で重要な役割を果たす。 深層強化学習(Dep Reinforcement Learning, DRL)はその有効性と柔軟性のために多くの入場制御アプローチの基礎を成すが、DRLモデルの初期の不安定性は現実のネットワークへの実践的な展開を妨げる。 本研究では,この問題に対処するディジタルツイン支援DRLソリューションを提案する。 具体的には、まずセミマルコフ決定プロセスとして入場決定過程を定式化し、その後DRL法の実装を容易にするために等価な離散時間マルコフ決定プロセスに単純化する。 DTは教師付き学習によって確立され、DRLモデルのトレーニングフェーズを支援するために使用される。 DT支援DRLモデルでは, 直接訓練したDueling-DQNと比較して資源利用率が40%以上増加し, 直接訓練したDRLモデルと比較して20%以上増加した。 この改善は、長期報酬を最適化するモデルの能力を維持しながら達成される。

The proliferation of diverse network services in 5G and beyond networks has led to the emergence of network slicing technologies. Among these, admission control plays a crucial role in achieving specific optimization goals through the selective acceptance of service requests. Although Deep Reinforcement Learning (DRL) forms the foundation in many admission control approaches for its effectiveness and flexibility, the initial instability of DRL models hinders their practical deployment in real-world networks. In this work, we propose a digital twin (DT) assisted DRL solution to address this issue. Specifically, we first formulate the admission decision-making process as a semi-Markov decision process, which is subsequently simplified into an equivalent discrete-time Markov decision process to facilitate the implementation of DRL methods. The DT is established through supervised learning and employed to assist the training phase of the DRL model. Extensive simulations show that the DT-assisted DRL model increased resource utilization by over 40\% compared to the directly trained state-of-the-art Dueling-DQN and over 20\% compared to our directly trained DRL model during initial training. This improvement is achieved while preserving the model's capacity to optimize the long-term rewards.
翻訳日:2023-10-23 02:41:16 公開日:2023-10-07
# Small-Text: Pythonのテキスト分類のためのアクティブラーニング

Small-Text: Active Learning for Text Classification in Python ( http://arxiv.org/abs/2107.10314v7 )

ライセンス: Link先を確認
Christopher Schr\"oder, Lydia M\"uller, Andreas Niekler, Martin Potthast(参考訳) このライブラリは、Pythonのシングルラベルとマルチラベルのテキスト分類にプールベースのアクティブラーニングを提供する。 GPUを活用するものなど、数多くの実装済みの最先端クエリ戦略を備えている。 標準化されたインターフェースは、様々な分類器、クエリ戦略、および停止基準の組み合わせを可能にし、迅速な混合とマッチングを容易にし、アクティブな学習実験とアプリケーションの両方を迅速かつ便利な開発を可能にする。 さまざまな分類器とクエリ戦略をアクティブな学習に利用できるようにすることを目的として、small-textは、scikit-learn、pytorch、hughing face transformersなどの有名な機械学習ライブラリを統合する。 後者の統合はオプションでインストール可能な拡張なので、gpuは使用できるが不要である。 この新たなライブラリを用いて,バニラ変圧器の微調整と比較した最近発表されたSetFitトレーニングパラダイムの性能を検討した。 このライブラリはMITライセンスでhttps://github.com/webis-de/small-textで、執筆時点でバージョン1.3.0で利用できる。

We introduce small-text, an easy-to-use active learning library, which offers pool-based active learning for single- and multi-label text classification in Python. It features numerous pre-implemented state-of-the-art query strategies, including some that leverage the GPU. Standardized interfaces allow the combination of a variety of classifiers, query strategies, and stopping criteria, facilitating a quick mix and match, and enabling a rapid and convenient development of both active learning experiments and applications. With the objective of making various classifiers and query strategies accessible for active learning, small-text integrates several well-known machine learning libraries, namely scikit-learn, PyTorch, and Hugging Face transformers. The latter integrations are optionally installable extensions, so GPUs can be used but are not required. Using this new library, we investigate the performance of the recently published SetFit training paradigm, which we compare to vanilla transformer fine-tuning, finding that it matches the latter in classification accuracy while outperforming it in area under the curve. The library is available under the MIT License at https://github.com/webis-de/small-text, in version 1.3.0 at the time of writing.
翻訳日:2023-10-13 17:44:25 公開日:2023-10-07
# 近代非線形関数オンファンクション回帰

Modern Non-Linear Function-on-Function Regression ( http://arxiv.org/abs/2107.14151v2 )

ライセンス: Link先を確認
Aniruddha Rajendra Rao, Matthew Reimherr(参考訳) 本稿では,ニューラルネットワークを用いた関数データに対する非線形関数オン関数回帰モデルを提案する。 本稿では,機能的応答モデリングのために,連続したニューロンからなる隠れ層を用いた枠組みを提案し,fdnn(functional direct neural network)とfbnn(functional basis neural network)の2つのモデル適合戦略を提案する。 どちらも機能データに固有の構造を利用し、機能予測と機能応答の間に存在する複雑な関係を捉えるために明示的に設計されている。 関数勾配を導出してこれらのモデルに適合し、より控えめな結果を得るために正規化手法を実装する。 本研究では,より広範なシミュレーションと実データ例を用いて,複雑な機能モデルを扱う手法のパワーと柔軟性を実証する。

We introduce a new class of non-linear function-on-function regression models for functional data using neural networks. We propose a framework using a hidden layer consisting of continuous neurons, called a continuous hidden layer, for functional response modeling and give two model fitting strategies, Functional Direct Neural Network (FDNN) and Functional Basis Neural Network (FBNN). Both are designed explicitly to exploit the structure inherent in functional data and capture the complex relations existing between the functional predictors and the functional response. We fit these models by deriving functional gradients and implement regularization techniques for more parsimonious results. We demonstrate the power and flexibility of our proposed method in handling complex functional models through extensive simulation studies as well as real data examples.
翻訳日:2023-10-13 17:33:54 公開日:2023-10-07
# 最適輸送による深層学習のためのk-Mixup正規化

k-Mixup Regularization for Deep Learning via Optimal Transport ( http://arxiv.org/abs/2106.02933v2 )

ライセンス: Link先を確認
Kristjan Greenewald, Anming Gu, Mikhail Yurochkin, Justin Solomon, Edward Chien(参考訳) mixupは、一般化を改善し、特定の分布シフトに対する堅牢性を高めるディープニューラルネットワークをトレーニングするための一般的な正規化テクニックである。 トレーニングセット内の他のランダムなインスタンスの方向に入力トレーニングデータを摂動する。 データの構造をよりよく活用するために、簡単な方法でミックスアップを拡張して、他の$k$-batches方向のトレーニングポイントの$k$-batchesを摂動する、\emph{$k$-mixup}に拡張する。 摂動は変位補間、すなわちワッサーシュタイン計量の下での補間によって行われる。 k$-mixup がクラスタ構造と多様体構造を保存するという理論的およびシミュレーションで実証し、標準 mixup の有効性を $k$-mixup の場合まで研究する理論を拡張した。 実験の結果,$k$-mixupを用いたトレーニングにより,複数のネットワークアーキテクチャと異なるモダリティのベンチマークデータセットの一般化と堅牢性が向上した。 さまざまな実際のデータセットが考慮されている場合、標準mixupに対する$k$-mixupのパフォーマンス向上は、ハイパーパラメータ最適化後の標準ermに対するmixup自体のパフォーマンス向上と同等かそれ以上である。 いくつかの例では、$k$-mixupは、標準的なmixupがermよりもゼロに改善できない設定で利益を得る。

Mixup is a popular regularization technique for training deep neural networks that improves generalization and increases robustness to certain distribution shifts. It perturbs input training data in the direction of other randomly-chosen instances in the training set. To better leverage the structure of the data, we extend mixup in a simple, broadly applicable way to \emph{$k$-mixup}, which perturbs $k$-batches of training points in the direction of other $k$-batches. The perturbation is done with displacement interpolation, i.e. interpolation under the Wasserstein metric. We demonstrate theoretically and in simulations that $k$-mixup preserves cluster and manifold structures, and we extend theory studying the efficacy of standard mixup to the $k$-mixup case. Our empirical results show that training with $k$-mixup further improves generalization and robustness across several network architectures and benchmark datasets of differing modalities. For the wide variety of real datasets considered, the performance gains of $k$-mixup over standard mixup are similar to or larger than the gains of mixup itself over standard ERM after hyperparameter optimization. In several instances, in fact, $k$-mixup achieves gains in settings where standard mixup has negligible to zero improvement over ERM.
翻訳日:2023-10-13 17:33:32 公開日:2023-10-07
# K-popファンダムはソーシャルメディア上で新型コロナウイルスの公衆衛生メッセージングを促進する

Parasocial diffusion: K-pop fandoms help drive COVID-19 public health messaging on social media ( http://arxiv.org/abs/2110.04149v3 )

ライセンス: Link先を確認
Ho-Chun Herbert Chang, Becky Pham, Emilio Ferrara(参考訳) 新型コロナウイルス(COVID-19)感染拡大に伴う公衆衛生メッセージ(Kポップファンダム)の予想外だが重要な原因について検討する。 2020年3月から2021年12月までに、マスク着用に関する700万以上のツイートとk-popを活用し、マスクに対する感情や公衆衛生の誤報の中で、ハッシュタグ \#wearamaskとワクチン関連ツイートのオンライン拡散を分析した。 分析によると、韓国のボーイバンドBTSは、医療談話の最も重要なドライバーの一人だ。 医療機関やK-popに言及した著名人からのツイートは、そうでないツイートの111倍のオンラインレスポンスを生成する。 これらのツイートは、メインストリームのソーシャルメディアキャンペーンによるtwitterベースのメッセージングでしばしば無視される南米、東南アジア、農村州からの強い反応も引き起こした。 ネットワークと時間分析は、時間とともに右利きエリートからの利用が増加したことを示している。 機械的には、非社会的エンゲージメントとつながりの強いレベルは、コミュニティにおける持続的な活動を可能にする。 以上の結果から, 公衆衛生機関は, 既存のオーディエンス市場を利用して, 特にcovid-19のような健康危機において, 国内外において, 未利用の地域社会を協調的に拡散し, ターゲティングできる可能性が示唆された。

We examine an unexpected but significant source of positive public health messaging during the COVID-19 pandemic -- K-pop fandoms. Leveraging more than 7 million tweets related to mask-wearing and K-pop between March 2020 and December 2021, we analyzed the online spread of the hashtag \#WearAMask and vaccine-related tweets amid anti-mask sentiments and public health misinformation. Analyses reveal the South Korean boyband BTS as one of the most significant driver of health discourse. Tweets from health agencies and prominent figures that mentioned K-pop generate 111 times more online responses compared to tweets that did not. These tweets also elicited strong responses from South America, Southeast Asia, and rural States -- areas often neglected in Twitter-based messaging by mainstream social media campaigns. Network and temporal analysis show increased use from right-leaning elites over time. Mechanistically, strong-levels of parasocial engagement and connectedness allow sustained activism in the community. Our results suggest that public health institutions may leverage pre-existing audience markets to synergistically diffuse and target under-served communities both domestically and globally, especially during health crises such as COVID-19.
翻訳日:2023-10-13 17:21:11 公開日:2023-10-07
# グラフ組合せ最適化問題に対するニューラル改善ヒューリスティックス

Neural Improvement Heuristics for Graph Combinatorial Optimization Problems ( http://arxiv.org/abs/2206.00383v3 )

ライセンス: Link先を確認
Andoni I. Garmendia, Josu Ceberio, Alexander Mendiburu(参考訳) グラフニューラルネットワークアーキテクチャの最近の進歩と計算能力の向上は、組合せ最適化(CO)の分野に革命をもたらした。 提案したCO問題モデルのうち、ニューラル改善(NI)モデルは特に成功した。 しかし、既存のNIアプローチは、ノードの特徴とノード単位の位置エンコーディングのみを考慮するため、エッジに重要な情報がエンコードされる問題に適用可能である。 この制限を克服するために,ノード,エッジ,あるいはその両方に情報をエンコードするグラフベースの問題を扱う新しいNIモデルを導入する。 提案モデルは,各繰り返しの近傍操作の選択を誘導するヒルクライミングに基づくアルゴリズムの基本的な構成要素として機能する。 実験により,提案モデルでは,99パーセントの精度で従来の優先順位付け問題よりも高い性能を示す近傍操作を推奨できることを示した。 また,この提案を,トラベルセールスマン問題とグラフ分割問題という2つのよく知られた問題にも拡張し,それぞれ98パーセンタイルと97パーセンタイルの操作を推奨した。

Recent advances in graph neural network architectures and increased computation power have revolutionized the field of combinatorial optimization (CO). Among the proposed models for CO problems, Neural Improvement (NI) models have been particularly successful. However, existing NI approaches are limited in their applicability to problems where crucial information is encoded in the edges, as they only consider node features and node-wise positional encodings. To overcome this limitation, we introduce a novel NI model capable of handling graph-based problems where information is encoded in the nodes, edges, or both. The presented model serves as a fundamental component for hill-climbing-based algorithms that guide the selection of neighborhood operations for each iteration. Conducted experiments demonstrate that the proposed model can recommend neighborhood operations that outperform conventional versions for the Preference Ranking Problem with a performance in the 99th percentile. We also extend the proposal to two well-known problems: the Traveling Salesman Problem and the Graph Partitioning Problem, recommending operations in the 98th and 97th percentile, respectively.
翻訳日:2023-10-13 17:03:14 公開日:2023-10-07
# デュアルモーダルデコーダを用いた視覚的特徴量の自由語彙多重ラベル分類

Open Vocabulary Multi-Label Classification with Dual-Modal Decoder on Aligned Visual-Textual Features ( http://arxiv.org/abs/2208.09562v2 )

ライセンス: Link先を確認
Shichao Xu, Yikang Li, Jenhao Hsiao, Chiuman Ho, Zhu Qi(参考訳) コンピュータビジョンでは、マルチラベル認識は多くの現実世界のアプリケーションにおいて重要なタスクである。 本稿では,オープンボカブラリーなマルチラベル分類タスクのために,視覚特徴量とテキスト特徴量とをアライメントするデュアルモーダルデコーダ(dm-デコーダ)を含む新しいアルゴリズムであるアラインドデュアルモダリティ分類器(adds)を提案する。 そして,高分解能入力の性能を向上させるために,ピラミッドフォワードと呼ばれる単純かつ効果的な手法を設計した。 さらに、Selective Language Supervisionを適用して、モデルの性能をさらに向上させる。 Extensive experiments conducted on several standard benchmarks, NUS-WIDE, ImageNet-1k, ImageNet-21k, and MS-COCO, demonstrate that our approach significantly outperforms previous methods and provides state-of-the-art performance for open-vocabulary multi-label classification, conventional multi-label classification and an extreme case called single-to-multi label classification where models trained on single-label datasets (ImageNet-1k, ImageNet-21k) are tested on multi-label ones (MS-COCO and NUS-WIDE).

In computer vision, multi-label recognition are important tasks with many real-world applications, but classifying previously unseen labels remains a significant challenge. In this paper, we propose a novel algorithm, Aligned Dual moDality ClaSsifier (ADDS), which includes a Dual-Modal decoder (DM-decoder) with alignment between visual and textual features, for open-vocabulary multi-label classification tasks. Then we design a simple and yet effective method called Pyramid-Forwarding to enhance the performance for inputs with high resolutions. Moreover, the Selective Language Supervision is applied to further enhance the model performance. Extensive experiments conducted on several standard benchmarks, NUS-WIDE, ImageNet-1k, ImageNet-21k, and MS-COCO, demonstrate that our approach significantly outperforms previous methods and provides state-of-the-art performance for open-vocabulary multi-label classification, conventional multi-label classification and an extreme case called single-to-multi label classification where models trained on single-label datasets (ImageNet-1k, ImageNet-21k) are tested on multi-label ones (MS-COCO and NUS-WIDE).
翻訳日:2023-10-13 16:31:59 公開日:2023-10-07
# ロングテール画像認識のための逆画像周波数

Inverse Image Frequency for Long-tailed Image Recognition ( http://arxiv.org/abs/2209.04861v2 )

ライセンス: Link先を確認
Konstantinos Panagiotis Alexandridis and Shan Luo and Anh Nguyen and Jiankang Deng and Stefanos Zafeiriou(参考訳) ロングテール分布は現実世界でよく見られる現象である。 抽出された大規模画像データセットは、不均衡なデータでトレーニングされたロングテール特性とモデルを必然的に示すことで、過剰に表現されたカテゴリに対して高いパフォーマンスを得ることができるが、未表示のカテゴリでは苦労し、偏りのある予測とパフォーマンスの低下をもたらす。 この課題に対処するために,逆画像周波数(IIF)という新しいデバイアス手法を提案する。 IIFは畳み込みニューラルネットワークの分類層におけるロジットの乗法的マージン調整変換である。 提案手法は, 類似作業よりも高い性能を達成し, 特に, 誤検出が少なくなるため, 長い尾のインスタンスセグメンテーションなどの下流タスクに有効である。 我々の広範な実験により、IIFはImageNet-LT、CIFAR-LT、Places-LT、LVISといった多くの長いベンチマークで、ImageNet-LTでResNet50、LVISでMaskRCNNで26.2%のセグメンテーションAPで55.8%の精度に達した。 コードはhttps://github.com/kostas1515/iifで利用可能

The long-tailed distribution is a common phenomenon in the real world. Extracted large scale image datasets inevitably demonstrate the long-tailed property and models trained with imbalanced data can obtain high performance for the over-represented categories, but struggle for the under-represented categories, leading to biased predictions and performance degradation. To address this challenge, we propose a novel de-biasing method named Inverse Image Frequency (IIF). IIF is a multiplicative margin adjustment transformation of the logits in the classification layer of a convolutional neural network. Our method achieves stronger performance than similar works and it is especially useful for downstream tasks such as long-tailed instance segmentation as it produces fewer false positive detections. Our extensive experiments show that IIF surpasses the state of the art on many long-tailed benchmarks such as ImageNet-LT, CIFAR-LT, Places-LT and LVIS, reaching 55.8% top-1 accuracy with ResNet50 on ImageNet-LT and 26.2% segmentation AP with MaskRCNN on LVIS. Code available at https://github.com/kostas1515/iif
翻訳日:2023-10-13 16:19:58 公開日:2023-10-07
# コンテキストバッチバンドに対するスケッチによる逆流計算

Reward Imputation with Sketching for Contextual Batched Bandits ( http://arxiv.org/abs/2210.06719v3 )

ライセンス: Link先を確認
Xiao Zhang, Ninglu Shao, Zihua Si, Jun Xu, Wenhan Wang, Hanjing Su, Ji-Rong Wen(参考訳) CBB(Contextual batched bandit)は、各エピソードの最後に環境から報酬のバッチが観測される設定であるが、実行されていないアクションの報酬は観測されないため、部分的な情報フィードバックをもたらす。 cbbの既存のアプローチは、しばしば非実行アクションの報酬を無視し、フィードバック情報の過小利用に繋がる。 本稿では,全情報フィードバックを近似するスケッチを用いた非監視報酬を完結する,インデュート報酬(spuir)によるスケッチポリシー更新という効率的な手法を提案する。 我々は,実行動作と非実行動作の両方のフィードバック機構を捉えたインプテーション正規化リッジ回帰問題として報酬インプテーションを定式化する。 時間的複雑さを低減するため,ランダムなスケッチによる回帰問題を解く。 提案手法は,報酬計算のない手法に比べて,制御可能なバイアスとばらつきの少ない即時後悔を実現する。 さらに,本手法は最適方針に反するサブ線形後悔を享受する。 また, レートスケジューリングバージョンと非線形報酬バージョンという2つの拡張も提示し, 提案手法をより実用的なものにした。 実験結果から,SPUIRは,合成,公開ベンチマーク,実世界のデータセットにおいて,最先端のベースラインを上回っていることがわかった。

Contextual batched bandit (CBB) is a setting where a batch of rewards is observed from the environment at the end of each episode, but the rewards of the non-executed actions are unobserved, resulting in partial-information feedback. Existing approaches for CBB often ignore the rewards of the non-executed actions, leading to underutilization of feedback information. In this paper, we propose an efficient approach called Sketched Policy Updating with Imputed Rewards (SPUIR) that completes the unobserved rewards using sketching, which approximates the full-information feedbacks. We formulate reward imputation as an imputation regularized ridge regression problem that captures the feedback mechanisms of both executed and non-executed actions. To reduce time complexity, we solve the regression problem using randomized sketching. We prove that our approach achieves an instantaneous regret with controllable bias and smaller variance than approaches without reward imputation. Furthermore, our approach enjoys a sublinear regret bound against the optimal policy. We also present two extensions, a rate-scheduled version and a version for nonlinear rewards, making our approach more practical. Experimental results show that SPUIR outperforms state-of-the-art baselines on synthetic, public benchmark, and real-world datasets.
翻訳日:2023-10-13 16:12:03 公開日:2023-10-07
# ILSGAN: 教師なし前地上セグメンテーションのための独立層合成

ILSGAN: Independent Layer Synthesis for Unsupervised Foreground-Background Segmentation ( http://arxiv.org/abs/2211.13974v4 )

ライセンス: Link先を確認
Qiran Zou, Yu Yang, Wing Yin Cheung, Chang Liu, Xiangyang Ji(参考訳) 非教師なしフォアグラウンド・バックグラウンド・セグメンテーションは、乱雑な背景から、特に層状GAN(Generative Adversarial Network)アプローチによって、非常に有望な対象を抽出することを目的としている。 しかしながら、人間のアノテーションがなければ、それらは一般に「情報漏洩」と呼ばれる非無視的な意味と視覚的混乱を伴う前景層と背景層を生成する傾向があり、それによって生成されたセグメンテーションマスクが顕著に劣化する。 この問題を軽減するために,独立層合成GAN (ILSGAN) と呼ばれる,単純かつ効果的な明示的な層独立性モデリング手法を提案する。 具体的には、前景と背景の可視領域間の相互情報の最小化を目標とし、層間独立を促進する。 理論的および実験的分析により、明示的な層独立性モデリングは情報漏洩を抑制するために重要であり、セグメンテーション性能の向上に寄与する。 また,我々のilsganは,複雑な実世界のデータに対して,最先端の生成品質とセグメンテーション性能を実現している。 コードはhttps://github.com/qrzou/ilsganで入手できる。

Unsupervised foreground-background segmentation aims at extracting salient objects from cluttered backgrounds, where Generative Adversarial Network (GAN) approaches, especially layered GANs, show great promise. However, without human annotations, they are typically prone to produce foreground and background layers with non-negligible semantic and visual confusion, dubbed "information leakage", resulting in notable degeneration of the generated segmentation mask. To alleviate this issue, we propose a simple-yet-effective explicit layer independence modeling approach, termed Independent Layer Synthesis GAN (ILSGAN), pursuing independent foreground-background layer generation by encouraging their discrepancy. Specifically, it targets minimizing the mutual information between visible and invisible regions of the foreground and background to spur interlayer independence. Through in-depth theoretical and experimental analyses, we justify that explicit layer independence modeling is critical to suppressing information leakage and contributes to impressive segmentation performance gains. Also, our ILSGAN achieves strong state-of-the-art generation quality and segmentation performance on complex real-world data. Code is available at: https://github.com/qrzou/ILSGAN
翻訳日:2023-10-13 15:50:58 公開日:2023-10-07
# Dataset Distillation: 総合的なレビュー

Dataset Distillation: A Comprehensive Review ( http://arxiv.org/abs/2301.07014v3 )

ライセンス: Link先を確認
Ruonan Yu, Songhua Liu, Xinchao Wang(参考訳) 最近のディープラーニングの成功は、ディープニューラルネットワークのトレーニングに使用される膨大な量のデータに起因するが、前例のない成功にもかかわらず、巨大なデータは残念ながら、ストレージと送信の負担を大幅に増加させ、さらに厄介なモデルトレーニングプロセスを生み出している。 さらに、トレーニングのための生データに依存することは、プライバシーと著作権に関する懸念をもたらす。 これらの欠点を軽減するため、データセット蒸留~(DD)と呼ばれるデータセット凝縮(DC)が導入され、最近コミュニティで多くの研究が注目されている。 オリジナルのデータセットを与えられたddは、トレーニングされたモデルが元のデータセットでトレーニングされたデータセットと同等のパフォーマンスを提供する、合成サンプルを含むはるかに小さなデータセットを導出することを目指している。 本稿ではDDの最近の進歩とその応用について概説する。 まず,このタスクを形式的に紹介し,既存のdd法に追従するアルゴリズムフレームワークを提案する。 次に、この領域における現在の方法論の体系的分類法を提供し、それらの理論的相互関係について論じる。 また, DDにおける今後の課題として, 広範な実験と今後の研究の方向性を考察する。

Recent success of deep learning is largely attributed to the sheer amount of data used for training deep neural networks.Despite the unprecedented success, the massive data, unfortunately, significantly increases the burden on storage and transmission and further gives rise to a cumbersome model training process. Besides, relying on the raw data for training \emph{per se} yields concerns about privacy and copyright. To alleviate these shortcomings, dataset distillation~(DD), also known as dataset condensation (DC), was introduced and has recently attracted much research attention in the community. Given an original dataset, DD aims to derive a much smaller dataset containing synthetic samples, based on which the trained models yield performance comparable with those trained on the original dataset. In this paper, we give a comprehensive review and summary of recent advances in DD and its application. We first introduce the task formally and propose an overall algorithmic framework followed by all existing DD methods. Next, we provide a systematic taxonomy of current methodologies in this area, and discuss their theoretical interconnections. We also present current challenges in DD through extensive experiments and envision possible directions for future works.
翻訳日:2023-10-13 15:18:08 公開日:2023-10-07
# Simplexランダム機能

Simplex Random Features ( http://arxiv.org/abs/2301.13856v2 )

ライセンス: Link先を確認
Isaac Reid, Krzysztof Choromanski, Valerii Likhosherstov, Adrian Weller(参考訳) ランダム投影ベクトルの幾何学的相関によるソフトマックスとガウス核の非バイアス近似のための新しいランダム特徴(RF)機構であるSimplex Random Features (SimRFs)を提案する。 我々は、SimRFが、これらのカーネルの非偏り推定値に最小の平均二乗誤差(MSE)を、重量非依存の幾何結合正の正のランダム特徴(PRF)機構のクラスで提供し、これまでで最も正確な直交ランダム特徴を観測可能な余分なコストで大幅に上回っていることを証明した。 我々はより計算コストのかかるSimRFs+変種を提示するが、これはより広範な重量依存幾何学的結合スキーム(ランダムベクトル方向とノルムの相関を許容する)の族において漸近的に最適である。 広範にわたる実証研究において,SimRFsは,ポイントワイドカーネル推定,非パラメトリック分類,スケーラブルトランスフォーマーなどの設定において一貫した利得を示す。

We present Simplex Random Features (SimRFs), a new random feature (RF) mechanism for unbiased approximation of the softmax and Gaussian kernels by geometrical correlation of random projection vectors. We prove that SimRFs provide the smallest possible mean square error (MSE) on unbiased estimates of these kernels among the class of weight-independent geometrically-coupled positive random feature (PRF) mechanisms, substantially outperforming the previously most accurate Orthogonal Random Features at no observable extra cost. We present a more computationally expensive SimRFs+ variant, which we prove is asymptotically optimal in the broader family of weight-dependent geometrical coupling schemes (which permit correlations between random vector directions and norms). In extensive empirical studies, we show consistent gains provided by SimRFs in settings including pointwise kernel estimation, nonparametric classification and scalable Transformers.
翻訳日:2023-10-13 15:10:51 公開日:2023-10-07
# DIVOTrack: DIVerse Open Scenesにおけるクロスビューマルチオブジェクトトラッキングのための新しいデータセットとベースライン手法

DIVOTrack: A Novel Dataset and Baseline Method for Cross-View Multi-Object Tracking in DIVerse Open Scenes ( http://arxiv.org/abs/2302.07676v2 )

ライセンス: Link先を確認
Shenghao Hao, Peiyuan Liu, Yibing Zhan, Kaixun Jin, Zuozhu Liu, Mingli Song, Jenq-Neng Hwang, Gaoang Wang(参考訳) クロスビューマルチオブジェクトトラッキングは、フレームとカメラビューの間のオブジェクトをかなりのオーバーラップでリンクすることを目的としている。 近年、クロスビューマルチオブジェクト追跡が注目されているが、既存のデータセットにはいくつかの問題がある。 1)現実のシナリオの欠如。 2)多様な場面の欠如 3)少数の線路を所有している。 4) 静止カメラのみを含むこと、及び 5) 標準ベンチマークの欠如は,クロスビュー追跡手法の調査と比較を妨げている。 上記の問題を解決するために、DIVOTrackを紹介した。DIVOTrackは、DIVerse Openのシーンに、現実的および非実験的な環境で歩行者を密に追跡するクロスビューマルチオブジェクト追跡データセットである。 私たちのDIVOTrackには15の異なるシナリオと953のクロスビュートラックがあります。 さらに、オブジェクト検出、単一ビューアソシエーション、オールインワン埋め込みモデルとのクロスビューマッチングを学習するCrossMOTという、統合されたジョイント検出およびクロスビュートラッキングフレームワークを備えた新しいベースラインクロスビュートラッキング手法を提案する。 最後に,現在の手法の概要と標準ベンチマークのセットをdivotrackと合わせて,公平な比較を行い,現在のアプローチと提案するクロスモットを総合的に分析する。 データセットとコードはhttps://github.com/shengyuhao/divotrackで入手できる。

Cross-view multi-object tracking aims to link objects between frames and camera views with substantial overlaps. Although cross-view multi-object tracking has received increased attention in recent years, existing datasets still have several issues, including 1) missing real-world scenarios, 2) lacking diverse scenes, 3) owning a limited number of tracks, 4) comprising only static cameras, and 5) lacking standard benchmarks, which hinder the investigation and comparison of cross-view tracking methods. To solve the aforementioned issues, we introduce DIVOTrack: a new cross-view multi-object tracking dataset for DIVerse Open scenes with dense tracking pedestrians in realistic and non-experimental environments. Our DIVOTrack has fifteen distinct scenarios and 953 cross-view tracks, surpassing all cross-view multi-object tracking datasets currently available. Furthermore, we provide a novel baseline cross-view tracking method with a unified joint detection and cross-view tracking framework named CrossMOT, which learns object detection, single-view association, and cross-view matching with an all-in-one embedding model. Finally, we present a summary of current methodologies and a set of standard benchmarks with our DIVOTrack to provide a fair comparison and conduct a comprehensive analysis of current approaches and our proposed CrossMOT. The dataset and code are available at https://github.com/shengyuhao/DIVOTrack.
翻訳日:2023-10-13 14:47:40 公開日:2023-10-07
# 言語モデルのクロスオーバー: わずかなプロンプトによるバリエーション

Language Model Crossover: Variation through Few-Shot Prompting ( http://arxiv.org/abs/2302.12170v2 )

ライセンス: Link先を確認
Elliot Meyerson and Mark J. Nelson and Herbie Bradley and Adam Gaier and Arash Moradi and Amy K. Hoover and Joel Lehman(参考訳) 本稿では言語モデルが自然に進化的クロスオーバーと同様の知的変分演算子を可能にするという知見を追求する。 特に、十分なスケールの言語モデルは、文脈内学習、すなわち、少数の入力パターン間の関連から学習し、そのような関連を組み込んだアウトプットを生成することができる(" few-shot prompting"とも呼ばれる)。 この能力は、単純だが強力な変動演算子、すなわち、いくつかのテキストベースのジェノタイプ(コード、平文文、方程式など)を持つ言語モデルを誘導し、対応する出力をそれらのジェノタイプの子孫として解析するために利用することができる。 このような言語モデルクロスオーバー(実装が簡単で、多くの異なるオープンソース言語モデルを利用できる)の約束は、セマンティックにリッチなテキスト表現(ドメイン固有の微調整は少ない)を進化させるシンプルなメカニズムを可能にすることである。 本稿では、バイナリビット文字列、文、方程式、テキスト・ツー・イメージプロンプト、Pythonコードの進化を通じて、言語モデルのクロスオーバーの汎用性を明らかにする。 結論として、言語モデルのクロスオーバーは、テキストとして表現可能なゲノムの進化のための有望な方法である。

This paper pursues the insight that language models naturally enable an intelligent variation operator similar in spirit to evolutionary crossover. In particular, language models of sufficient scale demonstrate in-context learning, i.e. they can learn from associations between a small number of input patterns to generate outputs incorporating such associations (also called few-shot prompting). This ability can be leveraged to form a simple but powerful variation operator, i.e. to prompt a language model with a few text-based genotypes (such as code, plain-text sentences, or equations), and to parse its corresponding output as those genotypes' offspring. The promise of such language model crossover (which is simple to implement and can leverage many different open-source language models) is that it enables a simple mechanism to evolve semantically-rich text representations (with few domain-specific tweaks), and naturally benefits from current progress in language models. Experiments in this paper highlight the versatility of language-model crossover, through evolving binary bit-strings, sentences, equations, text-to-image prompts, and Python code. The conclusion is that language model crossover is a promising method for evolving genomes representable as text.
翻訳日:2023-10-13 14:37:41 公開日:2023-10-07
# ランダムディザリングを用いた量子化低ランク多変量回帰

Quantized Low-Rank Multivariate Regression with Random Dithering ( http://arxiv.org/abs/2302.11197v3 )

ライセンス: Link先を確認
Junren Chen, Yueqi Wang, Michael K. Ng(参考訳) 低ランク多変量回帰(LRMR)は,多応答回帰問題として高相関なタスクと,係数行列上の低ランク優先問題を組み合わせた重要な統計学習モデルである。 本稿では,応答および/または共変量が有限精度に離散化される実測的なLRMRについて検討する。 基礎となる係数行列の推定に焦点をあてる。 任意に小さい誤差を許容できる一貫した推定器を実現するために、ランダムディザリングを伴う一様量子化、すなわち量子化前に適切なランダムノイズをデータに追加する。 特に、一様ディザーと三角形ディザーは、それぞれ応答と共変量に使用される。 量子化データに基づいて、制約付きラッソおよび正規化ラッソ推定器を提案し、非漸近誤差境界を導出する。 ディザリングの助けを借りて、推定子は最小値の最適率を達成する一方、量子化は誤差率の乗算係数をわずかに悪化させる。 さらに, 行列応答を持つ低ランク回帰モデルに結果を拡張した。 合成データや画像復元のシミュレーションによって, 理論的結果と相関し, 実証する。

Low-rank multivariate regression (LRMR) is an important statistical learning model that combines highly correlated tasks as a multiresponse regression problem with low-rank priori on the coefficient matrix. In this paper, we study quantized LRMR, a practical setting where the responses and/or the covariates are discretized to finite precision. We focus on the estimation of the underlying coefficient matrix. To make consistent estimator that could achieve arbitrarily small error possible, we employ uniform quantization with random dithering, i.e., we add appropriate random noise to the data before quantization. Specifically, uniform dither and triangular dither are used for responses and covariates, respectively. Based on the quantized data, we propose the constrained Lasso and regularized Lasso estimators, and derive the non-asymptotic error bounds. With the aid of dithering, the estimators achieve minimax optimal rate, while quantization only slightly worsens the multiplicative factor in the error rate. Moreover, we extend our results to a low-rank regression model with matrix responses. We corroborate and demonstrate our theoretical results via simulations on synthetic data or image restoration.
翻訳日:2023-10-13 14:35:36 公開日:2023-10-07
# FaceRNET: 表情強度推定ネットワーク

FaceRNET: a Facial Expression Intensity Estimation Network ( http://arxiv.org/abs/2303.00180v3 )

ライセンス: Link先を確認
Dimitrios Kollias, Andreas Psaroudakis, Anastasios Arsenos, Paraskevi Theofilou(参考訳) 本稿では,映像からの表情強度推定手法を提案する。 これには2つのコンポーネントが含まれる。 一 ビデオフレームごとに様々な感情記述子(価刺激、行動単位及び基本表現)を抽出する表現抽出ネットワーク 二 データ中の時間情報をキャプチャするRNN、次いで動的ルーティングによる様々な入力ビデオ長の処理を可能にするマスク層。 このアプローチは、優れた結果をもたらすHume-Reactionデータセットでテストされている。

This paper presents our approach for Facial Expression Intensity Estimation from videos. It includes two components: i) a representation extractor network that extracts various emotion descriptors (valence-arousal, action units and basic expressions) from each videoframe; ii) a RNN that captures temporal information in the data, followed by a mask layer which enables handling varying input video lengths through dynamic routing. This approach has been tested on the Hume-Reaction dataset yielding excellent results.
翻訳日:2023-10-13 14:26:50 公開日:2023-10-07
# 熱リコール:記憶支援マルコフ熱過程

Thermal recall: Memory-assisted Markovian thermal processes ( http://arxiv.org/abs/2303.12840v2 )

ライセンス: Link先を確認
Jakub Czartowski, A. de Oliveira Junior, Kamil Korzekwa(参考訳) 我々は,マルコフ熱過程(メモリレスダイナミクスをモデル化する)と熱操作(任意に非マルコフ力学をモデル化する)に基づく量子熱力学への2つのアプローチのギャップを埋めるための資源理論的枠組みを開発した。 本手法は,メモリレス熱力学過程を非マルコフ性に促進し,熱平衡状態において初期化された漸近記憶系を明示的にモデル化する,メモリ支援マルコフ熱過程の概念に基づいている。 本設定では, 熱操作によりアクセス可能なエネルギー不整合状態間のすべての遷移を近似する基本的2段階熱化系列からなるプロトコル群を提案する。 メモリのサイズが大きくなるにつれて、これらの近似は無限温度限界における全ての遷移、および有限温度状態における遷移のサブセットに対して任意に良いものとなる。 さらに,有限温度での任意の遷移に対するプロトコルの収束に関する固相数値的証拠も提示する。 また,作業抽出などの熱力学プロトコルにおいて,メモリ効果が果たす役割を定量化するために,我々のフレームワークをどのように利用できるかを説明する。 以上の結果から,熱操作を通じてアクセス可能なエネルギー非一貫性遷移を発生させるには,所定の時間に2つのエネルギー準位の初等制御が十分であることが判明した。

We develop a resource-theoretic framework that allows one to bridge the gap between two approaches to quantum thermodynamics based on Markovian thermal processes (which model memoryless dynamics) and thermal operations (which model arbitrarily non-Markovian dynamics). Our approach is built on the notion of memory-assisted Markovian thermal processes, where memoryless thermodynamic processes are promoted to non-Markovianity by explicitly modelling ancillary memory systems initialised in thermal equilibrium states. Within this setting, we propose a family of protocols composed of sequences of elementary two-level thermalisations that approximate all transitions between energy-incoherent states accessible via thermal operations. We prove that, as the size of the memory increases, these approximations become arbitrarily good for all transitions in the infinite temperature limit, and for a subset of transitions in the finite temperature regime. Furthermore, we present solid numerical evidence for the convergence of our protocol to any transition at finite temperatures. We also explain how our framework can be used to quantify the role played by memory effects in thermodynamic protocols such as work extraction. Finally, our results show that elementary control over two energy levels at a given time is sufficient to generate all energy-incoherent transitions accessible via thermal operations if one allows for ancillary thermal systems.
翻訳日:2023-10-13 14:06:19 公開日:2023-10-07
# Transformerモデルはどのようにして多様な化学構造を学ぶのか?

How does Transformer model evolve to learn diverse chemical structures? ( http://arxiv.org/abs/2303.11593v3 )

ライセンス: Link先を確認
Yasuhiro Yoshikai, Tadahaya Mizuno, Shumpei Nemoto, Hiroyuki Kusuhara(参考訳) 近年、非常に多様な分子の表現学習、特に自然言語処理(nlp)モデルを分子構造のリテラル表現であるスマイルに適用することに基づく記述子生成の急速な発展が見られる。 しかし、これらのモデルがどのように化学構造を理解するかについてはほとんど研究されていない。 このブラックボックスに対処するため,SMILESの学習過程と化学構造との関係を代表的NLPモデルであるTransformerを用いて検討した。 その結果、トランスフォーマーは分子の部分構造を素早く学習する一方で、全体構造を理解するために拡張トレーニングが必要であることが示唆された。 学習段階の異なるモデルから生成された記述子を用いた分子特性予測の精度は,訓練開始から終了まで類似していた。 さらに, トランスフォーマーはキラリティーを学習するために特に長い訓練を要し, エナンチオマーの誤解により翻訳精度が低下することもある。 これらの知見は化学におけるNLPモデルの理解を深めることが期待される。

Recent years have seen rapid development of descriptor generation based on representation learning of extremely diverse molecules, especially those that apply natural language processing (NLP) models to SMILES, a literal representation of molecular structure. However, little research has been done on how these models understand chemical structure. To address this black box, we investigated the relationship between the learning progress of SMILES and chemical structure using a representative NLP model, the Transformer. The results suggest that while the Transformer learns partial structures of molecules quickly, it requires extended training to understand overall structures. Consistently, the accuracy of molecular property predictions using descriptors generated from models at different learning steps was similar from the beginning to the end of training. Furthermore, we found that the Transformer requires particularly long training to learn chirality and sometimes stagnates with low translation accuracy due to misunderstanding of enantiomers. These findings are expected to deepen the understanding of NLP models in chemistry.
翻訳日:2023-10-13 14:05:58 公開日:2023-10-07
# RRHF:涙のない人間のフィードバックを伴う言語モデルに対するランク応答

RRHF: Rank Responses to Align Language Models with Human Feedback without tears ( http://arxiv.org/abs/2304.05302v3 )

ライセンス: Link先を確認
Zheng Yuan, Hongyi Yuan, Chuanqi Tan, Wei Wang, Songfang Huang, Fei Huang(参考訳) Reinforcement Learning from Human Feedback (RLHF)は、大きな言語モデルと人間の嗜好の一致を促進し、人間とモデルの相互作用の質を大幅に向上させる。 InstructGPTは、Supervised Fine-Tuning (SFT)、報酬モデルトレーニング、PPO(Proximal Policy Optimization)など、いくつかの段階を通じてRLHFを実装している。 しかしながら、PPOはハイパーパラメータに敏感であり、標準実装では複数のモデルを必要とするため、より大きなパラメータ数までトレーニングとスケールアップが困難である。 これとは対照的に,条件付き確率の対数を通じて異なるソースからサンプルされた応答をスコア付けし,これらの確率をランキングの損失を通じて人間の好みに合わせることを学ぶ,rrhfと呼ばれる新しい学習パラダイムを提案する。 RRHFは、モデル応答自体からのサンプル応答や、他の大きな言語モデル応答、人間の専門家応答など、さまざまなソースからのサンプル応答を活用できる。 RRHFは、チューニング中に1から2つのモデルしか必要とせず、複雑なハイパーパラメータチューニングなしで、言語モデルと人間の好みをしっかりと調整することができる。 さらに、RRHFは、コーディング、モデルカウント、ハイパーパラメータの点でPPOよりも単純でありながら、SFTおよび報酬モデルトレーニングの拡張と見なすことができる。 我々は、Helpful and Harmlessデータセット上でRRHFを評価し、報酬モデルスコアと人間ラベルによるPPOと同等のアライメント性能を示す。 実験の結果,RRHFの性能はサンプリング品質と高い相関があることが判明した。 コードはhttps://github.com/ganjinzero/rrhfで入手できる。

Reinforcement Learning from Human Feedback (RLHF) facilitates the alignment of large language models with human preferences, significantly enhancing the quality of interactions between humans and models. InstructGPT implements RLHF through several stages, including Supervised Fine-Tuning (SFT), reward model training, and Proximal Policy Optimization (PPO). However, PPO is sensitive to hyperparameters and requires multiple models in its standard implementation, making it hard to train and scale up to larger parameter counts. In contrast, we propose a novel learning paradigm called RRHF, which scores sampled responses from different sources via a logarithm of conditional probabilities and learns to align these probabilities with human preferences through ranking loss. RRHF can leverage sampled responses from various sources including the model responses from itself, other large language model responses, and human expert responses to learn to rank them. RRHF only needs 1 to 2 models during tuning and can efficiently align language models with human preferences robustly without complex hyperparameter tuning. Additionally, RRHF can be considered an extension of SFT and reward model training while being simpler than PPO in terms of coding, model counts, and hyperparameters. We evaluate RRHF on the Helpful and Harmless dataset, demonstrating comparable alignment performance with PPO by reward model score and human labeling. Extensive experiments show that the performance of RRHF is highly related to sampling quality which suggests RRHF is a best-of-n learner. Codes available at https://github.com/GanjinZero/RRHF.
翻訳日:2023-10-13 13:34:02 公開日:2023-10-07
# メカニスティック・インタプリタビリティのための自動回路発見に向けて

Towards Automated Circuit Discovery for Mechanistic Interpretability ( http://arxiv.org/abs/2304.14997v3 )

ライセンス: Link先を確認
Arthur Conmy, Augustine N. Mavor-Parker, Aengus Lynch, Stefan Heimersheim, Adri\`a Garriga-Alonso(参考訳) かなりの努力と直感を通じて、近年のいくつかの研究は、トランスフォーマーモデルの非自明な振る舞いをリバースエンジニアリングした。 本論文は, 機械的な解釈過程を体系化する。 まず、研究者は望ましいモデル行動を引き起こすメトリクスとデータセットを選択する。 次に、アクティベーションパッチを適用して、どの抽象ニューラルネットワークユニットが動作に関与しているかを見つける。 調査中のデータセット、メトリック、ユニットを変えることで、研究者は各コンポーネントの機能を理解することができる。 プロセスのステップの1つを自動化し、モデルの計算グラフで指定された動作を実装する回路を識別する。 我々は,いくつかのアルゴリズムを提案し,それを検証するために先行する解釈可能性結果を再現する。 例えば、ACDCアルゴリズムは、GPT-2 Smallの回路で5/5のコンポーネントタイプを再発見し、グレーター・タン演算を計算した。 ACDCはGPT-2 Smallで32,000のエッジのうち68を選定した。 私たちのコードはhttps://github.com/ArthurConmy/Automatic-Circuit-Discoveryで公開されています。

Through considerable effort and intuition, several recent works have reverse-engineered nontrivial behaviors of transformer models. This paper systematizes the mechanistic interpretability process they followed. First, researchers choose a metric and dataset that elicit the desired model behavior. Then, they apply activation patching to find which abstract neural network units are involved in the behavior. By varying the dataset, metric, and units under investigation, researchers can understand the functionality of each component. We automate one of the process' steps: to identify the circuit that implements the specified behavior in the model's computational graph. We propose several algorithms and reproduce previous interpretability results to validate them. For example, the ACDC algorithm rediscovered 5/5 of the component types in a circuit in GPT-2 Small that computes the Greater-Than operation. ACDC selected 68 of the 32,000 edges in GPT-2 Small, all of which were manually found by previous work. Our code is available at https://github.com/ArthurConmy/Automatic-Circuit-Discovery.
翻訳日:2023-10-13 13:28:41 公開日:2023-10-07
# GPT-NER:大規模言語モデルによるエンティティ認識

GPT-NER: Named Entity Recognition via Large Language Models ( http://arxiv.org/abs/2304.10428v4 )

ライセンス: Link先を確認
Shuhe Wang, Xiaofei Sun, Xiaoya Li, Rongbin Ouyang, Fei Wu, Tianwei Zhang, Jiwei Li, Guoyin Wang(参考訳) 大規模言語モデル(LLM)が様々なNLPタスクでSOTAのパフォーマンスを達成したにもかかわらず、NERの性能は教師付きベースラインよりもはるかに低い。 これは NER と LLM の2つのタスクの間にギャップがあるためである: 前者はシーケンシャルラベリングタスクであり、後者はテキスト生成モデルである。 本稿では,この問題を解決するため,GPT-NERを提案する。 gpt-nerは、シーケンスラベリングタスクをllmで容易に適応可能な生成タスクに変換することで、ギャップを橋渡しする。例えば、入力テキスト"columbus is a city"にある場所エンティティを見つけるタスクを変換して、"@@columbus# is a city"というテキストシーケンスを生成し、特別なトークン@@##が抽出するエンティティをマークする。 LLMがNULL入力をエンティティとして過剰にラベル付けする強い傾向を持つLLMの「ハロシン化」問題に効率よく対処するため、抽出されたエンティティがラベル付きエンティティタグに属しているかどうかを問うことで自己検証戦略を提案する。 我々は広く採用されている5つのNERデータセットで実験を行い、GPT-NERは完全に教師付きベースラインに匹敵する性能を達成しています。 さらに重要なことに、gpt-nerは低リソースと少数ショットのセットアップにおいて、トレーニングデータの量が極めて少ない場合、教師付きモデルよりもはるかに優れたパフォーマンスを示すことが分かりました。 これは、ラベル付きサンプルの数が限られている実世界のNERアプリケーションにおけるGPT-NERの機能を示す。

Despite the fact that large-scale Language Models (LLM) have achieved SOTA performances on a variety of NLP tasks, its performance on NER is still significantly below supervised baselines. This is due to the gap between the two tasks the NER and LLMs: the former is a sequence labeling task in nature while the latter is a text-generation model. In this paper, we propose GPT-NER to resolve this issue. GPT-NER bridges the gap by transforming the sequence labeling task to a generation task that can be easily adapted by LLMs e.g., the task of finding location entities in the input text "Columbus is a city" is transformed to generate the text sequence "@@Columbus## is a city", where special tokens @@## marks the entity to extract. To efficiently address the "hallucination" issue of LLMs, where LLMs have a strong inclination to over-confidently label NULL inputs as entities, we propose a self-verification strategy by prompting LLMs to ask itself whether the extracted entities belong to a labeled entity tag. We conduct experiments on five widely adopted NER datasets, and GPT-NER achieves comparable performances to fully supervised baselines, which is the first time as far as we are concerned. More importantly, we find that GPT-NER exhibits a greater ability in the low-resource and few-shot setups, when the amount of training data is extremely scarce, GPT-NER performs significantly better than supervised models. This demonstrates the capabilities of GPT-NER in real-world NER applications where the number of labeled examples is limited.
翻訳日:2023-10-13 13:25:10 公開日:2023-10-07
# YOLOCS:特徴空間凝固のためのDense Channel Compressionに基づく物体検出

YOLOCS: Object Detection based on Dense Channel Compression for Feature Spatial Solidification ( http://arxiv.org/abs/2305.04170v5 )

ライセンス: Link先を確認
Lin Huang, Weisheng Li, Linlin Shen, Haojie Fu, Xue Xiao, Suihan Xiao(参考訳) 本研究では,ネットワーク内の前方および後方伝播に着目し,特徴浄化と勾配バックプロパゲーションの過程におけるチャネル特性と畳み込み核の関係について検討する。 そこで本稿では,Dense Channel Compression for Feature Spatial Solidificationを提案する。 本手法の中心概念に基づき,Dense Channel Compression for Feature Spatial Solidification Structure (DCFS) と非対称多層圧縮デカップリングヘッド (ADH) という,バックボーンとヘッドネットワークのための2つの革新的なモジュールを導入する。 YOLOv5モデルに統合されると、これらの2つのモジュールは例外的な性能を示し、YOLOCSと呼ばれるモデルが修正される。 MSCOCOデータセットに基づいて評価すると、大、中、小のYOLOCSモデルはそれぞれ50.1%、47.6%、42.5%のAPが得られる。 推論速度はYOLOv5モデルと著しく類似しており、大、中、小のYOLOCSモデルはYOLOv5モデルのAPをそれぞれ1.1%、2.3%、5.2%上回っている。

In this study, we examine the associations between channel features and convolutional kernels during the processes of feature purification and gradient backpropagation, with a focus on the forward and backward propagation within the network. Consequently, we propose a method called Dense Channel Compression for Feature Spatial Solidification. Drawing upon the central concept of this method, we introduce two innovative modules for backbone and head networks: the Dense Channel Compression for Feature Spatial Solidification Structure (DCFS) and the Asymmetric Multi-Level Compression Decoupled Head (ADH). When integrated into the YOLOv5 model, these two modules demonstrate exceptional performance, resulting in a modified model referred to as YOLOCS. Evaluated on the MSCOCO dataset, the large, medium, and small YOLOCS models yield AP of 50.1%, 47.6%, and 42.5%, respectively. Maintaining inference speeds remarkably similar to those of the YOLOv5 model, the large, medium, and small YOLOCS models surpass the YOLOv5 model's AP by 1.1%, 2.3%, and 5.2%, respectively.
翻訳日:2023-10-13 13:04:57 公開日:2023-10-07
# 大規模言語モデルによる帰属の自動評価

Automatic Evaluation of Attribution by Large Language Models ( http://arxiv.org/abs/2305.06311v2 )

ライセンス: Link先を確認
Xiang Yue, Boshi Wang, Ziru Chen, Kai Zhang, Yu Su and Huan Sun(参考訳) 近年の大規模言語モデル(LLM)開発の焦点は、生成検索エンジンが示すように、そのクレームの生成とサポートのために外部参照を組み込むことである。 しかし、属性の評価、すなわち、生成された文が参照によって完全にサポートされているかどうかを検証することは、未解決の問題である。 人間の評価は一般的な慣行であるが、費用と時間を要する。 本稿では,LLMによる属性の自動評価について検討する。 まず、異なる種類の帰属誤差を定義し、次に2つの自動評価手法について検討する。 微調整データは、質問応答、事実チェック、自然言語推論、要約などの関連するタスクから再利用される。 生成検索エンジンNew Bingから12ドメインをカバーする一連のテスト例を手作業でキュレートする。 このキュレートされたテストセットと、既存のベンチマークによるシミュレーション例の結果は、有望な信号と課題の両方を強調している。 私たちの問題定式化、テストベッド、そして調査結果が、この重要な問題に関する今後の研究の基礎を築くのに役立つことを願っています。

A recent focus of large language model (LLM) development, as exemplified by generative search engines, is to incorporate external references to generate and support its claims. However, evaluating the attribution, i.e., verifying whether the generated statement is fully supported by the cited reference, remains an open problem. Although human evaluation is common practice, it is costly and time-consuming. In this paper, we investigate the automatic evaluation of attribution given by LLMs. We begin by defining different types of attribution errors, and then explore two approaches for automatic evaluation: prompting LLMs and fine-tuning smaller LMs. The fine-tuning data is repurposed from related tasks such as question answering, fact-checking, natural language inference, and summarization. We manually curate a set of test examples covering 12 domains from a generative search engine, New Bing. Our results on this curated test set and simulated examples from existing benchmarks highlight both promising signals and challenges. We hope our problem formulation, testbeds, and findings will help lay the foundation for future studies on this important problem.
翻訳日:2023-10-13 12:53:23 公開日:2023-10-07
# アノテーションフリーな視聴覚セグメンテーション

Annotation-free Audio-Visual Segmentation ( http://arxiv.org/abs/2305.11019v4 )

ライセンス: Link先を確認
Jinxiang Liu, Yu Wang, Chen Ju, Chaofan Ma, Ya Zhang, Weidi Xie(参考訳) audio-visual segmentation(avs)の目的は、ピクセル単位でのセグメンテーションマスクを正確に予測することで、視覚シーン内の音響オブジェクトをローカライズすることである。 タスクに取り組むには、データとモデルの両方の側面を包括的に考慮する必要がある。 本稿ではまず,手書きのアノテーションを伴わずに,AVSタスクのための人工データを生成する新しいパイプラインを開始する。 既存の画像セグメンテーションとオーディオデータセットを利用し、画像マスクペアと対応するオーディオサンプルをセグメンテーションデータセットのカテゴリラベルを使ってマッチングすることで、avモデルのトレーニングのために(画像、オーディオ、マスク)トリプレットを無力に構成できる。 パイプラインは多くのカテゴリをカバーするために、アノテーションフリーでスケーラブルです。 さらに、AVSタスクに事前訓練されたセグメントの任意のモデル~(SAM)を適応させる軽量モデルSAMA-AVSを導入する。 アダプタを用いた少数のトレーニング可能なパラメータを導入することで,ほとんどのパラメータを固定した符号化段階において,適切な音声と視覚の融合と相互作用を効果的に実現できる。 実験の結果,提案手法が他の競合手法をはるかに上回る結果が得られた。 さらに,本合成データを用いて事前学習したモデルを用いて,実avsbenchデータの性能をさらに向上させ,s4サブセットでは83.17miou,ms3セットでは66.95miouを達成した。 プロジェクトページはhttps://jinxiang-liu.github.io/anno-free-AVS/。

The objective of Audio-Visual Segmentation (AVS) is to localise the sounding objects within visual scenes by accurately predicting pixel-wise segmentation masks. To tackle the task, it involves a comprehensive consideration of both the data and model aspects. In this paper, first, we initiate a novel pipeline for generating artificial data for the AVS task without extra manual annotations. We leverage existing image segmentation and audio datasets and match the image-mask pairs with its corresponding audio samples using category labels in segmentation datasets, that allows us to effortlessly compose (image, audio, mask) triplets for training AVS models. The pipeline is annotation-free and scalable to cover a large number of categories. Additionally, we introduce a lightweight model SAMA-AVS which adapts the pre-trained segment anything model~(SAM) to the AVS task. By introducing only a small number of trainable parameters with adapters, the proposed model can effectively achieve adequate audio-visual fusion and interaction in the encoding stage with vast majority of parameters fixed. We conduct extensive experiments, and the results show our proposed model remarkably surpasses other competing methods. Moreover, by using the proposed model pretrained with our synthetic data, the performance on real AVSBench data is further improved, achieving 83.17 mIoU on S4 subset and 66.95 mIoU on MS3 set. The project page is https://jinxiang-liu.github.io/anno-free-AVS/.
翻訳日:2023-10-13 12:47:29 公開日:2023-10-07
# 政策蒸留を用いた深層強化学習モデルのための実例記述フレームワーク

Counterfactual Explainer Framework for Deep Reinforcement Learning Models Using Policy Distillation ( http://arxiv.org/abs/2305.16532v3 )

ライセンス: Link先を確認
Amir Samadi, Konstantinos Koufos, Kurt Debattista and Mehrdad Dianati(参考訳) 深層強化学習(DRL)は複雑な制御問題を解く上で有望な能力を示した。 しかし、安全クリティカルなシステムにおけるDRLの応用は、そのようなアプリケーションの性能を保証するための堅牢な検証技術が固有の欠如によって妨げられている。 検証プロセスの重要な要件の1つは、システム機能を説明する効果的な技術、すなわちシステムが特定の状況で特定の結果を生成する理由の開発である。 近年,DRLにおける説明問題に対処するために,対実的(CF)説明法に基づく解釈手法が提案されている。 本稿では,ブラックボックスDRLによる決定を説明するための新しいCF説明フレームワークを提案する。 提案手法の有効性を評価するため,自動走行システムおよびatari pongゲームの分野で,いくつかの実験を行った。 本分析は,DRLの深い基盤となる様々な決定に対して,提案手法が妥当かつ有意義に説明できることを示す。 ソースコードは: \url{https://github.com/Amir-Samadi/Counterfactual-Explanation}

Deep Reinforcement Learning (DRL) has demonstrated promising capability in solving complex control problems. However, DRL applications in safety-critical systems are hindered by the inherent lack of robust verification techniques to assure their performance in such applications. One of the key requirements of the verification process is the development of effective techniques to explain the system functionality, i.e., why the system produces specific results in given circumstances. Recently, interpretation methods based on the Counterfactual (CF) explanation approach have been proposed to address the problem of explanation in DRLs. This paper proposes a novel CF explanation framework to explain the decisions made by a black-box DRL. To evaluate the efficacy of the proposed explanation framework, we carried out several experiments in the domains of automated driving systems and Atari Pong game. Our analysis demonstrates that the proposed framework generates plausible and meaningful explanations for various decisions made by deep underlying DRLs. Source codes are available at: \url{https://github.com/Amir-Samadi/Counterfactual-Explanation}
翻訳日:2023-10-13 12:05:15 公開日:2023-10-07
# 心の眼の再構築--コントラスト学習と拡散前兆を用いたfmriから画像への変換

Reconstructing the Mind's Eye: fMRI-to-Image with Contrastive Learning and Diffusion Priors ( http://arxiv.org/abs/2305.18274v2 )

ライセンス: Link先を確認
Paul S. Scotti, Atmadeep Banerjee, Jimmie Goode, Stepan Shabalin, Alex Nguyen, Ethan Cohen, Aidan J. Dempster, Nathalie Verlinde, Elad Yundler, David Weisberg, Kenneth A. Norman, Tanishq Mathew Abraham(参考訳) 脳活動から視像を検索・再構成するための新しいfMRI-to-imageアプローチであるMindEyeを提案する。 本モデルは,検索(コントラスト学習)と再構築(拡散前処理)に特化した2つの並列部分モジュールからなる。 mindeyeは、fmriの脳活動をクリップ画像空間のようなあらゆる高次元のマルチモーダル潜在空間にマッピングすることができ、この潜在空間からの埋め込みを受け入れる生成モデルを使って画像再構成を可能にする。 提案手法と既存手法を総合的に比較し,定性的側面比較と定量的評価を併用し,MindEyeが復元作業と検索作業の両方において最先端のパフォーマンスを達成することを示す。 特にMindEyeは、脳の埋め込みがきめ細かな画像特有の情報を保持していることを示す非常に類似した候補の中でも、正確な元の画像を取得することができる。 これにより、LAION-5Bのような大規模データベースからでも正確に画像を取得することができる。 我々は,mindeyeが従来の手法よりも性能が向上し,検索と再構築のための特別なサブモジュール,トレーニング技術の改善,パラメータの桁違いなトレーニングモデルなどが得られたことをアブレーションにより証明した。 さらに,img2imgを別個のオートエンコーダから出力することで,MindEyeは再構成の低レベル画像の特徴を保存できることを示す。 すべてのコードはGitHubで入手できる。

We present MindEye, a novel fMRI-to-image approach to retrieve and reconstruct viewed images from brain activity. Our model comprises two parallel submodules that are specialized for retrieval (using contrastive learning) and reconstruction (using a diffusion prior). MindEye can map fMRI brain activity to any high dimensional multimodal latent space, like CLIP image space, enabling image reconstruction using generative models that accept embeddings from this latent space. We comprehensively compare our approach with other existing methods, using both qualitative side-by-side comparisons and quantitative evaluations, and show that MindEye achieves state-of-the-art performance in both reconstruction and retrieval tasks. In particular, MindEye can retrieve the exact original image even among highly similar candidates indicating that its brain embeddings retain fine-grained image-specific information. This allows us to accurately retrieve images even from large-scale databases like LAION-5B. We demonstrate through ablations that MindEye's performance improvements over previous methods result from specialized submodules for retrieval and reconstruction, improved training techniques, and training models with orders of magnitude more parameters. Furthermore, we show that MindEye can better preserve low-level image features in the reconstructions by using img2img, with outputs from a separate autoencoder. All code is available on GitHub.
翻訳日:2023-10-13 11:52:59 公開日:2023-10-07
# let the flow tell: gflownetsによるグラフ組合せ最適化問題を解く

Let the Flows Tell: Solving Graph Combinatorial Optimization Problems with GFlowNets ( http://arxiv.org/abs/2305.17010v2 )

ライセンス: Link先を確認
Dinghuai Zhang, Hanjun Dai, Nikolay Malkin, Aaron Courville, Yoshua Bengio, Ling Pan(参考訳) 組合せ最適化(CO)問題はしばしばNPハードであり、正確なアルゴリズムでは到達できないため、機械学習手法を適用する誘惑的な領域となっている。 これらの問題における高度に構造化された制約は、最適化またはソリューション空間でのサンプリングを妨げうる。 一方、gflownetsは最近、複合非正規化密度から効率的にサンプリングし、coにおけるそのような解探索過程を償却し、多様な解候補を生成する強力な機械として登場している。 本稿では,異なる組合せ問題に対するマルコフ決定過程(MDP)を設計し,条件付きGFlowNetを学習して解空間からサンプルを作成することを提案する。 長距離クレジットの割り当てに有効な訓練技術も開発されている。 合成および現実的なデータを用いた様々なCOタスクに関する広範な実験を通じて、GFlowNetポリシが高品質なソリューションを効率的に見つけることができることを示す。 我々の実装はhttps://github.com/zdhNarsil/GFlowNet-CombOptでオープンソース化されています。

Combinatorial optimization (CO) problems are often NP-hard and thus out of reach for exact algorithms, making them a tempting domain to apply machine learning methods. The highly structured constraints in these problems can hinder either optimization or sampling directly in the solution space. On the other hand, GFlowNets have recently emerged as a powerful machinery to efficiently sample from composite unnormalized densities sequentially and have the potential to amortize such solution-searching processes in CO, as well as generate diverse solution candidates. In this paper, we design Markov decision processes (MDPs) for different combinatorial problems and propose to train conditional GFlowNets to sample from the solution space. Efficient training techniques are also developed to benefit long-range credit assignment. Through extensive experiments on a variety of different CO tasks with synthetic and realistic data, we demonstrate that GFlowNet policies can efficiently find high-quality solutions. Our implementation is open-sourced at https://github.com/zdhNarsil/GFlowNet-CombOpt.
翻訳日:2023-10-13 11:50:39 公開日:2023-10-07
# コードプロンプティング:大規模言語モデルにおける複雑推論のためのニューラルシンボリック手法

Code Prompting: a Neural Symbolic Method for Complex Reasoning in Large Language Models ( http://arxiv.org/abs/2305.18507v2 )

ライセンス: Link先を確認
Yi Hu, Haotong Yang, Zhouchen Lin, Muhan Zhang(参考訳) 大規模言語モデル(LLM)は、様々なプロンプトメソッドの助けを借りて、幅広い複雑な推論タスクをアンロックするために拡張されている。 しかし、現在のプロンプトメソッドは推論に役立つ自然言語中間ステップを生成し、不完全なタスクの削減と混乱を引き起こす可能性がある。 このような制限を軽減するため、コードプロンプトは、中間ステップとしてコードをトリガーするゼロショットバージョンとマイショットバージョンの両方を持つ、ニューラルシンボリックプロンプトメソッドである。 我々は記号的推論と算術的推論を含む7つの広く使われているベンチマーク実験を行った。 コードプロンプトは一般にチェーン・オブ・マインド(cot)プロンプトを上回っている。 コードプロンプトの性能と限界をより深く理解するために、広範囲にわたるアブレーション研究とエラー解析を行い、自然言語と比較して記号プロンプトを使うことによるいくつかの排他的利点を識別する。 また,コードプロンプトとcotの組み合わせによって,両者の強みを組み合わせることも検討する。 最後に、コードアノテーションとその場所がコードのプロンプトにどのように影響するかを実験を通して示す。

Large language models (LLMs) have scaled up to unlock a wide range of complex reasoning tasks with the aid of various prompting methods. However, current prompting methods generate natural language intermediate steps to help reasoning, which can cause imperfect task reduction and confusion. To mitigate such limitations, we explore code prompting, a neural symbolic prompting method with both zero-shot and few-shot versions which triggers code as intermediate steps. We conduct experiments on 7 widely-used benchmarks involving symbolic reasoning and arithmetic reasoning. Code prompting generally outperforms chain-of-thought (CoT) prompting. To further understand the performance and limitations of code prompting, we perform extensive ablation studies and error analyses, and identify several exclusive advantages of using symbolic promptings compared to natural language. We also consider the ensemble of code prompting and CoT prompting to combine the strengths of both. Finally, we show through experiments how code annotations and their locations affect code prompting.
翻訳日:2023-10-13 11:41:54 公開日:2023-10-07
# VAST:Vision-Audio-Subtitle-Text Omni-Modality Foundationモデルとデータセット

VAST: A Vision-Audio-Subtitle-Text Omni-Modality Foundation Model and Dataset ( http://arxiv.org/abs/2305.18500v2 )

ライセンス: Link先を確認
Sihan Chen, Handong Li, Qunbo Wang, Zijia Zhao, Mingzhen Sun, Xinxin Zhu, Jing Liu(参考訳) 視覚とテキストは現代のビデオテキストの基礎モデルで十分に研究されてきたが、音声や字幕といった他のモダリティは十分に注目されていない。 本稿では,VAST-27Mと呼ばれる大規模モダリティビデオキャプションデータセットを自動生成することで,視覚,オーディオ,字幕,テキストなどのマルチモダリティビデオトラック間の接続を確立する。 具体的には、2700万のオープンドメインビデオクリップを収集し、視覚とオーディオキャプタを個別にトレーニングして、視覚とオーディオキャプタを生成する。 次に,既成のLarge Language Model (LLM) を用いて,生成されたキャプションと,字幕と指導プロンプトを組み込んだオムニモダリティキャプションを統合する。 提案したVAST-27Mデータセットに基づいて、ビデオから視覚、オーディオ、サブタイトルのモダリティを知覚・処理し、視覚テキスト、オーディオテキスト、マルチモーダルなビデオテキストタスク(検索、キャプション、QA)を含む様々なタスクをより良くサポートする、VASTという全モードのビデオテキスト基盤モデルを訓練する。 提案した VAST-27M コーパスと VAST ファンデーションモデルの有効性を示すため, 大規模な実験を行った。 VASTは、さまざまなモダリティベンチマークで22の新たな最先端結果を達成する。 コード、モデル、データセットはhttps://github.com/TXH-mercury/VASTでリリースされる。

Vision and text have been fully explored in contemporary video-text foundational models, while other modalities such as audio and subtitles in videos have not received sufficient attention. In this paper, we resort to establish connections between multi-modality video tracks, including Vision, Audio, and Subtitle, and Text by exploring an automatically generated large-scale omni-modality video caption dataset called VAST-27M. Specifically, we first collect 27 million open-domain video clips and separately train a vision and an audio captioner to generate vision and audio captions. Then, we employ an off-the-shelf Large Language Model (LLM) to integrate the generated captions, together with subtitles and instructional prompts into omni-modality captions. Based on the proposed VAST-27M dataset, we train an omni-modality video-text foundational model named VAST, which can perceive and process vision, audio, and subtitle modalities from video, and better support various tasks including vision-text, audio-text, and multi-modal video-text tasks (retrieval, captioning and QA). Extensive experiments have been conducted to demonstrate the effectiveness of our proposed VAST-27M corpus and VAST foundation model. VAST achieves 22 new state-of-the-art results on various cross-modality benchmarks. Code, model and dataset will be released at https://github.com/TXH-mercury/VAST.
翻訳日:2023-10-13 11:41:37 公開日:2023-10-07
# グラフニューラルネットにおける構造格差のデミスティフィケーション:全てのサイズが満たせるか?

Demystifying Structural Disparity in Graph Neural Networks: Can One Size Fit All? ( http://arxiv.org/abs/2306.01323v2 )

ライセンス: Link先を確認
Haitao Mao, Zhikai Chen, Wei Jin, Haoyu Han, Yao Ma, Tong Zhao, Neil Shah, Jiliang Tang(参考訳) グラフニューラルネットワーク(gnns)に関する最近の研究は、ホモ親和性グラフと特定の親和性グラフの両方で構造パターンを捉えることの有効性を実証的および理論的に証明している。 特に、ほとんどの実世界のホモフィルグラフとヘテロフィルグラフは、ホモフィルグラフとヘテロフィルグラフの両方の構造パターンの混合ノードで構成され、構造的な相違を示す。 しかし、GNNの性能解析は、例えば、ヘテロ親和性グラフにおけるホモ親和性ノードのような異なる構造パターンを示すノードに対して、かなり限定的である。 本研究では, ノード分類上のグラフニューラルネットワーク(GNN)が, 異種グラフ内のホモ親和性ノードや異種グラフ内のヘテロ親和性ノードに対して, 反対のノード集合上で苦労しながら良好に動作し, 性能の相違を示すことを示す。 我々はGNNが異なる構造パターンを示す試験ノードに与える影響を理論的および経験的に同定した。 次に,GNN に対する厳密で非I.d PAC-Bayesian 一般化法を提案する。 さらに,(1)深層gnnの有効性を解明し,(2)グラフアウトオブ・ディストリビューション問題に対する過剰な分布シフト因子を明らかにし,それに応じて新しいシナリオを提案することにより,新たな知見の実用的意義を示す。

Recent studies on Graph Neural Networks(GNNs) provide both empirical and theoretical evidence supporting their effectiveness in capturing structural patterns on both homophilic and certain heterophilic graphs. Notably, most real-world homophilic and heterophilic graphs are comprised of a mixture of nodes in both homophilic and heterophilic structural patterns, exhibiting a structural disparity. However, the analysis of GNN performance with respect to nodes exhibiting different structural patterns, e.g., homophilic nodes in heterophilic graphs, remains rather limited. In the present study, we provide evidence that Graph Neural Networks(GNNs) on node classification typically perform admirably on homophilic nodes within homophilic graphs and heterophilic nodes within heterophilic graphs while struggling on the opposite node set, exhibiting a performance disparity. We theoretically and empirically identify effects of GNNs on testing nodes exhibiting distinct structural patterns. We then propose a rigorous, non-i.i.d PAC-Bayesian generalization bound for GNNs, revealing reasons for the performance disparity, namely the aggregated feature distance and homophily ratio difference between training and testing nodes. Furthermore, we demonstrate the practical implications of our new findings via (1) elucidating the effectiveness of deeper GNNs; and (2) revealing an over-looked distribution shift factor on graph out-of-distribution problem and proposing a new scenario accordingly.
翻訳日:2023-10-13 11:14:58 公開日:2023-10-07
# IoTネットワークにおける多UAV軌道計画のためのモデル支援フェデレーション強化学習

Model-aided Federated Reinforcement Learning for Multi-UAV Trajectory Planning in IoT Networks ( http://arxiv.org/abs/2306.02029v2 )

ライセンス: Link先を確認
Jichao Chen, Omid Esrafilian, Harald Bayerlein, David Gesbert, and Marco Caccamo(参考訳) 無人航空機(UAV)のチームが分散IoT(Internet of Things)デバイスからデータを収集するには、効率的な軌道計画と調整アルゴリズムが必要である。 マルチエージェント強化学習(MARL)がソリューションとして登場したが、大規模な実世界のトレーニングデータが必要である。 この課題に対処するために,データ収集ミッションにおいて,環境に関する限られた知識のみで複数のUAVを協調するモデル支援連合型MARLアルゴリズムを提案する。 提案手法は,実世界の計測から環境シミュレーションモデルの構築,特に無線チャネル特性の学習,未知のiotデバイス位置の推定,シミュレーション環境での連合qmixトレーニングを交互に行う。 各UAVエージェントは、模擬環境でローカルQMIXモデルを訓練し、他のエージェントとの連携学習を通じて継続的に統合し、学習プロセスを加速する。 標準marlアルゴリズムとの比較により,提案するモデル支援feedqmixアルゴリズムは,実世界のトレーニングエクスペリエンスを約3桁削減するとともに,同様のデータ収集性能を実現する。

Deploying teams of unmanned aerial vehicles (UAVs) to harvest data from distributed Internet of Things (IoT) devices requires efficient trajectory planning and coordination algorithms. Multi-agent reinforcement learning (MARL) has emerged as a solution, but requires extensive and costly real-world training data. To tackle this challenge, we propose a novel model-aided federated MARL algorithm to coordinate multiple UAVs on a data harvesting mission with only limited knowledge about the environment. The proposed algorithm alternates between building an environment simulation model from real-world measurements, specifically learning the radio channel characteristics and estimating unknown IoT device positions, and federated QMIX training in the simulated environment. Each UAV agent trains a local QMIX model in its simulated environment and continuously consolidates it through federated learning with other agents, accelerating the learning process. A performance comparison with standard MARL algorithms demonstrates that our proposed model-aided FedQMIX algorithm reduces the need for real-world training experiences by around three magnitudes while attaining similar data collection performance.
翻訳日:2023-10-13 09:08:27 公開日:2023-10-07
# 変分不均衡回帰:確率的平滑化による不確かさの定量化

Variational Imbalanced Regression: Fair Uncertainty Quantification via Probabilistic Smoothing ( http://arxiv.org/abs/2306.06599v3 )

ライセンス: Link先を確認
Ziyan Wang, Hao Wang(参考訳) 既存の回帰モデルは、ラベル分布が不均衡である場合、精度と不確実性の推定の両方において不足する傾向にある。 本稿では,不均衡回帰でうまく機能するだけでなく,副産物として合理的な不確実性推定を行う確率的不均衡回帰(vir)と呼ばれるディープラーニングモデルを提案する。 Different from typical variational autoencoders assuming I.I.D. representations (a data point's representation is not directly affected by other data points), our VIR borrows data with similar regression labels to compute the latent representation's variational distribution; furthermore, different from deterministic regression models producing point estimates, VIR predicts the entire normal-inverse-gamma distributions and modulates the associated conjugate distributions to impose probabilistic reweighting on the imbalanced data, thereby providing better uncertainty estimation. いくつかの実世界のデータセットにおける実験では、virは精度と不確実性の両方の観点から、最先端の不均衡回帰モデルよりも優れています。 コードは、もうすぐ \url{https://github.com/Wang-ML-Lab/variational-imbalanced-regression}で利用可能になる。

Existing regression models tend to fall short in both accuracy and uncertainty estimation when the label distribution is imbalanced. In this paper, we propose a probabilistic deep learning model, dubbed variational imbalanced regression (VIR), which not only performs well in imbalanced regression but naturally produces reasonable uncertainty estimation as a byproduct. Different from typical variational autoencoders assuming I.I.D. representations (a data point's representation is not directly affected by other data points), our VIR borrows data with similar regression labels to compute the latent representation's variational distribution; furthermore, different from deterministic regression models producing point estimates, VIR predicts the entire normal-inverse-gamma distributions and modulates the associated conjugate distributions to impose probabilistic reweighting on the imbalanced data, thereby providing better uncertainty estimation. Experiments in several real-world datasets show that our VIR can outperform state-of-the-art imbalanced regression models in terms of both accuracy and uncertainty estimation. Code will soon be available at \url{https://github.com/Wang-ML-Lab/variational-imbalanced-regression}.
翻訳日:2023-10-13 09:00:43 公開日:2023-10-07
# 事前学習モデルにおけるレート低減原理による画像クラスタリング

Image Clustering via the Principle of Rate Reduction in the Age of Pretrained Models ( http://arxiv.org/abs/2306.05272v4 )

ライセンス: Link先を確認
Tianzhe Chu, Shengbang Tong, Tianjiao Ding, Xili Dai, Benjamin David Haeffele, Ren\'e Vidal, Yi Ma(参考訳) 大規模な事前学習モデルの出現は、視覚表現学習と自然言語処理の両方にパラダイムシフトをもたらした。 しかしながら、ラベルのないイメージのクラスタリングは、基本で古典的な機械学習の問題として、特に大規模データセットでは、効果的なソリューションを欠いている。 本稿では,クリップ画像やクラスタ画像などの大規模事前学習モデルの強力な特徴表現を効果的かつ効率的に活用する,新しい画像クラスタリングパイプラインを提案する。 まず,与えられたデータセットのクラスタ数を推定する新しいアルゴリズムを開発した。 次に, 事前学習した特徴は, レート削減目標をさらに最適化することで, 著しく構造化されていることを示す。 その結果、ImageNet-1kでは、クラスタリングの精度が57%から66%に向上する可能性がある。 さらに,クリップのイメージとテキスト間のマルチモダリティブリッジを利用して,クラスタに対して有意義なテキストラベルを生成する,単純かつ効果的な自己ラベルアルゴリズムを開発した。 CIFAR-10, CIFAR-100, ImageNet-1kなどの標準データセットでパイプラインが動作することを示す。 また、LAION-AestheticsやWikiArtsなど、事前に定義されたラベルのないデータセットにも拡張されている。 コードをhttps://github.com/LeslieTrue/CPPでリリースしました。

The advent of large pre-trained models has brought about a paradigm shift in both visual representation learning and natural language processing. However, clustering unlabeled images, as a fundamental and classic machine learning problem, still lacks an effective solution, particularly for large-scale datasets. In this paper, we propose a novel image clustering pipeline that leverages the powerful feature representation of large pre-trained models such as CLIP and cluster images effectively and efficiently at scale. We first developed a novel algorithm to estimate the number of clusters in a given dataset. We then show that the pre-trained features are significantly more structured by further optimizing the rate reduction objective. The resulting features may significantly improve the clustering accuracy, e.g., from 57% to 66% on ImageNet-1k. Furthermore, by leveraging CLIP's multimodality bridge between image and text, we develop a simple yet effective self-labeling algorithm that produces meaningful text labels for the clusters. Through extensive experiments, we show that our pipeline works well on standard datasets such as CIFAR-10, CIFAR-100, and ImageNet-1k. It also extends to datasets without predefined labels, such as LAION-Aesthetics and WikiArts. We released the code in https://github.com/LeslieTrue/CPP.
翻訳日:2023-10-13 08:59:27 公開日:2023-10-07
# アスペクトベース感情分析のための新しい反事実データ拡張法

A Novel Counterfactual Data Augmentation Method for Aspect-Based Sentiment Analysis ( http://arxiv.org/abs/2306.11260v3 )

ライセンス: Link先を確認
Dongming Wu, Lulu Wen, Chao Chen, Zhaoshu Shi(参考訳) Aspect-based-sentiment-analysis (ABSA)は、評価面の感情極性を分析する微粒な感情評価タスクである。 一般に、アスペクトの感情的な極性は、モデルの性能に大きな影響を与える、対応する意見表現の中に存在する。 この問題を軽減するために,逆の感情極性を持つ意見表現を生成するための,新規で単純な反実データ拡張手法を提案する。 特に、統合勾配を計算して、意見表現の検索とマスキングを行う。 そして、元のテキストに逆表現極性と組み合わされたプロンプトを付加し、最終的に、前訓練言語モデル(PLM:Pre-trained Language Model)T5を用いてマスクを予測する。 実験の結果,提案手法は3つのABSAデータセット,すなわちラップトップ,レストラン,MAMSにおいて,現在の拡張手法よりも優れた結果が得られた。

Aspect-based-sentiment-analysis (ABSA) is a fine-grained sentiment evaluation task, which analyzes the emotional polarity of the evaluation aspects. Generally, the emotional polarity of an aspect exists in the corresponding opinion expression, whose diversity has great impact on model's performance. To mitigate this problem, we propose a novel and simple counterfactual data augmentation method to generate opinion expressions with reversed sentiment polarity. In particular, the integrated gradients are calculated to locate and mask the opinion expression. Then, a prompt combined with the reverse expression polarity is added to the original text, and a Pre-trained language model (PLM), T5, is finally was employed to predict the masks. The experimental results shows the proposed counterfactual data augmentation method performs better than current augmentation methods on three ABSA datasets, i.e. Laptop, Restaurant, and MAMS.
翻訳日:2023-10-13 08:38:41 公開日:2023-10-07
# Vanilla Gradient Descentを用いたNTKを超えて:ポリノーミアル幅,サンプル,時間を有するニューラルネットワークの平均場解析

Beyond NTK with Vanilla Gradient Descent: A Mean-Field Analysis of Neural Networks with Polynomial Width, Samples, and Time ( http://arxiv.org/abs/2306.16361v2 )

ライセンス: Link先を確認
Arvind Mahankali, Jeff Z. Haochen, Kefan Dong, Margalit Glasgow, Tengyu Ma(参考訳) 2層ニューラルネットワークの非凸最適化に関する最近の理論的な進歩にもかかわらず、不自然な修正を伴わないニューラルネットワークの勾配降下がカーネル法よりも優れたサンプル複雑性を達成することができるかどうかはまだ疑問である。 本稿では,多項式幅2層ニューラルネットワーク上の投影勾配流れのクリーンな平均場解析を提供する。 先行研究と異なり,本解析では最適化アルゴリズムの不自然な修正は不要である。 サンプルサイズ $n = o(d^{3.1})$ ここで$d$ は入力の次元であり、投影された勾配フローで訓練されたネットワークは$\text{poly}(d)$ で収束し、非自明なエラーに収束する。 その結果,正の学習率と多項式数で投影された勾配降下は,同じサンプル複雑性で低い誤差に収束することがわかった。

Despite recent theoretical progress on the non-convex optimization of two-layer neural networks, it is still an open question whether gradient descent on neural networks without unnatural modifications can achieve better sample complexity than kernel methods. This paper provides a clean mean-field analysis of projected gradient flow on polynomial-width two-layer neural networks. Different from prior works, our analysis does not require unnatural modifications of the optimization algorithm. We prove that with sample size $n = O(d^{3.1})$ where $d$ is the dimension of the inputs, the network trained with projected gradient flow converges in $\text{poly}(d)$ time to a non-trivial error that is not achievable by kernel methods using $n \ll d^4$ samples, hence demonstrating a clear separation between unmodified gradient descent and NTK. As a corollary, we show that projected gradient descent with a positive learning rate and a polynomial number of iterations converges to low error with the same sample complexity.
翻訳日:2023-10-13 08:17:42 公開日:2023-10-07
# トランスフォーマーはいつRLで輝くのか? クレジット割り当てからメモリを分離する

When Do Transformers Shine in RL? Decoupling Memory from Credit Assignment ( http://arxiv.org/abs/2307.03864v3 )

ライセンス: Link先を確認
Tianwei Ni, Michel Ma, Benjamin Eysenbach, Pierre-Luc Bacon(参考訳) 強化学習(Reinforcement Learning, RL)アルゴリズムは、過去と現在の観察の効果的な表現を学習し、アクションが将来のリターンにどのように影響するかを決定する。 どちらの課題も長期的な依存関係のモデリングを伴う。 Transformerアーキテクチャは、RLドメインを含む長期的な依存関係に関わる問題を解決するのに非常に成功した。 しかし、トランスフォーマーベースのrlメソッドの強力なパフォーマンスの根本的な理由は、まだ不明である。 メモリ長とクレジット割り当て長の形式的定義を導入した後、これらの異なる量を測定するための簡単な構成可能なタスクを設計する。 実験の結果、トランスフォーマーはrlアルゴリズムのメモリ能力を向上し、記憶に残る観察を必要とするタスクまでスケールアップできることがわかった。 しかし、トランスフォーマーは長期クレジット割り当てを改善しない。 まとめると、この結果はRLにおけるトランスフォーマーの成功を説明するとともに、将来の研究とベンチマーク設計における重要な領域を強調している。 私たちのコードはhttps://github.com/twni2016/memory-rlでオープンソースです。

Reinforcement learning (RL) algorithms face two distinct challenges: learning effective representations of past and present observations, and determining how actions influence future returns. Both challenges involve modeling long-term dependencies. The Transformer architecture has been very successful to solve problems that involve long-term dependencies, including in the RL domain. However, the underlying reason for the strong performance of Transformer-based RL methods remains unclear: is it because they learn effective memory, or because they perform effective credit assignment? After introducing formal definitions of memory length and credit assignment length, we design simple configurable tasks to measure these distinct quantities. Our empirical results reveal that Transformers can enhance the memory capability of RL algorithms, scaling up to tasks that require memorizing observations $1500$ steps ago. However, Transformers do not improve long-term credit assignment. In summary, our results provide an explanation for the success of Transformers in RL, while also highlighting an important area for future research and benchmark design. Our code is open-sourced at https://github.com/twni2016/Memory-RL
翻訳日:2023-10-13 08:06:15 公開日:2023-10-07
# contextspeech: 文章読みのための表現力と効率的なテキスト合成

ContextSpeech: Expressive and Efficient Text-to-Speech for Paragraph Reading ( http://arxiv.org/abs/2307.00782v2 )

ライセンス: Link先を確認
Yujia Xiao, Shaofei Zhang, Xi Wang, Xu Tan, Lei He, Sheng Zhao, Frank K. Soong, Tan Lee(参考訳) 最先端のテキスト音声システムは、文レベルで非常に高品質な自然言語を生成することができるが、段落/長文読解のための音声生成において大きな課題に直面する。 このような欠陥は 一 横断的文脈情報の無知、及び 二 長期合成のための高い計算量及びメモリコスト これらの問題に対処するため、この研究は軽量で効果的なTSシステムであるContextSpeechを開発した。 具体的には,文エンコーディングにグローバルテキストと音声コンテキストを組み込むメモリキャッシュ再帰機構を最初に設計する。 次に、階層構造化されたテキスト意味論を構築し、グローバルコンテキスト拡張のスコープを広げる。 さらに,リニアライズド・セルフ・アテンションを統合し,モデルの効率を向上させる。 実験の結果,ContextSpeechは段落読解における音声品質と韻律表現性を,競争モデル効率で向上させることがわかった。 オーディオサンプルはhttps://contextspeech.github.io/demo/。

While state-of-the-art Text-to-Speech systems can generate natural speech of very high quality at sentence level, they still meet great challenges in speech generation for paragraph / long-form reading. Such deficiencies are due to i) ignorance of cross-sentence contextual information, and ii) high computation and memory cost for long-form synthesis. To address these issues, this work develops a lightweight yet effective TTS system, ContextSpeech. Specifically, we first design a memory-cached recurrence mechanism to incorporate global text and speech context into sentence encoding. Then we construct hierarchically-structured textual semantics to broaden the scope for global context enhancement. Additionally, we integrate linearized self-attention to improve model efficiency. Experiments show that ContextSpeech significantly improves the voice quality and prosody expressiveness in paragraph reading with competitive model efficiency. Audio samples are available at: https://contextspeech.github.io/demo/
翻訳日:2023-10-13 08:04:43 公開日:2023-10-07
# SafeDreamer: 世界モデルによる安全な強化学習

SafeDreamer: Safe Reinforcement Learning with World Models ( http://arxiv.org/abs/2307.07176v2 )

ライセンス: Link先を確認
Weidong Huang, Jiaming Ji, Borong Zhang, Chunhe Xia, Yaodong Yang(参考訳) 実世界のアプリケーションにおける強化学習(RL)の展開は、安全性基準を満たしていないことによる制約がある。 既存のSafe Reinforcement Learning (SafeRL)メソッドは、安全性を強制するためにコスト関数に依存しており、複雑なシナリオ、特に視覚のみのタスクにおいてゼロコストのパフォーマンスを達成することができないことが多い。 これらの制限は主に、モデルの不正確さとサンプル効率の不十分に起因する。 世界モデルの統合はこれらの欠点を軽減するのに有効であることが証明されている。 本稿では,ラグランジアンに基づく手法を優れたdreamerフレームワークにおける世界モデル計画プロセスに組み込む新しいアルゴリズムであるsafedreamerを紹介する。 本手法は,低次元と視覚のみの入力にまたがる様々なタスクにおいてほぼゼロコスト性能を達成し,rlタスクにおける性能と安全性のバランスをとる効果を示す。 詳細とリソースはプロジェクトのWebサイト(https://sites.google.com/view/safedreamer.com)で確認できる。

The deployment of Reinforcement Learning (RL) in real-world applications is constrained by its failure to satisfy safety criteria. Existing Safe Reinforcement Learning (SafeRL) methods, which rely on cost functions to enforce safety, often fail to achieve zero-cost performance in complex scenarios, especially vision-only tasks. These limitations are primarily due to model inaccuracies and inadequate sample efficiency. The integration of world models has proven effective in mitigating these shortcomings. In this work, we introduce SafeDreamer, a novel algorithm incorporating Lagrangian-based methods into world model planning processes within the superior Dreamer framework. Our method achieves nearly zero-cost performance on various tasks, spanning low-dimensional and vision-only input, within the Safety-Gymnasium benchmark, showcasing its efficacy in balancing performance and safety in RL tasks. Further details and resources are available on the project website: https://sites.google.com/view/safedreamer.
翻訳日:2023-10-13 05:47:45 公開日:2023-10-07
# 大規模言語モデルのためのプライベートウォーターマーク

A Private Watermark for Large Language Models ( http://arxiv.org/abs/2307.16230v3 )

ライセンス: Link先を確認
Aiwei Liu, Leyi Pan, Xuming Hu, Shu'ang Li, Lijie Wen, Irwin King and Philip S. Yu(参考訳) 近年,大型言語モデル (LLM) のテキスト透かしアルゴリズムは,偽ニュースや著作権問題を含むLLMが生成するテキストの潜在的な害を軽減している。 しかし、現在のテキストアルゴリズムの透かし検出には、生成プロセスのキーが必要であるため、違反や偽造の影響を受けやすい。 本研究では,両段階で同じキーを使用するのではなく,それぞれ異なる2つのニューラルネットワークを用いて電子透かしの生成と検出を行うことにより,現在のテキスト透かしアルゴリズムを拡張した最初のプライベート透かしアルゴリズムを提案する。 一方、透かし生成および検出ネットワークのパラメータの一部を共有することにより、検出ネットワークを極めて効率的に行うことができる。 実験の結果,両ネットワークのパラメータサイズが小さいため,生成速度と検出速度に最小限の影響を伴って高い検出精度が保証された。 また,その後の解析により,検出ネットワークからの透かし生成ルールの復元が困難であることを実証した。

Recently, text watermarking algorithms for large language models (LLMs) have been mitigating the potential harms of text generated by the LLMs, including fake news and copyright issues. However, the watermark detection of current text algorithms requires the key from the generation process, making them susceptible to breaches and counterfeiting. In this work, we propose the first private watermarking algorithm, which extends the current text watermarking algorithms by using two different neural networks respectively for watermark generation and detection, rather than using the same key at both stages. Meanwhile, part of the parameters of the watermark generation and detection networks are shared, which makes the detection network achieve a high accuracy very efficiently. Experiments show that our algorithm ensures high detection accuracy with minimal impact on generation and detection speed, due to the small parameter size of both networks. Additionally, our subsequent analysis demonstrates the difficulty of reverting the watermark generation rules from the detection network.
翻訳日:2023-10-13 05:24:19 公開日:2023-10-07
# 非コヒーレントな量子ノイズチャネルの存在下での量子位相推定アルゴリズムのシミュレーションと解析

Simulation and analysis of quantum phase estimation algorithm in the presence of incoherent quantum noise channels ( http://arxiv.org/abs/2307.15675v2 )

ライセンス: Link先を確認
Muhammad Faizan and Muhammad Faryad(参考訳) 量子位相推定(QPE)は量子フーリエ変換(QFT)に基づく基本アルゴリズムの1つである。 順序探索、分解、ユニタリ作用素の固有値の探索に応用できる。 QPEや他の量子アルゴリズムを実行する際の大きな課題は、量子コンピュータのノイズである。 このノイズは、キュービットと環境の相互作用と、ゲート操作の故障によるものである。 本研究では,qpeに対する非一貫性雑音の影響を,トレース保存と完全正の量子チャネルとしてモデル化した。 ノイズの存在下でのQPEの性能を理解するために、脱分極、位相フリップ、ビット相フリップ、ビット相フリップなどの異なるノイズモデルを用いる。 シミュレーションの結果,単位作用素の固有値の標準偏差は個々の量子ビットの誤差確率に強い指数的依存性を持つことが示された。 さらに、固定誤差確率の量子ビット数によって標準偏差が増加する。

The quantum phase estimation (QPE) is one of the fundamental algorithms based on the quantum Fourier transform (QFT). It has applications in order-finding, factoring, and finding the eigenvalues of unitary operators. The major challenge in running QPE and other quantum algorithms is the noise in quantum computers. This noise is due to the interactions of qubits with the environment and due to the faulty gate operations. In the present work, we study the impact of incoherent noise on QPE, modeled as trace-preserving and completely positive quantum channels. Different noise models such as depolarizing, phase flip, bit flip, and bit-phase flip are taken to understand the performance of the QPE in the presence of noise. The simulation results indicate that the standard deviation of the eigenvalue of the unitary operator has strong exponential dependence upon the error probability of individual qubits. Furthermore, the standard deviation increases with the number of qubits for fixed error probability.
翻訳日:2023-10-13 05:23:27 公開日:2023-10-07
# PETformer:Placeholder-enhanced Transformerによる長期連続予測

PETformer: Long-term Time Series Forecasting via Placeholder-enhanced Transformer ( http://arxiv.org/abs/2308.04791v2 )

ライセンス: Link先を確認
Shengsheng Lin, Weiwei Lin, Wentai Wu, Songbo Wang, Yongxiang Wang(参考訳) 近年,長期連続予測(LTSF)タスクにおけるTransformerの優位性に疑問が呈されており,特に近年の研究では,単純なモデルが多くのTransformerベースのアプローチより優れていることが示されている。 これは、LTSFタスクにおけるTransformerの可能性を完全に活用する上で、注目すべきギャップが残っていることを示唆している。 その結果, Transformer を LTSF に適用する場合, 時間的連続性, 情報密度, マルチチャネル関係の側面を含む重要な課題について検討した。 本研究では,Placeholder-enhanced Technique (PET)を導入し,LTSFタスクにおけるTransformerの計算効率と予測精度を向上させる。 さらに,トランスフォーマーの性能,特にLong Sub-Sequence Division (LSD) とMulti- Channel Separation and Interaction (MSI) に対する,より大きなパッチ戦略とチャネルインタラクション戦略の影響について検討する。 これらの戦略はPETformerと呼ばれる新しいモデルを構成する。 広範な実験により、PETformerはLTSFの8つの一般的なパブリックデータセットで最先端のパフォーマンスを達成し、既存のモデルをすべて上回っていることが示されている。 本稿では,今後の研究成果の参考点とインスピレーションの源泉として,その洞察と強化手法について述べる。

Recently, the superiority of Transformer for long-term time series forecasting (LTSF) tasks has been challenged, particularly since recent work has shown that simple models can outperform numerous Transformer-based approaches. This suggests that a notable gap remains in fully leveraging the potential of Transformer in LTSF tasks. Consequently, this study investigates key issues when applying Transformer to LTSF, encompassing aspects of temporal continuity, information density, and multi-channel relationships. We introduce the Placeholder-enhanced Technique (PET) to enhance the computational efficiency and predictive accuracy of Transformer in LTSF tasks. Furthermore, we delve into the impact of larger patch strategies and channel interaction strategies on Transformer's performance, specifically Long Sub-sequence Division (LSD) and Multi-channel Separation and Interaction (MSI). These strategies collectively constitute a novel model termed PETformer. Extensive experiments have demonstrated that PETformer achieves state-of-the-art performance on eight commonly used public datasets for LTSF, surpassing all existing models. The insights and enhancement methodologies presented in this paper serve as valuable reference points and sources of inspiration for future research endeavors.
翻訳日:2023-10-13 05:02:49 公開日:2023-10-07
# ダミーリスク最小化によるフラストレーションやすいモデル一般化

Frustratingly Easy Model Generalization by Dummy Risk Minimization ( http://arxiv.org/abs/2308.02287v2 )

ライセンス: Link先を確認
Juncheng Wang, Jindong Wang, Xixu Hu, Shujun Wang, Xing Xie(参考訳) 経験的リスク最小化(ERM)は基本的な機械学習パラダイムである。 しかし、その一般化能力は様々なタスクで制限されている。 本稿では,ERMの一般化を改善するため,フラストレーション的に簡単かつ汎用的な手法であるダミーリスク最小化(DuRM)を考案する。 DuRMの実装は非常に簡単で、出力ロジットの次元を拡大し、標準勾配勾配を使って最適化するだけです。 さらに, 理論的および経験的解析における DuRM の有効性を検証した。 理論的には、デュラムは勾配のばらつきが大きいことを示し、より平坦な局所極小を観測することでモデル一般化を促進する。 実験では,従来の分類,セマンティクスセグメンテーション,アウト・オブ・ディストリビューション・ジェネライゼーション,悪質なトレーニング,ロングテール認識など,さまざまなタスクにおいて,データセット,モダリティ,ネットワークアーキテクチャをまたいだdrmの評価を行う。 結果は、DuRMがほぼ無料のランチ方式で全てのタスクでパフォーマンスを継続的に改善できることを示した。 さらに,DuRMは既存の一般化手法と互換性があることを示し,その限界について論じる。 DuRMがリスク最小化の基礎研究に新たな関心を喚起することを期待している。

Empirical risk minimization (ERM) is a fundamental machine learning paradigm. However, its generalization ability is limited in various tasks. In this paper, we devise Dummy Risk Minimization (DuRM), a frustratingly easy and general technique to improve the generalization of ERM. DuRM is extremely simple to implement: just enlarging the dimension of the output logits and then optimizing using standard gradient descent. Moreover, we validate the efficacy of DuRM on both theoretical and empirical analysis. Theoretically, we show that DuRM derives greater variance of the gradient, which facilitates model generalization by observing better flat local minima. Empirically, we conduct evaluations of DuRM across different datasets, modalities, and network architectures on diverse tasks, including conventional classification, semantic segmentation, out-of-distribution generalization, adverserial training, and long-tailed recognition. Results demonstrate that DuRM could consistently improve the performance under all tasks with an almost free lunch manner. Furthermore, we show that DuRM is compatible with existing generalization techniques and we discuss possible limitations. We hope that DuRM could trigger new interest in the fundamental research on risk minimization.
翻訳日:2023-10-13 05:01:07 公開日:2023-10-07
# 自然に触発された特徴選択アルゴリズムの学生成績予測能力の解析

Analyzing the Capabilities of Nature-inspired Feature Selection Algorithms in Predicting Student Performance ( http://arxiv.org/abs/2308.08574v2 )

ライセンス: Link先を確認
Thomas Trask(参考訳) リスクの高い学生に対する効果的な事前障害介入の活用には,学生のパフォーマンス予測が重要である。 教育データが大きくなるにつれて、有用な予測や介入を提供するために、学生データをタイムリーに分析するより効果的な手段が必要となる。 本稿では,学生のパフォーマンス予測に使用するアンサンブルアルゴリズムの特徴選択部分において,自然に触発されたアルゴリズムの相対的性能について分析を行った。 Swarm Intelligence MLエンジン(SIMLe)は、このスイートを一連の伝統的なML分類アルゴリズムと組み合わせて実行し、インスタンスベースのクリックストリームデータ、ハイブリッドシングルコースのパフォーマンス、複数のコースを同時に行う際の学生のメタパフォーマンスの3つのデータセットを分析するために開発された。 これらの結果は従来の予測アルゴリズムと比較され、分析されたすべてのデータセットに対して、特徴選択に自然に触発されたアルゴリズムと従来のmlアルゴリズムを用いたアンサンブルアプローチを用いることで、予測精度が大幅に向上するとともに、特徴セットサイズを最大65%削減できることが判明した。

Predicting student performance is key in leveraging effective pre-failure interventions for at-risk students. As educational data grows larger, more effective means of analyzing student data in a timely manner are needed in order to provide useful predictions and interventions. In this paper, an analysis was conducted to determine the relative performance of a suite of nature-inspired algorithms in the feature-selection portion of ensemble algorithms used to predict student performance. A Swarm Intelligence ML engine (SIMLe) was developed to run this suite in tandem with a series of traditional ML classification algorithms to analyze three student datasets: instance-based clickstream data, hybrid single-course performance, and student meta-performance when taking multiple courses simultaneously. These results were then compared to previous predictive algorithms and, for all datasets analyzed, it was found that leveraging an ensemble approach using nature-inspired algorithms for feature selection and traditional ML algorithms for classification significantly increased predictive accuracy while also reducing feature set size by up to 65 percent.
翻訳日:2023-10-13 04:51:27 公開日:2023-10-07
# 物理に基づく文字制御のためのニューラルカテゴリー

Neural Categorical Priors for Physics-Based Character Control ( http://arxiv.org/abs/2308.07200v3 )

ライセンス: Link先を確認
Qingxu Zhu, He Zhang, Mengting Lan, Lei Han(参考訳) 最近の再利用可能な運動優先学習の進歩は、自然主義的行動の生成における効果を実証している。 本稿では,既存の最先端手法よりも動作品質と多様性が大幅に向上した物理ベースの文字を制御するための新しい学習フレームワークを提案する。 提案手法は,ベクトル量子化変分オートエンコーダ (vq-vae) で採用されている離散的情報ボトルネックを用いた非構造化モーションクリップからの生命運動を追跡・模倣するために強化学習 (rl) を用いる。 この構造は、モーションクリップから最も関連する情報をコンパクトで情報的な潜在空間、すなわちベクトル量子化された符号上の離散空間に圧縮する。 訓練されたカテゴリの事前分布から空間内のコードをサンプリングすることにより、コンピュータビジョンにおけるVQ-VAEと同様に、高品質なライフライクな振る舞いを生成することができる。 この事前分布はエンコーダの出力を監督して訓練することができるが、データセット内の元のモーションクリップ分布に従い、設定における不均衡な動作につながる可能性がある。 この問題に対処するため,好奇心駆動型RLを用いて事前分布を調整するための先行シフト方式を提案する。 結果分布は十分な行動多様性を示し、下流タスクの上位レベルの政策学習を著しく促進する。 ソードシールド打撃と2人のボクシングの2つの課題に対して,ヒューマノイド文字を用いた包括的実験を行った。 提案手法は,行動戦略,多様性,リアリズムの観点から,キャラクタをかなり高品質な動作に制御できることを示す。 ビデオ、コード、データはhttps://tencent-roboticsx.github.io/ncp/で入手できる。

Recent advances in learning reusable motion priors have demonstrated their effectiveness in generating naturalistic behaviors. In this paper, we propose a new learning framework in this paradigm for controlling physics-based characters with significantly improved motion quality and diversity over existing state-of-the-art methods. The proposed method uses reinforcement learning (RL) to initially track and imitate life-like movements from unstructured motion clips using the discrete information bottleneck, as adopted in the Vector Quantized Variational AutoEncoder (VQ-VAE). This structure compresses the most relevant information from the motion clips into a compact yet informative latent space, i.e., a discrete space over vector quantized codes. By sampling codes in the space from a trained categorical prior distribution, high-quality life-like behaviors can be generated, similar to the usage of VQ-VAE in computer vision. Although this prior distribution can be trained with the supervision of the encoder's output, it follows the original motion clip distribution in the dataset and could lead to imbalanced behaviors in our setting. To address the issue, we further propose a technique named prior shifting to adjust the prior distribution using curiosity-driven RL. The outcome distribution is demonstrated to offer sufficient behavioral diversity and significantly facilitates upper-level policy learning for downstream tasks. We conduct comprehensive experiments using humanoid characters on two challenging downstream tasks, sword-shield striking and two-player boxing game. Our results demonstrate that the proposed framework is capable of controlling the character to perform considerably high-quality movements in terms of behavioral strategies, diversity, and realism. Videos, codes, and data are available at https://tencent-roboticsx.github.io/NCP/.
翻訳日:2023-10-13 04:49:21 公開日:2023-10-07
# AgentVerse: マルチエージェントコラボレーションの実現と創発的行動の探索

AgentVerse: Facilitating Multi-Agent Collaboration and Exploring Emergent Behaviors ( http://arxiv.org/abs/2308.10848v2 )

ライセンス: Link先を確認
Weize Chen, Yusheng Su, Jingwei Zuo, Cheng Yang, Chenfei Yuan, Chi-Min Chan, Heyang Yu, Yaxi Lu, Yi-Hsin Hung, Chen Qian, Yujia Qin, Xin Cong, Ruobing Xie, Zhiyuan Liu, Maosong Sun, Jie Zhou(参考訳) 大規模言語モデル(llm)によって権限を付与された自律エージェントは大幅に改善され、幅広いタスクを一般化できるようになった。 しかし、現実のシナリオでは、タスク達成の効率と効果を高めるために個人間の協力がしばしば必要となる。 そこで,人間の集団動力学に触発されて,その構成をits部品よりも大きいシステムとして協調的かつ動的に調整できるマルチエージェントフレームワーク \frameworkを提案する。 実験により,単一のエージェントより優れたマルチエージェントグループを効果的にデプロイできることを示した。 さらに,共同作業におけるグループ内の個々のエージェント間の社会的行動の出現について検討した。 これらの行動から,複数エージェントグループの協調性向上のために,ポジティブな行動を活用し,ネガティブな行動を緩和するための戦略について考察する。 \frameworkのコードは、もうすぐ \url{https://github.com/OpenBMB/AgentVerse}でリリースされます。

Autonomous agents empowered by Large Language Models (LLMs) have undergone significant improvements, enabling them to generalize across a broad spectrum of tasks. However, in real-world scenarios, cooperation among individuals is often required to enhance the efficiency and effectiveness of task accomplishment. Hence, inspired by human group dynamics, we propose a multi-agent framework \framework that can collaboratively and dynamically adjust its composition as a greater-than-the-sum-of-its-parts system. Our experiments demonstrate that \framework framework can effectively deploy multi-agent groups that outperform a single agent. Furthermore, we delve into the emergence of social behaviors among individual agents within a group during collaborative task accomplishment. In view of these behaviors, we discuss some possible strategies to leverage positive ones and mitigate negative ones for improving the collaborative potential of multi-agent groups. Our codes for \framework will soon be released at \url{https://github.com/OpenBMB/AgentVerse}.
翻訳日:2023-10-13 04:41:40 公開日:2023-10-07
# SpikeBERT:知識蒸留でBERTから学んだ言語スパイクフォーマー

SpikeBERT: A Language Spikformer Learned from BERT with Knowledge Distillation ( http://arxiv.org/abs/2308.15122v3 )

ライセンス: Link先を確認
Changze Lv, Tianlong Li, Jianhan Xu, Chenxi Gu, Zixuan Ling, Cenyuan Zhang, Xiaoqing Zheng, Xuanjing Huang(参考訳) spiking neural networks (snns)は、よりエネルギー効率の良い方法でディープニューラルネットワークを実装するための有望な手段を提供する。 しかし、言語タスクのための既存のSNNのネットワークアーキテクチャは依然として単純で比較的浅く、ディープアーキテクチャは十分に検討されていないため、BERTのような主流のトランスフォーマーベースネットワークと比較して大きな性能差がある。 この目的のために,最近発表されたスパイキングトランス(すなわちspikformer)を改良し,言語タスクの処理を可能にするとともに,bert からの知識を大量のラベルなしテキストに蒸留し,同じトレーニング例で微調整されたbert からタスク固有インスタンスに微調整することにより,事前学習を組み合わせる2段階の知識蒸留法を提案する。 広範にわたる実験により、我々の手法で訓練されたSpikeBERTは、最先端のSNNより優れており、よりエネルギー消費の少ない英語と中国語のテキスト分類タスクにおいてBERTに匹敵する結果が得られた。 私たちのコードはhttps://github.com/lvchangze/spikebertで利用可能です。

Spiking neural networks (SNNs) offer a promising avenue to implement deep neural networks in a more energy-efficient way. However, the network architectures of existing SNNs for language tasks are still simplistic and relatively shallow, and deep architectures have not been fully explored, resulting in a significant performance gap compared to mainstream transformer-based networks such as BERT. To this end, we improve a recently-proposed spiking Transformer (i.e., Spikformer) to make it possible to process language tasks and propose a two-stage knowledge distillation method for training it, which combines pre-training by distilling knowledge from BERT with a large collection of unlabelled texts and fine-tuning with task-specific instances via knowledge distillation again from the BERT fine-tuned on the same training examples. Through extensive experimentation, we show that the models trained with our method, named SpikeBERT, outperform state-of-the-art SNNs and even achieve comparable results to BERTs on text classification tasks for both English and Chinese with much less energy consumption. Our code is available at https://github.com/Lvchangze/SpikeBERT.
翻訳日:2023-10-13 04:31:50 公開日:2023-10-07
# 産業人工知能のための確率的構成機械

Stochastic Configuration Machines for Industrial Artificial Intelligence ( http://arxiv.org/abs/2308.13570v6 )

ライセンス: Link先を確認
Dianhui Wang and Matthew J. Felicetti(参考訳) ニューラルネットワークが重要な役割を果たす産業人工知能(IAI)では、望ましい精度でリアルタイム予測モデルが期待されている。 iaiのニューラルネットワークは、大量の浮動小数点データを操作するために強力な高性能コンピューティングデバイスを必要とする。 本稿では,確率的構成ネットワーク(scns)に基づいて,産業用途に有用で有用な効率的なモデリングとデータサイズ削減を強調する,確率的構成マシン(scms)と呼ばれる新しいランダム化学習モデルを提案する。 SCN とランダムベクトル汎関数リンク (RVFL) ネットを二項化した実装と比較すると,SCM のモデル記憶は良好な予測性能を維持しつつ大幅に圧縮できる。 SCM学習者モデルとその学習アルゴリズムのアーキテクチャに加えて、この貢献の重要な部分として、モデルの複雑さを分析することによって、SCMの学習能力に関する理論的基盤を提供する。 いくつかのベンチマークデータセットと3つの産業応用で実験研究が行われている。 その結果,SCMは産業データ分析に大きく貢献する可能性が示唆された。

Real-time predictive modelling with desired accuracy is highly expected in industrial artificial intelligence (IAI), where neural networks play a key role. Neural networks in IAI require powerful, high-performance computing devices to operate a large number of floating point data. Based on stochastic configuration networks (SCNs), this paper proposes a new randomized learner model, termed stochastic configuration machines (SCMs), to stress effective modelling and data size saving that are useful and valuable for industrial applications. Compared to SCNs and random vector functional-link (RVFL) nets with binarized implementation, the model storage of SCMs can be significantly compressed while retaining favourable prediction performance. Besides the architecture of the SCM learner model and its learning algorithm, as an important part of this contribution, we also provide a theoretical basis on the learning capacity of SCMs by analysing the model's complexity. Experimental studies are carried out over some benchmark datasets and three industrial applications. The results demonstrate that SCM has great potential for dealing with industrial data analytics.
翻訳日:2023-10-13 04:31:26 公開日:2023-10-07
# BIT:効率的な監視行動分割のためのバイレベルテンポラルモデリング

BIT: Bi-Level Temporal Modeling for Efficient Supervised Action Segmentation ( http://arxiv.org/abs/2308.14900v2 )

ライセンス: Link先を確認
Zijia Lu, Ehsan Elhamifar(参考訳) 本研究は,動画を非重複セグメントに分割し,異なるアクションを表現するための教師ありアクションセグメンテーションの課題に対処する。 最近の研究は、高計算コストに悩まされ、長時間の時間的水平線上でのアクション依存をうまく捉えられないフレームレベルでの時間的モデリングを行うためにトランスフォーマーを適用している。 これらの問題に対処するため,我々は,フレームやアクションレベルで時間的モデリングを行いながら,計算コストを低く抑えながら,アクションセグメントを表す明示的なアクショントークンを学習するBIレベルの時間的モデリング(BIT)フレームワークを提案する。 私たちのモデルは (i)畳み込みを用いてフレームレベルの関係を学習するフレームブランチ。 (ii)小さなアクショントークンセットで、transformerを使ってアクションレベルの依存関係を学習するアクションブランチ (iii)2つの分枝間の通信を可能にするための相互接続。 各アクショントークンが1つまたは複数のアクションセグメントを表現できるようにセット予測対象を適用して拡張することにより、多くのセグメントを持つ長いビデオ上で大量のトークンを学習するのを避けることができる。 アクションブランチの設計のおかげで、動画のテキストの書き起こしをシームレスに利用して、アクショントークンを初期化してアクションセグメンテーションを支援することもできます。 提案手法は4つの映像データセット(2つのエゴセントリックと2人の第三者)の動作セグメンテーションの評価を行い、従来のトランスフォーマー方式に比べて計算コスト(30倍の速度)が大幅に低く、最先端の精度が向上することを示した。

We address the task of supervised action segmentation which aims to partition a video into non-overlapping segments, each representing a different action. Recent works apply transformers to perform temporal modeling at the frame-level, which suffer from high computational cost and cannot well capture action dependencies over long temporal horizons. To address these issues, we propose an efficient BI-level Temporal modeling (BIT) framework that learns explicit action tokens to represent action segments, in parallel performs temporal modeling on frame and action levels, while maintaining a low computational cost. Our model contains (i) a frame branch that uses convolution to learn frame-level relationships, (ii) an action branch that uses transformer to learn action-level dependencies with a small set of action tokens and (iii) cross-attentions to allow communication between the two branches. We apply and extend a set-prediction objective to allow each action token to represent one or multiple action segments, thus can avoid learning a large number of tokens over long videos with many segments. Thanks to the design of our action branch, we can also seamlessly leverage textual transcripts of videos (when available) to help action segmentation by using them to initialize the action tokens. We evaluate our model on four video datasets (two egocentric and two third-person) for action segmentation with and without transcripts, showing that BIT significantly improves the state-of-the-art accuracy with much lower computational cost (30 times faster) compared to existing transformer-based methods.
翻訳日:2023-10-13 04:21:41 公開日:2023-10-07
# ドメイン転送のための微分可能重量マスク

Differentiable Weight Masks for Domain Transfer ( http://arxiv.org/abs/2308.13957v2 )

ライセンス: Link先を確認
Samar Khanna, Skanda Vaidyanath, Akash Velu(参考訳) コンピュータビジョンにおけるディープラーニングモデルの大きな欠点の1つは、複数の情報ソースをモジュラー形式で保持できないことだ。 例えば、ソースタスクでトレーニングされたネットワークを考えると、同じ、しかし異なるターゲットタスクで、ソースタスクのパフォーマンスを維持しながら、このネットワークを再トレーニングしたいと考えています。 同時に、研究者はネットワーク重みのモジュラー化を広く研究し、与えられたタスクで観測された性能を引き出すのに必要な重みの集合をローカライズし特定した。 ある一連の研究は、重みマスクを学習し分析することで、ニューラルネットワークの重みによって引き起こされるモジュラー化を研究する。 本研究では,これらのフィールドを組み合わせて,これら3つの重みマスキング手法について検討し,対象タスクの「鍛造」を軽減し,目標タスクの効率的な微調整を可能にする。 異なるマスキング手法は、目標タスクのパフォーマンスに悪影響を及ぼすことなく、ソースタスクの知識を維持するためにトレードオフがある。

One of the major drawbacks of deep learning models for computer vision has been their inability to retain multiple sources of information in a modular fashion. For instance, given a network that has been trained on a source task, we would like to re-train this network on a similar, yet different, target task while maintaining its performance on the source task. Simultaneously, researchers have extensively studied modularization of network weights to localize and identify the set of weights culpable for eliciting the observed performance on a given task. One set of works studies the modularization induced in the weights of a neural network by learning and analysing weight masks. In this work, we combine these fields to study three such weight masking methods and analyse their ability to mitigate "forgetting'' on the source task while also allowing for efficient finetuning on the target task. We find that different masking techniques have trade-offs in retaining knowledge in the source task without adversely affecting target task performance.
翻訳日:2023-10-13 04:20:31 公開日:2023-10-07
# 残留消音拡散モデル

Residual Denoising Diffusion Models ( http://arxiv.org/abs/2308.13712v2 )

ライセンス: Link先を確認
Jiawei Liu, Qiang Wang, Huijie Fan, Yinong Wang, Yandong Tang, Liangqiong Qu(参考訳) 本研究では,従来の単発脱離拡散過程を残留拡散と雑音拡散に分離する新しい二重拡散過程である残留脱離拡散モデル(rddm)を提案する。 この二重拡散フレームワークは、当初画像復元には解釈不可能なデノイングに基づく拡散モデルを拡張し、残差を導入して画像生成と復元の両方のための統一的で解釈可能なモデルへと拡張する。 具体的には、残差拡散はターゲット画像から劣化した入力画像への方向拡散を表し、画像復元のための逆生成過程を明示的に導く一方、ノイズ拡散は拡散過程におけるランダムな摂動を表す。 残差は確実性を優先し、ノイズは多様性を強調し、RDDMは画像生成や復元のような様々な確実性や多様性の要求でタスクを効果的に統一することができる。 本プロセスは係数変換によるDDPMとDDIMと整合性を示し,逆過程をよりよく理解するための部分経路独立生成プロセスを提案する。 特に、RDDMは、$$\ell _1$ロスとバッチサイズ1でトレーニングされた一般的なUNetを可能にし、最先端の画像復元手法と競合する。 我々は、革新的なフレームワーク(https://github.com/nachifur/RDDM)のさらなる探索、応用、開発を促進するために、コードと事前訓練されたモデルを提供します。

We propose residual denoising diffusion models (RDDM), a novel dual diffusion process that decouples the traditional single denoising diffusion process into residual diffusion and noise diffusion. This dual diffusion framework expands the denoising-based diffusion models, initially uninterpretable for image restoration, into a unified and interpretable model for both image generation and restoration by introducing residuals. Specifically, our residual diffusion represents directional diffusion from the target image to the degraded input image and explicitly guides the reverse generation process for image restoration, while noise diffusion represents random perturbations in the diffusion process. The residual prioritizes certainty, while the noise emphasizes diversity, enabling RDDM to effectively unify tasks with varying certainty or diversity requirements, such as image generation and restoration. We demonstrate that our sampling process is consistent with that of DDPM and DDIM through coefficient transformation, and propose a partially path-independent generation process to better understand the reverse process. Notably, our RDDM enables a generic UNet, trained with only an $\ell _1$ loss and a batch size of 1, to compete with state-of-the-art image restoration methods. We provide code and pre-trained models to encourage further exploration, application, and development of our innovative framework (https://github.com/nachifur/RDDM).
翻訳日:2023-10-13 04:20:15 公開日:2023-10-07
# 相対的関係推論による非同期時系列予測の強化

Enhancing Asynchronous Time Series Forecasting with Contrastive Relational Inference ( http://arxiv.org/abs/2309.02868v2 )

ライセンス: Link先を確認
Yan Wang, Zhixuan Chu, Tao Zhou, Caigao Jiang, Hongyan Hao, Minjie Zhu, Xindong Cai, Qing Cui, Longfei Li, James Y Zhang, Siqiao Xue, Jun Zhou(参考訳) 非同期時系列(asynchronous time series)は、時間的イベントシーケンスとしても知られ、さまざまな産業における多くの応用の基礎となっている。 時間的点過程(tpp)は、そのようなデータのモデリングの標準的な方法である。 既存のtppモデルは、イベントインタラクションを明示的にモデル化するのではなく、将来のイベントの条件分布のパラメータ化に重点を置いている。 本稿では、ニューラルリレーショナル推論(NRI)を利用して、観測データから動的パターンを同時に学習しながら相互作用を推論する関係グラフを学習する新しいアプローチを提案する。 我々のアプローチであるContrastive Relational Inference-based Hawkes Process (CRIHP)は、変動推論フレームワークの下でのイベント相互作用の理由である。 強度に基づく学習を利用して、コントラスト関係制約のプロトタイプパスを探索する。 3つの実世界のデータセットに対する大規模な実験は、イベントシーケンスモデリングタスクにおけるイベントインタラクションのキャプチャにおける我々のモデルの有効性を示す。 コードはEasyTPPフレームワークに統合される。

Asynchronous time series, also known as temporal event sequences, are the basis of many applications throughout different industries. Temporal point processes(TPPs) are the standard method for modeling such data. Existing TPP models have focused on parameterizing the conditional distribution of future events instead of explicitly modeling event interactions, imposing challenges for event predictions. In this paper, we propose a novel approach that leverages Neural Relational Inference (NRI) to learn a relation graph that infers interactions while simultaneously learning the dynamics patterns from observational data. Our approach, the Contrastive Relational Inference-based Hawkes Process (CRIHP), reasons about event interactions under a variational inference framework. It utilizes intensity-based learning to search for prototype paths to contrast relationship constraints. Extensive experiments on three real-world datasets demonstrate the effectiveness of our model in capturing event interactions for event sequence modeling tasks. Code will be integrated into the EasyTPP framework.
翻訳日:2023-10-13 04:11:15 公開日:2023-10-07
# Wordle: 人生のマイクロコスム。 Luck, Skill, Cheating, Loyalty, and Influence!

Wordle: A Microcosm of Life. Luck, Skill, Cheating, Loyalty, and Influence! ( http://arxiv.org/abs/2309.02110v3 )

ライセンス: Link先を確認
James P. Dilger(参考訳) WordleはNew York Times(nytimes.com)が提供している人気のオンラインワードゲームである。 現在、全世界で約200万人の英語版プレイヤーがいる。 プレイヤーは毎日の単語(ターゲット語)を推測する6つの試みがあり、各試みの後、各文字の正しさと位置に関する色分けされた情報を受け取る。 パズルの完成に成功するか、最終的に失敗した試みのどちらかの後に、ソフトウェアは情報理論を用いてプレイヤーの運とスキルを評価し、全てのプレイヤーのランダムなサンプルの第1、第2、第6の推測データを表示することができる。 最近私は、後者のデータが簡単にコピーしてスプレッドシートにペーストできるフォーマットで表示されていることを発見しました。 私は2023年5月から2023年8月まで、wordleプレーヤーの最初の推測に関するデータをコンパイルし、wordleプレイヤーに関する興味深い情報を推測しました。 A) 毎日約0.2-0.5%のプレイヤーが1回の挑戦でパズルを解く。 2,315の候補語のうちの1つをランダムに推測する確率は0.043%なので、4000万のプレイヤーがゲームの外でターゲット語を取得してカンニングすることを意味する。 b) プレイヤーの少なくとも1/3は、お気に入りの開始語又は数回のサイクルを有する。 また、対象語が繰り返されることはないことをプレイヤーは認識すべきであるが、ほとんどのプレイヤーは対象語として出現した後も開始語に忠実であるように見える。 C) 2023年8月15日,約30,000人のプレーヤーが,クロスワードパズルのヒントに基づいて,突然開始語を変更しました! ワードルプレイヤーは 影響を受けます! この調査はソーシャルメディアの投稿、調査、Google Trendsに留まらず、Wordleでの不正行為に関する確固とした定量的証拠を提供する。

Wordle is a popular, online word game offered by the New York Times (nytimes.com). Currently there are some 2 million players of the English version worldwide. Players have 6 attempts to guess the daily word (target word) and after each attempt, the player receives color-coded information about the correctness and position of each letter in the guess. After either a successful completion of the puzzle or the final unsuccessful attempt, software can assess the player's luck and skill using Information Theory and can display data for the first, second, ..., sixth guesses of a random sample of all players. Recently, I discovered that the latter data is presented in a format that can easily be copied and pasted into a spreadsheet. I compiled data on Wordle players' first guesses from May 2023 - August 2023 and inferred some interesting information about Wordle players. A) Every day, about 0.2-0.5% of players solve the puzzle in one attempt. Because the odds of guessing the one of 2,315 possible target words at random is 0.043%, this implies that 4,000 - 10,000 players cheat by obtaining the target word outside of playing the game! B) At least 1/3 of the players have a favorite starting word, or cycle through several. And even though players should be aware that target words are never repeated, most players appear to remain loyal to their starting word even after its appearance as a target word. C) On August 15, 2023, about 30,000 players abruptly changed their starting word, presumably based on a crossword puzzle clue! Wordle players can be influenced! This study goes beyond social media postings, surveys, and Google Trends to provide solid, quantitative evidence about cheating in Wordle.
翻訳日:2023-10-13 04:10:17 公開日:2023-10-07
# シナリオベース閉ループ自動運転における継続的な政策改善のためのStackelbergドライバモデル

Stackelberg Driver Model for Continual Policy Improvement in Scenario-Based Closed-Loop Autonomous Driving ( http://arxiv.org/abs/2309.14235v2 )

ライセンス: Link先を確認
Haoyi Niu, Qimao Chen, Yingyue Li, Jianming Hu(参考訳) 自律走行車(AV)の配備は、運転シナリオの長期分布において稀だが重要なコーナーケースが支配的であり、全体のパフォーマンスに悪影響を及ぼすため、ハードルに直面している。 この課題に対処するために、adversarial generation methodは、avテストの安全性-クリティカルシナリオを合成するための効率的なアプローチのクラスとして登場した。 しかし、これらの生成されたシナリオはしばしばav訓練に未使用であり、それを達成するのに必要なクローズドループ設計の欠如とともに、継続的なavポリシー改善の可能性を秘めている。 そこで我々は,Stackelberg Driver Model (SDM) を用いて,車両相互作用の階層的特性を正確に把握し,背景車両 (BV) とAVを逐次ゲームライクなインタラクションパラダイムで動作させることにより,反復的改善を促進する。 AVがリーダーとして働き、BVがフォロワーとして振る舞うことにより、このリーダー・フォロワー・モデリングは、AVが一貫して政策を洗練させ、常にBVがAVに挑戦する上で最良の対応をする追加情報を考慮する。 広範な実験により,本アルゴリズムは,特に高次元シナリオにおいて,複数のベースラインよりも優れた性能を示し,段階的に挑戦的なシナリオを生成しながら,av能力が大幅に向上することを示した。 コードはhttps://github.com/BlueCat-de/SDMで入手できる。

The deployment of autonomous vehicles (AVs) has faced hurdles due to the dominance of rare but critical corner cases within the long-tail distribution of driving scenarios, which negatively affects their overall performance. To address this challenge, adversarial generation methods have emerged as a class of efficient approaches to synthesize safety-critical scenarios for AV testing. However, these generated scenarios are often underutilized for AV training, resulting in the potential for continual AV policy improvement remaining untapped, along with a deficiency in the closed-loop design needed to achieve it. Therefore, we tailor the Stackelberg Driver Model (SDM) to accurately characterize the hierarchical nature of vehicle interaction dynamics, facilitating iterative improvement by engaging background vehicles (BVs) and AV in a sequential game-like interaction paradigm. With AV acting as the leader and BVs as followers, this leader-follower modeling ensures that AV would consistently refine its policy, always taking into account the additional information that BVs play the best response to challenge AV. Extensive experiments have shown that our algorithm exhibits superior performance compared to several baselines especially in higher dimensional scenarios, leading to substantial advancements in AV capabilities while continually generating progressively challenging scenarios. Code is available at https://github.com/BlueCat-de/SDM.
翻訳日:2023-10-13 03:30:34 公開日:2023-10-07
# 問題テストの定義による大規模言語モデルのモラル開発の提案

Probing the Moral Development of Large Language Models through Defining Issues Test ( http://arxiv.org/abs/2309.13356v2 )

ライセンス: Link先を確認
Kumar Tanmay, Aditi Khandelwal, Utkarsh Agarwal, Monojit Choudhury(参考訳) 本研究では, コールバーグの認知的モラル発達モデルに基づいて, 人のモラル発達段階を測定するための心理測定器であるDefining Issues Testを用いて, LLMの道徳的推論能力を測定する。 DITは道徳的ジレンマを使用しており、その後、応答者はジレンマの解決の重要性を判断し、それらを重要性でランク付けしなければならない一連の倫理的考察が続く。 そして、関連性評価とランキングに基づいて、応答者のモラル開発段階スコアを算出する。 GPT-3 のような初期の LLM は、ランダムなベースラインよりも道徳的推論能力が高いが、ChatGPT, Llama2-Chat, PaLM-2 および GPT-4 は、成人に匹敵する、このタスクにおいて、非常に優れた性能を示した。 実際、GPT-4は、典型的な大学院生に匹敵する、伝統的な道徳的推論スコアが最も高い。 しかし、モデルがすべてのジレンマにおいて一貫して機能しないことも観察し、理解と推論能力の重要なギャップを指摘した。

In this study, we measure the moral reasoning ability of LLMs using the Defining Issues Test - a psychometric instrument developed for measuring the moral development stage of a person according to the Kohlberg's Cognitive Moral Development Model. DIT uses moral dilemmas followed by a set of ethical considerations that the respondent has to judge for importance in resolving the dilemma, and then rank-order them by importance. A moral development stage score of the respondent is then computed based on the relevance rating and ranking. Our study shows that early LLMs such as GPT-3 exhibit a moral reasoning ability no better than that of a random baseline, while ChatGPT, Llama2-Chat, PaLM-2 and GPT-4 show significantly better performance on this task, comparable to adult humans. GPT-4, in fact, has the highest post-conventional moral reasoning score, equivalent to that of typical graduate school students. However, we also observe that the models do not perform consistently across all dilemmas, pointing to important gaps in their understanding and reasoning abilities.
翻訳日:2023-10-13 03:30:06 公開日:2023-10-07
# DFRD:不均一なフェデレーション学習のためのデータ自由ロバストネス蒸留

DFRD: Data-Free Robustness Distillation for Heterogeneous Federated Learning ( http://arxiv.org/abs/2309.13546v2 )

ライセンス: Link先を確認
Kangyang Luo, Shuai Wang, Yexuan Fu, Xiang Li, Yunshi Lan, Ming Gao(参考訳) Federated Learning(FL)は、プライバシに制約のある分散機械学習パラダイムで、クライアントがプライベートデータを妥協することなく協調トレーニングを可能にする。 しかし,データヘテロジニアスおよびモデルヘテロジニアスFLシナリオにおいて,ロバストなグローバルモデルをいかに学習するかは難しい。 そこで本研究では,データフリーな知識蒸留を用いて新たなFL法(DFRD)を提案する。 DFRDはサーバに条件付きジェネレータを装備し、クライアントがアップロードしたローカルモデルのトレーニングスペースを近似し、そのトレーニングを忠実さ、転送可能性、多様性の観点から体系的に調査する。 通信ラウンド間のジェネレータの分散シフトによるグローバルモデルの破滅的な忘れを克服するために,ジェネレータの指数関数的移動平均コピーをサーバに保持する。 さらに,局所モデルから正確な知識を抽出するための動的重み付けとラベルサンプリングを提案する。 最後に、様々な画像分類タスクに関する広範な実験により、DFRDはSOTAベースラインと比較して大きな性能向上を達成できることを示した。

Federated Learning (FL) is a privacy-constrained decentralized machine learning paradigm in which clients enable collaborative training without compromising private data. However, how to learn a robust global model in the data-heterogeneous and model-heterogeneous FL scenarios is challenging. To address it, we resort to data-free knowledge distillation to propose a new FL method (namely DFRD). DFRD equips a conditional generator on the server to approximate the training space of the local models uploaded by clients, and systematically investigates its training in terms of fidelity, transferability} and diversity. To overcome the catastrophic forgetting of the global model caused by the distribution shifts of the generator across communication rounds, we maintain an exponential moving average copy of the generator on the server. Additionally, we propose dynamic weighting and label sampling to accurately extract knowledge from local models. Finally, our extensive experiments on various image classification tasks illustrate that DFRD achieves significant performance gains compared to SOTA baselines.
翻訳日:2023-10-13 03:18:41 公開日:2023-10-07
# Lyra: 自動定理証明における二重補正のオーケストレーション

Lyra: Orchestrating Dual Correction in Automated Theorem Proving ( http://arxiv.org/abs/2309.15806v3 )

ライセンス: Link先を確認
Chuanyang Zheng, Haiming Wang, Enze Xie, Zhengying Liu, Jiankai Sun, Huajian Xin, Jianhao Shen, Zhenguo Li, Yu Li(参考訳) 大言語モデル (LLMs) は、公式な定理証明の分野における探索の興味深い道を示す。 それにもかかわらず、幻覚の緩和と証明エラーメッセージによる洗練に関する彼らの潜在能力は、まだ完全には調査されていない領域である。 この分野におけるllmsの有効性を高めるために,ツール補正(tc)と推測補正(cc)の2つの異なる補正機構を用いる新しいフレームワークであるlyraを紹介する。 形式的証明の後処理にツール補正を実装するために、事前の知識を活用して、事前定義された証明ツール(例えば、Sledgehammer)を使って不正なツールの置き換えを導く。 ツール補正は幻覚の緩和に大きく寄与し、証明の全体的な精度を向上させる。 さらに,証明者と対話し,形式的証明予想を証明者エラーメッセージで洗練するエラーフィードバック機構であるConjecture Correctionを導入する。 従来の改良フレームワークと比較して、提案手法は命令による生成を洗練するが、ペア(生成、エラー、改良)プロンプトを収集しない。 提案手法は, MiniF2F 検証 (48.0% -> 55.3%) とテスト (45.5% -> 51.2%) の両方で最先端 (SOTA) 性能を達成した。 また,lyra が解いた3つの imo 問題についても述べる。 ツール補正(幻覚の緩和プロセス)とコンジェクチュア補正(環境との相互作用による副次的な調整)が今後の研究の道筋となると信じている。

Large Language Models (LLMs) present an intriguing avenue for exploration in the field of formal theorem proving. Nevertheless, their full potential, particularly concerning the mitigation of hallucinations and refinement through prover error messages, remains an area that has yet to be thoroughly investigated. To enhance the effectiveness of LLMs in the field, we introduce the Lyra, a new framework that employs two distinct correction mechanisms: Tool Correction (TC) and Conjecture Correction (CC). To implement Tool Correction in the post-processing of formal proofs, we leverage prior knowledge to utilize predefined prover tools (e.g., Sledgehammer) for guiding the replacement of incorrect tools. Tool Correction significantly contributes to mitigating hallucinations, thereby improving the overall accuracy of the proof. In addition, we introduce Conjecture Correction, an error feedback mechanism designed to interact with prover to refine formal proof conjectures with prover error messages. Compared to the previous refinement framework, the proposed Conjecture Correction refines generation with instruction but does not collect paired (generation, error & refinement) prompts. Our method has achieved state-of-the-art (SOTA) performance on both miniF2F validation (48.0% -> 55.3%) and test (45.5% -> 51.2%). We also present 3 IMO problems solved by Lyra. We believe Tool Correction (post-process for hallucination mitigation) and Conjecture Correction (subgoal adjustment from interaction with environment) could provide a promising avenue for future research in this field.
翻訳日:2023-10-13 02:58:44 公開日:2023-10-07
# 視覚トランスフォーマーとライン統合によるファサード解析の改善

Improving Facade Parsing with Vision Transformers and Line Integration ( http://arxiv.org/abs/2309.15523v5 )

ライセンス: Link先を確認
Bowen Wang, Jiaxing Zhang, Ran Zhang, Yunqin Li, Liangzhi Li, Yuta Nakashima(参考訳) ファサード解析は重要なコンピュータビジョンタスクであり、アーキテクチャ、都市計画、エネルギー効率といった分野の幅広いアプリケーションを扱う。 ディープラーニングベースの手法が、特定のオープンソースデータセットで印象的な結果をもたらすことに成功しているにも関わらず、現実のアプリケーションに対するその生存性は、いまだに不明である。 現実世界のシナリオはかなり複雑で、計算効率が向上する。 既存のデータセットはこれらの設定を表現するのに不足することが多く、以前の手法は精度を高めるために余分なモデルに依存することが多い。 本稿では,実世界のファサード解析タスクの複雑さを網羅したデータセットであるComprehensive Facade Parsing (CFP)を紹介する。 合計602枚の高解像度ストリートビュー画像からなるこのデータセットは、傾斜角や密集した建物など、さまざまな難易度シナリオを捉え、各画像に注意深い注釈を付ける。 Revision-based Transformer Facade Parsing (RTFP) と呼ばれる新しいパイプラインを導入する。 これはファサード解析における視覚トランスフォーマー(vit)の先駆的利用を示し,その効果を実験的に検証した。 また、ファサードの事前知識を用いた単純な線検出のみでセグメント結果を改善することができる効率的かつ正確な修正アルゴリズムであるLine Acquisition, Filtering, Revision (LAFR) を設計する。 ECP 2011, RueMonge 2014およびCFPにおいて, 本手法の優位性を評価した。

Facade parsing stands as a pivotal computer vision task with far-reaching applications in areas like architecture, urban planning, and energy efficiency. Despite the recent success of deep learning-based methods in yielding impressive results on certain open-source datasets, their viability for real-world applications remains uncertain. Real-world scenarios are considerably more intricate, demanding greater computational efficiency. Existing datasets often fall short in representing these settings, and previous methods frequently rely on extra models to enhance accuracy, which requires much computation cost. In this paper, we introduce Comprehensive Facade Parsing (CFP), a dataset meticulously designed to encompass the intricacies of real-world facade parsing tasks. Comprising a total of 602 high-resolution street-view images, this dataset captures a diverse array of challenging scenarios, including sloping angles and densely clustered buildings, with painstakingly curated annotations for each image. We introduce a new pipeline known as Revision-based Transformer Facade Parsing (RTFP). This marks the pioneering utilization of Vision Transformers (ViT) in facade parsing, and our experimental results definitively substantiate its merit. We also design Line Acquisition, Filtering, and Revision (LAFR), an efficient yet accurate revision algorithm that can improve the segment result solely from simple line detection using prior knowledge of the facade. In ECP 2011, RueMonge 2014, and our CFP, we evaluate the superiority of our method.
翻訳日:2023-10-13 02:57:11 公開日:2023-10-07
# GeRA: ラベル効率の良い幾何学的正規化アライメント

GeRA: Label-Efficient Geometrically Regularized Alignment ( http://arxiv.org/abs/2310.00672v2 )

ライセンス: Link先を確認
Dustin Klebe, Tal Shnitzer, Mikhail Yurochkin, Leonid Karlinsky, Justin Solomon(参考訳) 事前訓練されたユニモーダルエンコーダは、豊富な意味情報を埋め込み空間構造に組み込む。 同様に、マルチモーダルエンコーダはアライメントとトレーニングのために大量のペアデータを必要とする。 本稿では,事前学習した単調エンコーダの埋め込み空間をラベル効率よく整列する半教師付き幾何正規化アライメント(GeRA)手法を提案する。 本手法は,アライメント性能を向上させるために,非ペア(ラベルなし)データの多様体幾何学を利用する。 また,アライメント過程における局所幾何学の歪みを防止し,セマンティックな近傍構造を乱し,観測されていないペアの不整合を引き起こすため,幾何損失項を導入する。 この用語は拡散作用素の上に構築され、単調事前訓練エンコーダの局所多様体幾何学を捉える。 GeRAはモダリティに依存しないため、任意のデータモダリティから事前訓練されたエンコーダを調整できる。 音声・テキスト・画像のアライメント領域において,提案手法の有効性を示す実証的な証拠を提供する。 提案する幾何正規化法を用いて,リードベースラインの変動,特に少量のペアデータと比較して,アライメント品質が著しく向上することを示した。

Pretrained unimodal encoders incorporate rich semantic information into embedding space structures. To be similarly informative, multi-modal encoders typically require massive amounts of paired data for alignment and training. We introduce a semi-supervised Geometrically Regularized Alignment (GeRA) method to align the embedding spaces of pretrained unimodal encoders in a label-efficient way. Our method leverages the manifold geometry of unpaired (unlabeled) data to improve alignment performance. To prevent distortions to local geometry during the alignment process, potentially disrupting semantic neighborhood structures and causing misalignment of unobserved pairs, we introduce a geometric loss term. This term is built upon a diffusion operator that captures the local manifold geometry of the unimodal pretrained encoders. GeRA is modality-agnostic and thus can be used to align pretrained encoders from any data modalities. We provide empirical evidence to the effectiveness of our method in the domains of speech-text and image-text alignment. Our experiments demonstrate significant improvement in alignment quality compared to a variaty of leading baselines, especially with a small amount of paired data, using our proposed geometric regularization.
翻訳日:2023-10-13 02:28:28 公開日:2023-10-07
# 自己: 大きな言語モデルのための言語駆動型自己進化

SELF: Language-Driven Self-Evolution for Large Language Model ( http://arxiv.org/abs/2310.00533v2 )

ライセンス: Link先を確認
Jianqiao Lu, Wanjun Zhong, Wenyong Huang, Yufei Wang, Fei Mi, Baojun Wang, Weichao Wang, Lifeng Shang, Qun Liu(参考訳) 大規模言語モデル(LLM)は、様々な領域にまたがる顕著な汎用性を示している。 しかし、人間のレベルの学習と進歩する自律AIを実現するための基盤である自律モデル開発への道は、いまだに未完成である。 我々は「SELF(Self-Evolution with Language Feedback)」と呼ばれる革新的なアプローチを導入する。 この方法論はLLMに継続的自己進化の実施を促す。 さらに、SELFは言語に基づくフィードバックを汎用的で包括的な評価ツールとして採用し、応答の洗練と自己進化的トレーニングの安定性を高めるための領域をピンポイントする。 メタスキルの学習を始め、SELFは自己フィードバックと自己抑制に焦点を当てた基礎的なメタスキルを取得する。 これらのメタスキルは、モデルのその後の自己進化を、自己計算データによる永続的なトレーニングのサイクルを通じて導くことで、本質的な能力を高める。 ラベルのない命令を与えられたSELFは、モデルに自律的に生成し、対話的に応答を洗練させる能力を持たせる。 この合成トレーニングデータはその後フィルタリングされ、反復的な微調整に利用され、モデルの能力を高める。 代表ベンチマークによる実験結果では、自己は人間の介入を必要とせず、徐々に本質的な能力を向上し、自律的モデルの進化に有効な経路を示すことが示されている。 さらにselfは、優れた品質の応答を生み出すために、オンラインの自己定義戦略を採用できる。 本質的には、SELFフレームワークは自律LDM開発に向けた進歩的なステップを表しており、LSMは情報の受動的受信者から自身の進化におけるアクティブな参加者へと変換される。

Large Language Models (LLMs) have showcased remarkable versatility across diverse domains. However, the pathway toward autonomous model development, a cornerstone for achieving human-level learning and advancing autonomous AI, remains largely uncharted. We introduce an innovative approach, termed "SELF" (Self-Evolution with Language Feedback). This methodology empowers LLMs to undergo continual self-evolution. Furthermore, SELF employs language-based feedback as a versatile and comprehensive evaluative tool, pinpointing areas for response refinement and bolstering the stability of self-evolutionary training. Initiating with meta-skill learning, SELF acquires foundational meta-skills with a focus on self-feedback and self-refinement. These meta-skills are critical, guiding the model's subsequent self-evolution through a cycle of perpetual training with self-curated data, thereby enhancing its intrinsic abilities. Given unlabeled instructions, SELF equips the model with the capability to autonomously generate and interactively refine responses. This synthesized training data is subsequently filtered and utilized for iterative fine-tuning, enhancing the model's capabilities. Experimental results on representative benchmarks substantiate that SELF can progressively advance its inherent abilities without the requirement of human intervention, thereby indicating a viable pathway for autonomous model evolution. Additionally, SELF can employ online self-refinement strategy to produce responses of superior quality. In essence, the SELF framework signifies a progressive step towards autonomous LLM development, transforming the LLM from a mere passive recipient of information into an active participant in its own evolution.
翻訳日:2023-10-13 02:27:44 公開日:2023-10-07
# 識別器批判ギャップによる言語モデルにおける価値理解の測定

Measuring Value Understanding in Language Models through Discriminator-Critique Gap ( http://arxiv.org/abs/2310.00378v2 )

ライセンス: Link先を確認
Zhaowei Zhang, Fengshuo Bai, Jun Gao, Yaodong Yang(参考訳) 近年,Large Language Models (LLMs) の進歩により,人的価値との相違に対する懸念が高まっている。 しかし、これらの値の把握は複雑で適応性が高いため複雑である。 LLMの真に理解するためには、"know what"と"know why"の両方を考慮する必要があります。 この目的のために,人間の価値観に関する差別的批判的ギャップを測定することで,「何を知るか」と「なぜ知るか」の両方を定量的に評価する価値理解計測(VUM)フレームワークを提案する。 シュワルツ値サーベイを用いて評価値を特定し,GPT-4を用いた1000レベル対話データセットを開発する。 本評価では,LCMの出力値の基準値に対するアライメントと,LCMの応答がGPT-4のアノテーションに対する値認識の理由とどのように一致しているかを考察する。 我々は,5つの代表LSMを評価し,スケーリング法則が「何を知るか」に大きく影響しているが,高い水準を維持している「なぜ知るか」にはあまり影響しないことを示す。 このことは、LLMが提供されたコンテキストに基づいて、その固有の価値を真に理解せず、潜在的なリスクを示す、もっともらしい説明を行うかもしれないことを示唆している。

Recent advancements in Large Language Models (LLMs) have heightened concerns about their potential misalignment with human values. However, evaluating their grasp of these values is complex due to their intricate and adaptable nature. We argue that truly understanding values in LLMs requires considering both "know what" and "know why". To this end, we present the Value Understanding Measurement (VUM) framework that quantitatively assess both "know what" and "know why" by measuring the discriminator-critique gap related to human values. Using the Schwartz Value Survey, we specify our evaluation values and develop a thousand-level dialogue dataset with GPT-4. Our assessment looks at both the value alignment of LLM's outputs compared to baseline answers and how LLM responses align with reasons for value recognition versus GPT-4's annotations. We evaluate five representative LLMs and provide strong evidence that the scaling law significantly impacts "know what" but not much on "know why", which has consistently maintained a high level. This may further suggest that LLMs might craft plausible explanations based on the provided context without truly understanding their inherent value, indicating potential risks.
翻訳日:2023-10-13 02:26:15 公開日:2023-10-07
# 初心者プログラマは自動修復ツールのフィードバックをいかに役に立ちますか?

How Helpful do Novice Programmers Find the Feedback of an Automated Repair Tool? ( http://arxiv.org/abs/2310.00954v2 )

ライセンス: Link先を確認
Oka Kurniawan, Christopher M. Poskitt, Ismam Al Hoque, Norman Tiong Seng Lee, Cyrille J\'egourel, Nachamma Sockalingam(参考訳) 即時フィードバックは学生の学習を改善することが示されている。 プログラミングコースでは、即時、自動化されたフィードバックは、通常、提出プラットフォームによって実行される事前定義されたテストケースの形で提供される。 これらは論理的エラーの存在を強調するのに優れているが、エラーの所在や修正方法を特定するのに役立つ、初心者プログラマの足場を提供していない。 これを解決するために、プログラム修復の形でよりリッチなフィードバックを提供するツールが開発されている。 しかし、そのようなツールの研究は、初心者がそれを使う方法よりも、正しい修理ができるかどうかに重点を置いている。 本稿では,自動修復ツールであるCLARAを用いて初心者にフィードバックを提供する経験について述べる。 まず、私たちはCLARAを拡張してPython言語のより大きなサブセットをサポートし、それからプログラミング演習に使用するJupyter Notebooksと統合しました。 第2に,学生が'think aloud'プロトコルを用いて,ツールのサポートの有無に関わらずプログラミング問題に取り組む予備的な研究を考案した。 初心者は、しばしば、提案された修復を理解するのに苦労し、コンパイラ/解釈メッセージを理解するのがよく知られた課題であることがわかった。 さらに, 学生は, 必ずしも修正自体を使わずに, 修正が必要な場所を指示されることが大切であることを見出し, 教育的観点から「それ以上ではないかもしれない」と示唆した。

Immediate feedback has been shown to improve student learning. In programming courses, immediate, automated feedback is typically provided in the form of pre-defined test cases run by a submission platform. While these are excellent for highlighting the presence of logical errors, they do not provide novice programmers enough scaffolding to help them identify where an error is or how to fix it. To address this, several tools have been developed that provide richer feedback in the form of program repairs. Studies of such tools, however, tend to focus more on whether correct repairs can be generated, rather than how novices are using them. In this paper, we describe our experience of using CLARA, an automated repair tool, to provide feedback to novices. First, we extended CLARA to support a larger subset of the Python language, before integrating it with the Jupyter Notebooks used for our programming exercises. Second, we devised a preliminary study in which students tackled programming problems with and without support of the tool using the 'think aloud' protocol. We found that novices often struggled to understand the proposed repairs, echoing the well-known challenge to understand compiler/interpreter messages. Furthermore, we found that students valued being told where a fix was needed - without necessarily the fix itself - suggesting that 'less may be more' from a pedagogical perspective.
翻訳日:2023-10-13 02:19:16 公開日:2023-10-07
# GRID: 汎用ロボットインテリジェンス開発のためのプラットフォーム

GRID: A Platform for General Robot Intelligence Development ( http://arxiv.org/abs/2310.00887v2 )

ライセンス: Link先を確認
Sai Vemprala, Shuhang Chen, Abhinav Shukla, Dinesh Narayanan, Ashish Kapoor(参考訳) ロボットと自律システムにおけるマシンインテリジェンス能力の開発は、高価で時間のかかるプロセスである。 既存のソリューションは特定のアプリケーションに適したもので、一般化が難しい。 さらに、トレーニングデータの不足により、深層機械学習モデルのデプロイが複雑になる。 本稿では,これらの問題に対処する汎用ロボット知能開発(GRID)のための新しいプラットフォームを提案する。 このプラットフォームにより、ロボットは物理的な能力、環境制約、目標にスキルを学習し、構成し、適応することができる。 このプラットフォームは、物理世界を知っている基礎モデルを通じて、ロボット工学におけるAI問題に対処する。 GRIDは、新しいタイプのロボット、車、ハードウェアプラットフォーム、ソフトウェアプロトコルに対応できるように、ゼロから設計されている。 さらに、モジュール設計により、様々な深層MLコンポーネントや既存の基礎モデルが、より広範なロボット中心の問題で容易に利用できるようになる。 我々は、このプラットフォームを様々な航空ロボットのシナリオでデモし、プラットフォームが機械知能ロボットの開発を劇的に加速させる様子をデモする。

Developing machine intelligence abilities in robots and autonomous systems is an expensive and time consuming process. Existing solutions are tailored to specific applications and are harder to generalize. Furthermore, scarcity of training data adds a layer of complexity in deploying deep machine learning models. We present a new platform for General Robot Intelligence Development (GRID) to address both of these issues. The platform enables robots to learn, compose and adapt skills to their physical capabilities, environmental constraints and goals. The platform addresses AI problems in robotics via foundation models that know the physical world. GRID is designed from the ground up to be extensible to accommodate new types of robots, vehicles, hardware platforms and software protocols. In addition, the modular design enables various deep ML components and existing foundation models to be easily usable in a wider variety of robot-centric problems. We demonstrate the platform in various aerial robotics scenarios and demonstrate how the platform dramatically accelerates development of machine intelligent robots.
翻訳日:2023-10-13 02:18:33 公開日:2023-10-07
# モデルが捨てるべきものを教えてくれる: llmsの適応kvキャッシュ圧縮

Model Tells You What to Discard: Adaptive KV Cache Compression for LLMs ( http://arxiv.org/abs/2310.01801v2 )

ライセンス: Link先を確認
Suyu Ge, Yunan Zhang, Liyuan Liu, Minjia Zhang, Jiawei Han, Jianfeng Gao(参考訳) 本研究では,大規模言語モデル(llm)における生成推論のメモリフットプリントを削減するプラグアンドプレイ方式であるadaptive kv cache compressionを提案する。 全てのコンテキストトークンに対してキーベクトルと値ベクトルを保持する従来のKVキャッシュとは異なり、注意モジュールの固有の構造を識別するためにターゲットプロファイリングを行う。 認識された構造に基づいて、我々はKVキャッシュを適応的に構築する: 注意頭上の長距離コンテキストを排除し、局所的なコンテキストを強調し、特別なトークンを中心とした注意頭上の特別なトークンを排除し、すべてのトークンに広く参加する注目頭に対して標準のKVキャッシュを使用する。 さらに、適応的なKVキャッシュの構築を導くために軽量なアテンションプロファイリングを使用すると、FastGenはリソース集約的な微調整や再トレーニングなしでデプロイできる。 様々な質問に対して行った実験では、FastGenは生成品質の低下を無視してGPUメモリ消費を大幅に削減することを示した。 再現性のために、コードと互換性のあるCUDAカーネルをリリースします。

In this study, we introduce adaptive KV cache compression, a plug-and-play method that reduces the memory footprint of generative inference for Large Language Models (LLMs). Different from the conventional KV cache that retains key and value vectors for all context tokens, we conduct targeted profiling to discern the intrinsic structure of attention modules. Based on the recognized structure, we then construct the KV cache in an adaptive manner: evicting long-range contexts on attention heads emphasizing local contexts, discarding non-special tokens on attention heads centered on special tokens, and only employing the standard KV cache for attention heads that broadly attend to all tokens. Moreover, with the lightweight attention profiling used to guide the construction of the adaptive KV cache, FastGen can be deployed without resource-intensive fine-tuning or re-training. In our experiments across various asks, FastGen demonstrates substantial reduction on GPU memory consumption with negligible generation quality loss. We will release our code and the compatible CUDA kernel for reproducibility.
翻訳日:2023-10-13 02:09:53 公開日:2023-10-07
# 類推的推論としての大規模言語モデル

Large Language Models as Analogical Reasoners ( http://arxiv.org/abs/2310.01714v2 )

ライセンス: Link先を確認
Michihiro Yasunaga, Xinyun Chen, Yujia Li, Panupong Pasupat, Jure Leskovec, Percy Liang, Ed H. Chi, Denny Zhou(参考訳) 言語モデルのためのchain-of-thought(cot)プロンプトは推論タスク全体で印象的なパフォーマンスを示すが、通常は推論プロセスのラベル付き例証が必要である。 本研究では,大規模言語モデルの推論プロセスを自動的にガイドする新しいプロンプト手法であるAnalogical Promptingを導入する。 類推的推論は、人間が関連する過去の経験から新たな問題に取り組むための認知過程であり、我々のアプローチは言語モデルに与えられた問題を解決する前に、文脈における関連する経験や知識を自己生成するよう促す。 この方法はいくつかの利点があり、例えば、前例のラベル付けや検索の必要性を排除し、汎用性と利便性を提供し、生成した前例と知識を各問題にカスタマイズし、適応性を提供する。 実験の結果,GSM8KとMATHの数学問題解決,コードフォースのコード生成,BIG-Benchの他の推論タスクなど,さまざまな推論タスクにおいて,0ショットのCoTと手動のCoTよりも優れていた。

Chain-of-thought (CoT) prompting for language models demonstrates impressive performance across reasoning tasks, but typically needs labeled exemplars of the reasoning process. In this work, we introduce a new prompting approach, Analogical Prompting, designed to automatically guide the reasoning process of large language models. Inspired by analogical reasoning, a cognitive process in which humans draw from relevant past experiences to tackle new problems, our approach prompts language models to self-generate relevant exemplars or knowledge in the context, before proceeding to solve the given problem. This method presents several advantages: it obviates the need for labeling or retrieving exemplars, offering generality and convenience; it can also tailor the generated exemplars and knowledge to each problem, offering adaptability. Experimental results show that our approach outperforms 0-shot CoT and manual few-shot CoT in a variety of reasoning tasks, including math problem solving in GSM8K and MATH, code generation in Codeforces, and other reasoning tasks in BIG-Bench.
翻訳日:2023-10-13 02:08:43 公開日:2023-10-07
# テキストから画像への拡散によるドメインの変換:ドメイン適応へのソースフリーアプローチ

Transcending Domains through Text-to-Image Diffusion: A Source-Free Approach to Domain Adaptation ( http://arxiv.org/abs/2310.01701v2 )

ライセンス: Link先を確認
Shivang Chopra, Suraj Kothawade, Houda Aynaou, Aman Chadha(参考訳) ドメイン適応(da)は、モデルが関連するソースドメインから取得した情報を十分なラベル付きデータで適用することにより、不適切なアノテートデータを持つ対象ドメインにおけるモデルの性能を向上させる手法である。 HIPAA、COPPA、FERPAなどのデータプライバシ規制の実施が、ソースデータに直接アクセスする必要を回避しつつ、新しいドメインにモデルを適用することへの関心を高め、ソースフリードメイン適応(Source-free Domain Adaptation、SFDA)と呼ばれる問題を引き起こした。 本稿では,対象ドメインのサンプルに基づいて訓練されたテキスト・画像拡散モデルを用いて,ソースデータを生成する新しいSFDAフレームワークを提案する。 提案手法は,ラベル付き対象領域のサンプルに対してテキスト間拡散モデルをトレーニングし,事前学習したソースモデルを用いて微調整を行い,ソースデータに近いサンプルを生成する。 最後に、ドメイン適応技術を用いて、人工的に生成されたソースデータを対象のドメインデータと整合させることにより、ターゲットのドメイン上でのモデルの性能が大幅に向上する。 標準のoffice-31, office-home, visdaベンチマークにおける複数のベースラインとの比較を行い,sfdaタスクに対するアプローチの有効性を実証した。

Domain Adaptation (DA) is a method for enhancing a model's performance on a target domain with inadequate annotated data by applying the information the model has acquired from a related source domain with sufficient labeled data. The escalating enforcement of data-privacy regulations like HIPAA, COPPA, FERPA, etc. have sparked a heightened interest in adapting models to novel domains while circumventing the need for direct access to the source data, a problem known as Source-Free Domain Adaptation (SFDA). In this paper, we propose a novel framework for SFDA that generates source data using a text-to-image diffusion model trained on the target domain samples. Our method starts by training a text-to-image diffusion model on the labeled target domain samples, which is then fine-tuned using the pre-trained source model to generate samples close to the source data. Finally, we use Domain Adaptation techniques to align the artificially generated source data with the target domain data, resulting in significant performance improvements of the model on the target domain. Through extensive comparison against several baselines on the standard Office-31, Office-Home, and VisDA benchmarks, we demonstrate the effectiveness of our approach for the SFDA task.
翻訳日:2023-10-13 02:08:22 公開日:2023-10-07
# グラフアンラーニングに関する調査

A Survey of Graph Unlearning ( http://arxiv.org/abs/2310.02164v2 )

ライセンス: Link先を確認
Anwar Said and Tyler Derr and Mudassir Shabbir and Waseem Abbas and Xenofon Koutsoukos(参考訳) グラフアンラーニングは、責任あるAIを追求する上で重要な進歩として現れ、トレーニングされたモデルから機密データトレースを除去し、忘れられる権利を維持する手段を提供する。 グラフ機械学習は、データプライバシや敵攻撃に対する感受性を示し、これらの問題に効果的に対処するためにグラフアンラーニング技術を適用する必要があることは明らかである。 本稿では,多種多様な方法論を包含するグラフアンラーニングアプローチの体系的レビューを初めて行い,より詳細な分類学と最新の文献概観を提供し,この分野に新たに参入した研究者の理解を深める。 さらに,グラフ学習とディファレンシャルプライバシの間の重要な関連を確立し,この文脈におけるプライバシ保存手法の関連性の理解を深める。 明快さを確保するため,グラフアンラーニングで使用する基本概念と評価尺度について,様々なレベルの専門知識を持つ幅広い聴衆に簡潔な説明を提供する。 潜在的なアプリケーションに着目すると、ソーシャルネットワークや敵の設定、IoT(Internet of Things)のようなリソース制約のある環境など、さまざまな領域にわたるグラフアンラーニングの汎用性を探り、データプライバシの保護とAIシステムの堅牢性向上に対するその潜在的影響を明らかにします。 最後に、有望な研究の方向性に光を当て、グラフアンラーニングの分野におけるさらなる進歩とイノベーションを奨励しました。 堅固な基盤を構築し、継続的な進歩を育むことにより、研究者たちはグラフ学習の分野をさらに前進させ、aiシステムの倫理的成長に対する自信を植え付け、さまざまな領域における機械学習技術の責任ある適用を強化することを目指している。

Graph unlearning emerges as a crucial advancement in the pursuit of responsible AI, providing the means to remove sensitive data traces from trained models, thereby upholding the right to be forgotten. It is evident that graph machine learning exhibits sensitivity to data privacy and adversarial attacks, necessitating the application of graph unlearning techniques to address these concerns effectively. In this comprehensive survey paper, we present the first systematic review of graph unlearning approaches, encompassing a diverse array of methodologies and offering a detailed taxonomy and up-to-date literature overview to facilitate the understanding of researchers new to this field. Additionally, we establish the vital connections between graph unlearning and differential privacy, augmenting our understanding of the relevance of privacy-preserving techniques in this context. To ensure clarity, we provide lucid explanations of the fundamental concepts and evaluation measures used in graph unlearning, catering to a broader audience with varying levels of expertise. Delving into potential applications, we explore the versatility of graph unlearning across various domains, including but not limited to social networks, adversarial settings, and resource-constrained environments like the Internet of Things (IoT), illustrating its potential impact in safeguarding data privacy and enhancing AI systems' robustness. Finally, we shed light on promising research directions, encouraging further progress and innovation within the domain of graph unlearning. By laying a solid foundation and fostering continued progress, this survey seeks to inspire researchers to further advance the field of graph unlearning, thereby instilling confidence in the ethical growth of AI systems and reinforcing the responsible application of machine learning techniques in various domains.
翻訳日:2023-10-13 01:58:04 公開日:2023-10-07
# 機能シフト調整による安定なバックドア浄化に向けて

Towards Stable Backdoor Purification through Feature Shift Tuning ( http://arxiv.org/abs/2310.01875v2 )

ライセンス: Link先を確認
Rui Min, Zeyu Qin, Li Shen, Minhao Cheng(参考訳) ディープニューラルネットワーク(dnn)は、少数のトレーニングサンプルを改ざんすることで、攻撃者がモデル動作を悪意を持って操作できるバックドア攻撃に対して脆弱であることが広く観察されている。 この脅威を軽減するために一連の防御手法が提案されているが、それらはトレーニングプロセスに複雑な修正を必要とするか、特定のモデルアーキテクチャに強く依存しているため、現実世界のアプリケーションへのデプロイが困難である。 そこで本稿では,多様な攻撃シナリオに対する包括的評価を通じて,最も一般的かつデプロイが容易なバックドア防御の1つである微調整から始める。 初期の実験を通して行われた観測によると、高毒性率の予測された防御効果とは対照的に、バニラチューニング手法は低毒性率のシナリオで完全に失敗する。 分析の結果,低中毒率ではバックドアとクリーンな特徴の絡み合いが,チューニングによる防御効果を損なうことが示された。 そのため、バックドアの浄化を改善するために、バックドアとクリーンな特徴を解体する必要がある。 これを解決するために,チューニングに基づくバックドア浄化手法であるFeature Shift Tuning (FST)を導入する。 具体的には、FSTは、もともと妥協された重みから分類器の重みを積極的に逸脱することで特徴シフトを奨励する。 大規模な実験により、FSTは異なる攻撃条件下で一貫した安定した性能を提供することが示された。 さらに、計算コストを大幅に削減した実世界のシナリオでのデプロイも便利である。 私たちのコードはhttps://github.com/AISafety-HKUST/stable_backdoor_purificationで利用可能です。

It has been widely observed that deep neural networks (DNN) are vulnerable to backdoor attacks where attackers could manipulate the model behavior maliciously by tampering with a small set of training samples. Although a line of defense methods is proposed to mitigate this threat, they either require complicated modifications to the training process or heavily rely on the specific model architecture, which makes them hard to deploy into real-world applications. Therefore, in this paper, we instead start with fine-tuning, one of the most common and easy-to-deploy backdoor defenses, through comprehensive evaluations against diverse attack scenarios. Observations made through initial experiments show that in contrast to the promising defensive results on high poisoning rates, vanilla tuning methods completely fail at low poisoning rate scenarios. Our analysis shows that with the low poisoning rate, the entanglement between backdoor and clean features undermines the effect of tuning-based defenses. Therefore, it is necessary to disentangle the backdoor and clean features in order to improve backdoor purification. To address this, we introduce Feature Shift Tuning (FST), a method for tuning-based backdoor purification. Specifically, FST encourages feature shifts by actively deviating the classifier weights from the originally compromised weights. Extensive experiments demonstrate that our FST provides consistently stable performance under different attack settings. Additionally, it is also convenient to deploy in real-world scenarios with significantly reduced computation costs. Our codes are available at https://github.com/AISafety-HKUST/stable_backdoor_purification.
翻訳日:2023-10-13 01:56:59 公開日:2023-10-07
# 未知分散を持つガウス平均の任意の時価t検定と信頼度列

Anytime-valid t-tests and confidence sequences for Gaussian means with unknown variance ( http://arxiv.org/abs/2310.03722v2 )

ライセンス: Link先を確認
Hongjian Wang and Aaditya Ramdas(参考訳) 1976年、ライは、未知分散 $\sigma$ を持つガウス分布の平均 $\mu$ に対する非自明な信頼列を構築した。 奇妙なことに、彼は$\sigma$以上の不適切な(右ハール)混合物と$\mu$以上の不適切な(フラット)混合物の両方を使用した。 ここでは、一般化された非可積分なマルティンゲールと拡張されたヴィルの不等式を用いる彼の構成の詳細を詳しく述べる。 これはシーケンシャルなt-テストをもたらすが、'e-process'(マルティンゲールの非可積分性のため)は得られない。 本稿では,同一設定のe-プロセスと信頼度シーケンスを2つ開発した。1つは縮小濾過におけるテストマルティンゲール,もう1つは標準データ濾過におけるe-プロセスである。 これらはそれぞれ、lai の平坦混合物をガウス混合物に交換し、右ハール混合物を $\sigma$ でヌルの最大推定値に置き換えることで得られる。 また、エラー確率$\alpha$に興味深い依存があるような、結果の信頼シーケンスの幅も分析する。 数値実験は、様々なアプローチを比較し、対比する過程で提供される。

In 1976, Lai constructed a nontrivial confidence sequence for the mean $\mu$ of a Gaussian distribution with unknown variance $\sigma$. Curiously, he employed both an improper (right Haar) mixture over $\sigma$ and an improper (flat) mixture over $\mu$. Here, we elaborate carefully on the details of his construction, which use generalized nonintegrable martingales and an extended Ville's inequality. While this does yield a sequential t-test, it does not yield an ``e-process'' (due to the nonintegrability of his martingale). In this paper, we develop two new e-processes and confidence sequences for the same setting: one is a test martingale in a reduced filtration, while the other is an e-process in the canonical data filtration. These are respectively obtained by swapping Lai's flat mixture for a Gaussian mixture, and swapping the right Haar mixture over $\sigma$ with the maximum likelihood estimate under the null, as done in universal inference. We also analyze the width of resulting confidence sequences, which have a curious dependence on the error probability $\alpha$. Numerical experiments are provided along the way to compare and contrast the various approaches.
翻訳日:2023-10-12 19:34:20 公開日:2023-10-07
# BTDNet:脳腫瘍放射線ゲノム分類のためのマルチモーダルアプローチ

BTDNet: a Multi-Modal Approach for Brain Tumor Radiogenomic Classification ( http://arxiv.org/abs/2310.03485v2 )

ライセンス: Link先を確認
Dimitrios Kollias, Karanjot Vendal, Priyanka Gadhavi and Solomon Russom(参考訳) 脳腫瘍は世界中で重大な健康上の問題をもたらし、グリオブラスト腫は最も攻撃的な形態の1つである。 o6-メチルグアニン-dnaメチルトランスフェラーゼ(mgmt)プロモーターのメチル化状態の正確な決定は、パーソナライズされた治療戦略に不可欠である。 しかし、伝統的な方法は労働集約的で時間を要する。 本稿では,MTMTプロモーターメチル化状態を予測するために,FLAIR,T1w,T1wCE,T23Dボリュームを含むマルチパラメトリックMRIスキャンを利用する新しいマルチモーダル手法BTDNetを提案する。 BTDNetは、可変ボリューム長(各ボリュームは異なる数のスライスから構成される)とボリュームレベルのアノテーション(つまり、全3Dボリュームは注釈付きで、独立したスライスではない)の2つの主な課題に対処する。 BTDNetは4つのコンポーネントから構成される。 一 データ拡張処理(幾何学的変換、データ対の凸結合及びテスト時データ拡張を行う。) 二 三次元解析装置(CNN-RNNによるグローバル分析を行うもの) 三 ルーティング1(可変入力特徴長を扱うマスク層を含む。)及び 四 モダリティ融合(データ表現を効果的に強化し、あいまいさを低減し、データの不足を緩和する) 提案手法は, rsna-asnr-miccai brats 2021チャレンジの最先端手法を大差で上回り, 脳腫瘍の診断と治療に有望な手段を提供する。

Brain tumors pose significant health challenges worldwide, with glioblastoma being one of the most aggressive forms. Accurate determination of the O6-methylguanine-DNA methyltransferase (MGMT) promoter methylation status is crucial for personalized treatment strategies. However, traditional methods are labor-intensive and time-consuming. This paper proposes a novel multi-modal approach, BTDNet, leveraging multi-parametric MRI scans, including FLAIR, T1w, T1wCE, and T2 3D volumes, to predict MGMT promoter methylation status. BTDNet addresses two main challenges: the variable volume lengths (i.e., each volume consists of a different number of slices) and the volume-level annotations (i.e., the whole 3D volume is annotated and not the independent slices that it consists of). BTDNet consists of four components: i) the data augmentation one (that performs geometric transformations, convex combinations of data pairs and test-time data augmentation); ii) the 3D analysis one (that performs global analysis through a CNN-RNN); iii) the routing one (that contains a mask layer that handles variable input feature lengths), and iv) the modality fusion one (that effectively enhances data representation, reduces ambiguities and mitigates data scarcity). The proposed method outperforms by large margins the state-of-the-art methods in the RSNA-ASNR-MICCAI BraTS 2021 Challenge, offering a promising avenue for enhancing brain tumor diagnosis and treatment.
翻訳日:2023-10-12 19:33:13 公開日:2023-10-07
# リアルタイム深層学習に基づくネットワーク侵入検知システムにおけるヒューリスティック防御手法を用いた非目標ホワイトボックス攻撃

Untargeted White-box Adversarial Attack with Heuristic Defence Methods in Real-time Deep Learning based Network Intrusion Detection System ( http://arxiv.org/abs/2310.03334v2 )

ライセンス: Link先を確認
Khushnaseeb Roshan, Aasim Zafar, Sheikh Burhan Ul Haque(参考訳) ネットワーク侵入検知システム(NIDS)は、様々なサイバーセキュリティ脅威やネットワーク攻撃からコンピュータネットワークを保護するための重要なコンポーネントである。 しかし、NIDS自体が攻撃され、より具体的に脆弱である不運な状況を考えてみましょう。 . Adversarial Machine Learning (AML)では、悪意あるアクターは機械学習(ML)とディープラーニング(DL)モデルを騙して、意図的な敵の例で誤った予測を生成する。 これらの逆の摂動例は、MLとDLベースのシステムの最大の脆弱性となり、NIDSのようなリアルタイムおよびミッションクリティカルなアプリケーションで採用する上で大きな障害となっている。 AMLは新たな研究領域であり、様々なサイバーセキュリティスレッドからコンピュータネットワークを保護するために、敵攻撃とその防衛戦略の詳細な研究が必要である。 本研究は, NIDS, 敵攻撃, 防衛機構に関する重要な側面を網羅し, ML と DL をベースとした NIDS の堅牢性を高めることを目的とする。 我々は,FGSM(Fast Gradient Sign Method),JSMA(Jacobian Saliency Map Attack),PGD(Projected Gradient Descent),Cerini & Wagner(C&W)の4つの強力な攻撃手法を実装した。 さまざまなパフォーマンスメトリクスの観点から、パフォーマンスを詳細に分析しました。 さらに、敵の攻撃状況下でのNIDS堅牢性を改善するため、3つのヒューリスティックス防衛戦略(AT)、GDA(Gaussian Data Augmentation)、HC(High Confidence)が実施されている。 完全なワークフローは、データパケットフローを伴うリアルタイムネットワークで実証される。 この研究は、コンピュータネットワークのセキュリティの観点から、AMLとその実装に関心のある研究者に、全体的な背景を提供する。

Network Intrusion Detection System (NIDS) is a key component in securing the computer network from various cyber security threats and network attacks. However, consider an unfortunate situation where the NIDS is itself attacked and vulnerable more specifically, we can say, How to defend the defender?. In Adversarial Machine Learning (AML), the malicious actors aim to fool the Machine Learning (ML) and Deep Learning (DL) models to produce incorrect predictions with intentionally crafted adversarial examples. These adversarial perturbed examples have become the biggest vulnerability of ML and DL based systems and are major obstacles to their adoption in real-time and mission-critical applications such as NIDS. AML is an emerging research domain, and it has become a necessity for the in-depth study of adversarial attacks and their defence strategies to safeguard the computer network from various cyber security threads. In this research work, we aim to cover important aspects related to NIDS, adversarial attacks and its defence mechanism to increase the robustness of the ML and DL based NIDS. We implemented four powerful adversarial attack techniques, namely, Fast Gradient Sign Method (FGSM), Jacobian Saliency Map Attack (JSMA), Projected Gradient Descent (PGD) and Carlini & Wagner (C&W) in NIDS. We analyzed its performance in terms of various performance metrics in detail. Furthermore, the three heuristics defence strategies, i.e., Adversarial Training (AT), Gaussian Data Augmentation (GDA) and High Confidence (HC), are implemented to improve the NIDS robustness under adversarial attack situations. The complete workflow is demonstrated in real-time network with data packet flow. This research work provides the overall background for the researchers interested in AML and its implementation from a computer network security point of view.
翻訳日:2023-10-12 19:32:43 公開日:2023-10-07
# SimVLG:ビジュアル言語生成モデルのシンプルで効率的な事前学習

SimVLG: Simple and Efficient Pretraining of Visual Language Generative Models ( http://arxiv.org/abs/2310.03291v2 )

ライセンス: Link先を確認
Yiren Jian, Tingkai Liu, Yunzhe Tao, Soroush Vosoughi, Hongxia Yang(参考訳) 本稿では,計算集約型視覚言語生成モデルの事前学習を行うための,凍結事前学習型大規模言語モデル(LLM)を利用した合理化フレームワークである `SimVLG' を提案する。 視覚言語プレトレーニング(vlp)の一般的なパラダイムは、一般的に2段階の最適化プロセスを含む: 汎用視覚言語表現学習に特化した最初のリソース集約型フェーズで、関連する視覚特徴の抽出と統合を目標とし、その後、視覚と言語モダリティのエンドツーエンドアライメントに焦点を当てたフェーズである。 私たちのワンステージシングルロスフレームワークは、トレーニング中に類似した視覚トークンを徐々にマージすることによって、前述の計算要求の第一段階を回避します。 この段階的なマージ処理は、セマンティックコンテンツの豊かさを保ちながら視覚情報を効果的にコンパクト化し、性能を犠牲にすることなく迅速に収束する。 実験の結果,本手法は視覚言語モデルのトレーニングを,全体の性能に顕著な影響を与えることなく,1因子$\times 5$で高速化できることがわかった。 さらに、我々のモデルは、現在のビジョン言語モデルと同等の性能を、わずか1/10ドルのデータで実現できることを示す。 最後に,新たなソフトアテンポラルトークンマージモジュールを用いて,画像テキストモデルをビデオ言語生成タスクに容易に適用できることを実証する。

In this paper, we propose ``SimVLG'', a streamlined framework for the pre-training of computationally intensive vision-language generative models, leveraging frozen pre-trained large language models (LLMs). The prevailing paradigm in vision-language pre-training (VLP) typically involves a two-stage optimization process: an initial resource-intensive phase dedicated to general-purpose vision-language representation learning, aimed at extracting and consolidating pertinent visual features, followed by a subsequent phase focusing on end-to-end alignment between visual and linguistic modalities. Our one-stage, single-loss framework circumvents the aforementioned computationally demanding first stage of training by gradually merging similar visual tokens during training. This gradual merging process effectively compacts the visual information while preserving the richness of semantic content, leading to fast convergence without sacrificing performance. Our experiments show that our approach can speed up the training of vision-language models by a factor $\times 5$ without noticeable impact on the overall performance. Additionally, we show that our models can achieve comparable performance to current vision-language models with only $1/10$ of the data. Finally, we demonstrate how our image-text models can be easily adapted to video-language generative tasks through a novel soft attentive temporal token merging modules.
翻訳日:2023-10-12 19:31:43 公開日:2023-10-07
# efficientdm:効率的な量子化-低ビット拡散モデルの微調整

EfficientDM: Efficient Quantization-Aware Fine-Tuning of Low-Bit Diffusion Models ( http://arxiv.org/abs/2310.03270v2 )

ライセンス: Link先を確認
Yefei He, Jing Liu, Weijia Wu, Hong Zhou, Bohan Zhuang(参考訳) 拡散モデルは画像合成と関連する生成タスクにおいて顕著な能力を示している。 しかしながら、低レイテンシな実世界のアプリケーションに対する実用性は、かなりの計算コストとレイテンシの問題によって制約されている。 量子化は拡散モデルを圧縮し加速する主要な方法であり、後学習量子化(PTQ)と量子化認識訓練(QAT)は2つの主要なアプローチであり、それぞれが独自の性質を持つ。 PTQは時間とデータの両方の効率を示すが、低ビット幅では性能が低下する可能性がある。 一方、QATはパフォーマンスの劣化を軽減することができるが、計算やデータリソースに対するかなりの要求がある。 それぞれの欠点を回避しつつ利点を生かし、低ビット拡散モデルのためのデータフリーでパラメータ効率の良い微調整フレームワーク、EfficientDMを導入し、PTQライクな効率でQATレベルの性能を実現する。 具体的には,低ランクアダプタ (QALoRA) の量子化を意識した変種を提案する。 微調整プロセスは、完全精度モデルの復調能力を定量化したものに蒸留し、データトレーニングの必要をなくす。 また, スケールアウェア最適化を導入し, 時間学習ステップサイズ量子化により, さらなる性能向上を図る。 実験結果から,本手法はPTQに基づく拡散モデルよりも有意に優れ,時間とデータ効率は良好であることがわかった。 具体的には、imagenet 256x256のldm-4から4ビットまでの重みとアクティベーションの両方を定量化すると0.05 sfidが増加するだけである。 QATベースの手法と比較して、EfficientDMは16.2倍高速な量子化速度で生成品質を比較できる。

Diffusion models have demonstrated remarkable capabilities in image synthesis and related generative tasks. Nevertheless, their practicality for low-latency real-world applications is constrained by substantial computational costs and latency issues. Quantization is a dominant way to compress and accelerate diffusion models, where post-training quantization (PTQ) and quantization-aware training (QAT) are two main approaches, each bearing its own properties. While PTQ exhibits efficiency in terms of both time and data usage, it may lead to diminished performance in low bit-width. On the other hand, QAT can alleviate performance degradation but comes with substantial demands on computational and data resources. To capitalize on the advantages while avoiding their respective drawbacks, we introduce a data-free and parameter-efficient fine-tuning framework for low-bit diffusion models, dubbed EfficientDM, to achieve QAT-level performance with PTQ-like efficiency. Specifically, we propose a quantization-aware variant of the low-rank adapter (QALoRA) that can be merged with model weights and jointly quantized to low bit-width. The fine-tuning process distills the denoising capabilities of the full-precision model into its quantized counterpart, eliminating the requirement for training data. We also introduce scale-aware optimization and employ temporal learned step-size quantization to further enhance performance. Extensive experimental results demonstrate that our method significantly outperforms previous PTQ-based diffusion models while maintaining similar time and data efficiency. Specifically, there is only a marginal 0.05 sFID increase when quantizing both weights and activations of LDM-4 to 4-bit on ImageNet 256x256. Compared to QAT-based methods, our EfficientDM also boasts a 16.2x faster quantization speed with comparable generation quality.
翻訳日:2023-10-12 19:31:19 公開日:2023-10-07
# コスト効率向上のための思考表現を混合した大規模言語モデルカスケード

Large Language Model Cascades with Mixture of Thoughts Representations for Cost-efficient Reasoning ( http://arxiv.org/abs/2310.03094v2 )

ライセンス: Link先を確認
Murong Yue, Jie Zhao, Min Zhang, Liang Du, Ziyu Yao(参考訳) gpt-4のような大規模言語モデル(llm)は様々なタスクで顕著なパフォーマンスを示しているが、この強力なパフォーマンスはしばしば有料apiサービスの使用に高いコストがかかる。 本稿では,特に推論(数学的,因果的)タスクの実行において,llmを使用するコストを削減するために,llmカスケードの構築を動機付ける。 我々のカスケードパイプラインは、より単純な問題に弱いがより手頃な価格のLSMで対処できるという直感に従っています。 この決定を実現するために,弱いLCMの「問合せ整合性」を質問の難しさの信号とみなし,2つの思考表現(すなわちChain-of-ThoughtとProgram-of-Thought)を混合した回答サンプリングと整合性検査のためのいくつかの手法を提案する。 GPT-3.5-turbo と GPT-4 がそれぞれより弱い LLM である6つの推論ベンチマークデータセットの実験を通して,提案する LLM カスケードは,より強力な LLM に匹敵する性能を達成できるが,コストの 40% しか必要としないことを示す。

Large language models (LLMs) such as GPT-4 have exhibited remarkable performance in a variety of tasks, but this strong performance often comes with the high expense of using paid API services. In this paper, we are motivated to study building an LLM cascade to save the cost of using LLMs, particularly for performing reasoning (e.g., mathematical, causal) tasks. Our cascade pipeline follows the intuition that simpler questions can be addressed by a weaker but more affordable LLM, whereas only the challenging questions necessitate the stronger and more expensive LLM. To realize this decision-making, we consider the "answer consistency" of the weaker LLM as a signal of the question difficulty and propose several methods for the answer sampling and consistency checking, including one leveraging a mixture of two thought representations (i.e., Chain-of-Thought and Program-of-Thought). Through experiments on six reasoning benchmark datasets, with GPT-3.5-turbo and GPT-4 being the weaker and stronger LLMs, respectively, we demonstrate that our proposed LLM cascades can achieve performance comparable to using solely the stronger LLM but require only 40% of its cost.
翻訳日:2023-10-12 19:30:45 公開日:2023-10-07
# スイス連邦最高裁判所規則の自動匿名化

Automatic Anonymization of Swiss Federal Supreme Court Rulings ( http://arxiv.org/abs/2310.04632v1 )

ライセンス: Link先を確認
Joel Niklaus, Robin Mami\'e, Matthias St\"urmer, Daniel Brunner, Marcel Gygli(参考訳) 裁判所の決定を一般大衆に公開するには、必要な場合にはすべての関係者を保護するための適切な匿名化が必要となる。 スイス連邦最高裁判所は、従来の計算手法を人間の専門家と組み合わせた既存のシステムに依存している。 本研究では,エンティティをアノテートした大規模データセットを用いて,既存の匿名化ソフトウェアを強化する。 BERTベースのモデルとドメイン内データに基づく事前学習モデルを比較した。 以上の結果から,モデルの事前学習にドメイン内データを用いることにより,既存のモデルと比較して,f1-scoreがさらに5\%向上することが示された。 本研究は,正規表現などの既存の匿名化手法と機械学習を組み合わせることで,手作業の軽減と自動提案の強化を実証する。

Releasing court decisions to the public relies on proper anonymization to protect all involved parties, where necessary. The Swiss Federal Supreme Court relies on an existing system that combines different traditional computational methods with human experts. In this work, we enhance the existing anonymization software using a large dataset annotated with entities to be anonymized. We compared BERT-based models with models pre-trained on in-domain data. Our results show that using in-domain data to pre-train the models further improves the F1-score by more than 5\% compared to existing models. Our work demonstrates that combining existing anonymization methods, such as regular expressions, with machine learning can further reduce manual labor and enhance automatic suggestions.
翻訳日:2023-10-12 17:11:22 公開日:2023-10-07
# anatomically-plausible 3d brain mri合成のためのメタデータ条件付き生成モデル

Metadata-Conditioned Generative Models to Synthesize Anatomically-Plausible 3D Brain MRIs ( http://arxiv.org/abs/2310.04630v1 )

ライセンス: Link先を確認
Wei Peng, Tomas Bosschieter, Jiahong Ouyang, Robert Paul, Ehsan Adeli, Qingyu Zhao, Kilian M. Pohl(参考訳) 生成型AIモデルは、例えばデータの多様性を豊かにする神経画像研究を促進する合成脳MRIを作成する大きな可能性を秘めている。 しかし、AI研究の主目的は、合成MRIの視覚的品質(信号対雑音比など)を最適化することのみであり、その神経科学との関連性についての洞察を欠いている。 T1強調MRIについてこれらの知見を得るため、我々はまず、最先端の視覚的品質を実現するメタデータ条件付きMRI(例えば、年齢および性別特化MRI)を合成する新しい生成モデルBrainSynthを提案する。 次に,脳領域のマクロ構造特性を合成mriがいかにうまく捉えられるか,年齢や性別の影響をいかに正確にエンコードするかなど,解剖学的妥当性を定量化するための新しい手法を用いて評価を拡張した。 その結果、人工mriの脳領域の半分以上は解剖学的に正確であり、リアルmriと合成mriの間の効果は小さいことがわかった。 さらに、解剖学的妥当性は、その幾何学的複雑さに応じて皮質領域によって異なる。 現在、我々の合成MRIは畳み込みニューラルネットワークのトレーニングを大幅に改善し、独立研究における加速老化効果を同定することができる。 これらの結果は、生成AIを用いて神経画像研究を支援し、さらなる改善のための領域を指し示す機会を浮き彫りにする。

Generative AI models hold great potential in creating synthetic brain MRIs that advance neuroimaging studies by, for example, enriching data diversity. However, the mainstay of AI research only focuses on optimizing the visual quality (such as signal-to-noise ratio) of the synthetic MRIs while lacking insights into their relevance to neuroscience. To gain these insights with respect to T1-weighted MRIs, we first propose a new generative model, BrainSynth, to synthesize metadata-conditioned (e.g., age- and sex-specific) MRIs that achieve state-of-the-art visual quality. We then extend our evaluation with a novel procedure to quantify anatomical plausibility, i.e., how well the synthetic MRIs capture macrostructural properties of brain regions, and how accurately they encode the effects of age and sex. Results indicate that more than half of the brain regions in our synthetic MRIs are anatomically accurate, i.e., with a small effect size between real and synthetic MRIs. Moreover, the anatomical plausibility varies across cortical regions according to their geometric complexity. As is, our synthetic MRIs can significantly improve the training of a Convolutional Neural Network to identify accelerated aging effects in an independent study. These results highlight the opportunities of using generative AI to aid neuroimaging research and point to areas for further improvement.
翻訳日:2023-10-12 17:11:12 公開日:2023-10-07
# 大規模言語モデル(LLMS)を用いたグラフ上のラベルなしノード分類

Label-free Node Classification on Graphs with Large Language Models (LLMS) ( http://arxiv.org/abs/2310.04668v1 )

ライセンス: Link先を確認
Zhikai Chen, Haitao Mao, Hongzhi Wen, Haoyu Han, Wei Jin, Haiyang Zhang, Hui Liu, Jiliang Tang(参考訳) 近年,グラフニューラルネットワーク(gnns)によるノード分類が著しく進歩している。 しかし、有望なパフォーマンスを保証するためには、豊富な高品質なラベルが必要である。 対照的に、Large Language Models (LLMs) は、テキスト分散グラフに印象的なゼロショットの習熟度を示す。 しかし、効率的な構造データ処理の課題に直面し、高い推論コストを被る。 これらの観測から, LLMsパイプラインを用いたグラフ上のラベルなしノード分類, LLM-GNNを導入する。 制限を緩和しながら、gnnとllmの両方の強みを融合させる。 特に、llmは少数のノードに注釈をつけるために利用され、gnnはllmsのアノテーションで訓練され、残りのノードの大部分が予測される。 llm-gnnの実装は、いかに積極的にllmのノードを選択してアノテートし、gnnトレーニングを強化するかという、ユニークな課題に直面している。 高品質、代表性、多様性のアノテーションを得るためにLLMをどのように活用すれば、より低コストでGNN性能を向上させることができるのか? この課題に取り組むために,アノテーションの品質ヒューリスティックを開発し,llmから得られた信頼度スコアを高度なノード選択に活用する。 LLM-GNNの有効性を総合的に検証した。 特に、LLM-GNNは1ドル未満の大規模データセット \products において74.9%の精度を達成できる。

In recent years, there have been remarkable advancements in node classification achieved by Graph Neural Networks (GNNs). However, they necessitate abundant high-quality labels to ensure promising performance. In contrast, Large Language Models (LLMs) exhibit impressive zero-shot proficiency on text-attributed graphs. Yet, they face challenges in efficiently processing structural data and suffer from high inference costs. In light of these observations, this work introduces a label-free node classification on graphs with LLMs pipeline, LLM-GNN. It amalgamates the strengths of both GNNs and LLMs while mitigating their limitations. Specifically, LLMs are leveraged to annotate a small portion of nodes and then GNNs are trained on LLMs' annotations to make predictions for the remaining large portion of nodes. The implementation of LLM-GNN faces a unique challenge: how can we actively select nodes for LLMs to annotate and consequently enhance the GNN training? How can we leverage LLMs to obtain annotations of high quality, representativeness, and diversity, thereby enhancing GNN performance with less cost? To tackle this challenge, we develop an annotation quality heuristic and leverage the confidence scores derived from LLMs to advanced node selection. Comprehensive experimental results validate the effectiveness of LLM-GNN. In particular, LLM-GNN can achieve an accuracy of 74.9% on a vast-scale dataset \products with a cost less than 1 dollar.
翻訳日:2023-10-12 16:58:55 公開日:2023-10-07
# マイクロ圧縮認識のためのオンセット・オーカリング・オフセット表現の学習

Learning to Rank Onset-Occurring-Offset Representations for Micro-Expression Recognition ( http://arxiv.org/abs/2310.04664v1 )

ライセンス: Link先を確認
Jie Zhu, Yuan Zong, Jingang Shi, Cheng Lu, Hongli Chang, Wenming Zheng(参考訳) 本稿では,マイクロ表現認識(mer)の研究に焦点をあて,学習と呼ばれるフレキシブルで信頼性の高いディープラーニング手法を提案する。 LTR3O法は、3Oと呼ばれる動的で縮小されたシーケンス構造を導入し、マイクロ表現(ME)を表現するために、オンセット、発生、オフセットフレームで構成される。 この構造は、その後のME識別特徴の学習を促進する。 3o構造の特筆すべき利点は、正確なフレームスポッティング法を必要とせず、元のmeシーケンスからランダムにフレームを抽出することで、その柔軟性である。 3O構造に基づいて、LTR3Oは各MEサンプルに対して複数の3O表現候補を生成し、よく設計されたモジュールを組み込んで感情表現性を測定・校正する。 このキャリブレーションプロセスにより、これらの候補の分布は時間とともにマクロ表現(MaM)の分布と一致する。 したがって、MEの可視性は暗黙的に向上し、MERのより差別的な特徴の信頼できる学習を促進することができる。 CASME II, SMIC, SAMMの3つの広く利用されているMEデータベースを用いたLTR3Oの性能評価実験を行った。 実験の結果,最近の最先端MER法と比較して,LTR3Oの有効性と性能,特にその柔軟性と信頼性を実証した。

This paper focuses on the research of micro-expression recognition (MER) and proposes a flexible and reliable deep learning method called learning to rank onset-occurring-offset representations (LTR3O). The LTR3O method introduces a dynamic and reduced-size sequence structure known as 3O, which consists of onset, occurring, and offset frames, for representing micro-expressions (MEs). This structure facilitates the subsequent learning of ME-discriminative features. A noteworthy advantage of the 3O structure is its flexibility, as the occurring frame is randomly extracted from the original ME sequence without the need for accurate frame spotting methods. Based on the 3O structures, LTR3O generates multiple 3O representation candidates for each ME sample and incorporates well-designed modules to measure and calibrate their emotional expressiveness. This calibration process ensures that the distribution of these candidates aligns with that of macro-expressions (MaMs) over time. Consequently, the visibility of MEs can be implicitly enhanced, facilitating the reliable learning of more discriminative features for MER. Extensive experiments were conducted to evaluate the performance of LTR3O using three widely-used ME databases: CASME II, SMIC, and SAMM. The experimental results demonstrate the effectiveness and superior performance of LTR3O, particularly in terms of its flexibility and reliability, when compared to recent state-of-the-art MER methods.
翻訳日:2023-10-12 16:58:38 公開日:2023-10-07
# HalluciDet: 限定情報による人物検出のためのRGBモダリティの幻覚

HalluciDet: Hallucinating RGB Modality for Person Detection Through Privileged Information ( http://arxiv.org/abs/2310.04662v1 )

ライセンス: Link先を確認
Heitor Rapela Medeiros, Fidel A. Guerrero Pena, Masih Aminbeidokhti, Thomas Dubail, Eric Granger, Marco Pedersoli(参考訳) 視覚認識モデルを新しい領域に適応させる強力な方法は、画像翻訳である。 しかし、一般的な画像変換手法は、対象領域の同じ分布からデータを生成することのみに焦点を当てる。 Infrared (IR) から RGB 画像へのデータ配信において, 空中画像上での歩行者検出などの複雑な画像を用いた視覚的認識タスクでは, 生成に焦点を絞った翻訳は, タスクの無関係な詳細に焦点が当てられるため, 性能が低下する可能性がある。 本稿では,オブジェクト検出のためのir-rgb画像変換モデルであるhallucidetを提案する。原画像のirモードの再構築に重点を置く代わりに,rgb検出器の検出損失の低減を直接指導することで,rgbデータへのアクセスを回避できる。 このモデルは、シーンに対する関心を増し、検出性能を大幅に改善する新しい画像表現を生成する。 提案手法は,既存の画像翻訳手法とIRの微調整法とを実証的に比較し,事前学習したRGB検出器に符号化された特権情報を活用することにより,ほとんどの場合において検出精度を向上させることを示す。

A powerful way to adapt a visual recognition model to a new domain is through image translation. However, common image translation approaches only focus on generating data from the same distribution of the target domain. In visual recognition tasks with complex images, such as pedestrian detection on aerial images with a large cross-modal shift in data distribution from Infrared (IR) to RGB images, a translation focused on generation might lead to poor performance as the loss focuses on irrelevant details for the task. In this paper, we propose HalluciDet, an IR-RGB image translation model for object detection that, instead of focusing on reconstructing the original image on the IR modality, is guided directly on reducing the detection loss of an RGB detector, and therefore avoids the need to access RGB data. This model produces a new image representation that enhances the object of interest in the scene and greatly improves detection performance. We empirically compare our approach against state-of-the-art image translation methods as well as with the commonly used fine-tuning on IR, and show that our method improves detection accuracy in most cases, by exploiting the privileged information encoded in a pre-trained RGB detector.
翻訳日:2023-10-12 16:58:13 公開日:2023-10-07
# vlattack: 事前学習モデルによる視覚言語タスクに対するマルチモーダル攻撃

VLAttack: Multimodal Adversarial Attacks on Vision-Language Tasks via Pre-trained Models ( http://arxiv.org/abs/2310.04655v1 )

ライセンス: Link先を確認
Ziyi Yin, Muchao Ye, Tianrong Zhang, Tianyu Du, Jinguo Zhu, Han Liu, Jinghui Chen, Ting Wang, Fenglong Ma(参考訳) VL(Vision-Language)事前訓練モデルは、多くのマルチモーダルタスクにおいて優位性を示している。 しかし、そのようなモデルの敵対的堅牢性は十分に検討されていない。 既存のアプローチは主に、非現実的なホワイトボックス設定の下で敵の堅牢性を探究することに焦点を当てている。 本稿では,学習済みのVLモデルを用いて画像とテキストの摂動を創り出し,異なる下流タスクにおけるブラックボックスの微調整モデルに対処する,新たな実用的課題について検討する。 そこで本研究では,単一のモーダルレベルとマルチモーダルレベルの両方から画像とテキストの摂動を利用して,逆さまのサンプルを生成するvlattackを提案する。 単一モードレベルでは、画像摂動を学習して普遍表現を乱すブロックワイド類似性攻撃(BSA)戦略を提案する。 また,既存のテキスト攻撃戦略を採用し,画像モーダル攻撃とは無関係にテキストの摂動を生成する。 マルチモーダルレベルでは、単一のモーダルレベルからの出力から始まる逆画像とテキストのペアを定期的に更新する新しい反復的クロスサーチ攻撃法(ICSA)を設計する。 8つのデータセット上で6つのタスクに対して、広く使われている3つのVL事前訓練モデルを攻撃するための広範な実験を行う。 実験結果から,提案するVLAttackフレームワークは,最先端のベースラインと比較して全タスクにおける攻撃成功率が最も高く,事前訓練されたVLモデルの展開において重大な障害点があることが判明した。 コードはまもなくリリースされる予定だ。

Vision-Language (VL) pre-trained models have shown their superiority on many multimodal tasks. However, the adversarial robustness of such models has not been fully explored. Existing approaches mainly focus on exploring the adversarial robustness under the white-box setting, which is unrealistic. In this paper, we aim to investigate a new yet practical task to craft image and text perturbations using pre-trained VL models to attack black-box fine-tuned models on different downstream tasks. Towards this end, we propose VLAttack to generate adversarial samples by fusing perturbations of images and texts from both single-modal and multimodal levels. At the single-modal level, we propose a new block-wise similarity attack (BSA) strategy to learn image perturbations for disrupting universal representations. Besides, we adopt an existing text attack strategy to generate text perturbations independent of the image-modal attack. At the multimodal level, we design a novel iterative cross-search attack (ICSA) method to update adversarial image-text pairs periodically, starting with the outputs from the single-modal level. We conduct extensive experiments to attack three widely-used VL pretrained models for six tasks on eight datasets. Experimental results show that the proposed VLAttack framework achieves the highest attack success rates on all tasks compared with state-of-the-art baselines, which reveals a significant blind spot in the deployment of pre-trained VL models. Codes will be released soon.
翻訳日:2023-10-12 16:57:48 公開日:2023-10-07
# グループワイドレグレットのためのOracleの効率的なアルゴリズム

Oracle Efficient Algorithms for Groupwise Regret ( http://arxiv.org/abs/2310.04652v1 )

ライセンス: Link先を確認
Krishna Acharya, Eshwar Ram Arunachaleswaran, Sampath Kannan, Aaron Roth, Juba Ziani(参考訳) 我々はオンライン予測の問題を調査し、各ステップ$t$で個々の$x_t$が到着し、そのラベルを予測しなければならない。 各個人は、年齢、性別、人種などの特徴に基づいて定義された様々なグループに関連付けられ、交差する可能性がある。 私たちの目標は、全体だけでなく、すべてのグループのメンバーで構成される各サブシーケンス上でも、後悔の保証を持つ予測を行うことです。 以前の [blum & lykouris] や [lee et al] のような研究は、これらの問題に対して魅力的な後悔の保証を提供しているが、大きなモデルクラスでは計算上は役に立たない。 睡眠専門家によるBlum & Lykouris(Blum & Lykouris)の簡易な修正は,外的後悔欠席集団の考慮を減らし,よく理解された問題に効果的に還元できることを示す。 提案手法は, [Blum & Lykouris] と比較して, 同様の後悔の保証を与えるが, 群数では時間線型であり, 仮説クラスではオラクル効率がよい。 特に、このアルゴリズムは、群数が多項式的に有界であり、外部回帰問題を効率的に解くことができ、モデルクラスが小さくなければならないという[Blum & Lykouris]の強い条件を改善することを示唆している。 この手法はオンライン線形回帰問題やオンライン最短経路などのオンライン組合せ最適化問題を扱うことができる。 このアルゴリズムは, 理論上の後悔点の他に, 合成データと2つの実データ -- 医療費と成人所得データセット -- に関して, 人種, 性別, その他の人口統計学的特徴の観点から定義された交差するグループでインスタンス化されている。 グループ間で一様になるアルゴリズムは、グループ毎の後悔のない標準的なオンライン線形回帰アルゴリズムよりもエラーをかなり改善できることがわかった。

We study the problem of online prediction, in which at each time step $t$, an individual $x_t$ arrives, whose label we must predict. Each individual is associated with various groups, defined based on their features such as age, sex, race etc., which may intersect. Our goal is to make predictions that have regret guarantees not just overall but also simultaneously on each sub-sequence comprised of the members of any single group. Previous work such as [Blum & Lykouris] and [Lee et al] provide attractive regret guarantees for these problems; however, these are computationally intractable on large model classes. We show that a simple modification of the sleeping experts technique of [Blum & Lykouris] yields an efficient reduction to the well-understood problem of obtaining diminishing external regret absent group considerations. Our approach gives similar regret guarantees compared to [Blum & Lykouris]; however, we run in time linear in the number of groups, and are oracle-efficient in the hypothesis class. This in particular implies that our algorithm is efficient whenever the number of groups is polynomially bounded and the external-regret problem can be solved efficiently, an improvement on [Blum & Lykouris]'s stronger condition that the model class must be small. Our approach can handle online linear regression and online combinatorial optimization problems like online shortest paths. Beyond providing theoretical regret bounds, we evaluate this algorithm with an extensive set of experiments on synthetic data and on two real data sets -- Medical costs and the Adult income dataset, both instantiated with intersecting groups defined in terms of race, sex, and other demographic characteristics. We find that uniformly across groups, our algorithm gives substantial error improvements compared to running a standard online linear regression algorithm with no groupwise regret guarantees.
翻訳日:2023-10-12 16:57:19 公開日:2023-10-07
# NPEFF:非負の1個当たりの漁業因子化

NPEFF: Non-Negative Per-Example Fisher Factorization ( http://arxiv.org/abs/2310.04649v1 )

ライセンス: Link先を確認
Michael Matena, Colin Raffel(参考訳) ディープラーニングモデルがますます多くの設定でデプロイされるにつれて、特定の予測を生成する理由を理解することがますます重要になるが、これらのモデルの解釈は依然として課題である。 本稿では,エンド・ツー・エンドの微分可能モデルに適用可能なnpeffと呼ばれる新しい解釈可能性手法を提案する。 異なる例間で共有される特性の処理は、モデルパラメータの特定のサブセットを含むという原則に基づいて動作する。 各サンプルのフィッシャー情報行列を非負の成分和として分解してNPEFFを行う。 これらの成分は、それぞれ対角的あるいはローランクなフィッシャー表現を使用しているかどうかによって、非負ベクトルまたはランク1正半定行列の形式をとる。 後者の形式では,新しいスケーラブルなアルゴリズムを導入する。 NPEFFによって復元されたコンポーネントは、言語および視覚モデルの実験を通して解釈可能なチューニングを持つことを示す。 NPEFFのパラメータ空間表現のユニークな特性を用いて、パラメータ空間内の方向とNPEFFが復元した例との間の接続が実際にモデルの処理を反映していることを示す広範な実験を行った。 さらに,TRACRコンパイルモデルが使用する実際の処理戦略を明らかにするNPEFFの能力を実証する。 さらに、モデルが使用する欠陥のあるヒューリスティックの発見と修正におけるNPEFFの適用の可能性を探る。 NPEFFを用いた研究を促進するためにコードを公開します。

As deep learning models are deployed in more and more settings, it becomes increasingly important to be able to understand why they produce a given prediction, but interpretation of these models remains a challenge. In this paper, we introduce a novel interpretability method called NPEFF that is readily applicable to any end-to-end differentiable model. It operates on the principle that processing of a characteristic shared across different examples involves a specific subset of model parameters. We perform NPEFF by decomposing each example's Fisher information matrix as a non-negative sum of components. These components take the form of either non-negative vectors or rank-1 positive semi-definite matrices depending on whether we are using diagonal or low-rank Fisher representations, respectively. For the latter form, we introduce a novel and highly scalable algorithm. We demonstrate that components recovered by NPEFF have interpretable tunings through experiments on language and vision models. Using unique properties of NPEFF's parameter-space representations, we ran extensive experiments to verify that the connections between directions in parameters space and examples recovered by NPEFF actually reflect the model's processing. We further demonstrate NPEFF's ability to uncover the actual processing strategies used by a TRACR-compiled model. We further explore a potential application of NPEFF in uncovering and correcting flawed heuristics used by a model. We release our code to facilitate research using NPEFF.
翻訳日:2023-10-12 16:56:48 公開日:2023-10-07
# 自己教師型音声と言語モデルは人間の脳と同様の表現を抽出するか?

Do self-supervised speech and language models extract similar representations as human brain? ( http://arxiv.org/abs/2310.04645v1 )

ライセンス: Link先を確認
Peili Chen, Linyang He, Li Fu, Lu Fan, Edward F. Chang, Yuanning Li(参考訳) 自己教師付き学習(SSL)によって訓練された音声と言語モデルは、音声と言語知覚の間の脳活動と強い整合性を示す。 しかし、異なるトレーニングのモダリティを考えると、それらが同じ神経的側面と相関しているかどうかは不明だ。 本稿では,2つの代表的なSSLモデルであるWav2Vec2.0とGPT-2の脳波予測性能を評価することで,この問題を直接解決する。 以上の結果から,両モデルとも聴覚野の発話応答を正確に予測し,脳の予測に有意な相関を示した。 特に、Wav2Vec2.0 と GPT-2 間の音声コンテキスト情報の共有は、静的意味情報と低レベル音響音声情報を上回る、説明された脳活動のばらつきの大部分を占める。 これらの結果は、SSLモデルにおける音声文脈表現の収束と、その基盤となる音声知覚との整合性を強調し、SSLモデルと音声および言語処理のニューラルネットワークに関する貴重な洞察を提供する。

Speech and language models trained through self-supervised learning (SSL) demonstrate strong alignment with brain activity during speech and language perception. However, given their distinct training modalities, it remains unclear whether they correlate with the same neural aspects. We directly address this question by evaluating the brain prediction performance of two representative SSL models, Wav2Vec2.0 and GPT-2, designed for speech and language tasks. Our findings reveal that both models accurately predict speech responses in the auditory cortex, with a significant correlation between their brain predictions. Notably, shared speech contextual information between Wav2Vec2.0 and GPT-2 accounts for the majority of explained variance in brain activity, surpassing static semantic and lower-level acoustic-phonetic information. These results underscore the convergence of speech contextual representations in SSL models and their alignment with the neural network underlying speech perception, offering valuable insights into both SSL models and the neural basis of speech and language processing.
翻訳日:2023-10-12 16:56:25 公開日:2023-10-07
# X-Transfer:ロバストGAN生成フェイク画像検出のための移動学習フレームワーク

X-Transfer: A Transfer Learning-Based Framework for Robust GAN-Generated Fake Image Detection ( http://arxiv.org/abs/2310.04639v1 )

ライセンス: Link先を確認
Lei Zhang, Hao Chen, Shu Hu, Bin Zhu, Xi Wu, Jinrong Hu, Xin Wang(参考訳) generative adversarial networks (gans) は様々な分野、特に画像の生成や編集において著しく進歩している。 しかし、偽画像生成におけるgansの誤用は、顔の交換や偽アカウントを含む重大なセキュリティ上の懸念を招き、広く注目を集めている。 その結果,実画像と偽画像とを区別する効果的な検出法が緊急に必要となる。 現在の研究は移動学習の応用を中心にしている。 それでも、トレーニング中に不均衡なデータを扱う場合、元のデータセットから忘れられた知識や不十分なパフォーマンスといった課題に遭遇する。 そこで,本稿では,X-Transferと呼ばれる新しいGAN生成画像検出アルゴリズムを提案する。 このモデルは、インターリーブ並列勾配伝送を用いた2つの兄弟ニューラルネットワークを利用することで、転送学習を強化する。 このアプローチは、過剰な知識忘れの問題を効果的に緩和する。 さらに、AUC損失項とクロスエントロピー損失を組み合わせたモデルの性能を総合的に向上させる。 AUCの損失は、WMW統計を用いてAUCメトリックを近似し、微分可能性を確保し、従来のAUC評価の性能を向上させる。 複数の顔画像データセットに関する総合的な実験を行う。 その結果,本モデルの方が一般的な転送手法よりも優れており,精度は99.04%向上し,約10%向上した。 さらに,非面データセットにおいて優れた性能を示し,その汎用性とより広い応用可能性を検証する。

Generative adversarial networks (GANs) have remarkably advanced in diverse domains, especially image generation and editing. However, the misuse of GANs for generating deceptive images raises significant security concerns, including face replacement and fake accounts, which have gained widespread attention. Consequently, there is an urgent need for effective detection methods to distinguish between real and fake images. Some of the current research centers around the application of transfer learning. Nevertheless, it encounters challenges such as knowledge forgetting from the original dataset and inadequate performance when dealing with imbalanced data during training. To alleviate the above issues, this paper introduces a novel GAN-generated image detection algorithm called X-Transfer. This model enhances transfer learning by utilizing two sibling neural networks that employ interleaved parallel gradient transmission. This approach also effectively mitigates the problem of excessive knowledge forgetting. In addition, we combine AUC loss term and cross-entropy loss to enhance the model's performance comprehensively. The AUC loss approximates the AUC metric using WMW statistics, ensuring differentiability and improving the performance of traditional AUC evaluation. We carry out comprehensive experiments on multiple facial image datasets. The results show that our model outperforms the general transferring approach, and the best accuracy achieves 99.04%, which is increased by approximately 10%. Furthermore, we demonstrate excellent performance on non-face datasets, validating its generality and broader application prospects.
翻訳日:2023-10-12 16:56:08 公開日:2023-10-07
# 高視認性学習ビデオ圧縮

High Visual-Fidelity Learned Video Compression ( http://arxiv.org/abs/2310.04679v1 )

ライセンス: Link先を確認
Meng Li, Yibo Shi, Jing Wang, Yunqi Huang(参考訳) ビデオアプリケーションへの需要が高まり、psnrのような客観的品質指標で従来の方法よりも優れる、多くの高度な学習ビデオ圧縮手法が開発されている。 既存の手法は主に客観的な品質に焦点を合わせているが、知覚的品質を見落としがちである。 学習ビデオ圧縮フレームワークに知覚的損失を直接組み込むことは簡単ではなく、対処しなければならない知覚的品質の問題を引き起こす。 本稿では,学習ビデオ圧縮におけるこれらの課題を調査し,高忠実度学習ビデオ圧縮フレームワーク(hvfvc)を提案する。 具体的には,新たに導入した地域における貧弱な復興問題に対処するための,信頼度に基づく新しい特徴再構築手法を設計し,その視覚的品質を著しく向上させる。 さらに,デコンボリューション操作と最適化に関連するチェッカーボードアーティファクトを緩和するために,周期的な補償損失を示す。 広汎な実験により,提案したHVFVCは高い知覚品質を達成し,最新のVVC標準を50%のビットレートで上回った。

With the growing demand for video applications, many advanced learned video compression methods have been developed, outperforming traditional methods in terms of objective quality metrics such as PSNR. Existing methods primarily focus on objective quality but tend to overlook perceptual quality. Directly incorporating perceptual loss into a learned video compression framework is nontrivial and raises several perceptual quality issues that need to be addressed. In this paper, we investigated these issues in learned video compression and propose a novel High Visual-Fidelity Learned Video Compression framework (HVFVC). Specifically, we design a novel confidence-based feature reconstruction method to address the issue of poor reconstruction in newly-emerged regions, which significantly improves the visual quality of the reconstruction. Furthermore, we present a periodic compensation loss to mitigate the checkerboard artifacts related to deconvolution operation and optimization. Extensive experiments have shown that the proposed HVFVC achieves excellent perceptual quality, outperforming the latest VVC standard with only 50% required bitrate.
翻訳日:2023-10-12 16:51:15 公開日:2023-10-07
# AG-CRC : 解剖学的知識が不十分なCTにおける大腸癌切除

AG-CRC: Anatomy-Guided Colorectal Cancer Segmentation in CT with Imperfect Anatomical Knowledge ( http://arxiv.org/abs/2310.04677v1 )

ライセンス: Link先を確認
Rongzhao Zhang, Zhian Bai, Ruoying Yu, Wenrao Pang, Lingyun Wang, Lifeng Zhu, Xiaofan Zhang, Huan Zhang, Weiguo Hu(参考訳) 医療画像から病変を区切る場合、人間の専門家は常にボクセルの背後にある解剖学的構造を念頭に置いておくことができる。 しかし,最新のディープラーニングアルゴリズムを用いたCTスキャンから,高品質な解剖学的情報を取得することは可能であるが,これらの自動生成臓器マスクが大腸癌の分節化(CRC)などの難治性病変の分節化にどのように役立つかは,未解決の問題である。 本稿では,CTからのCRCセグメンテーション,すなわちAG-CRCを支援するために自動生成臓器マスクを利用する新しい解剖誘導セグメンテーションフレームワークを開発する。 まず,既存のMOSモデル(TotalSegmentorなど)を用いた多臓器セグメンテーション (MOS) マスクを取得し,さらに大腸およびCRCボクセルの大部分をカバーする,より堅牢な関心器官 (OOI) マスクを導出する。 次に,重要な領域(例えば腫瘍や臓器)とサンプルの多様性の両方を考慮するヒューリスティックゲイン関数を最適化し,解剖学的に誘導された訓練パッチサンプリング戦略を提案する。 第3に,大腸などの管状臓器のトポロジーに触発された新しい自己教師付き学習スキームをデザインし,モデルの性能をさらに高める。 最後に,本質的な学習領域にのみ焦点をあてるために,マスク付き損失スキームを用いてモデルを誘導する。 提案する2つのcrcセグメンテーションデータセットについて,現在最先端の医用画像セグメンテーションモデルよりも相当な性能向上(diceでは5%から9%)が達成され,アブレーション研究により各成分の有効性がさらに証明された。

When delineating lesions from medical images, a human expert can always keep in mind the anatomical structure behind the voxels. However, although high-quality (though not perfect) anatomical information can be retrieved from computed tomography (CT) scans with modern deep learning algorithms, it is still an open problem how these automatically generated organ masks can assist in addressing challenging lesion segmentation tasks, such as the segmentation of colorectal cancer (CRC). In this paper, we develop a novel Anatomy-Guided segmentation framework to exploit the auto-generated organ masks to aid CRC segmentation from CT, namely AG-CRC. First, we obtain multi-organ segmentation (MOS) masks with existing MOS models (e.g., TotalSegmentor) and further derive a more robust organ of interest (OOI) mask that may cover most of the colon-rectum and CRC voxels. Then, we propose an anatomy-guided training patch sampling strategy by optimizing a heuristic gain function that considers both the proximity of important regions (e.g., the tumor or organs of interest) and sample diversity. Third, we design a novel self-supervised learning scheme inspired by the topology of tubular organs like the colon to boost the model performance further. Finally, we employ a masked loss scheme to guide the model to focus solely on the essential learning region. We extensively evaluate the proposed method on two CRC segmentation datasets, where substantial performance improvement (5% to 9% in Dice) is achieved over current state-of-the-art medical image segmentation models, and the ablation studies further evidence the efficacy of every proposed component.
翻訳日:2023-10-12 16:50:04 公開日:2023-10-07
# 外科用Gym: 外科用ロボットによる強化学習のための高性能GPUベースプラットフォーム

Surgical Gym: A high-performance GPU-based platform for reinforcement learning with surgical robots ( http://arxiv.org/abs/2310.04676v1 )

ライセンス: Link先を確認
Samuel Schmidgall, Axel Krieger, Jason Eshraghian(参考訳) ロボット支援手術の最近の進歩は、徐々に正確で、効率的で、最小限の侵襲的な処置をもたらし、ロボットによる外科手術の新しい時代を巻き起こした。 これにより、医師は、ロボットと協調して、より小さな切開により、従来のまたは最小の侵襲的な手術を行うことができる。 最近の取り組みは、手術結果の変動を低減し、合併症率を低減できるロボット手術をより自律的にすることに取り組んでいる。 深層強化学習手法は手術の自動化にスケーラブルなソリューションを提供するが、その有効性は、タスクをうまくこなすための事前知識がないため、広範なデータ取得に依存している。 シミュレーションデータ収集の強い性質のため、従来の研究は既存のアルゴリズムをより効率的にすることに注力してきた。 本研究では,シミュレータをより効率的にし,トレーニングデータを従来よりもずっとアクセスしやすくすることに注力する。 手術ロボット学習のためのオープンソースの高性能プラットフォームであるオペレーショナルGymを導入し,物理シミュレーションと強化学習の両方をGPU上で直接行う。 従来の外科的学習プラットフォームと比較して,100~5000倍の速さを示した。 コードはhttps://github.com/SamuelSchmidgall/SurgicalGym.comで公開されている。

Recent advances in robot-assisted surgery have resulted in progressively more precise, efficient, and minimally invasive procedures, sparking a new era of robotic surgical intervention. This enables doctors, in collaborative interaction with robots, to perform traditional or minimally invasive surgeries with improved outcomes through smaller incisions. Recent efforts are working toward making robotic surgery more autonomous which has the potential to reduce variability of surgical outcomes and reduce complication rates. Deep reinforcement learning methodologies offer scalable solutions for surgical automation, but their effectiveness relies on extensive data acquisition due to the absence of prior knowledge in successfully accomplishing tasks. Due to the intensive nature of simulated data collection, previous works have focused on making existing algorithms more efficient. In this work, we focus on making the simulator more efficient, making training data much more accessible than previously possible. We introduce Surgical Gym, an open-source high performance platform for surgical robot learning where both the physics simulation and reinforcement learning occur directly on the GPU. We demonstrate between 100-5000x faster training times compared with previous surgical learning platforms. The code is available at: https://github.com/SamuelSchmidgall/SurgicalGym.
翻訳日:2023-10-12 16:49:30 公開日:2023-10-07
# ブースティングとドロップアウトによる反応予測における不均一不確かさのモデル化

Modeling non-uniform uncertainty in Reaction Prediction via Boosting and Dropout ( http://arxiv.org/abs/2310.04674v1 )

ライセンス: Link先を確認
Taicheng Guo, Changsheng Ma, Xiuying Chen, Bozhao Nan, Kehan Guo, Shichao Pei, Nitesh V. Chawla, Olaf Wiest, Xiangliang Zhang(参考訳) 反応予測は合成化学において重要な課題として認識され、そこでは与えられた反応物に基づいて反応の結果を予測することが目的である。 生成モデルの普及に伴い、変分オートエンコーダ(vae)フレームワークは一般的に反応予測の課題に対処するために用いられており、反応物質はデコーダの条件としてエンコードされ、生成物を生成する。 有効性にもかかわらず、これらの条件付きVAE(CVAE)モデルは、主に確率的反応過程に由来する反応予測の固有の不確かさを適切に説明できない。 主な制限は2つある。 第一に、これらのCVAEモデルでは、前者は反応物とは独立であり、デフォルトの広さと仮定された生成物の均一分布分散をもたらす。 第二に、類似の分子表現を持つ反応体は、類似の電子遷移過程を経て、類似した生成物を生成すると推定される。 これにより、多様な反応機構を効果的にモデル化する能力が阻害される。 結果のばらつきは本質的に不均一であるため、不均一な不確かさを持つ反応生成物を生成するフレームワークを開発する動機となっている。 まず,従来のCVAEモデルの潜在変数を除去し,非制御ラベルノイズを軽減する。 代わりに、さまざまなモデルをアンサンブルし、潜在的な結果の範囲をカバーし、小さなバリエーションを持つ安全なモデルへのドロップアウトを通じて、製品生成にランダム性を導入します。 さらに, ブースティングとドロップアウトの予測を結合し, もっとも妥当な製品を優先するランキング手法を考案する。 最大反応予測ベンチマークUSPTO-MITの実験結果から, ベースラインと比較して一様でない不確かさをモデル化する上で, 提案手法の優れた性能を示した。

Reaction prediction has been recognized as a critical task in synthetic chemistry, where the goal is to predict the outcome of a reaction based on the given reactants. With the widespread adoption of generative models, the Variational Autoencoder(VAE) framework has typically been employed to tackle challenges in reaction prediction, where the reactants are encoded as a condition for the decoder, which then generates the product. Despite effectiveness, these conditional VAE (CVAE) models still fail to adequately account for the inherent uncertainty in reaction prediction, which primarily stems from the stochastic reaction process. The principal limitations are twofold. Firstly, in these CVAE models, the prior is independent of the reactants, leading to a default wide and assumed uniform distribution variance of the generated product. Secondly, reactants with analogous molecular representations are presumed to undergo similar electronic transition processes, thereby producing similar products. This hinders the ability to model diverse reaction mechanisms effectively. Since the variance in outcomes is inherently non-uniform, we are thus motivated to develop a framework that generates reaction products with non-uniform uncertainty. Firstly, we eliminate the latent variable in previous CVAE models to mitigate uncontrol-label noise. Instead, we introduce randomness into product generation via boosting to ensemble diverse models and cover the range of potential outcomes, and through dropout to secure models with minor variations. Additionally, we design a ranking method to union the predictions from boosting and dropout, prioritizing the most plausible products. Experimental results on the largest reaction prediction benchmark USPTO-MIT show the superior performance of our proposed method in modeling the non-uniform uncertainty compared to baselines.
翻訳日:2023-10-12 16:49:11 公開日:2023-10-07
# スマートなAIフォトジェネレータ「EasyPhoto」

EasyPhoto: Your Smart AI Photo Generator ( http://arxiv.org/abs/2310.04672v1 )

ライセンス: Link先を確認
Ziheng Wu, Jiaqi Xu, Xinyi Zou, Kunzhe Huang, Xing Shi, Jun Huang(参考訳) 安定拡散Web UI(SD-WebUI)は、安定拡散モデルのためのGradioライブラリに基づいたブラウザインターフェースを提供する包括的なプロジェクトである。 本稿では,AIポートレートの生成を可能にするEasyPhotoという新しいWebUIプラグインを提案する。 5から20の関連画像を使用して特定のユーザーIDのデジタルドッペルガンガーをトレーニングすることにより、微調整されたモデル(LoRAモデルによる)は任意のテンプレートを使用してAI写真を生成することができる。 今回の実装では,複数の人物の修正と異なる写真スタイルをサポートする。 さらに,強力なsdxlモデルによるテンプレート画像の生成を可能にし,より多様で満足のいく結果を提供するためのeasyphotoの能力を強化した。 EasyPhotoのソースコードは、https://github.com/aigc-apps/sd-webui-EasyPhotoで入手できる。 また、diffusersを使ってwebuiフリーバージョンもサポートしています。 easyphotoのパイプラインを拡大する努力を継続的に強化し、(顔だけに限らず)あらゆる識別に適しており、興味深いアイデアや提案を熱心に歓迎しています。

Stable Diffusion web UI (SD-WebUI) is a comprehensive project that provides a browser interface based on Gradio library for Stable Diffusion models. In this paper, We propose a novel WebUI plugin called EasyPhoto, which enables the generation of AI portraits. By training a digital doppelganger of a specific user ID using 5 to 20 relevant images, the finetuned model (according to the trained LoRA model) allows for the generation of AI photos using arbitrary templates. Our current implementation supports the modification of multiple persons and different photo styles. Furthermore, we allow users to generate fantastic template image with the strong SDXL model, enhancing EasyPhoto's capabilities to deliver more diverse and satisfactory results. The source code for EasyPhoto is available at: https://github.com/aigc-apps/sd-webui-EasyPhoto. We also support a webui-free version by using diffusers: https://github.com/aigc-apps/EasyPhoto. We are continuously enhancing our efforts to expand the EasyPhoto pipeline, making it suitable for any identification (not limited to just the face), and we enthusiastically welcome any intriguing ideas or suggestions.
翻訳日:2023-10-12 16:47:09 公開日:2023-10-07
# マイクロサービスシステムのための注意型マルチモーダル学習による双対グラフに基づく異常検出

Twin Graph-based Anomaly Detection via Attentive Multi-Modal Learning for Microservice System ( http://arxiv.org/abs/2310.04701v1 )

ライセンス: Link先を確認
Jun Huang, Yang Yang, Hang Yu, Jianguo Li, Xiao Zheng(参考訳) マイクロサービスアーキテクチャは、独立してサービスをデプロイし、スケールできるため、近年、エンタープライズアプリケーションを管理するために発展してきた。 そのメリットにもかかわらず、マイクロサービスシステムの信頼性と安全性の確保は非常に困難である。 単一のデータモダリティ(すなわちメトリクス、ログ、トレース)に基づく既存の異常検出アルゴリズムは、異なるモダリティ間の複雑な相関と相互作用を完全に説明できず、偽陰性と偽アラームにつながるが、より多くのデータモダリティを組み込むことは、さらなるパフォーマンス向上の機会を提供する。 新たな試みとして,注意型マルチモーダル学習を通じて利用可能なすべてのデータモダリティをシームレスに統合する半教師付きグラフベース異常検出手法 MSTGAD を提案する。 まず、各ノードがサービスインスタンスを表現し、エッジが異なるサービスインスタンス間のスケジューリング関係を示すMST(microservice system twin)グラフを用いて、これらの特徴を抽出し、正規化する。 MSTグラフは、現実世界のマイクロサービスシステムのサービスインスタンス間のステータスとスケジューリングの関係の仮想表現を提供する。 第2に,空間的および時間的注意機構を備えたトランスフォーマーベースニューラルネットワークを構築し,データポイント間の時間的依存と異なるモーダル間の相関をモデル化する。 これにより、リアルタイムで自動的かつ正確に異常を検出することができる。 MSTGADのソースコードはhttps://github.com/alipay/microservice_system_twin_graph_based_anomaly_detectionで公開されている。

Microservice architecture has sprung up over recent years for managing enterprise applications, due to its ability to independently deploy and scale services. Despite its benefits, ensuring the reliability and safety of a microservice system remains highly challenging. Existing anomaly detection algorithms based on a single data modality (i.e., metrics, logs, or traces) fail to fully account for the complex correlations and interactions between different modalities, leading to false negatives and false alarms, whereas incorporating more data modalities can offer opportunities for further performance gain. As a fresh attempt, we propose in this paper a semi-supervised graph-based anomaly detection method, MSTGAD, which seamlessly integrates all available data modalities via attentive multi-modal learning. First, we extract and normalize features from the three modalities, and further integrate them using a graph, namely MST (microservice system twin) graph, where each node represents a service instance and the edge indicates the scheduling relationship between different service instances. The MST graph provides a virtual representation of the status and scheduling relationships among service instances of a real-world microservice system. Second, we construct a transformer-based neural network with both spatial and temporal attention mechanisms to model the inter-correlations between different modalities and temporal dependencies between the data points. This enables us to detect anomalies automatically and accurately in real-time. The source code of MSTGAD is publicly available at https://github.com/alipay/microservice_system_twin_graph_based_anomaly_detection.
翻訳日:2023-10-12 16:39:28 公開日:2023-10-07
# EMO: 自動回帰言語モデリングのためのアースモーバー距離最適化

EMO: Earth Mover Distance Optimization for Auto-Regressive Language Modeling ( http://arxiv.org/abs/2310.04691v1 )

ライセンス: Link先を確認
Siyu Ren, Zhiyong Wu, Kenny Q. Zhu(参考訳) ニューラル言語モデルは人間のテキストの確率モデルである。 それらは主に、経験的データ分布とモデル分布の間の前方のクロスエントロピーを最小化するmle(maximum likelihood estimation)を使用して訓練される。 しかし、これらのモデルで学習した分布から復号する際には、様々な退化現象が広く見られる。 その結果,(1)リコール優先性(2)負の多様性無知,(3)列車試験ミスマッチによる人間とモデル分布の整合のための距離指標として,前方方向のクロスエントロピーが準最適であることが判明した。 本稿では,自動回帰言語モデリングのための地球間距離最適化(EMO)を提案する。 EMOは、前述の課題に対処するために、地球移動器距離の本質的な性質を生かしている。 直接計算の複雑さが高いため、emoのエンドツーエンドトレーニングを容易にするために、さらに実現可能な上限を導入する。 EMOとMLEを用いて訓練した言語モデルの広範囲な評価を行う。 EMOはドメイン間のMLEよりも一貫して優れた言語モデリング性能を示す。 さらに、EMOは、わずか25,000の文で最小限の微調整を施して、下流のパフォーマンスを向上する。 これは、大規模な事前学習された言語モデルを強化するための軽量キャリブレーション方法としてのemoの膨大な可能性を強調している。

Neural language models are probabilistic models of human text. They are predominantly trained using maximum likelihood estimation (MLE), which is equivalent to minimizing the forward cross-entropy between the empirical data distribution and the model distribution. However, various degeneration phenomena are still widely observed when decoding from the distributions learned by such models. We establish that the forward cross-entropy is suboptimal as a distance metric for aligning human and model distribution due to its (1) recall-prioritization (2) negative diversity ignorance and (3) train-test mismatch. In this paper, we propose Earth Mover Distance Optimization (EMO) for auto-regressive language modeling. EMO capitalizes on the inherent properties of earth mover distance to address the aforementioned challenges. Due to the high complexity of direct computation, we further introduce a feasible upper bound for EMO to ease end-to-end training. Upon extensive evaluation of language models trained using EMO and MLE. We find that EMO demonstrates a consistently better language modeling performance than MLE across domains. Moreover, EMO demonstrates noteworthy enhancements in downstream performance with minimal fine-tuning on merely 25,000 sentences. This highlights the tremendous potential of EMO as a lightweight calibration method for enhancing large-scale pre-trained language models.
翻訳日:2023-10-12 16:38:40 公開日:2023-10-07
# SeeDS: ゼロショット食品検出のためのセマンティック分離拡散合成装置

SeeDS: Semantic Separable Diffusion Synthesizer for Zero-shot Food Detection ( http://arxiv.org/abs/2310.04689v1 )

ライセンス: Link先を確認
Pengfei Zhou, Weiqing Min, Yang Zhang, Jiajun Song, Ying Jin and Shuqiang Jiang(参考訳) 食品検出は、食品レコメンデーションや食事監視など、さまざまなマルチメディアアプリケーションをサポートする、食品コンピューティングの基本的なタスクになりつつある。 実世界のシナリオに対処するためには、ZSD(Zero-Shot Detection)と呼ばれる、トレーニング中に見えない新しい食品オブジェクトをローカライズし、認識する必要がある。 しかし、セマンティック属性とクラス内の特徴多様性の複雑さは、粒度の細かい食品の分類においてZSD法に課題をもたらす。 そこで本研究では,ゼロショット食品検出(ZSFD)のためのセマンティック分離拡散合成(SeeDS)フレームワークを提案する。 Semantic Separable Synthesizing Module (S$^3$M) と Region Feature Denoising Diffusion Model (RFDDM) の2つのモジュールで構成されている。 s$^3$mは、具材や料理から複雑な食品属性の区別された意味表現を学習し、拡張された意味情報を用いて判別的な食品特徴を合成する。 rfddmは新しい拡散モデルを用いて多様化した領域特性を生成し、細粒度合成によりzsfdを強化している。 広汎な実験により,提案手法の2つの食品データセット(ZSFooDとUECFOOD-256)上での最先端のZSFD性能を示す。 さらに、SeeDSは一般的なZSDデータセット、PASCAL VOC、MS COCOでも有効性を維持する。 コードとデータセットはhttps://github.com/LanceZPF/SeeDSにある。

Food detection is becoming a fundamental task in food computing that supports various multimedia applications, including food recommendation and dietary monitoring. To deal with real-world scenarios, food detection needs to localize and recognize novel food objects that are not seen during training, demanding Zero-Shot Detection (ZSD). However, the complexity of semantic attributes and intra-class feature diversity poses challenges for ZSD methods in distinguishing fine-grained food classes. To tackle this, we propose the Semantic Separable Diffusion Synthesizer (SeeDS) framework for Zero-Shot Food Detection (ZSFD). SeeDS consists of two modules: a Semantic Separable Synthesizing Module (S$^3$M) and a Region Feature Denoising Diffusion Model (RFDDM). The S$^3$M learns the disentangled semantic representation for complex food attributes from ingredients and cuisines, and synthesizes discriminative food features via enhanced semantic information. The RFDDM utilizes a novel diffusion model to generate diversified region features and enhances ZSFD via fine-grained synthesized features. Extensive experiments show the state-of-the-art ZSFD performance of our proposed method on two food datasets, ZSFooD and UECFOOD-256. Moreover, SeeDS also maintains effectiveness on general ZSD datasets, PASCAL VOC and MS COCO. The code and dataset can be found at https://github.com/LanceZPF/SeeDS.
翻訳日:2023-10-12 16:38:20 公開日:2023-10-07
# 数発視覚異常分類のためのpatchprotoネットワーク

PatchProto Networks for Few-shot Visual Anomaly Classification ( http://arxiv.org/abs/2310.04688v1 )

ライセンス: Link先を確認
Jian Wang and Yue Zhuo(参考訳) 視覚異常診断は、産業品質検査に広く応用されている欠陥製品を自動的に分析することができる。 異常分類は欠陥積を異なるカテゴリに分類することができる。 しかし、異常なサンプルは実際にはアクセスが困難であり、これは標準の機械学習モデルのトレーニングを妨げる。 本稿では,訓練用サンプルの異常が極めて少ないこと,すなわち少数ショット学習(FSL)について検討する。 十分な正規サンプルを用いて,数発の異常分類のためのPatchProtoネットワークを提案する。 古典的なFSL法とは異なり、PatchProtoネットワークは関心の欠陥のある領域のCNN特徴のみを抽出し、これは数ショット学習のプロトタイプとして機能する。 基本的なショット分類器と比較して、MVTec-ADデータセットの実験結果は、PatchProtoネットワークが数ショットの異常分類精度を大幅に改善したことを示している。

The visual anomaly diagnosis can automatically analyze the defective products, which has been widely applied in industrial quality inspection. The anomaly classification can classify the defective products into different categories. However, the anomaly samples are hard to access in practice, which impedes the training of canonical machine learning models. This paper studies a practical issue that anomaly samples for training are extremely scarce, i.e., few-shot learning (FSL). Utilizing the sufficient normal samples, we propose PatchProto networks for few-shot anomaly classification. Different from classical FSL methods, PatchProto networks only extract CNN features of defective regions of interest, which serves as the prototypes for few-shot learning. Compared with basic few-shot classifier, the experiment results on MVTec-AD dataset show PatchProto networks significantly improve the few-shot anomaly classification accuracy.
翻訳日:2023-10-12 16:37:54 公開日:2023-10-07
# 潜伏拡散モデルによる敵攻撃の理解と改善

Understanding and Improving Adversarial Attacks on Latent Diffusion Model ( http://arxiv.org/abs/2310.04687v1 )

ライセンス: Link先を確認
Boyang Zheng, Chumeng Liang, Xiaoyu Wu, Yan Liu(参考訳) Latent Diffusion Model (LDM) は画像生成の先駆的なツールとして登場し、特に数ショット生成の能力がある。 この能力は、特に未承認のアートワークの複製と誤情報生成のリスクも提示する。 これに対し、個人画像が参照データとして使用されるのを防ぐために敵攻撃が設計された。 しかし、既存の敵対的攻撃は主に経験的であり、確かな理論的基礎を欠いている。 本稿では, LDMに対する敵対的攻撃を理解するための包括的理論的枠組みを提案する。 本フレームワークをベースとして,LDMの前方と後方の両方で敵攻撃を誘導するために,統一目標を利用した新たな敵攻撃を提案する。 提案手法は,既存手法における敵攻撃の最適化のオフセット問題を克服する実証的証拠を提供する。 厳密な実験により,本手法は現在の攻撃よりも優れており,LDMに基づく様々な最新数ショット生成パイプラインを一般化可能であることが示された。 我々の手法は、データプライバシとセキュリティのリスクに晒され、強力な生成モデルの新時代に身を守るための、より強力で効率的なツールとして機能する。 コードはGitHubで入手できる。 https://github.com/CaradryanLiang/ImprovedAdvDM.git。

Latent Diffusion Model (LDM) has emerged as a leading tool in image generation, particularly with its capability in few-shot generation. This capability also presents risks, notably in unauthorized artwork replication and misinformation generation. In response, adversarial attacks have been designed to safeguard personal images from being used as reference data. However, existing adversarial attacks are predominantly empirical, lacking a solid theoretical foundation. In this paper, we introduce a comprehensive theoretical framework for understanding adversarial attacks on LDM. Based on the framework, we propose a novel adversarial attack that exploits a unified target to guide the adversarial attack both in the forward and the reverse process of LDM. We provide empirical evidences that our method overcomes the offset problem of the optimization of adversarial attacks in existing methods. Through rigorous experiments, our findings demonstrate that our method outperforms current attacks and is able to generalize over different state-of-the-art few-shot generation pipelines based on LDM. Our method can serve as a stronger and efficient tool for people exposed to the risk of data privacy and security to protect themselves in the new era of powerful generative models. The code is available on GitHub: https://github.com/CaradryanLiang/ImprovedAdvDM.git.
翻訳日:2023-10-12 16:37:40 公開日:2023-10-07
# 教師付き転校学習におけるタイトレート

Tight Rates in Supervised Outlier Transfer Learning ( http://arxiv.org/abs/2310.04686v1 )

ライセンス: Link先を確認
Mohammadreza M. Kalan, Samory Kpotufe(参考訳) 外れ値検出の正確な決定ルールを学ぶ上で重要な障壁は、外れ値データの不足である。 このように、実践者は、しばしば、ターゲットの外れ値検出タスクに情報を転送する、類似しているが不完全な外れ値データを使用することに目を向ける。 アウトリアー検出におけるトランスファー学習アプローチの最近の実証的成功にもかかわらず、いつ、どのように知識をソースからターゲットアウトリアー検出タスクに移すことができるかについての基本的な理解はいまだに不明である。 本研究では,教師付き異常検出を形式化する neyman-pearson 分類の従来の枠組みを採用し,関連するが不完全な異常データへのアクセスを仮定した。 我々はまず、従来のバランスの取れた分類から既存の概念を拡張した不一致の尺度で問題の情報理論的限界を判断する;興味深いことに、バランスの取れた分類とは異なり、非常に異種なソースがターゲットに関する情報を多く提供し、高速な転送をもたらす。 次に,これらの情報理論上の限界を適応的手続き,すなわち,ソースとターゲットの異常分布の差に関する事前情報を持たない手続きによって達成できることを原理的に示す。

A critical barrier to learning an accurate decision rule for outlier detection is the scarcity of outlier data. As such, practitioners often turn to the use of similar but imperfect outlier data from which they might transfer information to the target outlier detection task. Despite the recent empirical success of transfer learning approaches in outlier detection, a fundamental understanding of when and how knowledge can be transferred from a source to a target outlier detection task remains elusive. In this work, we adopt the traditional framework of Neyman-Pearson classification -- which formalizes supervised outlier detection -- with the added assumption that one has access to some related but imperfect outlier data. Our main results are as follows: We first determine the information-theoretic limits of the problem under a measure of discrepancy that extends some existing notions from traditional balanced classification; interestingly, unlike in balanced classification, seemingly very dissimilar sources can provide much information about a target, thus resulting in fast transfer. We then show that, in principle, these information-theoretic limits are achievable by adaptive procedures, i.e., procedures with no a priori information on the discrepancy between source and target outlier distributions.
翻訳日:2023-10-12 16:37:21 公開日:2023-10-07
# ml応用のためのニューラルネットワークの自動的かつ効率的なカスタマイズ

Automatic and Efficient Customization of Neural Networks for ML Applications ( http://arxiv.org/abs/2310.04685v1 )

ライセンス: Link先を確認
Yuhan Liu, Chengcheng Wan, Kuntai Du, Henry Hoffmann, Junchen Jiang, Shan Lu, Michael Maire(参考訳) イメージ内のオブジェクトの分類は、APIを呼び出すためのPythonコードの1行と同じくらい簡単になった。 しかし、これらのAPIは、出力がどのように異なるアプリケーションで使われているかに関わらず、同じ事前訓練されたモデルを提供する。 これは、すべてのML推論エラーがアプリケーション障害を引き起こすわけではないため、サブ最適であり、アプリケーション間でエラーを発生または発生できない推論エラーの区別が大きく異なるためである。 この問題に対処するために、我々はまず、2つのプロバイダから6つのML APIをまとめて使用する77の現実世界のアプリケーションを調査し、ML APIの出力がアプリケーションの意思決定プロセスにどのように影響するかの共通パターンを明らかにする。 この知見に触発されて、アプリケーションソースコードを変更することなく有効となるml apiの最適化フレームワークであるchameleonapiを提案する。 chameleonapiはアプリケーション開発者に対して,アプリケーションを自動的に解析して決定プロセスの抽象化を生成するパーサを提供する。 chameleonapiはloss関数を使用して、各アプリケーション用にカスタマイズされたニューラルネットワークモデルを効率的にトレーニングし、既存のインターフェースを介して各アプリケーションからのapi呼び出しにデプロイする。 最高の商用ML APIを選択するベースラインと比較して、ChameleonAPIは間違ったアプリケーション決定を43%削減することを示す。

ML APIs have greatly relieved application developers of the burden to design and train their own neural network models -- classifying objects in an image can now be as simple as one line of Python code to call an API. However, these APIs offer the same pre-trained models regardless of how their output is used by different applications. This can be suboptimal as not all ML inference errors can cause application failures, and the distinction between inference errors that can or cannot cause failures varies greatly across applications. To tackle this problem, we first study 77 real-world applications, which collectively use six ML APIs from two providers, to reveal common patterns of how ML API output affects applications' decision processes. Inspired by the findings, we propose ChameleonAPI, an optimization framework for ML APIs, which takes effect without changing the application source code. ChameleonAPI provides application developers with a parser that automatically analyzes the application to produce an abstract of its decision process, which is then used to devise an application-specific loss function that only penalizes API output errors critical to the application. ChameleonAPI uses the loss function to efficiently train a neural network model customized for each application and deploys it to serve API invocations from the respective application via existing interface. Compared to a baseline that selects the best-of-all commercial ML API, we show that ChameleonAPI reduces incorrect application decisions by 43%.
翻訳日:2023-10-12 16:37:00 公開日:2023-10-07
# VoiceExtender: 誘導拡散モデルを用いた短音声テキスト非依存話者検証

VoiceExtender: Short-utterance Text-independent Speaker Verification with Guided Diffusion Model ( http://arxiv.org/abs/2310.04681v1 )

ライセンス: Link先を確認
Yayun He, Zuheng Kang, Jianzong Wang, Junqing Peng, Jing Xiao(参考訳) 話者検証(SV)性能は発話が短くなるにつれて低下する。 そこで本研究では,短時間音声信号の処理におけるsv性能向上のための有望なソリューションであるvoiceextenderを提案する。 本稿では,2つの拡散モデル,組込みと外部話者埋め込み(SE)誘導拡散モデルを用いて,SE誘導を利用した拡散モデルに基づくサンプルジェネレータを用いて,短い発話に基づく音声特徴の増強を行う。 VoxCeleb1データセットの大規模な実験結果から,本手法は, それぞれ0.5, 1.0, 1.5, 2.0秒の短い発話条件に対して, 46.1%, 35.7%, 10.4%, 5.7%の誤差率(EER)を相対的に改善した。

Speaker verification (SV) performance deteriorates as utterances become shorter. To this end, we propose a new architecture called VoiceExtender which provides a promising solution for improving SV performance when handling short-duration speech signals. We use two guided diffusion models, the built-in and the external speaker embedding (SE) guided diffusion model, both of which utilize a diffusion model-based sample generator that leverages SE guidance to augment the speech features based on a short utterance. Extensive experimental results on the VoxCeleb1 dataset show that our method outperforms the baseline, with relative improvements in equal error rate (EER) of 46.1%, 35.7%, 10.4%, and 5.7% for the short utterance conditions of 0.5, 1.0, 1.5, and 2.0 seconds, respectively.
翻訳日:2023-10-12 16:36:37 公開日:2023-10-07
# ダウンスケール言語モデルのコスト:文脈学習前におけるFact Recall Deteriorates

The Cost of Down-Scaling Language Models: Fact Recall Deteriorates before In-Context Learning ( http://arxiv.org/abs/2310.04680v1 )

ライセンス: Link先を確認
Tian Jin, Nolan Clement, Xin Dong, Vaishnavh Nagarajan, Michael Carbin, Jonathan Ragan-Kelley, Gintare Karolina Dziugaite(参考訳) 大規模言語モデル(LLM)のパラメータのスケーリングは、コア機能にどのように影響しますか? 我々は,2つの自然なスケーリング手法 - 重みの刈り込みと,より小さな,あるいは大きなモデルを単にトレーニングする - と,llmの2つのコア機能への影響について検討した。 (a)予習中に提示された事実を想起すること (b)推論中にコンテキスト内で提示される情報を処理する。 これら2つの機能を切り離すのに役立つ一連のタスクをキュレートすることで、スケーリングによってこれらの2つの能力がどのように進化するかに大きな違いが見つかります。 モデルサイズを30\%以上削減する(スケーリングアプローチか)と、事前トレーニングで見られる事実をリコールする能力が大幅に低下する。 しかし、60-70\%の削減は、長いコンテキストからの回答の検索から、コンテキスト内の例からパラメータ化された関数の学習まで、モデルがコンテキスト内情報を処理できる様々な方法を大きく維持する。 密度の高いスケーリングとウェイトプルーニングの両方がこの挙動を示すという事実は、スケーリングモデルのサイズが、事実のリコールと文脈内学習に本質的に異なる影響を持っていることを示唆している。

How does scaling the number of parameters in large language models (LLMs) affect their core capabilities? We study two natural scaling techniques -- weight pruning and simply training a smaller or larger model, which we refer to as dense scaling -- and their effects on two core capabilities of LLMs: (a) recalling facts presented during pre-training and (b) processing information presented in-context during inference. By curating a suite of tasks that help disentangle these two capabilities, we find a striking difference in how these two abilities evolve due to scaling. Reducing the model size by more than 30\% (via either scaling approach) significantly decreases the ability to recall facts seen in pre-training. Yet, a 60--70\% reduction largely preserves the various ways the model can process in-context information, ranging from retrieving answers from a long context to learning parameterized functions from in-context exemplars. The fact that both dense scaling and weight pruning exhibit this behavior suggests that scaling model size has an inherently disparate effect on fact recall and in-context learning.
翻訳日:2023-10-12 16:36:20 公開日:2023-10-07
# 拡張アンサンブルネットワークを用いたマルチスケールMRI再構成

Multi-scale MRI reconstruction via dilated ensemble networks ( http://arxiv.org/abs/2310.04705v1 )

ライセンス: Link先を確認
Wendi Ma, Marlon Bran Lorenzana, Wei Dai, Hongfu Sun, Shekhar S. Chandra(参考訳) アーティファクトのエイリアス化は非常に構造的で非局所的であるため、多くのMRI再構成ネットワークはプールを用いてフィルタカバレッジを拡大し、グローバルコンテキストを取り入れている。 しかし、ダウンサンプリングが解決ボトルネックを生じさせるため、このことは必然的に詳細回復を妨げる。 さらに、現実的特徴と想像的特徴は、一般に別々のチャネルに分割され、特に高周波テクスチャに重要な位相情報を破棄する。 本研究では,拡張畳み込みを用いた効率的なマルチスケール再構成ネットワークを導入し,複雑な畳み込みを用いた複素数値バージョンを試作する。 並列拡張フィルタにインスパイアされた複数の受容場は、大きな構造的アーティファクトときめ細かい局所的特徴の両方を見る分岐とともに同時に処理される。 また,機能集約に高密度な残差接続を導入し,効率よくスケールを拡大し,大域的アーキテクチャを高度化してオーバーフィッティングを低減する。 このモデルの実数値バージョンは、一般的なレコンストラクションアーキテクチャや最先端のマルチスケールネットワークを3倍効率良く上回っている。 複雑な値のネットワークは、より多くの位相情報が存在する場合により質的な結果をもたらす。

As aliasing artefacts are highly structural and non-local, many MRI reconstruction networks use pooling to enlarge filter coverage and incorporate global context. However, this inadvertently impedes fine detail recovery as downsampling creates a resolution bottleneck. Moreover, real and imaginary features are commonly split into separate channels, discarding phase information particularly important to high frequency textures. In this work, we introduce an efficient multi-scale reconstruction network using dilated convolutions to preserve resolution and experiment with a complex-valued version using complex convolutions. Inspired by parallel dilated filters, multiple receptive fields are processed simultaneously with branches that see both large structural artefacts and fine local features. We also adopt dense residual connections for feature aggregation to efficiently increase scale and the deep cascade global architecture to reduce overfitting. The real-valued version of this model outperformed common reconstruction architectures as well as a state-of-the-art multi-scale network whilst being three times more efficient. The complex-valued network yielded better qualitative results when more phase information was present.
翻訳日:2023-10-12 16:29:18 公開日:2023-10-07
# EdgeFD:IoT用エッジフレンドリーなドリフト対応故障診断システム

EdgeFD: An Edge-Friendly Drift-Aware Fault Diagnosis System for Industrial IoT ( http://arxiv.org/abs/2310.04704v1 )

ライセンス: Link先を確認
Chen Jiao, Mao Fengjian, Lv Zuohong, Tang Jianhua(参考訳) 近年の産業知的障害診断(FD)における伝達学習(TL)アプローチは, 様々な作業条件から生じるデータドリフトに対処するため, 主に「事前訓練および微調整」パラダイムに従っている。 しかし、この手法は破滅的忘れという現象が原因であることが判明した。 さらに、既存のモデルで示される優れた転送性を考えると、リソース制約されたエッジノードの微調整を頻繁に行うことは計算的に高価で不要である。 本研究では,産業用IoT(Industrial Internet of Things, IIoT)における頻繁なデータドリフトによる課題を軽減するため,エッジデプロイメントに最適化されたDAWC(Drift-Aware Weight Consolidation)を提案する。 DAWCは複数のデータドリフトシナリオを効率的に管理し、エッジデバイス上での一定のモデル微調整の必要性を最小限に抑える。 確率モデルにおけるパラメータ感度を測定するFisher Information Matrixを用いて,分類器の信頼性を用いてドリフトを検出することで,ドリフト検出モジュールと連続学習モジュールを導入し,FDモデルを強力な一般化能力で徐々に装備する。 実験により,提案するDAWCは,エッジコンピューティング制約との整合性を確保しつつ,既存の手法に比べて優れた性能を実現することが示された。 さらに,包括的診断・可視化プラットフォームを開発した。

Recent transfer learning (TL) approaches in industrial intelligent fault diagnosis (FD) mostly follow the "pre-train and fine-tuning" paradigm to address data drift, which emerges from variable working conditions. However, we find that this approach is prone to the phenomenon known as catastrophic forgetting. Furthermore, performing frequent models fine-tuning on the resource-constrained edge nodes can be computationally expensive and unnecessary, given the excellent transferability demonstrated by existing models. In this work, we propose the Drift-Aware Weight Consolidation (DAWC), a method optimized for edge deployments, mitigating the challenges posed by frequent data drift in the industrial Internet of Things (IIoT). DAWC efficiently manages multiple data drift scenarios, minimizing the need for constant model fine-tuning on edge devices, thereby conserving computational resources. By detecting drift using classifier confidence and estimating parameter importance with the Fisher Information Matrix, a tool that measures parameter sensitivity in probabilistic models, we introduce a drift detection module and a continual learning module to gradually equip the FD model with powerful generalization capabilities. Experimental results demonstrate that our proposed DAWC achieves superior performance compared to existing techniques while also ensuring compatibility with edge computing constraints. Additionally, we have developed a comprehensive diagnosis and visualization platform.
翻訳日:2023-10-12 16:28:59 公開日:2023-10-07
# 効果的なドメイン適応のためのマルチタスク変換モデルへのコントラスト学習の統合

Integrating Contrastive Learning into a Multitask Transformer Model for Effective Domain Adaptation ( http://arxiv.org/abs/2310.04703v1 )

ライセンス: Link先を確認
Chung-Soo Ahn, Jagath C. Rajapakse and Rajib Rana(参考訳) 音声感情認識(SER)研究は大きな進歩を遂げてきたが、様々なコーパスにまたがる一般化が問題となっている。 本稿では,serを主タスクとするマルチタスクフレームワークと,大規模言語モデルで事前学習されたトランスフォーマの微調整に基づく補助タスクとしてのコントラスト学習と情報最大化損失を具体化する,新しいドメイン適応手法を提案する。 IEMOCAP や MSP-IMPROV のような確立されたデータセットの実験により得られた実験結果から,提案モデルが企業間シナリオにおけるSERの最先端性能を達成することを示す。

While speech emotion recognition (SER) research has made significant progress, achieving generalization across various corpora continues to pose a problem. We propose a novel domain adaptation technique that embodies a multitask framework with SER as the primary task, and contrastive learning and information maximisation loss as auxiliary tasks, underpinned by fine-tuning of transformers pre-trained on large language models. Empirical results obtained through experiments on well-established datasets like IEMOCAP and MSP-IMPROV, illustrate that our proposed model achieves state-of-the-art performance in SER within cross-corpus scenarios.
翻訳日:2023-10-12 16:28:33 公開日:2023-10-07
# Tree-GPT:森林リモートセンシング画像理解と対話解析のためのモジュール型大規模言語モデルエキスパートシステム

Tree-GPT: Modular Large Language Model Expert System for Forest Remote Sensing Image Understanding and Interactive Analysis ( http://arxiv.org/abs/2310.04698v1 )

ライセンス: Link先を確認
Siqi Du, Shengjun Tang, Weixi Wang, Xiaoming Li, Renzhong Guo(参考訳) 本稿では,大規模言語モデル(LLM)を森林リモートセンシングデータワークフローに組み込んだ新しいフレームワークであるTree-GPTを紹介する。 現在、LLMは画像から情報を取り出したり理解したりすることができず、ドメイン知識の不足により不正確なテキストを生成し、林業データ分析における使用を制限することができる。 この問題に対処するために,画像理解モジュール,ドメイン知識ベース,ツールチェーンを統合したモジュール型LLMエキスパートシステムであるTree-GPTを提案する。 これにより、LLMは画像を理解し、正確な知識を取得し、コードを生成し、ローカル環境でデータ分析を行うことができる。 具体的には、画像理解モジュールは、自動またはインタラクティブなプロンプト生成を利用して森林リモートセンシング画像から構造化情報を抽出し、最適な木分割結果の生成と選択を行う。 システムはこれらの結果に基づいて木構造パラメータを計算し、データベースに格納する。 特定の自然言語命令を受信すると、LLMは思考連鎖に基づいてコードを生成し、解析タスクを達成する。 その後、ローカル環境でLLMエージェントによってコードが実行される。 生態パラメータ計算において、システムは知識ベースから対応する知識を検索し、LSMに入力し、正確なコードの生成を誘導する。 このシステムを検索,可視化,機械学習分析など,いくつかのタスクでテストした。 プロトタイプシステムは、森林研究や環境科学におけるLLMの動的利用の可能性を示した。

This paper introduces a novel framework, Tree-GPT, which incorporates Large Language Models (LLMs) into the forestry remote sensing data workflow, thereby enhancing the efficiency of data analysis. Currently, LLMs are unable to extract or comprehend information from images and may generate inaccurate text due to a lack of domain knowledge, limiting their use in forestry data analysis. To address this issue, we propose a modular LLM expert system, Tree-GPT, that integrates image understanding modules, domain knowledge bases, and toolchains. This empowers LLMs with the ability to comprehend images, acquire accurate knowledge, generate code, and perform data analysis in a local environment. Specifically, the image understanding module extracts structured information from forest remote sensing images by utilizing automatic or interactive generation of prompts to guide the Segment Anything Model (SAM) in generating and selecting optimal tree segmentation results. The system then calculates tree structural parameters based on these results and stores them in a database. Upon receiving a specific natural language instruction, the LLM generates code based on a thought chain to accomplish the analysis task. The code is then executed by an LLM agent in a local environment and . For ecological parameter calculations, the system retrieves the corresponding knowledge from the knowledge base and inputs it into the LLM to guide the generation of accurate code. We tested this system on several tasks, including Search, Visualization, and Machine Learning Analysis. The prototype system performed well, demonstrating the potential for dynamic usage of LLMs in forestry research and environmental sciences.
翻訳日:2023-10-12 16:28:20 公開日:2023-10-07
# ピアノの音質の総合的評価

A Holistic Evaluation of Piano Sound Quality ( http://arxiv.org/abs/2310.04722v1 )

ライセンス: Link先を確認
Monan Zhou, Shangda Wu, Shaohua Ji, Zijin Li, Wei Li(参考訳) 本稿では,ピアノ音質の総合評価手法を開発し,意思決定を支援することを目的とする。 ピアノ演奏技術が音質に与える影響に着目した先行研究とは異なり,本研究は異なるピアノの固有の音質を評価する。 品質評価システムを導出するために,ピアノ音質データセットに基づく主観的アンケートを用いた。 畳み込みニューラルネットワーク(CNN)の様々な事前学習モデルの微調整結果を比較し,最適なピアノ分類モデルを選択する。 モデルの解釈可能性を改善するために,同値矩形帯域幅(ERB)解析を適用した。 その結果、音楽訓練を受けた個人は、異なるピアノの音質の違いを区別できることがわかった。 最高の微調整されたCNNトレーニングバックボーンは、ピアノ分類器として98.3\%の精度を達成する。 しかし、データセットは限られており、音声をスライスして量を増やし、結果として多様性とバランスが欠如するため、データ不均衡の影響を減らすために焦点損失を使う。 この手法を最適化するために、データセットを拡張したり、数発の学習技術を使って将来の研究を行う。

This paper aims to develop a holistic evaluation method for piano sound quality to assist in purchasing decisions. Unlike previous studies that focused on the effect of piano performance techniques on sound quality, this study evaluates the inherent sound quality of different pianos. To derive quality evaluation systems, the study uses subjective questionnaires based on a piano sound quality dataset. The method selects the optimal piano classification models by comparing the fine-tuning results of different pre-training models of Convolutional Neural Networks (CNN). To improve the interpretability of the models, the study applies Equivalent Rectangular Bandwidth (ERB) analysis. The results reveal that musically trained individuals are better able to distinguish between the sound quality differences of different pianos. The best fine-tuned CNN pre-trained backbone achieves a high accuracy of 98.3\% as the piano classifier. However, the dataset is limited, and the audio is sliced to increase its quantity, resulting in a lack of diversity and balance, so we use focal loss to reduce the impact of data imbalance. To optimize the method, the dataset will be expanded, or few-shot learning techniques will be employed in future research.
翻訳日:2023-10-12 16:20:02 公開日:2023-10-07
# 超高解像度uav画像のためのメモリ制約付きセマンティックセグメンテーション

Memory-Constrained Semantic Segmentation for Ultra-High Resolution UAV Imagery ( http://arxiv.org/abs/2310.04721v1 )

ライセンス: Link先を確認
Qi Li, Jiaxin Cai, Yuanlong Yu, Jason Gu, Jia Pan, Wenxi Liu(参考訳) 写真やセンサー技術の急速な進歩の中で、高精細度カメラは様々な運用目的のために無人航空機(UAV)の配備において一般的になっている。 UAV画像分析の領域内では、超高解像度画像のセグメンテーションは、特にGPUメモリ制限された計算装置によって課される制約に対処する際に、相当かつ複雑な課題として現れる。 本稿では,超高解像度UAV画像の高効率・高効率セグメンテーションを実現するための複雑な問題について検討する。 既存のアプローチの戦略は、画像をダウンスケールして計算効率の良いセグメンテーションを実現することである。 しかし、この戦略はより小さく、薄く、曲線的な領域を見渡す傾向にある。 この問題に対処するために、ローカルパッチ以外のコンテキストにアクセスすることなく、ローカル推論のためのGPUメモリ効率が高く効果的なフレームワークを提案する。 特に,高分解能情報の指導により最寄りの潜在埋め込みを問合せするだけで,高品質で画素単位のセグメンテーション結果を予測する新しい空間誘導型高分解能問合せモジュールを提案する。 さらに,高分解能情報の潜在的な意味バイアスを,画像間の文脈的意味論を関連付けることで補正する,効率的なメモリベースインタラクションスキームを提案する。 提案手法の評価には,ベンチマークによる総合的な実験を行い,GPUメモリの使用制限の小さい条件と大きな条件の両方で優れた性能を実現する。 将来、モデルとコードをリリースします。

Amidst the swift advancements in photography and sensor technologies, high-definition cameras have become commonplace in the deployment of Unmanned Aerial Vehicles (UAVs) for diverse operational purposes. Within the domain of UAV imagery analysis, the segmentation of ultra-high resolution images emerges as a substantial and intricate challenge, especially when grappling with the constraints imposed by GPU memory-restricted computational devices. This paper delves into the intricate problem of achieving efficient and effective segmentation of ultra-high resolution UAV imagery, while operating under stringent GPU memory limitation. The strategy of existing approaches is to downscale the images to achieve computationally efficient segmentation. However, this strategy tends to overlook smaller, thinner, and curvilinear regions. To address this problem, we propose a GPU memory-efficient and effective framework for local inference without accessing the context beyond local patches. In particular, we introduce a novel spatial-guided high-resolution query module, which predicts pixel-wise segmentation results with high quality only by querying nearest latent embeddings with the guidance of high-resolution information. Additionally, we present an efficient memory-based interaction scheme to correct potential semantic bias of the underlying high-resolution information by associating cross-image contextual semantics. For evaluation of our approach, we perform comprehensive experiments over public benchmarks and achieve superior performance under both conditions of small and large GPU memory usage limitations. We will release the model and codes in the future.
翻訳日:2023-10-12 16:19:43 公開日:2023-10-07
# 深部神経画像の劣化に関する包括的調査

A Comprehensive Survey on Deep Neural Image Deblurring ( http://arxiv.org/abs/2310.04719v1 )

ライセンス: Link先を確認
Sajjad Amrollahi Biyouki, Hoon Hwangbo(参考訳) 画像の劣化は、ぼやけを引き起こす画像の劣化要素を排除し、画像の品質を改善してテクスチャとオブジェクトの可視化を改善する。 従来、画像の劣化で優先される事前ベース最適化アプローチは、ディープニューラルネットワークが最近この分野に大きなブレークスルーをもたらした。 本稿では,視覚障害者と非盲検者の両方におけるディープニューラルアーキテクチャの最近の進歩について概観する。 我々は、アプリケーションのデブラリングに使用される最も一般的なディープニューラルネットワーク構造を概説し、その強みと新しさを説明し、パフォーマンスメトリクスを要約し、広く使用されるデータセットを紹介します。 さらに,本領域における現在の課題と研究ギャップについて論じ,今後の研究の方向性を示唆する。

Image deblurring tries to eliminate degradation elements of an image causing blurriness and improve the quality of an image for better texture and object visualization. Traditionally, prior-based optimization approaches predominated in image deblurring, but deep neural networks recently brought a major breakthrough in the field. In this paper, we comprehensively review the recent progress of the deep neural architectures in both blind and non-blind image deblurring. We outline the most popular deep neural network structures used in deblurring applications, describe their strengths and novelties, summarize performance metrics, and introduce broadly used datasets. In addition, we discuss the current challenges and research gaps in this domain and suggest potential research directions for future works.
翻訳日:2023-10-12 16:19:17 公開日:2023-10-07
# 強化ui命令のグラウンド化:汎用uiタスク自動化apiに向けて

Reinforced UI Instruction Grounding: Towards a Generic UI Task Automation API ( http://arxiv.org/abs/2310.04716v1 )

ライセンス: Link先を確認
Zhizheng Zhang, Wenxuan Xie, Xiaoyi Zhang, Yan Lu(参考訳) 近年のLLM(Large Language Models)の人気は、LLMをさまざまなドメイン固有のモデルやAPIに接続することで、多数のAIタスクを自動化するという、数え切れないほど大きな可能性を開放している。 ドメイン固有のモデルやAPIが多数存在するにも関わらず、人間とユーザインターフェース(UI)間のインタラクションにおいて、非常に多様な自動化要求を包括的にカバーするのは難しい。 本研究では,UIタスク自動化エグゼキュータとして,与えられたUIスクリーンショットに自然言語命令をベースとしたマルチモーダルモデルを構築する。 ビジュアルエンコーダと言語デコーダから構成されるメタデータフリーグラウンドモデルは、まず、よく研究された文書理解タスクに基づいて事前訓練され、次に、UIスクリーンショットから空間情報を即時的に復号することを学ぶ。 画像からテキストへの事前学習知識の活用を容易にするために,pixel-to-sequenceパラダイムに従い,言語デコーダを用いてトークン列内の幾何座標を予測する。 さらに,このようなシーケンスのトークンを視覚的意味メトリクスと組み合わせて監視する,革新的な強化学習(RL)に基づくアルゴリズムを提案し,画素対シーケンスパラダイムの空間デコーディング能力を効果的に強化する。 広範な実験により,提案する強化ui命令グラウンドモデルが,最先端メソッドよりも明確なマージンを示し,汎用uiタスク自動化apiとしての可能性を示している。

Recent popularity of Large Language Models (LLMs) has opened countless possibilities in automating numerous AI tasks by connecting LLMs to various domain-specific models or APIs, where LLMs serve as dispatchers while domain-specific models or APIs are action executors. Despite the vast numbers of domain-specific models/APIs, they still struggle to comprehensively cover super diverse automation demands in the interaction between human and User Interfaces (UIs). In this work, we build a multimodal model to ground natural language instructions in given UI screenshots as a generic UI task automation executor. This metadata-free grounding model, consisting of a visual encoder and a language decoder, is first pretrained on well studied document understanding tasks and then learns to decode spatial information from UI screenshots in a promptable way. To facilitate the exploitation of image-to-text pretrained knowledge, we follow the pixel-to-sequence paradigm to predict geometric coordinates in a sequence of tokens using a language decoder. We further propose an innovative Reinforcement Learning (RL) based algorithm to supervise the tokens in such sequence jointly with visually semantic metrics, which effectively strengthens the spatial decoding capability of the pixel-to-sequence paradigm. Extensive experiments demonstrate our proposed reinforced UI instruction grounding model outperforms the state-of-the-art methods by a clear margin and shows the potential as a generic UI task automation API.
翻訳日:2023-10-12 16:19:04 公開日:2023-10-07
# 連続動的シナリオにおける一般化ロバストテスト時間適応

Generalized Robust Test-Time Adaptation in Continuous Dynamic Scenarios ( http://arxiv.org/abs/2310.04714v1 )

ライセンス: Link先を確認
Shuang Li, Longhui Yuan, Binhui Xie and Tao Yang(参考訳) テスト時間適応(tta: test-time adaptation)は、事前トレーニングされたモデルを推論フェーズ中にテストに適応させ、ラベルなしのテストデータストリームのみを使用する。 多くの研究が単純化されたテストストリームで有望な性能を達成しており、固定されたターゲットデータ分布に由来する独立かつ一様にサンプルされたテストデータによって特徴付けられる。 しかし、これらの手法は、連続的な共変量シフトと連続的なラベルシフトが同時に発生する、すなわち時間とともにデータとラベルの分布が同時かつ連続的に変化する、実用的なシナリオでは、しばしば非有効である。 本研究では,連続的な共変量シフトと連続的なラベルシフトの存在を考慮し,より困難な実践的テスト時間適応(PTTA)を導入し,その課題に効果的に対処するための一般化ロバストテスト時間適応(GRoTTA)法を提案する。 まず、ロバストパラメータ適応を通じてモデルを着実に適応し、テストサンプルのバランスの取れた予測を行う。 まず、一様ラベル分布から学習するようにモデルを強制し、安定を確保するためにバッチ正規化の再校正を導入することにより、連続ラベルシフトの効果を解消する。 第二に、パラメータを更新するために教師-学生モデルとソース知識正規化を採用することにより、連続的な共変量シフトが軽減される。 テストストリーム内の潜在的な情報を考慮して,バイアス誘導出力適応によるバランス予測をさらに洗練し,特徴空間の潜在構造を活用し,不均衡ラベル分布に適応する。 広範な実験により、GRoTTAはPTTA設定で既存の競合他社よりも優れたパフォーマンスを示し、現実世界のアプリケーションで採用する上で非常に有益である。

Test-time adaptation (TTA) adapts the pre-trained models to test distributions during the inference phase exclusively employing unlabeled test data streams, which holds great value for the deployment of models in real-world applications. Numerous studies have achieved promising performance on simplistic test streams, characterized by independently and uniformly sampled test data originating from a fixed target data distribution. However, these methods frequently prove ineffective in practical scenarios, where both continual covariate shift and continual label shift occur simultaneously, i.e., data and label distributions change concurrently and continually over time. In this study, a more challenging Practical Test-Time Adaptation (PTTA) setup is introduced, which takes into account the concurrent presence of continual covariate shift and continual label shift, and we propose a Generalized Robust Test-Time Adaptation (GRoTTA) method to effectively address the difficult problem. We start by steadily adapting the model through Robust Parameter Adaptation to make balanced predictions for test samples. To be specific, firstly, the effects of continual label shift are eliminated by enforcing the model to learn from a uniform label distribution and introducing recalibration of batch normalization to ensure stability. Secondly, the continual covariate shift is alleviated by employing a source knowledge regularization with the teacher-student model to update parameters. Considering the potential information in the test stream, we further refine the balanced predictions by Bias-Guided Output Adaptation, which exploits latent structure in the feature space and is adaptive to the imbalanced label distribution. Extensive experiments demonstrate GRoTTA outperforms the existing competitors by a large margin under PTTA setting, rendering it highly conducive for adoption in real-world applications.
翻訳日:2023-10-12 16:18:26 公開日:2023-10-07
# UFD-PRiME:Pixel-Level Rigid運動推定による光学的流れとステレオ深さの教師なし共同学習

UFD-PRiME: Unsupervised Joint Learning of Optical Flow and Stereo Depth through Pixel-Level Rigid Motion Estimation ( http://arxiv.org/abs/2310.04712v1 )

ライセンス: Link先を確認
Shuai Yuan, Carlo Tomasi(参考訳) オプティカルフローとステレオの相違はどちらも画像マッチングであり、共同トレーニングの恩恵を受けることができる。 深度と3次元の動きは測光情報よりも幾何学的な情報を提供し、光の流れをさらに改善することができる。 そこで我々は,フローと不一致を共同で見積もる第1のネットワークを設計し,監視なしでトレーニングする。 第2のネットワークは、第1のネットワークから擬似ラベルとして光学的流れを訓練し、第1のネットワークから格差を取り、各ピクセルにおける3次元剛性運動を推定し、再び光学的流れを再構築する。 最終段階は、2つのネットワークからの出力を融合する。 カメラの動きのみを考慮した従来の手法とは対照的に,本手法は動的物体の剛性運動を推定する。 これにより、より詳細なオクルージョンとオブジェクト境界によって光学フローが改善される。 我々の教師なしパイプラインはkitti-2015ベンチマークで7.36%の光学フローエラーを達成し、以前の9.38%を大きく上回っている。 また、ステレオの奥行きが少し良くなり、比較できる。 コードは利用可能になる。

Both optical flow and stereo disparities are image matches and can therefore benefit from joint training. Depth and 3D motion provide geometric rather than photometric information and can further improve optical flow. Accordingly, we design a first network that estimates flow and disparity jointly and is trained without supervision. A second network, trained with optical flow from the first as pseudo-labels, takes disparities from the first network, estimates 3D rigid motion at every pixel, and reconstructs optical flow again. A final stage fuses the outputs from the two networks. In contrast with previous methods that only consider camera motion, our method also estimates the rigid motions of dynamic objects, which are of key interest in applications. This leads to better optical flow with visibly more detailed occlusions and object boundaries as a result. Our unsupervised pipeline achieves 7.36% optical flow error on the KITTI-2015 benchmark and outperforms the previous state-of-the-art 9.38% by a wide margin. It also achieves slightly better or comparable stereo depth results. Code will be made available.
翻訳日:2023-10-12 16:17:14 公開日:2023-10-07
# 近似量子誤り訂正符号の複雑さと順序

Complexity and order in approximate quantum error-correcting codes ( http://arxiv.org/abs/2310.04710v1 )

ライセンス: Link先を確認
Jinmin Yi, Weicheng Ye, Daniel Gottesman, Zi-Wen Liu(参考訳) 量子回路の複雑度と近似量子誤差補正(AQEC)特性の厳密な関係を確立し,格子系を含む全次元および幾何学的シナリオを網羅する。 この目的のために,我々はサブシステム分散と呼ぶ,最適な aqec 精度と密接な関係を持つコードパラメータのタイプを提案する。 我々の重要な発見は、サブシステムの分散が$O(k/n)$しきい値以下であれば、コードサブ空間の任意の状態は特定の回路の複雑さの低い境界に従わなければならないということです。 この結果に基づき,aqec符号としてカウントすべきでない部分空間の境界として$o(k/n)$を提案する。 このaqecの理論は、多体量子系の量子複雑性と秩序を理解するための多元的枠組みを提供し、多体・高エネルギー物理学において特に重要な物理シナリオ、特に位相次数と臨界量子システムに対する新しい洞察を提供する。 様々な観点から、o(1/n)$ は非自明な量子次数に付随する特徴のサブシステム分散の共通で物理的に有意な ``scaling threshold'' を表すことを観察する。

We establish rigorous connections between quantum circuit complexity and approximate quantum error correction (AQEC) properties, covering both all-to-all and geometric scenarios including lattice systems. To this end, we introduce a type of code parameter that we call subsystem variance, which is closely related to the optimal AQEC precision. Our key finding is that if the subsystem variance is below an $O(k/n)$ threshold then any state in the code subspace must obey certain circuit complexity lower bounds, which identify nontrivial ``phases'' of codes. Based on our results, we propose $O(k/n)$ as a boundary between subspaces that should and should not count as AQEC codes. This theory of AQEC provides a versatile framework for understanding the quantum complexity and order of many-body quantum systems, offering new insights for wide-ranging physical scenarios, in particular topological order and critical quantum systems which are of outstanding importance in many-body and high energy physics. We observe from various different perspectives that roughly $O(1/n)$ represents a common, physically significant ``scaling threshold'' of subsystem variance for features associated with nontrivial quantum order.
翻訳日:2023-10-12 16:16:44 公開日:2023-10-07
# 雑音変動量子アルゴリズムのための最適化数値推定スキームのロバスト性

Robustness of optimized numerical estimation schemes for noisy variational quantum algorithms ( http://arxiv.org/abs/2310.04740v1 )

ライセンス: Link先を確認
Yong Siah Teo(参考訳) 変分量子アルゴリズムで得られた有限量の測定データを用いて,[Y.S. Teo, Phys. Rev. A 107, 042421 (2023)] において,解析的スキームによる勾配およびヘッセン関数の推定のためのスケールドパラメータシフト (SPS) 法と有限差分法 (FD) 法を含むいくつかの最適化された数値推定スキームの統計的利点を報告した。 ノイズの存在下でのサンプリングコピー数に対して,これらの数値スキームが統計的に精度が高い範囲を探索し,サガを継続する。 For noise-channel error terms that are independent of the circuit parameters, we demonstrate that \emph{without any knowledge} about the noise channel, using the SPS and FD estimators optimized specifically for noiseless circuits can still give lower mean-squared errors than PS estimators for substantially wide sampling-copy number ranges -- specifically for SPS, closed-form mean-squared error expressions reveal that these ranges grow exponentially in the qubit number and reciprocally with a decreasing error rate. シミュレーションはまた、FDスキームに類似した特性を示す。 最後に、2つの設計回路と回路パラメータに依存しないノイズチャネル誤差項を仮定して、SPS推定器を最適化するためのノイズモデル非依存誤差除去手法を提案する。 これらのヒューリスティックに最適化されたSPS推定器は、現実的な回路やノイズチャネルでも有する平均2乗誤差バイアスを著しく低減し、その推定精度をさらに向上させることができる。 ヒューリスティックに最適化されたfd推定器は、平均二乗誤差バイアスをnaivelyoptimizedと同等に有しており、ノイズの多い回路では役に立たない。

With a finite amount of measurement data acquired in variational quantum algorithms, the statistical benefits of several optimized numerical estimation schemes, including the scaled parameter-shift (SPS) rule and finite-difference (FD) method, for estimating gradient and Hessian functions over analytical schemes~[unscaled parameter-shift (PS) rule] were reported by the present author in [Y. S. Teo, Phys. Rev. A 107, 042421 (2023)]. We continue the saga by exploring the extent to which these numerical schemes remain statistically more accurate for a given number of sampling copies in the presence of noise. For noise-channel error terms that are independent of the circuit parameters, we demonstrate that \emph{without any knowledge} about the noise channel, using the SPS and FD estimators optimized specifically for noiseless circuits can still give lower mean-squared errors than PS estimators for substantially wide sampling-copy number ranges -- specifically for SPS, closed-form mean-squared error expressions reveal that these ranges grow exponentially in the qubit number and reciprocally with a decreasing error rate. Simulations also demonstrate similar characteristics for the FD scheme. Lastly, if the error rate is known, we propose a noise-model-agnostic error-mitigation procedure to optimize the SPS estimators under the assumptions of two-design circuits and circuit-parameter-independent noise-channel error terms. We show that these heuristically-optimized SPS estimators can significantly reduce mean-squared-error biases that naive SPS estimators possess even with realistic circuits and noise channels, thereby improving their estimation qualities even further. The heuristically-optimized FD estimators possess as much mean-squared-error biases as the naively-optimized counterparts, and are thus not beneficial with noisy circuits.
翻訳日:2023-10-12 16:09:18 公開日:2023-10-07
# リンク、ユーザー中心デザイナー:超越モデルとしてのゲームキャラクタ

Link, user-centred designer: Game characters as transcendent models ( http://arxiv.org/abs/2310.04739v1 )

ライセンス: Link先を確認
Katie Seaborn(参考訳) ゲームはアイデンティティの構築と探索を可能にし、ロールモデル、善、悪を提供する。 ゲームキャラクタは、私たち -- プレイヤーやクリエーターと同じように -- を反映している。 しかしゲームは、ダイジェティックなカテゴリとプレイヤーの自己挿入を超越するアイデンティティ、価値観、方向性もエンコードするのだろうか? ゼルダ伝説シリーズのリンクを事例として,超越モデルの導管としてのゲームキャラクタの概念を考察する。 筆者は,ゲームプレイにおけるキャラクターの具体化,さらには無意識化にともなって,触覚,非異質なパターン,およびユーザ中心設計などの複雑な価値モデルを埋め込むことを提案する。

Games allow us to construct and explore identities and offer us role models, good and bad. Game characters are a reflection of us -- players and creators alike -- or could be. But do games also encode identities, values, and orientations that transcend diegetic categories and player self-insertion? I explore the notion of game characters as conduits of transcendent models through the case study of Link from the Legend of Zelda series. I propose that designers embed tacit, nondiegetic patterns of praxis and complex value models, such as user-centred design, when crafting the embodiment of characters in gameplay, even unawares.
翻訳日:2023-10-12 16:08:42 公開日:2023-10-07
# 表現学習を用いたタスク認識変調:不均一系におけるショット学習のアプローチ

Task Aware Modulation using Representation Learning: An Approach for Few Shot Learning in Heterogeneous Systems ( http://arxiv.org/abs/2310.04727v1 )

ライセンス: Link先を確認
Arvind Renganathan, Rahul Ghosh, Ankush Khandelwal and Vipin Kumar(参考訳) 本稿では,タスク特性が不明な場合,不均一なシステムに対する数ショット設定におけるパーソナライズされた予測を向上するRepresentation Learning (TAM-RL) フレームワークを提案する。 TAM-RLは、これらのエンティティの実際の固有の特性を表す埋め込みを抽出し、これらの特徴を使用して各エンティティ/タスクの予測をパーソナライズする。 実世界の水文・フラックスタワーベンチマークデータセットを用いて,TAM-RLは,MAMLやマルチモーダルMAML(MMAML)といった既存のベースラインアプローチを著しく上回り,複雑度が低いため,より高速で訓練が容易であることを示す。 特に、TAM-RLは、MAML、MMAMLにおけるモデル収束に不可欠であるインナーループステップやインナーループ学習率のような敏感なハイパーパラメータを必要としない。 さらに,MAML,MMAML,TAM-RLの相対的性能に及ぼすエンティティ間の不均一性の影響を調べるために,合成データを用いた経験的評価を行った。 TAM-RLは,異なるタスクに対して異なる表現を学習可能な場合の予測性能を著しく向上することを示す。

We present a Task-aware modulation using Representation Learning (TAM-RL) framework that enhances personalized predictions in few-shot settings for heterogeneous systems when individual task characteristics are not known. TAM-RL extracts embeddings representing the actual inherent characteristics of these entities and uses these characteristics to personalize the predictions for each entity/task. Using real-world hydrological and flux tower benchmark data sets, we show that TAM-RL can significantly outperform existing baseline approaches such as MAML and multi-modal MAML (MMAML) while being much faster and simpler to train due to less complexity. Specifically, TAM-RL eliminates the need for sensitive hyper-parameters like inner loop steps and inner loop learning rate, which are crucial for model convergence in MAML, MMAML. We further present an empirical evaluation via synthetic data to explore the impact of heterogeneity amongst the entities on the relative performance of MAML, MMAML, and TAM-RL. We show that TAM-RL significantly improves predictive performance for cases where it is possible to learn distinct representations for different tasks.
翻訳日:2023-10-12 16:08:30 公開日:2023-10-07
# パラレルコーパスのないゼロショット言語間移動

Zero-shot Cross-lingual Transfer without Parallel Corpus ( http://arxiv.org/abs/2310.04726v1 )

ライセンス: Link先を確認
Yuyang Zhang, Xiaofeng Han, Baojun Wang(参考訳) 近年、多言語nlp(自然言語処理)タスクでは、事前学習された言語モデルが大きな成功を収めているが、低リソース言語における多くのタスクのトレーニングデータの欠如により、パフォーマンスは依然として低下している。 この問題を解決する効果的な方法の1つは、知識をリッチリソース言語からローリソース言語に移すことである。 しかし、言語間変換に関する多くの先行研究は、並列コーパスや翻訳モデルに大きく依存しており、しばしば取得が困難である。 本稿では,事前学習モデルを用いてゼロショット言語間伝達を行う新しい手法を提案する。 タスク関連のバイリンガル情報アライメントを適用するバイリンガルタスクフィッティングモジュールからなり、自己学習モジュールはラベルのないデータに対して擬似ソフトおよびハードラベルを生成し、それらを利用して自己学習を行う。 並列コーパスや翻訳モデルに依存することなく、異なるタスクで新しいSOTAを入手しました。

Recently, although pre-trained language models have achieved great success on multilingual NLP (Natural Language Processing) tasks, the lack of training data on many tasks in low-resource languages still limits their performance. One effective way of solving that problem is to transfer knowledge from rich-resource languages to low-resource languages. However, many previous works on cross-lingual transfer rely heavily on the parallel corpus or translation models, which are often difficult to obtain. We propose a novel approach to conduct zero-shot cross-lingual transfer with a pre-trained model. It consists of a Bilingual Task Fitting module that applies task-related bilingual information alignment; a self-training module generates pseudo soft and hard labels for unlabeled data and utilizes them to conduct self-training. We got the new SOTA on different tasks without any dependencies on the parallel corpus or translation models.
翻訳日:2023-10-12 16:08:08 公開日:2023-10-07
# 非有界ポテンシャルを持つフォトニック格子における光の非局在化

Delocalization of light in photonic lattices with unbounded potentials ( http://arxiv.org/abs/2310.04725v1 )

ライセンス: Link先を確認
Stefano Longhi(参考訳) 古典力学では、粒子は非有界ポテンシャル井戸から逃れることができない。 つまり、高い障壁はトンネルを困難にするので、波の力学にも同様の結果をもたらすと期待できる。 しかし、これは必ずしもそうではなく、波動の非局在化が臨界状態を維持するような非有界な非有界ポテンシャルを持つある種のモデルで生じることが知られている。 ここでは,準周期的ではなく,波の非局在化を観測する特殊に調整された形状を必要としない,非有界ポテンシャルの異なる,より広いクラスを導入する。 その結果, 合成フォトニック格子の光力学を考察し, 非有界ポテンシャルにおける波動の非局在化を実験的に観察する上で, 実現可能なプラットフォームを提供する。

In classical mechanics, a particle cannot escape from an unbounded potential well. Naively, one would expect a similar result to hold in wave mechanics, since high barriers make tunneling difficult. However, this is not always the case and it is known that wave delocalization can arise in certain models with incommensurate unbounded potentials sustaining critical states, i.e. states neither fully extended nor fully localized. Here we introduce a different and broader class of unbounded potentials, which are not quasi-periodic and do not require any specially-tailored shape, where wave delocalization is observed. The results are illustrated by considering light dynamics in synthetic photonic lattices, which should provide a feasible platform for the experimental observation of wave delocalization in unbounded potentials.
翻訳日:2023-10-12 16:07:51 公開日:2023-10-07
# 活性化と拒絶:カテゴリーシフト下での安全なドメイン一般化に向けて

Activate and Reject: Towards Safe Domain Generalization under Category Shift ( http://arxiv.org/abs/2310.04724v1 )

ライセンス: Link先を確認
Chaoqi Chen, Luyao Tang, Leitian Tao, Hong-Yu Zhou, Yue Huang, Xiaoguang Han, Yizhou Yu(参考訳) ドメイン内テストポイントで注目すべきパフォーマンスだが、新しいドメインやオブジェクトクラスが頻繁に発生するオープンワールドにデプロイする場合、ディープニューラルネットワークが十分な精度を達成することは、自明ではない。 本稿では,カテゴリシフト(DGCS)に基づくドメイン一般化の実践的問題について検討し,未知のクラスサンプルを同時に検出し,対象ドメイン内の既知のクラスサンプルを分類することを目的とした。 従来のDGと比較して、我々は2つの新しい課題に直面している。 1)訓練中の「未知」概念の学習方法 2) 安全なモデルデプロイメントのために、ソーストレーニングされたモデルを見えない環境に適用する方法。 そこで本研究では,未知のクラスに対応するためのモデル決定境界を再構築し,ラベルのないテストデータを用いて未知のクラスと未知のクラスを識別するためのポストホック修飾を行う,新しい Activate and Reject (ART) フレームワークを提案する。 具体的には、トレーニング中、未知の確率を最適化し、全体的なアウトプットを円滑にすることで、不確実性に対する応答を促進する。 テスト時には,ネットワークのパラメータ更新やしきい値に基づく機構を用いずに,クロスドメイン近傍情報とクラスプロトタイプ情報を用いてラベルを予測できるステップワイズオンライン適応手法を提案する。 実験の結果、ARTは異なる視覚タスクにおけるディープネットワークの一般化能力を一貫して改善していることがわかった。 画像分類では、ARTは前のベストメソッドと比較して平均でHスコアを6.1%改善する。 オブジェクト検出とセマンティクスセグメンテーションのために、新しいベンチマークを確立し、競合性能を達成する。

Albeit the notable performance on in-domain test points, it is non-trivial for deep neural networks to attain satisfactory accuracy when deploying in the open world, where novel domains and object classes often occur. In this paper, we study a practical problem of Domain Generalization under Category Shift (DGCS), which aims to simultaneously detect unknown-class samples and classify known-class samples in the target domains. Compared to prior DG works, we face two new challenges: 1) how to learn the concept of ``unknown'' during training with only source known-class samples, and 2) how to adapt the source-trained model to unseen environments for safe model deployment. To this end, we propose a novel Activate and Reject (ART) framework to reshape the model's decision boundary to accommodate unknown classes and conduct post hoc modification to further discriminate known and unknown classes using unlabeled test data. Specifically, during training, we promote the response to the unknown by optimizing the unknown probability and then smoothing the overall output to mitigate the overconfidence issue. At test time, we introduce a step-wise online adaptation method that predicts the label by virtue of the cross-domain nearest neighbor and class prototype information without updating the network's parameters or using threshold-based mechanisms. Experiments reveal that ART consistently improves the generalization capability of deep networks on different vision tasks. For image classification, ART improves the H-score by 6.1% on average compared to the previous best method. For object detection and semantic segmentation, we establish new benchmarks and achieve competitive performance.
翻訳日:2023-10-12 16:07:37 公開日:2023-10-07
# マルチソース領域適応のための部分空間同定

Subspace Identification for Multi-Source Domain Adaptation ( http://arxiv.org/abs/2310.04723v1 )

ライセンス: Link先を確認
Zijian Li, Ruichu Cai, Guangyi Chen, Boyang Sun, Zhifeng Hao, Kun Zhang(参考訳) マルチソースドメイン適応(MSDA)手法は、複数のラベル付きソースドメインからラベルなしターゲットドメインへ知識を転送することを目的としている。 現在の方法では、ドメイン間の最小限の変化を強制することによって、目的の関節分布の識別性を実現するが、適切な数のドメイン、潜伏変数の単調変換、不変ラベル分布など、厳密な条件を必要とすることが多い。 これらの要件は、現実世界のアプリケーションで満たすのは難しい。 このような厳密な仮定の必要性を軽減するため、ドメイン数や変換特性に関する制約の少ない制約の下で、ドメイン不変変数とドメイン固有変数の絡み合いを保証する部分空間同定理論を提案し、不変変数に対するドメインシフトの影響を最小限に抑えることで、ドメイン適応を容易にする。 この理論に基づいて,変分推論を利用した部分空間識別保証(SIG)モデルを開発した。 さらに、SIGモデルでは、ラベル分布がドメインと変化するターゲットシフトに対応するために、クラス認識条件アライメントが組み込まれている。 実験結果から,SIGモデルは様々なベンチマークデータセット上で既存のMSDA技術よりも優れており,実世界のアプリケーションでの有効性が示された。

Multi-source domain adaptation (MSDA) methods aim to transfer knowledge from multiple labeled source domains to an unlabeled target domain. Although current methods achieve target joint distribution identifiability by enforcing minimal changes across domains, they often necessitate stringent conditions, such as an adequate number of domains, monotonic transformation of latent variables, and invariant label distributions. These requirements are challenging to satisfy in real-world applications. To mitigate the need for these strict assumptions, we propose a subspace identification theory that guarantees the disentanglement of domain-invariant and domain-specific variables under less restrictive constraints regarding domain numbers and transformation properties, thereby facilitating domain adaptation by minimizing the impact of domain shifts on invariant variables. Based on this theory, we develop a Subspace Identification Guarantee (SIG) model that leverages variational inference. Furthermore, the SIG model incorporates class-aware conditional alignment to accommodate target shifts where label distributions change with the domains. Experimental results demonstrate that our SIG model outperforms existing MSDA techniques on various benchmark datasets, highlighting its effectiveness in real-world applications.
翻訳日:2023-10-12 16:07:11 公開日:2023-10-07
# 不均衡学習のための再重み付けとロジット調整の統一一般化解析

A Unified Generalization Analysis of Re-Weighting and Logit-Adjustment for Imbalanced Learning ( http://arxiv.org/abs/2310.04752v1 )

ライセンス: Link先を確認
Zitai Wang and Qianqian Xu and Zhiyong Yang and Yuan He and Xiaochun Cao and Qingming Huang(参考訳) 実世界のデータセットは通常、少数のクラスが多数のサンプルを持つのに対して、多くのクラスは少数のサンプルにのみ関連付けられているという意味で不均衡である。 結果として、 na\ な ERM 学習プロセスが多数派に偏り、少数派に一般化することが困難になる。 この問題に対処するためには、損失関数を修正して、損失の再重み付けやクラス依存項によるロジットの調整など、マイノリティクラスでの学習を強調する方法がある。 しかし、そのような損失の既存の一般化分析はいまだに粗い粒度と断片化されており、いくつかの経験的結果の説明に失敗している。 このギャップを埋めるために,データ依存収縮(data-dependent shrink)と呼ばれる新しい手法を提案する。 この技術に加えて、不均衡学習のための微粒化一般化境界が確立され、統一された方法で再重み付けとロジット調整の謎を明らかにするのに役立つ。 さらに,理論的な洞察に基づいて原理学習アルゴリズムを開発した。 最後に, ベンチマークデータを用いた実験結果から, 理論的結果だけでなく, 提案手法の有効性も検証した。

Real-world datasets are typically imbalanced in the sense that only a few classes have numerous samples, while many classes are associated with only a few samples. As a result, a na\"ive ERM learning process will be biased towards the majority classes, making it difficult to generalize to the minority classes. To address this issue, one simple but effective approach is to modify the loss function to emphasize the learning on minority classes, such as re-weighting the losses or adjusting the logits via class-dependent terms. However, existing generalization analysis of such losses is still coarse-grained and fragmented, failing to explain some empirical results. To bridge this gap, we propose a novel technique named data-dependent contraction to capture how these modified losses handle different classes. On top of this technique, a fine-grained generalization bound is established for imbalanced learning, which helps reveal the mystery of re-weighting and logit-adjustment in a unified manner. Furthermore, a principled learning algorithm is developed based on the theoretical insights. Finally, the empirical results on benchmark datasets not only validate the theoretical results but also demonstrate the effectiveness of the proposed method.
翻訳日:2023-10-12 15:57:57 公開日:2023-10-07
# ConvNeXtv2 と Mask R-CNN を併用した冠状動脈狭窄の自動診断

ConvNeXtv2 Fusion with Mask R-CNN for Automatic Region Based Coronary Artery Stenosis Detection for Disease Diagnosis ( http://arxiv.org/abs/2310.04749v1 )

ライセンス: Link先を確認
Sandesh Pokhrel, Sanjay Bhandari, Eduard Vazquez, Yash Raj Shrestha, Binod Bhattarai(参考訳) 冠動脈疾患は予防できるが、世界中で死因の1つとなっている。 診断の難しさから,CADの扱いは困難であることが判明した。 本研究は,X線冠動脈造影画像における冠動脈狭窄を手動で検出する資源集約的・時間的プロセスの自動化に対処するものである。 この課題を克服するために、インスタンスセグメンテーションタスク用に事前訓練された専用のConvnext-V2バックボーンベースのMask RCNNモデルを用いる。 以上の結果から,本モデルが狭窄病変の同定に有効であることが確認された。 特に,本手法は,本課題におけるF1スコア0.5353を達成し,この集中プロセスの合理化に有効であることを示す。

Coronary Artery Diseases although preventable are one of the leading cause of mortality worldwide. Due to the onerous nature of diagnosis, tackling CADs has proved challenging. This study addresses the automation of resource-intensive and time-consuming process of manually detecting stenotic lesions in coronary arteries in X-ray coronary angiography images. To overcome this challenge, we employ a specialized Convnext-V2 backbone based Mask RCNN model pre-trained for instance segmentation tasks. Our empirical findings affirm that the proposed model exhibits commendable performance in identifying stenotic lesions. Notably, our approach achieves a substantial F1 score of 0.5353 in this demanding task, underscoring its effectiveness in streamlining this intensive process.
翻訳日:2023-10-12 15:56:56 公開日:2023-10-07
# 非教師なし領域適応型夜間意味セグメンテーションのための動的および小型オブジェクトの洗練に向けて

Towards Dynamic and Small Objects Refinement for Unsupervised Domain Adaptative Nighttime Semantic Segmentation ( http://arxiv.org/abs/2310.04747v1 )

ライセンス: Link先を確認
Jingyi Pan, Sihang Li, Yucheng Chen, Jinjing Zhu, Lin Wang(参考訳) 夜間のセマンティクスセグメンテーションは、例えば自動運転など、さまざまなアプリケーションにおいて不可欠である。 非教師なしドメイン適応(UDA)は、課題に対処する可能性を示し、夜間のセマンティックセグメンテーションにおいて顕著な結果を得た。 しかし、既存の方法は依然として限界に直面している。 1) 複雑な夜間環境への一般化に苦しむスタイル移転やリライトモデルへの依存 2)車両や交通標識などの動的かつ小さな物体の無知は,他の領域から直接的に学ぶことは困難である。 本稿では,夜間セマンティックセグメンテーションのための動的および小型オブジェクトのラベルレベルと特徴レベルを改良する新しいUDA手法を提案する。 まず、ソースドメインから対象の夜間ドメインへの動的および小さなオブジェクトの知識を補完する、動的で小さなオブジェクトリファインメントモジュールを提案する。 これらの動的および小さなオブジェクトは、通常、未公開の状況ではコンテキスト一貫性がない。 そこで我々は,異なるドメインから同一クラスの特徴とプロトタイプの対比学習をデプロイし,動的および小オブジェクトのカテゴリを再重み付けすることで,ドメインギャップを低減する機能プロトタイプアライメントモジュールを設計する。 4つのベンチマークデータセットの大規模な実験により、我々の手法は夜間セグメンテーションの大きなマージンで先行技術より優れていることが示された。 プロジェクトページ: https://rorisis.github.io/dsrnss/

Nighttime semantic segmentation is essential for various applications, e.g., autonomous driving, which often faces challenges due to poor illumination and the lack of well-annotated datasets. Unsupervised domain adaptation (UDA) has shown potential for addressing the challenges and achieved remarkable results for nighttime semantic segmentation. However, existing methods still face limitations in 1) their reliance on style transfer or relighting models, which struggle to generalize to complex nighttime environments, and 2) their ignorance of dynamic and small objects like vehicles and traffic signs, which are difficult to be directly learned from other domains. This paper proposes a novel UDA method that refines both label and feature levels for dynamic and small objects for nighttime semantic segmentation. First, we propose a dynamic and small object refinement module to complement the knowledge of dynamic and small objects from the source domain to target nighttime domain. These dynamic and small objects are normally context-inconsistent in under-exposed conditions. Then, we design a feature prototype alignment module to reduce the domain gap by deploying contrastive learning between features and prototypes of the same class from different domains, while re-weighting the categories of dynamic and small objects. Extensive experiments on four benchmark datasets demonstrate that our method outperforms prior arts by a large margin for nighttime segmentation. Project page: https://rorisis.github.io/DSRNSS/.
翻訳日:2023-10-12 15:56:41 公開日:2023-10-07
# Resprompt: 大規模言語モデルにおけるResidual Connection Promptingのマルチステップ推論

Resprompt: Residual Connection Prompting Advances Multi-Step Reasoning in Large Language Models ( http://arxiv.org/abs/2310.04743v1 )

ライセンス: Link先を確認
Song Jiang, Zahra Shakeri, Aaron Chan, Maziar Sanjabi, Hamed Firooz, Yinglong Xia, Bugra Akyildiz, Yizhou Sun, Jinchao Li, Qifan Wang, Asli Celikyilmaz(参考訳) chain-of-thought (cot) プロンプトはステップバイステップの問題解決の根拠を提供するが、大きな言語モデル(llm)の推論可能性を大きく解いた。 しかし、標準的なCoTは複数の推論ステップを必要とする問題では効果が低い。 この制限は、多段階問題における複雑な推論過程から生じる:後段の段階は、しばしば、直前の段階の結果だけでなく、より早い段階の結果に依存する。 そのような複雑さは、推論過程が自然にグラフとして表されることを示している。 しかし、CoTのほぼ直線的かつ直接的な構造は、この複雑な推論グラフを捉えるのに苦労している。 この課題に対処するために,LLMにおける多段階推論を推し進める新たなプロンプト戦略であるResidual Connection Prompting (RESPROMPT)を提案する。 私たちのキーとなるアイデアは、プロンプト内の推論グラフを再構築することです。 我々は、推論グラフに存在する必要な接続リンクを統合することでこれを実現するが、インプロンプトへの線形CoTフローに欠ける。 これらのリンクは、線形コット構造をグラフ表現に変形させ、多段階問題に内在する複雑な推論グラフを効果的に捉える上で重要なものである。 我々はRESPROMPTを数学、シーケンシャル、常識推論の3分野にわたる6つのベンチマークで評価した。 オープンソースのLLaMAシリーズでは、RESPROMPTはLLaMA-65Bで12.5%、LLaMA2-70Bで6.8%という有意な平均推論精度の向上をもたらす。 RESPROMPTは、少なくとも5つの推論ステップを要求する質問に対して、LLaMA-65Bで21.1%、LLaMA2-70Bで14.3%という顕著な平均改善により、最高のCoTベースのベンチマークを上回っている。 広範囲なアブレーション研究と分析を通じて, 残留接続を最も効果的に構築する方法を明らかにする。

Chain-of-thought (CoT) prompting, which offers step-by-step problem-solving rationales, has impressively unlocked the reasoning potential of large language models (LLMs). Yet, the standard CoT is less effective in problems demanding multiple reasoning steps. This limitation arises from the complex reasoning process in multi-step problems: later stages often depend on the results of several steps earlier, not just the results of the immediately preceding step. Such complexities suggest the reasoning process is naturally represented as a graph. The almost linear and straightforward structure of CoT prompting, however, struggles to capture this complex reasoning graph. To address this challenge, we propose Residual Connection Prompting (RESPROMPT), a new prompting strategy that advances multi-step reasoning in LLMs. Our key idea is to reconstruct the reasoning graph within prompts. We achieve this by integrating necessary connections-links present in the reasoning graph but missing in the linear CoT flow-into the prompts. Termed "residual connections", these links are pivotal in morphing the linear CoT structure into a graph representation, effectively capturing the complex reasoning graphs inherent in multi-step problems. We evaluate RESPROMPT on six benchmarks across three diverse domains: math, sequential, and commonsense reasoning. For the open-sourced LLaMA family of models, RESPROMPT yields a significant average reasoning accuracy improvement of 12.5% on LLaMA-65B and 6.8% on LLaMA2-70B. Breakdown analysis further highlights RESPROMPT particularly excels in complex multi-step reasoning: for questions demanding at least five reasoning steps, RESPROMPT outperforms the best CoT based benchmarks by a remarkable average improvement of 21.1% on LLaMA-65B and 14.3% on LLaMA2-70B. Through extensive ablation studies and analyses, we pinpoint how to most effectively build residual connections.
翻訳日:2023-10-12 15:55:54 公開日:2023-10-07
# transcc:冠状動脈ccta分割のためのトランスフォーマーネットワーク

TransCC: Transformer Network for Coronary Artery CCTA Segmentation ( http://arxiv.org/abs/2310.04779v1 )

ライセンス: Link先を確認
Chenchu Xu, Meng Li, Xue Wu(参考訳) 冠動脈ct angiography (ccta) 画像の正確な分割は, 冠動脈疾患の早期発見および治療における臨床的有用性を有している。 この変圧器は、セルフアテンション機構を利用して、医療画像処理の分野では可愛らしい性能を示している。 しかし,(1)固定サイズの画像パッチ埋め込みによる局所的構造物の損傷,(2)医療画像分割課題におけるグローバルおよび局所的特徴の双方の重要役割などにより,冠状セグメンテーションの課題は継続し,これらの課題に対処するために,cctaセグメンテーションのためのトランスフォーマと畳み込みニューラルネットワークを効果的に融合するディープラーニングフレームワークであるtransccを提案する。 まず、画像パッチの特徴を捉え、元の手法に固有の意味情報の喪失を回避するために、特徴間相互作用抽出(FIE)モジュールを導入する。 第2に, 多層強化パーセプトロン(mep)を考案し, 空間的次元内の局所情報に対する注意を増強し, 自着機構を補完する役割を担っている。 実験の結果,transccは,平均サイクリング係数0.730,平均結合交点(iou)0.582を誇示し,従来のセグメンテーション性能よりも優れていた。 これらの結果はccta画像分割におけるtransccの有効性を強調する。

The accurate segmentation of Coronary Computed Tomography Angiography (CCTA) images holds substantial clinical value for the early detection and treatment of Coronary Heart Disease (CHD). The Transformer, utilizing a self-attention mechanism, has demonstrated commendable performance in the realm of medical image processing. However, challenges persist in coronary segmentation tasks due to (1) the damage to target local structures caused by fixed-size image patch embedding, and (2) the critical role of both global and local features in medical image segmentation tasks.To address these challenges, we propose a deep learning framework, TransCC, that effectively amalgamates the Transformer and convolutional neural networks for CCTA segmentation. Firstly, we introduce a Feature Interaction Extraction (FIE) module designed to capture the characteristics of image patches, thereby circumventing the loss of semantic information inherent in the original method. Secondly, we devise a Multilayer Enhanced Perceptron (MEP) to augment attention to local information within spatial dimensions, serving as a complement to the self-attention mechanism. Experimental results indicate that TransCC outperforms existing methods in segmentation performance, boasting an average Dice coefficient of 0.730 and an average Intersection over Union (IoU) of 0.582. These results underscore the effectiveness of TransCC in CCTA image segmentation.
翻訳日:2023-10-12 15:49:06 公開日:2023-10-07
# ジオステアリングにおける最適シーケンス決定--強化学習アプローチ

Optimal Sequential Decision-Making in Geosteering: A Reinforcement Learning Approach ( http://arxiv.org/abs/2310.04772v1 )

ライセンス: Link先を確認
Ressi Bonti Muhammad, Sergey Alyaev, Reidar Brumer Bratvold(参考訳) ジオステアリング (geosteering) と呼ばれる掘削プロセス全体の軌道調整決定は、その後の選択と情報収集に影響を与える。 ジオステアリングにおける決定最適化法の適用に関する以前の研究は、欲張り最適化や近似動的プログラミング(adp)に依存している。 決定最適化手法には明確な不確実性と目的関数モデルが必要であり、複雑で現実的な測地環境のための決定最適化手法の開発を困難にしている。 我々は,決定環境から直接学習するモデルフリー強化学習(RL)手法であるDeep Q-Network (DQN) を用いて,ジオステアリング決定を最適化する。 RLの高価な計算は、オフライントレーニング段階で処理される。 リアルタイム意思決定支援に必要なDQNを評価するにはミリ秒かかる。 さらに, これまでに2つの合成ジオステアリングシナリオに対して, RLは準最適ADPに匹敵する高品質な結果が得られることを示した。 しかし、RLのモデルフリー性は、トレーニング環境を置き換えることで、ADPの解が計算に極めて高価である問題にまで拡張できることを意味している。 この柔軟性により、より複雑な環境に適用でき、将来、実データでトレーニングされたハイブリッドバージョンが作成できる。

Trajectory adjustment decisions throughout the drilling process, called geosteering, affect subsequent choices and information gathering, thus resulting in a coupled sequential decision problem. Previous works on applying decision optimization methods in geosteering rely on greedy optimization or Approximate Dynamic Programming (ADP). Either decision optimization method requires explicit uncertainty and objective function models, making developing decision optimization methods for complex and realistic geosteering environments challenging to impossible. We use the Deep Q-Network (DQN) method, a model-free reinforcement learning (RL) method that learns directly from the decision environment, to optimize geosteering decisions. The expensive computations for RL are handled during the offline training stage. Evaluating DQN needed for real-time decision support takes milliseconds and is faster than the traditional alternatives. Moreover, for two previously published synthetic geosteering scenarios, our results show that RL achieves high-quality outcomes comparable to the quasi-optimal ADP. Yet, the model-free nature of RL means that by replacing the training environment, we can extend it to problems where the solution to ADP is prohibitively expensive to compute. This flexibility will allow applying it to more complex environments and make hybrid versions trained with real data in the future.
翻訳日:2023-10-12 15:48:41 公開日:2023-10-07
# 新規スポーシティ誘導正則化器によるロバスト低ランク行列補完

Robust Low-Rank Matrix Completion via a New Sparsity-Inducing Regularizer ( http://arxiv.org/abs/2310.04762v1 )

ライセンス: Link先を確認
Zhi-Yong Wang, Hing Cheung So and Abdelhak M. Zoubir(参考訳) 本稿では,ハイブリッド・ノーマル・ウェルシュ (how) と呼ばれる新しい損失関数と,新しいスパーシティ誘導正規化器について述べる。 理論上、正則化器は準凸であり、対応するモローエンベロープは凸であることを示す。 さらに、そのモロー包絡に対する閉形式解、すなわち近接作用素を導出する。 0<p<1のlpノルムのような、対応する近接演算子を見つけるために反復を必要とする非凸正則化器と比較すると、開発された正則化器は閉形式近接演算子を持つ。 本手法をロバスト行列補完問題に適用し,乗算器の交互方向法に基づく効率的なアルゴリズムを開発した。 提案手法の収束を解析し,任意の生成した蓄積点が定常点であることを証明した。 最後に,合成および実世界のデータセットに基づく実験結果から,本アルゴリズムが復元性能の点で最先端手法よりも優れていることを証明した。

This paper presents a novel loss function referred to as hybrid ordinary-Welsch (HOW) and a new sparsity-inducing regularizer associated with HOW. We theoretically show that the regularizer is quasiconvex and that the corresponding Moreau envelope is convex. Moreover, the closed-form solution to its Moreau envelope, namely, the proximity operator, is derived. Compared with nonconvex regularizers like the lp-norm with 0<p<1 that requires iterations to find the corresponding proximity operator, the developed regularizer has a closed-form proximity operator. We apply our regularizer to the robust matrix completion problem, and develop an efficient algorithm based on the alternating direction method of multipliers. The convergence of the suggested method is analyzed and we prove that any generated accumulation point is a stationary point. Finally, experimental results based on synthetic and real-world datasets demonstrate that our algorithm is superior to the state-of-the-art methods in terms of restoration performance.
翻訳日:2023-10-12 15:47:11 公開日:2023-10-07
# 実世界画像へのcadモデル:産業オブジェクト分類における教師なし領域適応への実践的アプローチ

CAD Models to Real-World Images: A Practical Approach to Unsupervised Domain Adaptation in Industrial Object Classification ( http://arxiv.org/abs/2310.04757v1 )

ライセンス: Link先を確認
Dennis Ritter, Mike Hemberger, Marc H\"onig, Volker Stopp, Erik Rodner, Kristian Hildebrand(参考訳) 本稿では,オブジェクト分類のための教師なしドメイン適応パイプラインを,挑戦的な産業環境で体系的に解析する。 この分野に存在する標準の自然オブジェクトベンチマークとは対照的に,本研究では,カテゴリラベルCADモデルのみが利用可能であるが,実世界の画像で分類を行う必要がある場合に,最も重要な設計選択を取り上げる。 ドメイン適応パイプラインは、VisDAベンチマークでSoTAのパフォーマンスを達成するが、より重要なのは、102の機械部品からなる新しいオープン産業データセットにおける認識性能を大幅に改善することです。 我々は、最先端の教師なしドメイン適応を実際に適用する必要のある実践者にとって、一連のガイドラインで締めくくります。 私たちのコードはhttps://github.com/dritter-bht/synthnet-transfer-learningで利用可能です。

In this paper, we systematically analyze unsupervised domain adaptation pipelines for object classification in a challenging industrial setting. In contrast to standard natural object benchmarks existing in the field, our results highlight the most important design choices when only category-labeled CAD models are available but classification needs to be done with real-world images. Our domain adaptation pipeline achieves SoTA performance on the VisDA benchmark, but more importantly, drastically improves recognition performance on our new open industrial dataset comprised of 102 mechanical parts. We conclude with a set of guidelines that are relevant for practitioners needing to apply state-of-the-art unsupervised domain adaptation in practice. Our code is available at https://github.com/dritter-bht/synthnet-transfer-learning.
翻訳日:2023-10-12 15:46:53 公開日:2023-10-07
# Android Phoneとタブレット間のペアワイズGUIデータセット構築

Pairwise GUI Dataset Construction Between Android Phones and Tablets ( http://arxiv.org/abs/2310.04755v1 )

ライセンス: Link先を確認
Han Hu, Haolan Zhan, Yujin Huang, Di Liu(参考訳) 現在の普及型スマートフォンやタブレットでは、アプリは両プラットフォームにまたがって頻繁に存在する。 アプリは、ほとんどのグラフィックユーザーインターフェース(GUI)と、携帯電話やタブレットで機能を共有しているが、開発者はタブレットバージョンのためにスクラッチから再構築し、コストを増大させ、既存のデザインリソースを浪費することが多い。 研究者はデータを収集し、開発者の生産性を高めるために、自動gui開発にディープラーニングを採用しようとしている。 現在、携帯電話向けに公開されているGUIページデータセットはいくつかあるが、携帯電話とタブレット間のGUIのペアは存在しない。 これは、GUI自動開発におけるディープラーニングの活用に大きな障壁となる。 本稿では,Android端末とタブレット向けに開発されたペアワイズGUIデータセットであるPaptデータセットを紹介し,5,593個のユニークなアプリペアをソースとする10,035個の電話テーブルGUIページペアを包含する。 本稿では、このデータセットを構築するための新しいペアワイズGUIコレクション手法を提案し、その利点をこの分野で現在普及しているデータセットよりも明確にする。 本データセットの予備実験を通じて,GUI自動開発におけるディープラーニング活用の課題を分析した。

In the current landscape of pervasive smartphones and tablets, apps frequently exist across both platforms. Although apps share most graphic user interfaces (GUIs) and functionalities across phones and tablets, developers often rebuild from scratch for tablet versions, escalating costs and squandering existing design resources. Researchers are attempting to collect data and employ deep learning in automated GUIs development to enhance developers' productivity. There are currently several publicly accessible GUI page datasets for phones, but none for pairwise GUIs between phones and tablets. This poses a significant barrier to the employment of deep learning in automated GUI development. In this paper, we introduce the Papt dataset, a pioneering pairwise GUI dataset tailored for Android phones and tablets, encompassing 10,035 phone-tablet GUI page pairs sourced from 5,593 unique app pairs. We propose novel pairwise GUI collection approaches for constructing this dataset and delineate its advantages over currently prevailing datasets in the field. Through preliminary experiments on this dataset, we analyze the present challenges of utilizing deep learning in automated GUI development.
翻訳日:2023-10-12 15:46:40 公開日:2023-10-07
# エンドツーエンド手話翻訳のための新しいデータセット:ギリシャ小学校のデータセット

A New Dataset for End-to-End Sign Language Translation: The Greek Elementary School Dataset ( http://arxiv.org/abs/2310.04753v1 )

ライセンス: Link先を確認
Andreas Voskou, Konstantinos P. Panousis, Harris Partaourides, Kyriakos Tolias and Sotirios Chatzis(参考訳) 自動手話翻訳(automatic sign language translation, slt)は、社会に大きな影響を与える研究道である。 エンド・トゥ・エンドSLTは、聴覚障害者とハード・オブ・ヘアリング(HoH)の相互作用を促進し、社会生活と社会生活への参加機会を改善する。 しかし、この枠組みにおける研究はまだ初期段階にあり、現在の資源は特に限られている。 既存のSLT手法は翻訳能力の低いか、制限された語彙と疑わしい実世界の値のデータセットで訓練され評価される。 特徴的な例としてphoenix2014tベンチマークデータセットがあり、ドイツの手話での天気予報のみをカバーする。 この資源不足に対処するために,ギリシャ語手話ビデオ翻訳ペア29653点を新たに収集し,ギリシャ語小学校の公式シラバスに基づく。 私たちのデータセットは幅広い対象をカバーしています。 このデータセットを用いて,slt研究で広く用いられている最新の変圧器に基づく手法を学習する。 本研究は,ユーザビリティと実世界の価値のバランスを保ちながら,SLT研究を進展させるデータセットの可能性を示すものである。

Automatic Sign Language Translation (SLT) is a research avenue of great societal impact. End-to-End SLT facilitates the interaction of Hard-of-Hearing (HoH) with hearing people, thus improving their social life and opportunities for participation in social life. However, research within this frame of reference is still in its infancy, and current resources are particularly limited. Existing SLT methods are either of low translation ability or are trained and evaluated on datasets of restricted vocabulary and questionable real-world value. A characteristic example is Phoenix2014T benchmark dataset, which only covers weather forecasts in German Sign Language. To address this shortage of resources, we introduce a newly constructed collection of 29653 Greek Sign Language video-translation pairs which is based on the official syllabus of Greek Elementary School. Our dataset covers a wide range of subjects. We use this novel dataset to train recent state-of-the-art Transformer-based methods widely used in SLT research. Our results demonstrate the potential of our introduced dataset to advance SLT research by offering a favourable balance between usability and real-world value.
翻訳日:2023-10-12 15:46:23 公開日:2023-10-07
# chat vector: llmに新しい言語チャット機能を備えるためのシンプルなアプローチ

Chat Vector: A Simple Approach to Equip LLMs With New Language Chat Capabilities ( http://arxiv.org/abs/2310.04799v1 )

ライセンス: Link先を確認
Shih-Cheng Huang, Pin-Zu Li, Yu-Chi Hsu, Kuang-Ming Chen, Yu Tung Lin, Shih-Kai Hsiao, Richard Tzong-Han Tsai, Hung-yi Lee(参考訳) ChatGPTのような会話型AIの進歩により、非英語言語のための大規模言語モデル(LLM)の開発、特に人間の嗜好との整合性を強調することに焦点を当てた。 本研究では,従来の学習パラダイムを,継続事前訓練から継続事前訓練+チャットベクトルへ再構成し,従来の学習パラダイムを再構築する,チャットベクトルを利用した計算効率の高い手法を提案する。 従来の中国語に主に焦点をあてた実験研究では、llama2を基本モデルとし、llama2-chatの重みから事前訓練された重み(llama2)を減算することでチャットベクトルを取得する。 有毒性, 指導能力, マルチターン対話の3つの相違点から評価することにより, チャットベクトルのチャットにおける有効性を示す。 提案手法の適応性を確認するために,韓国語と簡体中国語の両方で事前学習したモデルを含む実験を拡張し,方法論の汎用性を示す。 全体として、チャットベクトルによって達成された様々な言語において、LLMと人間の嗜好を効率的に整合させるための重要な解を提案する。

With the advancements in conversational AI, such as ChatGPT, this paper focuses on exploring developing Large Language Models (LLMs) for non-English languages, especially emphasizing alignment with human preferences. We introduce a computationally efficient method, leveraging chat vector, to synergize pre-existing knowledge and behaviors in LLMs, restructuring the conventional training paradigm from continual pre-train -> SFT -> RLHF to continual pre-train + chat vector. Our empirical studies, primarily focused on Traditional Chinese, employ LLaMA2 as the base model and acquire the chat vector by subtracting the pre-trained weights, LLaMA2, from the weights of LLaMA2-chat. Evaluating from three distinct facets, which are toxicity, ability of instruction following, and multi-turn dialogue demonstrates the chat vector's superior efficacy in chatting. To confirm the adaptability of our approach, we extend our experiments to include models pre-trained in both Korean and Simplified Chinese, illustrating the versatility of our methodology. Overall, we present a significant solution in aligning LLMs with human preferences efficiently across various languages, accomplished by the chat vector.
翻訳日:2023-10-12 15:38:06 公開日:2023-10-07
# サブゲームカリキュラム学習によるゼロサムゲームにおけるマルチエージェント強化学習の高速化

Accelerate Multi-Agent Reinforcement Learning in Zero-Sum Games with Subgame Curriculum Learning ( http://arxiv.org/abs/2310.04796v1 )

ライセンス: Link先を確認
Jiayu Chen, Zelai Xu, Yunfei Li, Chao Yu, Jiaming Song, Huazhong Yang, Fei Fang, Yu Wang, Yi Wu(参考訳) 多エージェント強化学習(MARL)を用いた複雑なゼロサムゲームにおけるナッシュ均衡(NE)の学習は,計算コストが極めて高い。 カリキュラム学習は学習を加速する効果的な方法であるが、カリキュラムを生成するための未探索の次元は、特定の状態から始めることで引き起こされるサブゲームの難易度である。 本稿では,ゼロサムゲームのための新しいサブゲームカリキュラム学習フレームワークを提案する。 エージェントを以前訪問したいくつかの状態にリセットすることで適応的な初期状態分布を採用し、素早くパフォーマンスを改善することができる。 この枠組みに基づいて,二乗距離からne値に近似したサブゲーム選択メトリックを導出し,さらにサブゲーム生成のための粒子ベースの状態サンプリング器を採用する。 これらのテクニックを統合することで,サブゲームカリキュラム学習フレームワークの実現を目指す,新たなアルゴリズムであるサブゲーム自動カリキュラム学習(sacl)が実現される。 SACLはMAPPOのような任意のMARLアルゴリズムと組み合わせることができる。 粒子世界の環境とGoogle Research Football環境の実験では、SACLはベースラインよりもはるかに強力なポリシーを生み出している。 挑戦的な隠れて見る四角い環境では、saclは4つの創発的なステージを全て生成し、mappoのサンプルの半分だけをセルフプレイで使用する。 プロジェクトのwebサイトはhttps://sites.google.com/view/sacl-rlにある。

Learning Nash equilibrium (NE) in complex zero-sum games with multi-agent reinforcement learning (MARL) can be extremely computationally expensive. Curriculum learning is an effective way to accelerate learning, but an under-explored dimension for generating a curriculum is the difficulty-to-learn of the subgames -- games induced by starting from a specific state. In this work, we present a novel subgame curriculum learning framework for zero-sum games. It adopts an adaptive initial state distribution by resetting agents to some previously visited states where they can quickly learn to improve performance. Building upon this framework, we derive a subgame selection metric that approximates the squared distance to NE values and further adopt a particle-based state sampler for subgame generation. Integrating these techniques leads to our new algorithm, Subgame Automatic Curriculum Learning (SACL), which is a realization of the subgame curriculum learning framework. SACL can be combined with any MARL algorithm such as MAPPO. Experiments in the particle-world environment and Google Research Football environment show SACL produces much stronger policies than baselines. In the challenging hide-and-seek quadrant environment, SACL produces all four emergent stages and uses only half the samples of MAPPO with self-play. The project website is at https://sites.google.com/view/sacl-rl.
翻訳日:2023-10-12 15:37:44 公開日:2023-10-07
# FinGPT:財務データセットにおけるオープンソースの大規模言語モデルのインストラクションチューニングベンチマーク

FinGPT: Instruction Tuning Benchmark for Open-Source Large Language Models in Financial Datasets ( http://arxiv.org/abs/2310.04793v1 )

ライセンス: Link先を確認
Neng Wang, Hongyang Yang, Christina Dan Wang(参考訳) 自然言語処理(NLP)分野が急速に拡大する中で、金融セクターにおけるGPTベースのモデルの可能性はますます明白になっている。 しかしながら、これらのモデルと財務データセットの統合は、特にその妥当性と妥当性を決定する上で、課題を提起する。 本稿では、特に財務状況に適応したオープンソースの大規模言語モデルに対して、インストラクションチューニングパラダイムに固有のアプローチを導入する。 この方法論を通じて、我々はオープンソースのモデルの相互運用性を活かし、シームレスで透過的な統合を保証する。 まず、インストラクションチューニングのパラダイムを説明し、即時統合の有効性を強調します。 本稿では,エンドツーエンドのトレーニングとテストのためのベンチマーク手法を提案する。 まず,名前付きエンティティ認識(NER)や感情分析などの基本的な能力と基本的なタスクを評価し,専門性を高める。 次に、汎用性を調べるために全ての命令チューニングを融合してマルチタスク操作を実行する包括的モデルについて検討する。 最後に,目立たないタスクを認識してゼロショット機能を探索し,未開の地形における適応性を理解するための新しいデータセットを組み込んだ。 このようなパラダイムはオープン性と再現性の原則を立証し、オープンソースの金融大言語モデル(FinLLMs)における将来の調査の基盤となる。

In the swiftly expanding domain of Natural Language Processing (NLP), the potential of GPT-based models for the financial sector is increasingly evident. However, the integration of these models with financial datasets presents challenges, notably in determining their adeptness and relevance. This paper introduces a distinctive approach anchored in the Instruction Tuning paradigm for open-source large language models, specifically adapted for financial contexts. Through this methodology, we capitalize on the interoperability of open-source models, ensuring a seamless and transparent integration. We begin by explaining the Instruction Tuning paradigm, highlighting its effectiveness for immediate integration. The paper presents a benchmarking scheme designed for end-to-end training and testing, employing a cost-effective progression. Firstly, we assess basic competencies and fundamental tasks, such as Named Entity Recognition (NER) and sentiment analysis to enhance specialization. Next, we delve into a comprehensive model, executing multi-task operations by amalgamating all instructional tunings to examine versatility. Finally, we explore the zero-shot capabilities by earmarking unseen tasks and incorporating novel datasets to understand adaptability in uncharted terrains. Such a paradigm fortifies the principles of openness and reproducibility, laying a robust foundation for future investigations in open-source financial large language models (FinLLMs).
翻訳日:2023-10-12 15:37:22 公開日:2023-10-07
# ターゲット話者抽出のための条件拡散モデル

Conditional Diffusion Model for Target Speaker Extraction ( http://arxiv.org/abs/2310.04791v1 )

ライセンス: Link先を確認
Theodor Nguyen, Guangzhi Sun, Xianrui Zheng, Chao Zhang, Philip C Woodland(参考訳) 確率微分方程式によるスコアベース生成モデルに基づく生成対象話者抽出法であるDiffSpExを提案する。 DiffSpExは、複雑な短時間フーリエ変換領域において、ターゲット話者源から始まり、ソースの混合を中心とするガウス分布に収束する連続的確率拡散過程をデプロイする。 逆時間処理では、ターゲットスピーカ埋め込み上にパラメータスコア関数を条件付けして、ターゲットスピーカをソースの混合から抽出する。 ECAPA-TDNNターゲット話者埋め込みとスコア関数をSDE時間埋め込みとターゲット話者埋め込みに交互に適用する。 DiffSpExのポテンシャルはWSJ0-2mixデータセットで示され、SI-SDRは12.9dB、NISQAスコアは3.56である。 さらに、訓練済みのDiffSpExモデルを特定の話者に微調整することで、さらに性能が向上し、ターゲット話者抽出におけるパーソナライズが可能となることを示す。

We propose DiffSpEx, a generative target speaker extraction method based on score-based generative modelling through stochastic differential equations. DiffSpEx deploys a continuous-time stochastic diffusion process in the complex short-time Fourier transform domain, starting from the target speaker source and converging to a Gaussian distribution centred on the mixture of sources. For the reverse-time process, a parametrised score function is conditioned on a target speaker embedding to extract the target speaker from the mixture of sources. We utilise ECAPA-TDNN target speaker embeddings and condition the score function alternately on the SDE time embedding and the target speaker embedding. The potential of DiffSpEx is demonstrated with the WSJ0-2mix dataset, achieving an SI-SDR of 12.9 dB and a NISQA score of 3.56. Moreover, we show that fine-tuning a pre-trained DiffSpEx model to a specific speaker further improves performance, enabling personalisation in target speaker extraction.
翻訳日:2023-10-12 15:36:59 公開日:2023-10-07
# HNS:時間的部分微分方程式を解くための効率的なエルマイトニューラルネットワーク

HNS: An Efficient Hermite Neural Solver for Solving Time-Fractional Partial Differential Equations ( http://arxiv.org/abs/2310.04789v1 )

ライセンス: Link先を確認
Jie Hou, Zhiying Ma, Shihui Ying and Ying Li(参考訳) ニューラルネットワークソルバは、深層学習技術を利用して時間分割偏微分方程式に取り組むための革新的で有望なアプローチである。 L1補間近似は、ニューラルネットワークソルバ内の時間-屈折微分に対処する標準的な方法である。 しかし,l1補間近似に基づくニューラルネットワークソルバは,ニューラルネットワークの利点を十分に活用できず,それらのモデルの精度は補間誤差に制約されていることがわかった。 本稿では,時間-屈折偏微分方程式を解くための高精度エルマイトニューラルソルバー(HNS)を提案する。 具体的には,Hermite補間法による分数導関数の高次明示近似法を構築し,その近似精度を厳密に解析する。 その後、深部ニューラルネットワークの無限微分可能特性を考慮して、高次ヘルミット補間明示近似スキームを深部ニューラルネットワークと統合し、HNSを提案する。 実験結果から,HNSは前向きおよび逆問題および高次元シナリオにおけるL1スキームに基づく手法よりも高い精度を実現することが示された。 このことは、HNSが既存のL1法と比較して精度と柔軟性を著しく改善し、関数値補間に制約されるような明示的な有限差分近似法の限界を克服したことを示している。 その結果、HNSは数値計算法とニューラルネットワークの単純な組み合わせではなく、両方のアプローチの利点を補完的かつ相互に強化する。 データとコードは \url{https://github.com/hsbhc/HNS} で見ることができる。

Neural network solvers represent an innovative and promising approach for tackling time-fractional partial differential equations by utilizing deep learning techniques. L1 interpolation approximation serves as the standard method for addressing time-fractional derivatives within neural network solvers. However, we have discovered that neural network solvers based on L1 interpolation approximation are unable to fully exploit the benefits of neural networks, and the accuracy of these models is constrained to interpolation errors. In this paper, we present the high-precision Hermite Neural Solver (HNS) for solving time-fractional partial differential equations. Specifically, we first construct a high-order explicit approximation scheme for fractional derivatives using Hermite interpolation techniques, and rigorously analyze its approximation accuracy. Afterward, taking into account the infinitely differentiable properties of deep neural networks, we integrate the high-order Hermite interpolation explicit approximation scheme with deep neural networks to propose the HNS. The experimental results show that HNS achieves higher accuracy than methods based on the L1 scheme for both forward and inverse problems, as well as in high-dimensional scenarios. This indicates that HNS has significantly improved accuracy and flexibility compared to existing L1-based methods, and has overcome the limitations of explicit finite difference approximation methods that are often constrained to function value interpolation. As a result, the HNS is not a simple combination of numerical computing methods and neural networks, but rather achieves a complementary and mutually reinforcing advantages of both approaches. The data and code can be found at \url{https://github.com/hsbhc/HNS}.
翻訳日:2023-10-12 15:36:42 公開日:2023-10-07
# PMNN:時間差分方程式を解くための物理モデル駆動ニューラルネットワーク

PMNN:Physical Model-driven Neural Network for solving time-fractional differential equations ( http://arxiv.org/abs/2310.04788v1 )

ライセンス: Link先を確認
Zhiying Ma, Jie Hou, Wenhao Zhu, Yaxin Peng and Ying Li(参考訳) 本稿では,時間差分方程式の解法として,革新的物理モデル駆動ニューラルネットワーク(PMNN)を提案する。 これは、ディープニューラルネットワーク(DNN)と分数微分の補間近似を効果的に組み合わせた物理モデル駆動ニューラルネットワークに基づく時間的反復スキームを確立する。 具体的には、分数微分作用素が離散化されると、DNNは補間近似と微分方程式を統合するブリッジとして使用される。 この積分に基づいて、我々はニューラルベース反復スキームを構築する。 その後、この時間反復スキームを学ぶためにDNNを訓練することにより、微分方程式の近似解を得ることができる。 提案手法は,方程式内の固有物理情報を可能な限り保存することを目的としている。 分数微分方程式の差分スキームの効率を維持しつつ、ニューラルネットワークの強力な適合能力を完全に活用する。 さらに,いくつかの数値実験によりPMNNの有効性と精度を検証した。

In this paper, an innovative Physical Model-driven Neural Network (PMNN) method is proposed to solve time-fractional differential equations. It establishes a temporal iteration scheme based on physical model-driven neural networks which effectively combines deep neural networks (DNNs) with interpolation approximation of fractional derivatives. Specifically, once the fractional differential operator is discretized, DNNs are employed as a bridge to integrate interpolation approximation techniques with differential equations. On the basis of this integration, we construct a neural-based iteration scheme. Subsequently, by training DNNs to learn this temporal iteration scheme, approximate solutions to the differential equations can be obtained. The proposed method aims to preserve the intrinsic physical information within the equations as far as possible. It fully utilizes the powerful fitting capability of neural networks while maintaining the efficiency of the difference schemes for fractional differential equations. Moreover, we validate the efficiency and accuracy of PMNN through several numerical experiments.
翻訳日:2023-10-12 15:36:16 公開日:2023-10-07
# HI-SLAM:ハイブリッドインピーダンス場を用いた単眼リアルタイム高密度マッピング

HI-SLAM: Monocular Real-time Dense Mapping with Hybrid Implicit Fields ( http://arxiv.org/abs/2310.04787v1 )

ライセンス: Link先を確認
Wei Zhang, Tiecheng Sun, Sen Wang, Qing Cheng, Norbert Haala(参考訳) 本稿では,高精度かつ高密度な同時局所化マッピング(SLAM)のための,ニューラルネットワークに基づくリアルタイムモノクルマッピングフレームワークを提案する。 最近のニューラルマッピングフレームワークは有望な結果を示しているが、RGB-Dやポーズ入力に依存している。 これらの制限に対処するため、我々は高密度SLAMとニューラル暗黙の場を統合する。 具体的には、我々の高密度SLAMアプローチは並列トラッキングとグローバル最適化を実行し、ニューラルフィールドベースのマップは最新のSLAM推定に基づいて漸進的に構築される。 ニューラルネットワークの効率的な構築には、マルチレゾリューショングリッド符号化と符号付き距離関数(SDF)表現を用いる。 これにより、マップを常に最新に保つことができ、ループを閉じてグローバルな更新に即時に適応できます。 グローバルな整合性を実現するため,オンラインループのクローズドとスケールドリフトの緩和のために,効率的なSim(3)ベースのポーズグラフバンドル調整(PGBA)手法を提案する。 さらに奥行き精度を高めるため,学習した単眼深度優先法を組み込んだ。 本研究では, 深度事前に固有のスケールのあいまいさを解決するために, 新たなJDSAモジュールを提案する。 合成および実世界のデータセット全体にわたる広範囲な評価により、我々のアプローチは、リアルタイムのパフォーマンスを維持しながら、既存の手法よりも精度が高く、完全性をマップする。

In this letter, we present a neural field-based real-time monocular mapping framework for accurate and dense Simultaneous Localization and Mapping (SLAM). Recent neural mapping frameworks show promising results, but rely on RGB-D or pose inputs, or cannot run in real-time. To address these limitations, our approach integrates dense-SLAM with neural implicit fields. Specifically, our dense SLAM approach runs parallel tracking and global optimization, while a neural field-based map is constructed incrementally based on the latest SLAM estimates. For the efficient construction of neural fields, we employ multi-resolution grid encoding and signed distance function (SDF) representation. This allows us to keep the map always up-to-date and adapt instantly to global updates via loop closing. For global consistency, we propose an efficient Sim(3)-based pose graph bundle adjustment (PGBA) approach to run online loop closing and mitigate the pose and scale drift. To enhance depth accuracy further, we incorporate learned monocular depth priors. We propose a novel joint depth and scale adjustment (JDSA) module to solve the scale ambiguity inherent in depth priors. Extensive evaluations across synthetic and real-world datasets validate that our approach outperforms existing methods in accuracy and map completeness while preserving real-time performance.
翻訳日:2023-10-12 15:36:02 公開日:2023-10-07
# 不確実性を考慮したインコンテキスト学習による大規模言語モデルの信頼性向上

Improving the Reliability of Large Language Models by Leveraging Uncertainty-Aware In-Context Learning ( http://arxiv.org/abs/2310.04782v1 )

ライセンス: Link先を確認
Yuchen Yang, Houqiang Li, Yanfeng Wang and Yu Wang(参考訳) 近年、大規模言語モデル(llm)は、その印象的なテキスト生成機能で注目を集めている。 しかし、これらのモデルは、信頼性を損なう「幻覚」の課題に直面することが多い。 本研究では,不確実性に応答してモデルが出力を増強あるいは拒否することを可能にする,不確実性を考慮したコンテキスト内学習フレームワークを提案する。 人間の定義した不確実性を推定する手法は、一般に「不確かさはモデルの反応が正しいときよりも低い」と仮定する。 しかし、正確さを区別するために正確な閾値を設定することは困難である。 そこで,モデル行動に暗黙的に影響を及ぼす中間変数として不確実性情報を導入する。 我々の革新的な不確実性を考慮したインコンテキスト学習フレームワークは、キャリブレーションデータセットを使用してLLMを微調整する。 本研究の目的は,モデルの知識制限を考慮しつつ,不確実性の高い回答をフィルタリングすることで,モデルの応答を改善することである。 我々は,同じ質問に対する複数の応答を正解の有無で検証することにより,モデルの知識を評価する。 モデルに関連する知識がない場合、応答は質問に答えられないことを示すべきである。 逆に、モデルが関連する知識を持っている場合、応答は正しい答えを提供するべきである。 大規模な実験により,本フレームワークの有効性が確認された。 まず、LLMのロジット出力値は、固有の不確実性を部分的に反映する。 第2に,モデルが不確実性を自律的に認識することで,応答性が向上する。

In recent years, large-scale language models (LLMs) have gained attention for their impressive text generation capabilities. However, these models often face the challenge of "hallucination," which undermines their reliability. In this study, we introduce an uncertainty-aware in-context learning framework to empower the model to enhance or reject its output in response to uncertainty. Human-defined methods for estimating uncertainty typically assume that "uncertainty is lower when the model's response is correct compared to when it is incorrect." However, setting a precise threshold to distinguish correctness is challenging. Therefore, we introduce uncertainty information as an intermediary variable that implicitly influences the model's behavior. Our innovative uncertainty-aware in-context learning framework involves fine-tuning the LLM using a calibration dataset. Our aim is to improve the model's responses by filtering out answers with high uncertainty while considering the model's knowledge limitations. We evaluate the model's knowledge by examining multiple responses to the same question for the presence of a correct answer. When the model lacks relevant knowledge, the response should indicate that the question cannot be answered. Conversely, when the model has relevant knowledge, the response should provide the correct answer. Extensive experiments confirm the effectiveness of our framework, leading to two key findings. First, the logit output values of the LLM partly reflect inherent uncertainty. Second, our model autonomously recognizes uncertainty, resulting in improved responses.
翻訳日:2023-10-12 15:35:38 公開日:2023-10-07
# 量子スイッチによる絶対分離性破壊

Breaking absolute separability with quantum switch ( http://arxiv.org/abs/2310.04819v1 )

ライセンス: Link先を確認
Sravani Yanamandra, P V Srinidhi, Samyadeb Bhattacharya, Indranil Chakrabarty, Suchetana Goswami(参考訳) 絶対分離可能な(as)量子状態は、大域的なユニタリ操作の下でも絡み合うことができない状態である。 非絶対分離性の資源理論から、絶対分離状態の集合が凸かつコンパクトな集合を形成し、大域的ユニタリが自由操作であることが知られている。 グローバルユニタリ上のアンシラキュービットによって制御される量子スイッチの動作は、as状態の強固さを壊し、通常の分離可能な状態を生成することができる。 まず、二部量子ビット系を考察し、絶対分離状態の集合の境界上にある状態から始まる量子スイッチの効果を見出す。 特に、修正ワーナー状態とベル対角 (BD) 状態に何が起こるかを説明する。 ベル対角状態に対しては、AS BD状態の集合の構造を提供し、スイッチの影響下で構造がどのように変化するかを示す。 さらに,大域ユニタリ操作の数値的一般化を考察し,スイッチング操作下での凸集合から状態を取り出すことは常に可能であることを示す。 結果も高次元で一般化した。

Absolute separable (AS) quantum states are those states from which it is impossible to create entanglement, even under global unitary operations. It is known from the resource theory of non-absolute separability that the set of absolute separable states forms a convex and compact set, and global unitaries are free operations. We show that the action of a quantum switch controlled by an ancilla qubit over the global unitaries can break this robustness of AS states and produce ordinary separable states. First, we consider bipartite qubit systems and find the effect of quantum switch starting from the states sitting on the boundary of the set of absolute separable states. As particular examples, we illustrate what happens to modified Werner states and Bell diagonal (BD) states. For the Bell diagonal states, we provide the structure for the set of AS BD states and show how the structure changes under the influence of a switch. Further, we consider numerical generalisation of the global unitary operations and show that it is always possible to take AS states out of the convex set under switching operations. We also generalised our results in higher dimensions.
翻訳日:2023-10-12 15:30:13 公開日:2023-10-07
# 異なるネットワーク曲げで生成モデルをハックする

Hacking Generative Models with Differentiable Network Bending ( http://arxiv.org/abs/2310.04816v1 )

ライセンス: Link先を確認
Giacomo Aldegheri, Alina Rogalska, Ahmed Youssef, Eugenia Iofinova(参考訳) 本研究では,生成モデルの「ハッキング」を行い,その出力を元のトレーニング分布から新たな目標へと押し下げる手法を提案する。 モデルの中間層の間に小さなトレーニング可能なモジュールを注入し、少量のイテレーションのためにトレーニングし、残りのネットワークを凍結させます。 得られた出力画像は、芸術的な目的のために活用できるオリジナルと新しい目的の間の緊張によって与えられる不気味な品質を示す。

In this work, we propose a method to 'hack' generative models, pushing their outputs away from the original training distribution towards a new objective. We inject a small-scale trainable module between the intermediate layers of the model and train it for a low number of iterations, keeping the rest of the network frozen. The resulting output images display an uncanny quality, given by the tension between the original and new objectives that can be exploited for artistic purposes.
翻訳日:2023-10-12 15:29:52 公開日:2023-10-07
# 大規模言語モデルの批判的能力

Critique Ability of Large Language Models ( http://arxiv.org/abs/2310.04815v1 )

ライセンス: Link先を確認
Liangchen Luo, Zi Lin, Yinxiao Liu, Lei Shu, Yun Zhu, Jingbo Shang, Lei Meng(参考訳) 批判的思考は合理的な意思決定と問題解決に不可欠である。 このスキルは、正確で合理的な批評を提供する能力に基づいており、人間の知性の目印となっている。 大規模言語モデル (LLM) の時代において, LLM が様々なタスクに対して正確な批評を行う能力について検討した。 我々は,有能な批評家モデルとして,信頼性の高い評価者としてだけでなく,モデルチューニングのための教師付き信号の源として,この話題に興味を持っている。 特に、モデルが自己批判できるなら、自律的な自己改善の可能性がある。 そこで本研究では,LLMの批判的能力を評価するための統一評価フレームワークを提案する。 我々は,高品質な自然言語クエリと対応するモデル応答からなるCriticBenchというベンチマークを開発し,これらの応答の正しさを注釈する。 ベンチマークは数学の問題解決、コード補完、質問応答などのタスクをカバーする。 収集したデータセット上で複数のLCMを評価し,分析によりいくつかの注目すべき洞察が得られた。(1)批判は概してほとんどのLCMにとって困難であり,この能力はモデルが十分に大きい場合にのみ現れる。 2)特に自己批判は困難である。 トップパフォーマンスのLLMでさえ、満足なパフォーマンスを達成するのに苦労しています。 (3)モデルが最も不確実な問題に対する批判的精度が低い傾向にある。 この目的のために,本研究では,自己批判を利用して各種モデルのタスク性能を向上させる,シンプルで効果的な自己チェックというベースラインを導入する。 本研究は, LLMの批判的能力を理解するための最初の研究であり, より熟練した批評家モデルの開発, 様々なタスクに対する批判の応用など, 今後の研究に資することを目的としている。

Critical thinking is essential for rational decision-making and problem-solving. This skill hinges on the ability to provide precise and reasoned critiques and is a hallmark of human intelligence. In the era of large language models (LLMs), this study explores the ability of LLMs to deliver accurate critiques across various tasks. We are interested in this topic as a capable critic model could not only serve as a reliable evaluator, but also as a source of supervised signals for model tuning. Particularly, if a model can self-critique, it has the potential for autonomous self-improvement. To examine this, we introduce a unified evaluation framework for assessing the critique abilities of LLMs. We develop a benchmark called CriticBench, which comprises 3K high-quality natural language queries and corresponding model responses; and annotate the correctness of these responses. The benchmark cover tasks such as math problem-solving, code completion, and question answering. We evaluate multiple LLMs on the collected dataset and our analysis reveals several noteworthy insights: (1) Critique is generally challenging for most LLMs, and this capability often emerges only when models are sufficiently large. (2) In particular, self-critique is especially difficult. Even top-performing LLMs struggle to achieve satisfactory performance. (3) Models tend to have lower critique accuracy on problems where they are most uncertain. To this end, we introduce a simple yet effective baseline named self-check, which leverages self-critique to improve task performance for various models. We hope this study serves as an initial exploration into understanding the critique abilities of LLMs, and aims to inform future research, including the development of more proficient critic models and the application of critiques across diverse tasks.
翻訳日:2023-10-12 15:29:45 公開日:2023-10-07
# リトルストーン次元のクエリ学習と圧縮への応用

Applications of Littlestone dimension to query learning and to compression ( http://arxiv.org/abs/2310.04812v1 )

ライセンス: Link先を確認
Hunter Chase and James Freitag and Lev Reyzin(参考訳) 本稿では,リトルストーン次元の応用について述べる。 ひとつは \cite{angluin2017power} のモデルで、ランダムな反例を持つ同値クエリによる学習結果を拡張します。 第二に、このモデルを無作為性のある無限の概念クラスに拡張する。 第三に、Littlestone 次元と拡張 $d$-圧縮スキームを持つクラスとの関係に関する改善された結果を与え、Littlestone 次元に対するcite{floyd 1995sample} の予想の強いバージョンを証明した。

In this paper we give several applications of Littlestone dimension. The first is to the model of \cite{angluin2017power}, where we extend their results for learning by equivalence queries with random counterexamples. Second, we extend that model to infinite concept classes with an additional source of randomness. Third, we give improved results on the relationship of Littlestone dimension to classes with extended $d$-compression schemes, proving a strong version of a conjecture of \cite{floyd1995sample} for Littlestone dimension.
翻訳日:2023-10-12 15:29:17 公開日:2023-10-07
# エンベロープ学習によるFMトーン伝達

FM Tone Transfer with Envelope Learning ( http://arxiv.org/abs/2310.04811v1 )

ライセンス: Link先を確認
Franco Caspe, Andrew McPherson and Mark Sandler(参考訳) Tone Transfer(トーン・トランスファー)は、音源とシンセサイザーを相互作用させ、音楽の形式を保ちながら音の音色を変換する新しい深層学習技術である。 良質なオーディオ品質と連続的な制御性のため、最近いくつかのオーディオ処理ツールに適用されている。 それでも、音の多様性の低さや、過渡的かつダイナミックなレンダリングにまつわるいくつかの欠点が残っており、リアルタイムなパフォーマンス環境での調音やフレーズ化の可能性を妨げていると我々は信じている。 本稿では,楽器を用いた合成音声制御の課題として,現在のトーントランスファーアーキテクチャについて論じ,表現的な演奏を可能にする上での課題について論じる。 次に,合成パラメータレベルでの学習目標を用いて音楽イベントをマップする新しい音素伝達アーキテクチャの設計法であるエンベロープ学習を提案する。 本手法は,音符の開始と終了を正確に,様々な音に対して表現することが可能であり,音調伝達による音楽の調音性,フラージング,音の多様性を改善する上で不可欠なステップである。 最後に、リアルタイムライブ使用のためのVSTプラグインを実装し、改善の可能性について議論する。

Tone Transfer is a novel deep-learning technique for interfacing a sound source with a synthesizer, transforming the timbre of audio excerpts while keeping their musical form content. Due to its good audio quality results and continuous controllability, it has been recently applied in several audio processing tools. Nevertheless, it still presents several shortcomings related to poor sound diversity, and limited transient and dynamic rendering, which we believe hinder its possibilities of articulation and phrasing in a real-time performance context. In this work, we present a discussion on current Tone Transfer architectures for the task of controlling synthetic audio with musical instruments and discuss their challenges in allowing expressive performances. Next, we introduce Envelope Learning, a novel method for designing Tone Transfer architectures that map musical events using a training objective at the synthesis parameter level. Our technique can render note beginnings and endings accurately and for a variety of sounds; these are essential steps for improving musical articulation, phrasing, and sound diversity with Tone Transfer. Finally, we implement a VST plugin for real-time live use and discuss possibilities for improvement.
翻訳日:2023-10-12 15:29:06 公開日:2023-10-07
# UPerNetとConvNeXtを組み合わせたコントラル同定による地球温暖化低減

Combining UPerNet and ConvNeXt for Contrails Identification to reduce Global Warming ( http://arxiv.org/abs/2310.04808v1 )

ライセンス: Link先を確認
Zhenkuan Wang(参考訳) セマンティックセグメンテーションはコンピュータビジョンにおいて重要なツールであり、自律運転や医療画像などの様々な領域に適用されている。 本研究では,NOAA GOES-16衛星画像のための革新的なデータ前処理技術を開発し,赤外線チャンネルからの輝度温度データを用いて偽色画像を作成し,モデル知覚を向上させる。 モデルの選択は、mmsegmentationライブラリを使用して実装されたupernetアーキテクチャに基づいており、パフォーマンスを改善するために2つのconvnext構成を統合する。 正のクラス重みを持つクロスエントロピー損失は、反則認識を高める。 ファインチューニングはAdamWオプティマイザを使用し、学習レートは2.5 \times 10^{-4}$である。 推測中、多モデル予測融合戦略と反則判定しきい値0.75は二値予測マスクを生成する。 RLEエンコーディングは、効率的な予測結果の組織化に使われ、この手法は、高いDice係数スコアを誇示し、参加チームの上位56%に配置する、例外的な結果を達成する。 これはセグメンテーションモデルの革新的な性質と、衛星画像におけるコントラティル認識の強化の可能性を強調している。さらなる調査のために、コードとモデルはgithubで入手できる。

Semantic segmentation is a critical tool in computer vision, applied in various domains like autonomous driving and medical imaging. This study focuses on aircraft contrail detection in global satellite images to improve contrail models and mitigate their impact on climate change.An innovative data preprocessing technique for NOAA GOES-16 satellite images is developed, using brightness temperature data from the infrared channel to create false-color images, enhancing model perception. To tackle class imbalance, the training dataset exclusively includes images with positive contrail labels.The model selection is based on the UPerNet architecture, implemented using the MMsegmentation library, with the integration of two ConvNeXt configurations for improved performance. Cross-entropy loss with positive class weights enhances contrail recognition. Fine-tuning employs the AdamW optimizer with a learning rate of $2.5 \times 10^{-4}$.During inference, a multi-model prediction fusion strategy and a contrail determination threshold of 0.75 yield a binary prediction mask. RLE encoding is used for efficient prediction result organization.The approach achieves exceptional results, boasting a high Dice coefficient score, placing it in the top 5\% of participating teams. This underscores the innovative nature of the segmentation model and its potential for enhanced contrail recognition in satellite imagery.For further exploration, the code and models are available on GitHub: \url{https://github.com/biluko/2023GRIC.git}.
翻訳日:2023-10-12 15:28:46 公開日:2023-10-07
# 消費者生成メディアにおける利用者の位置依存的戦略

User's Position-Dependent Strategies in Consumer-Generated Media with Monetary Rewards ( http://arxiv.org/abs/2310.04805v1 )

ライセンス: Link先を確認
Shintaro Ueki, Fujio Toriumi and Toshiharu Sugawara(参考訳) SNS (Social Network Services) など多くの消費者生成メディア (CGM) が広く利用されている。 彼らの成功は、しばしば他のユーザーの反応からの認識やつながりのような心理的報酬によって引き起こされる、ユーザの自発的な参加に依存している。 さらに、いくつかのCGMプラットフォームは、ユーザーに対して金銭的な報酬を提供し、記事、画像、ビデオなどのアイテムを共有するインセンティブを提供する。 しかし、ユーザーは金銭的な報酬や心理的な報酬を好み、金銭的な報酬がユーザーの行動や投稿するコンテンツの品質に与える影響は未だ不明である。 そこで我々は,CGMの抽象化であるSNS-normsゲームに,いくつかの金銭報酬スキームを統合するモデルを提案する。 次に,個々のエージェント (ユーザ) に対する各報酬制度の効果について検討し,特に, cgmネットワークにおけるエージェントの位置に応じて, 投稿項目の確率と品質について検討した。 実験結果から,これらの因子は投稿数と品質に明らかに影響を及ぼすことが示唆された。 当社の調査結果は、CGMのプラットフォームがより優れた金融報酬制度を設計する上で有効であると信じている。

Numerous forms of consumer-generated media (CGM), such as social networking services (SNS), are widely used. Their success relies on users' voluntary participation, often driven by psychological rewards like recognition and connection from reactions by other users. Furthermore, a few CGM platforms offer monetary rewards to users, serving as incentives for sharing items such as articles, images, and videos. However, users have varying preferences for monetary and psychological rewards, and the impact of monetary rewards on user behaviors and the quality of the content they post remains unclear. Hence, we propose a model that integrates some monetary reward schemes into the SNS-norms game, which is an abstraction of CGM. Subsequently, we investigate the effect of each monetary reward scheme on individual agents (users), particularly in terms of their proactivity in posting items and their quality, depending on agents' positions in a CGM network. Our experimental results suggest that these factors distinctly affect the number of postings and their quality. We believe that our findings will help CGM platformers in designing better monetary reward schemes.
翻訳日:2023-10-12 15:28:20 公開日:2023-10-07
# 産業推薦システムにおける10の課題

Ten Challenges in Industrial Recommender Systems ( http://arxiv.org/abs/2310.04804v1 )

ライセンス: Link先を確認
Zhenhua Dong, Jieming Zhu, Weiwen Liu, Ruiming Tang(参考訳) Huaweiのビジョンとミッションは、完全に接続されたインテリジェントな世界を構築することです。 2013年以降、Huawei NoahのArk Labは、多くの製品が適切な情報を適切なユーザーに提供するためのレコメンデーターシステムや検索エンジンを構築してきた。 毎日、私たちのリコメンダシステムは何十億もの携帯電話ユーザーにサービスを提供し、アプリ、ニュースフィード、曲、ビデオ、本、テーマ、インスタントサービスといったさまざまな種類のコンテンツやサービスを推奨しています。 ビッグデータとさまざまなシナリオは、高度なレコメンデーション技術を開発する素晴らしい機会を提供します。 さらに,過去10年間,協調フィルタリングや線形モデル,低ランクモデル,ニューラルネットワークなどの深層モデル,事前学習された言語モデルといった,浅くシンプルなモデルから,レコメンデーションモデルの技術的トレンドを目撃してきた。 ミッション、機会、技術動向に基づいて、推奨システムではいくつかの困難な問題に直面しています。 この講演では、重要な10の課題と興味深い課題を共有し、RecSysコミュニティにインスピレーションを得て、より良いレコメンデーションシステムを作ることを期待します。

Huawei's vision and mission is to build a fully connected intelligent world. Since 2013, Huawei Noah's Ark Lab has helped many products build recommender systems and search engines for getting the right information to the right users. Every day, our recommender systems serve hundreds of millions of mobile phone users and recommend different kinds of content and services such as apps, news feeds, songs, videos, books, themes, and instant services. The big data and various scenarios provide us with great opportunities to develop advanced recommendation technologies. Furthermore, we have witnessed the technical trend of recommendation models in the past ten years, from the shallow and simple models like collaborative filtering, linear models, low rank models to deep and complex models like neural networks, pre-trained language models. Based on the mission, opportunities and technological trends, we have also met several hard problems in our recommender systems. In this talk, we will share ten important and interesting challenges and hope that the RecSys community can get inspired and create better recommender systems.
翻訳日:2023-10-12 15:27:48 公開日:2023-10-07
# パラメータ化コンテキスト:連続テーブル意味解析のためのパラメータ効率の良い微調整とコンテキスト内チューニングのパワーを解き放つ

Parameterizing Context: Unleashing the Power of Parameter-Efficient Fine-Tuning and In-Context Tuning for Continual Table Semantic Parsing ( http://arxiv.org/abs/2310.04801v1 )

ライセンス: Link先を確認
Yongrui Chen, Shenyu Zhang, Guilin Qi, Xinnan Guo(参考訳) 連続的なテーブルセマンティックパーシングは、タスクのシーケンスでパーサをトレーニングすることを目的としており、各タスクはタスク固有のテーブルに基づいて自然言語をSQLに変換するパーサを必要とするが、限られたトレーニング例のみを提供する。 従来の手法は、パラメータ更新による破滅的な忘れるだけでなく、限定的な監督によって過度に適合しがちである。 半教師なしデータの増大と過去の例の維持によって、これらの問題を部分的に緩和する最近の進歩にもかかわらず、その性能は教師なしデータの量や保存された例によって制限されている。 これらの課題を克服するため,本稿では,連続テーブル意味パーサを学習するための新しい手法である \textit{parameter- efficient fine-tuning} (peft) と \textit{in-context tuning} (ict) を提案する。 まず,学習済みのモデルバックボーンと微調整小型プロンプトを凍結することにより,破滅的忘れを回避できるタスク適応型PEFTフレームワークを提案する。 これに基づいて,教師が学習するフレームワークベースのソリューションを提案する。 教師はICTを用いて、いくつかのトレーニング例を示すことで、文脈情報を取得する。 次に、生徒は提案されているpeftフレームワークを利用して教師の出力分布から学び、プロンプトにコンテキスト情報を圧縮保存し、トレーニング例を格納する必要がないようにする。 2つのベンチマークによる実験結果から,本手法が様々な指標において有意な数ショットおよび連続学習ベースラインよりも優れていることが示された。

Continual table semantic parsing aims to train a parser on a sequence of tasks, where each task requires the parser to translate natural language into SQL based on task-specific tables but only offers limited training examples. Conventional methods tend to suffer from overfitting with limited supervision, as well as catastrophic forgetting due to parameter updates. Despite recent advancements that partially alleviate these issues through semi-supervised data augmentation and retention of a few past examples, the performance is still limited by the volume of unsupervised data and stored examples. To overcome these challenges, this paper introduces a novel method integrating \textit{parameter-efficient fine-tuning} (PEFT) and \textit{in-context tuning} (ICT) for training a continual table semantic parser. Initially, we present a task-adaptive PEFT framework capable of fully circumventing catastrophic forgetting, which is achieved by freezing the pre-trained model backbone and fine-tuning small-scale prompts. Building on this, we propose a teacher-student framework-based solution. The teacher addresses the few-shot problem using ICT, which procures contextual information by demonstrating a few training examples. In turn, the student leverages the proposed PEFT framework to learn from the teacher's output distribution, and subsequently compresses and saves the contextual information to the prompts, eliminating the need to store any training examples. Experimental evaluations on two benchmarks affirm the superiority of our method over prevalent few-shot and continual learning baselines across various metrics.
翻訳日:2023-10-12 15:26:59 公開日:2023-10-07
# レンジエキスパートとマルチモーダル仮想点を用いた完全スパース長距離3次元物体検出

Fully Sparse Long Range 3D Object Detection Using Range Experts and Multimodal Virtual Points ( http://arxiv.org/abs/2310.04800v1 )

ライセンス: Link先を確認
Ajinkya Khoche, Laura Pereira S\'anchez, Nazre Batool, Sina Sharif Mansouri, Patric Jensfelt(参考訳) 長距離での3d物体検出は、自動運転車の安全性と効率の確保に不可欠であり、遠くから物体、障害物、潜在的な危険を正確に認識し、対応することができる。 しかし、現在最先端のLiDARベースの手法のほとんどは、射程センサーの間隔によって制限されている。 もう1つの関連する問題は、遠方の物体に対するラベルの不均衡であり、長距離でのディープニューラルネットワークのパフォーマンスを阻害する。 画像特徴は長距離検出に有益であり、最近提案された複数のマルチモーダル手法では画像特徴が組み込まれているが、それらは長距離で十分な計算能力を持たず、奥行き推定精度で制限されている。 上記の制約に対処するために,2つのLiDARベースの3D検出ネットワークと,近距離物体と遠距離物体とを組み合わせることを提案する。 希少なラベル環境下で長距離で検出器を訓練するために、ego車両からのラベル付き物体の距離に応じて損失を測定することを提案する。 lidarのスパーシティ問題を緩和するために、画像ベースの深度補完アルゴリズムであるmultimodal virtual points(mvp)を利用して、仮想ポイントでデータを豊かにします。 MVPでトレーニングされた2つの範囲の専門家を組み合わせることで、Argoverse2(AV2)データセット上で最先端のパフォーマンスを実現し、長距離で改善する。 コードはまもなくリリースされる。

3D object detection at long-range is crucial for ensuring the safety and efficiency of self-driving cars, allowing them to accurately perceive and react to objects, obstacles, and potential hazards from a distance. But most current state-of-the-art LiDAR based methods are limited by the sparsity of range sensors, which generates a form of domain gap between points closer to and farther away from the ego vehicle. Another related problem is the label imbalance for faraway objects, which inhibits the performance of Deep Neural Networks at long-range. Although image features could be beneficial for long-range detections, and some recently proposed multimodal methods incorporate image features, they do not scale well computationally at long ranges or are limited by depth estimation accuracy. To address the above limitations, we propose to combine two LiDAR based 3D detection networks, one specializing at near to mid-range objects, and one at long-range 3D detection. To train a detector at long range under a scarce label regime, we further propose to weigh the loss according to the labelled objects' distance from ego vehicle. To mitigate the LiDAR sparsity issue, we leverage Multimodal Virtual Points (MVP), an image based depth completion algorithm, to enrich our data with virtual points. Our method, combining two range experts trained with MVP, which we refer to as RangeFSD, achieves state-of-the-art performance on the Argoverse2 (AV2) dataset, with improvements at long range. The code will be released soon.
翻訳日:2023-10-12 15:26:01 公開日:2023-10-07
# HyperSINDy:非線形確率支配方程式の深部生成モデル

HyperSINDy: Deep Generative Modeling of Nonlinear Stochastic Governing Equations ( http://arxiv.org/abs/2310.04832v1 )

ライセンス: Link先を確認
Mozes Jacobs, Bingni W. Brunton, Steven L. Brunton, J. Nathan Kutz, Ryan V. Raut(参考訳) データから微分方程式を統治する発見は、機械学習におけるオープンフロンティアである。 sparse identification of nonlinear dynamics (sindy) \citep{brunton_discovering_2016} frameworkは、スパースで決定論的な規則によって解釈可能なモデルのデータ駆動による発見を可能にする。 近年の研究では、このアプローチを確率的な設定に適応させようとしているが、これらの適応は次元性の呪いによって著しく妨げられている。 一方,ベイズ法に触発された深層学習法は,計算効率のよい近似推論手法による高次元確率モデリングにおいて広く成功し,効率的な確率方程式発見にこれらの手法を用いることを示唆している。 本稿では,データからパラメトリック形式が発見されたスパース制御方程式の深部生成モデルを用いて確率力学をモデル化するフレームワークHyperSINDyを紹介する。 ハイパーシンディは観測された状態と微分の分布を近似するために変分エンコーダを用いる。 ハイパーネットワーク \citep{ha_hypernetworks_2016} はこの分布からサンプルを、訓練可能なバイナリマスク \citep{louizos_learning_2018} を用いてスパース形式を同時に学習する微分方程式の係数に変換する。 一度訓練すると、HyperSINDyは、係数がガウスホワイトノイズによって駆動される微分方程式を通じて確率力学を生成する。 実験では、HyperSINDyは、データと一致するように学習された確率性スケーリングを用いて、基底真理確率支配方程式を正確に復元する。 最後に、HyperSINDyは高次元システムにスケールする不確実な定量化を提供する。 HyperSINDyは、現実世界のシステムにおけるモデル発見と不確実性定量化のための有望なフレームワークを提供し、スパース方程式発見手法と統計機械学習と深層生成モデリングの進歩を統合する。

The discovery of governing differential equations from data is an open frontier in machine learning. The sparse identification of nonlinear dynamics (SINDy) \citep{brunton_discovering_2016} framework enables data-driven discovery of interpretable models in the form of sparse, deterministic governing laws. Recent works have sought to adapt this approach to the stochastic setting, though these adaptations are severely hampered by the curse of dimensionality. On the other hand, Bayesian-inspired deep learning methods have achieved widespread success in high-dimensional probabilistic modeling via computationally efficient approximate inference techniques, suggesting the use of these techniques for efficient stochastic equation discovery. Here, we introduce HyperSINDy, a framework for modeling stochastic dynamics via a deep generative model of sparse governing equations whose parametric form is discovered from data. HyperSINDy employs a variational encoder to approximate the distribution of observed states and derivatives. A hypernetwork \citep{ha_hypernetworks_2016} transforms samples from this distribution into the coefficients of a differential equation whose sparse form is learned simultaneously using a trainable binary mask \citep{louizos_learning_2018}. Once trained, HyperSINDy generates stochastic dynamics via a differential equation whose coefficients are driven by a Gaussian white noise. In experiments, HyperSINDy accurately recovers ground truth stochastic governing equations, with learned stochasticity scaling to match that of the data. Finally, HyperSINDy provides uncertainty quantification that scales to high-dimensional systems. Taken together, HyperSINDy offers a promising framework for model discovery and uncertainty quantification in real-world systems, integrating sparse equation discovery methods with advances in statistical machine learning and deep generative modeling.
翻訳日:2023-10-12 15:17:25 公開日:2023-10-07
# 連続可変量子鍵分散システム : レビューと展望

Continuous-variable quantum key distribution system: A review and perspective ( http://arxiv.org/abs/2310.04831v1 )

ライセンス: Link先を確認
Yichen Zhang, Yiming Bian, Zhengyu Li, Song Yu, and Hong Guo(参考訳) 量子鍵分布は、量子力学の原理によって保証される情報理論のセキュリティを備えたセキュアキーを提供する。 コヒーレント状態を用いた量子鍵分布の連続変数バージョンは、商用レーザーやホモダイン検出器を用いた通信業界との互換性の利点を提供する。 本稿では,コヒーレント状態に基づくプロトコルに着目した連続可変量子鍵分散システムの原理について述べる。 まず、これらのプロトコルの理論的プロトコルと現在のセキュリティ状態をレビューする。 そこで本研究では,システム構造,キーモジュール,メインストリームシステム実装について論じる。 デジタル技術,チップシステム,ポイント・ツー・マルチポイントシステムなど,今後の応用の進歩について論じる。 最後に,システムの実用的安全性について論じ,今後の研究分野の展望をまとめる。

Quantum key distribution provides secure keys with information-theoretic security ensured by the principle of quantum mechanics. The continuous-variable version of quantum key distribution using coherent states offers the advantages of its compatibility with telecom industry, e.g., using commercial laser and homodyne detector, is now going through a booming period. In this review article, we describe the principle of continuous-variable quantum key distribution system, focus on protocols based on coherent states, whose systems are gradually moving from proof-of-principle lab demonstrations to in-field implementations and technological prototypes. We start by reviewing the theoretical protocols and the current security status of these protocols. Then, we discuss the system structure, the key module, and the mainstream system implementations. The advanced progress for future applications are discussed, including the digital techniques, system on chip and point-to-multipoint system. Finally, we discuss the practical security of the system and conclude with promising perspectives in this research field.
翻訳日:2023-10-12 15:16:55 公開日:2023-10-07
# ビデオストリームの抽出変換ロード

Extract-Transform-Load for Video Streams ( http://arxiv.org/abs/2310.04830v1 )

ライセンス: Link先を確認
Ferdinand Kossmann, Ziniu Wu, Eugenie Lai, Nesime Tatbul, Lei Cao, Tim Kraska, Samuel Madden(参考訳) ソーシャルメディア、自動運転車、交通カメラは、ビデオストリームを大規模かつ安価に生成する。 しかし、そのような規模での動画の保存とクエリは、非常に高価である。 我々は,大規模ビデオ分析をデータウェアハウス問題として扱うことを提案する。 ビデオは生成が容易だが,クエリが容易なアプリケーション固有のフォーマットに変換する必要がある。 同様に,ビデオ抽出変換ロード(v-etl)の問題を定義する。 V-ETLシステムは、ユーザが定義したV-ETLジョブを実行するコストを削減すると同時に、データが生成される速度に追従するスループットを保証する必要がある。 両ニーズを十分に満たすシステムは存在しないため,V-ETLに合わせたSkyscraperを提案する。 skyscraperは任意のビデオ取り込みパイプラインを実行し、コンテンツのサンプリングレートや解像度を調整することによって、品質の低下を最小限に抑えるように適応的に調整することができる。 そこでSkyscraperは、安価なオンプレミス計算でプロビジョニングでき、バッファリングとクラウドバーストを組み合わせて、高価な処理構成によるワークロードのピークに対応する。 実験では,現在のSOTAシステムと比較して,SkyscraperはV-ETLの摂取コストを大幅に削減すると同時に,これらのシステムが欠如していることを保証する。

Social media, self-driving cars, and traffic cameras produce video streams at large scales and cheap cost. However, storing and querying video at such scales is prohibitively expensive. We propose to treat large-scale video analytics as a data warehousing problem: Video is a format that is easy to produce but needs to be transformed into an application-specific format that is easy to query. Analogously, we define the problem of Video Extract-Transform-Load (V-ETL). V-ETL systems need to reduce the cost of running a user-defined V-ETL job while also giving throughput guarantees to keep up with the rate at which data is produced. We find that no current system sufficiently fulfills both needs and therefore propose Skyscraper, a system tailored to V-ETL. Skyscraper can execute arbitrary video ingestion pipelines and adaptively tunes them to reduce cost at minimal or no quality degradation, e.g., by adjusting sampling rates and resolutions to the ingested content. Skyscraper can hereby be provisioned with cheap on-premises compute and uses a combination of buffering and cloud bursting to deal with peaks in workload caused by expensive processing configurations. In our experiments, we find that Skyscraper significantly reduces the cost of V-ETL ingestion compared to adaptions of current SOTA systems, while at the same time giving robustness guarantees that these systems are lacking.
翻訳日:2023-10-12 15:16:42 公開日:2023-10-07
# 高速R-CNN物体検出器のアンサンブルを効果的に訓練する方法

How to effectively train an ensemble of Faster R-CNN object detectors to quantify uncertainty ( http://arxiv.org/abs/2310.04829v1 )

ライセンス: Link先を確認
Denis Mbey Akola, Gianni Franchi(参考訳) 本稿では,2段階の物体検出アンサンブルモデル,具体的にはr-cnnモデルを用いて不確かさを推定する新しい手法を提案する。 我々は1つのリージョン提案ネットワーク(RPN)~\cite{https://doi.org/10.48550/arxiv.1506.01497} をトレーニングし、複数の高速R-CNN予測ヘッドは、オブジェクト検出の不確かさを推定するための堅牢なディープアンサンブルネットワークを構築する必要がある。 我々は、このアプローチを提示し、このアプローチがアンサンブルで全ての$n$モデルを完全にトレーニングするナイーブな方法よりもはるかに高速であることを示す実験を提供する。 また,このアンサンブルモデルの予測校正誤差(ECE)を測定し,不確実性を推定する。 さらに,このモデルの性能を,予測境界ボックス座標を用いた不確かさをモデル化した YOLOv3 の変種である Gaussian YOLOv3 と比較する。 ソースコードは \url{https://github.com/Akola-Mbey-Denis/EfficientEnsemble} で公開されている。

This paper presents a new approach for training two-stage object detection ensemble models, more specifically, Faster R-CNN models to estimate uncertainty. We propose training one Region Proposal Network(RPN)~\cite{https://doi.org/10.48550/arxiv.1506.01497} and multiple Fast R-CNN prediction heads is all you need to build a robust deep ensemble network for estimating uncertainty in object detection. We present this approach and provide experiments to show that this approach is much faster than the naive method of fully training all $n$ models in an ensemble. We also estimate the uncertainty by measuring this ensemble model's Expected Calibration Error (ECE). We then further compare the performance of this model with that of Gaussian YOLOv3, a variant of YOLOv3 that models uncertainty using predicted bounding box coordinates. The source code is released at \url{https://github.com/Akola-Mbey-Denis/EfficientEnsemble}
翻訳日:2023-10-12 15:16:20 公開日:2023-10-07
# 多人数追跡法の比較研究

Comparative study of multi-person tracking methods ( http://arxiv.org/abs/2310.04825v1 )

ライセンス: Link先を確認
Denis Mbey Akola(参考訳) 本稿では,MOTチャレンジのリーダーボード(The MOTChallenge web page: https://motchallenge.net.com)にランクインした2つの追跡アルゴリズム(SORT~\cite{7533003} と Tracktor++~\cite{2019} )について述べる。 本研究の目的は,mot追跡アルゴリズムの性能を向上させるための追跡パイプラインにおいて,使用される手法を発見し,それらのアルゴリズムに関する有用な洞察を提供することである。 この目的のために,一般的なトラッキング・バイ・検出手法を採用した。 私たちはMOT17Detデータセット(MOT17Det: https://motchallenge.net/data/MOT17Det/ )を使用して、独自の歩行者検出モデルをトレーニングしました。 また、Tracktor++でMOT17データセット(MOT17 : https://motchallenge.net/data/MOT17/ )でトレーニングされた再識別モデルを使用して、誤識別アラームを低減しました。 次に,トラクタ++がSORTよりも優れたマルチパーソントラッキングアルゴリズムであることを示す実験結果を示す。 また,Tracktor++の結果に対するre-identification(RE-ID)ネットワークと動作の寄与を明らかにするためにアブレーション研究を行った。 最後に、将来の研究のためにいくつかの勧告を提供することで締めくくります。

This paper presents a study of two tracking algorithms (SORT~\cite{7533003} and Tracktor++~\cite{2019}) that were ranked first positions on the MOT Challenge leaderboard (The MOTChallenge web page: https://motchallenge.net ). The purpose of this study is to discover the techniques used and to provide useful insights about these algorithms in the tracking pipeline that could improve the performance of MOT tracking algorithms. To this end, we adopted the popular tracking-by-detection approach. We trained our own Pedestrian Detection model using the MOT17Det dataset (MOT17Det : https://motchallenge.net/data/MOT17Det/ ). We also used a re-identification model trained on MOT17 dataset (MOT17 : https://motchallenge.net/data/MOT17/ ) for Tracktor++ to reduce the false re-identification alarms. We then present experimental results which shows that Tracktor++ is a better multi-person tracking algorithm than SORT. We also performed ablation studies to discover the contribution of re-identification(RE-ID) network and motion to the results of Tracktor++. We finally conclude by providing some recommendations for future research.
翻訳日:2023-10-12 15:15:57 公開日:2023-10-07
# 論文執筆における機械支援報告用PaperCard

PaperCard for Reporting Machine Assistance in Academic Writing ( http://arxiv.org/abs/2310.04824v1 )

ライセンス: Link先を確認
Won Ik Cho, Eunjung Cho, Kyunghyun Cho(参考訳) 学術的な執筆プロセスは、検索エンジン、自動翻訳装置、文法や綴りミスをレビューする編集ツールなど、長年にわたる様々な技術的発展の恩恵を受けている。 例えば、関連する文学をより効果的に見つけ、テキストを磨くのを手助けすることで、人間の作家が学術論文を書く際により効率的になる。 これらの開発は、これまでは比較的補助的な役割を担ってきたが、近年の大規模言語モデル(LLM)の進歩により、LLMは研究課題の策定や重要な内容の生成など、執筆プロセスにおいてより重要な役割を担った。 これは学術における著者概念に関する批判的な疑問を提起する。 2022年11月にOpenAIが発表した質問応答システムChatGPTは,学術論文作成に活用可能な,さまざまな機能を実証した。 学術コミュニティは、人工知能(AI)が執筆プロセスに多大な貢献をした場合、著作者に対して有益であるべきかどうか、あるいは人間の著作者が損なわれないようにその使用を制限すべきかどうかなど、関連するプレス問題に対処する必要がある。 本稿では,このような疑問に対処し,人間の著者がaiを記述プロセスで透過的に使用することを宣言するための文書である「papercard」というフレームワークを提案する。

Academic writing process has benefited from various technological developments over the years including search engines, automatic translators, and editing tools that review grammar and spelling mistakes. They have enabled human writers to become more efficient in writing academic papers, for example by helping with finding relevant literature more effectively and polishing texts. While these developments have so far played a relatively assistive role, recent advances in large-scale language models (LLMs) have enabled LLMs to play a more major role in the writing process, such as coming up with research questions and generating key contents. This raises critical questions surrounding the concept of authorship in academia. ChatGPT, a question-answering system released by OpenAI in November 2022, has demonstrated a range of capabilities that could be utilised in producing academic papers. The academic community will have to address relevant pressing questions, including whether Artificial Intelligence (AI) should be merited authorship if it made significant contributions in the writing process, or whether its use should be restricted such that human authorship would not be undermined. In this paper, we aim to address such questions, and propose a framework we name "PaperCard", a documentation for human authors to transparently declare the use of AI in their writing process.
翻訳日:2023-10-12 15:15:31 公開日:2023-10-07
# lipex --ローカルに解釈可能な確率論的説明 -- が真のクラスを越えて見る

LIPEx -- Locally Interpretable Probabilistic Explanations -- To Look Beyond The True Class ( http://arxiv.org/abs/2310.04856v1 )

ライセンス: Link先を確認
Hongbo Zhu, Angelo Cangelosi, Procheta Sen and Anirbit Mukherjee(参考訳) 本研究では,新しい摂動に基づく多クラス説明フレームワーク LIPEx (Locally Interpretable Probabilistic Explanation) をインスタンス化する。 我々は、LIPExが広く使われている複雑な分類モデルによって出力される確率分布を局所的に複製するだけでなく、全ての特徴がどのクラスに対して重要と考えられるかの知見を提供する。 確率分布の空間におけるヘルリンガー距離に対する回帰によって得られる行列として説明を定義することでこれを実現できる。 テキストと画像データに対するアブレーションテストは、LIPExがデータから重要な特徴を取り除いたことにより、他の唾液量ベースや特徴重要度ベースのXAIメソッドと同様のテストよりも、基礎モデルに対する予測がより大きく変化することを示している。 また、LIMEと比較して、LIPExは説明の信頼性評価に必要な摂動数の観点から、はるかにデータ効率が高いことが示されている。

In this work, we instantiate a novel perturbation-based multi-class explanation framework, LIPEx (Locally Interpretable Probabilistic Explanation). We demonstrate that LIPEx not only locally replicates the probability distributions output by the widely used complex classification models but also provides insight into how every feature deemed to be important affects the prediction probability for each of the possible classes. We achieve this by defining the explanation as a matrix obtained via regression with respect to the Hellinger distance in the space of probability distributions. Ablation tests on text and image data, show that LIPEx-guided removal of important features from the data causes more change in predictions for the underlying model than similar tests on other saliency-based or feature importance-based XAI methods. It is also shown that compared to LIME, LIPEx is much more data efficient in terms of the number of perturbations needed for reliable evaluation of the explanation.
翻訳日:2023-10-12 15:08:49 公開日:2023-10-07
# Epsilon non-Greedy:Bandit Approach for Unbiased Recommendation via Uniform Data (特集:情報ネットワーク)

Epsilon non-Greedy: A Bandit Approach for Unbiased Recommendation via Uniform Data ( http://arxiv.org/abs/2310.04855v1 )

ライセンス: Link先を確認
S.M.F. Sani, Seyed Abbas Hosseini, Hamid R. Rabiee(参考訳) 多くの場合、レコメンデーションシステムは継続的トレーニングを採用しており、システムが以前のレコメンデーションに偏る自己フィードバックループバイアスにつながる。 近年の研究は、少量の偏りのないデータを収集することで、このバイアスを緩和しようと試みている。 これらの研究はバイアスの少ないモデルの開発に成功したが、モデルによって生成されたレコメンデーションがその後のトレーニングセッションのトレーニングデータとなるという重要な事実を無視している。 この問題に対処するために,少量の収集データを用いて偏りのない推定子を学習し,その後のトレーニングイテレーションで改良されたトレーニングデータを生成することに焦点を当てたフレームワークを提案する。 これを実現するために,レコメンデーションを文脈的マルチアームバンディット問題として捉え,モデルが限定的な理解を持っている項目の探索に重点を置く。 我々は,レコメンデーションシステムにおける実世界の継続的トレーニングシナリオをシミュレートするオフラインシーケンシャルトレーニングスキーマを新たに導入し,自己フィードバックバイアスを研究するためのより適切なフレームワークを提供する。 提案するトレーニングスキーマを用いた広範囲な実験を行い,最先端のデバイアス手法よりも優れたモデルを示す。

Often, recommendation systems employ continuous training, leading to a self-feedback loop bias in which the system becomes biased toward its previous recommendations. Recent studies have attempted to mitigate this bias by collecting small amounts of unbiased data. While these studies have successfully developed less biased models, they ignore the crucial fact that the recommendations generated by the model serve as the training data for subsequent training sessions. To address this issue, we propose a framework that learns an unbiased estimator using a small amount of uniformly collected data and focuses on generating improved training data for subsequent training iterations. To accomplish this, we view recommendation as a contextual multi-arm bandit problem and emphasize on exploring items that the model has a limited understanding of. We introduce a new offline sequential training schema that simulates real-world continuous training scenarios in recommendation systems, offering a more appropriate framework for studying self-feedback bias. We demonstrate the superiority of our model over state-of-the-art debiasing methods by conducting extensive experiments using the proposed training schema.
翻訳日:2023-10-12 15:08:31 公開日:2023-10-07
# ランダムウォークの撃退

Repelling Random Walks ( http://arxiv.org/abs/2310.04854v1 )

ライセンス: Link先を確認
Isaac Reid, Eli Berger, Krzysztof Choromanski, Adrian Weller(参考訳) 本稿では,ランダムウォークを回避し,グラフベースサンプリングを改善する擬似モンテカルロ機構を提案する。 相互作用するアンサンブルの軌道間の相関関係を、その境界遷移確率が変更されないように誘導することにより、より効率的にグラフを探索することができ、統計推定器の濃度を改善できる。 このメカニズムには簡単なドロップイン実装がある。 グラフカーネルの推定,ページランクベクトル,グラフレット濃度など,さまざまな設定でランダムウォークを撃退する効果を示す。 詳細な実験評価とロバストな理論保証を提供する。 我々の知る限り、ランダムウォークは、グラフ上のウォーカーの方向を関連づけた最初の厳密に研究された準モンテカルロスキームであり、このエキサイティングな新生領域における新たな研究を招いている。

We present a novel quasi-Monte Carlo mechanism to improve graph-based sampling, coined repelling random walks. By inducing correlations between the trajectories of an interacting ensemble such that their marginal transition probabilities are unmodified, we are able to explore the graph more efficiently, improving the concentration of statistical estimators whilst leaving them unbiased. The mechanism has a trivial drop-in implementation. We showcase the effectiveness of repelling random walks in a range of settings including estimation of graph kernels, the PageRank vector and graphlet concentrations. We provide detailed experimental evaluation and robust theoretical guarantees. To our knowledge, repelling random walks constitute the first rigorously studied quasi-Monte Carlo scheme correlating the directions of walkers on a graph, inviting new research in this exciting nascent domain.
翻訳日:2023-10-12 15:08:11 公開日:2023-10-07
# 社会的表現における実用性と認知コストのバランス

Balancing utility and cognitive cost in social representation ( http://arxiv.org/abs/2310.04852v1 )

ライセンス: Link先を確認
Max Taylor-Davies and Christopher G. Lucas(参考訳) その環境をうまくナビゲートするには、エージェントが遭遇する他のエージェントの表現を構築し維持する必要がある。 このような表現は多くのタスクで役に立ちますが、コストはかかりません。 結果として、エージェントは、環境内のエージェントについて、どれだけ情報を表現すべきかを決定する必要がある。 提案手法を例示タスクとして,下流ユーティリティと情報コストを最適に切り離すエージェント表現の探索を動機付け,資源制約付き社会表現の2つの例を示す。

To successfully navigate its environment, an agent must construct and maintain representations of the other agents that it encounters. Such representations are useful for many tasks, but they are not without cost. As a result, agents must make decisions regarding how much information they choose to represent about the agents in their environment. Using selective imitation as an example task, we motivate the problem of finding agent representations that optimally trade off between downstream utility and information cost, and illustrate two example approaches to resource-constrained social representation.
翻訳日:2023-10-12 15:07:55 公開日:2023-10-07
# 散逸多体系における固有時間結晶の実現

Realization of an inherent time crystal in a dissipative many-body system ( http://arxiv.org/abs/2310.04847v1 )

ライセンス: Link先を確認
Yu-Hui Chen and Xiangdong Zhang(参考訳) 時間結晶は、通常の結晶が宇宙で行うように、自発的に翻訳対称性を破る多体状態である。 実験により離散時間結晶や連続時間結晶の存在が確認されたが、これらの実現は周期力の利用やキャビティフィードバックによる効果的な変調に依存している。 時間結晶の元々の提案は、外部の周期性のない自己維持運動を表すが、そのような純粋に自己生成的な振る舞いは実現されていない。 ここでは、多体相互作用が固有の時間結晶相を引き起こすという理論的および実験的証拠を提供する。 励起4準位原子のアンサンブルが連続時間変換対称性を自発的に破ることを示す計算に続いて、エルビウムドープ固体の周期運動を観測する。 本実験により得られた固有時間結晶は多体相互作用により自己保護され, 個々のエルビウムイオンを超えるコヒーレンス時間を有する。

Time crystals are many-body states that spontaneously break translation symmetry in time the way that ordinary crystals do in space. While experimental observations have confirmed the existence of discrete or continuous time crystals, these realizations have relied on the utilization of periodic forces or effective modulation through cavity feedback. The original proposal for time crystals is that they would represent self-sustained motions without any external periodicity, but realizing such purely self-generated behavior has not yet been achieved. Here, we provide theoretical and experimental evidence that many-body interactions can give rise to an inherent time crystalline phase. Following a calculation that shows an ensemble of pumped four-level atoms can spontaneously break continuous time translation symmetry, we observe periodic motions in an erbium-doped solid. The inherent time crystal produced by our experiment is self-protected by many-body interactions and has a measured coherence time beyond that of individual erbium ions.
翻訳日:2023-10-12 15:07:46 公開日:2023-10-07
# 多面偽造検出における顔関係と特徴集約の活用

Exploiting Facial Relationships and Feature Aggregation for Multi-Face Forgery Detection ( http://arxiv.org/abs/2310.04845v1 )

ライセンス: Link先を確認
Chenhao Lin, Fangbin Yi, Hang Wang, Qian Li, Deng Jingyi, Chao Shen(参考訳) 顔偽造技術が最前線に現れており、この問題に対処するための多くの検出手法が提案されている。 しかし、既存の手法は主に単面操作検出に集中しており、より複雑で現実的な多面偽造の領域は比較的未開拓である。 本稿では,多面偽造検出のために明示的に調整された新しい枠組みを提案する。 フレームワークは主に2つのモジュールを含む。 (i)画像内の各顔に対して識別可能な局所特徴を生成する顔関係学習モジュール (ii)グローバル情報とローカル情報の相互制約を利用して偽造検出精度を高めるグローバル機能集約モジュール。公表された2つの多面偽造データセットにおける実験結果から,複数面偽造検出シナリオにおいて,提案手法が最先端の性能を達成できることが示されている。

Face forgery techniques have emerged as a forefront concern, and numerous detection approaches have been proposed to address this challenge. However, existing methods predominantly concentrate on single-face manipulation detection, leaving the more intricate and realistic realm of multi-face forgeries relatively unexplored. This paper proposes a novel framework explicitly tailored for multi-face forgery detection,filling a critical gap in the current research. The framework mainly involves two modules:(i) a facial relationships learning module, which generates distinguishable local features for each face within images,(ii) a global feature aggregation module that leverages the mutual constraints between global and local information to enhance forgery detection accuracy.Our experimental results on two publicly available multi-face forgery datasets demonstrate that the proposed approach achieves state-of-the-art performance in multi-face forgery detection scenarios.
翻訳日:2023-10-12 15:07:29 公開日:2023-10-07
# 適応モデル予測制御における部分線形後悔

Sub-linear Regret in Adaptive Model Predictive Control ( http://arxiv.org/abs/2310.04842v1 )

ライセンス: Link先を確認
Damianos Tranos and Alexandre Proutiere(参考訳) 本稿では,不確実な線形システムに対する適応型モデル予測制御(MPC)の問題点について考察する。 本稿では,STT-MPC(Self-Tuning tube-based Model Predictive Control)を提案する。 具体的には、任意のステップにおいて、STT-MPCはLSE(Last Squares Estimator)を用いてシステムの力学を推定し、これらの推定を用いてMPC問題を解くことで得られるコントローラを適用する。 ポリトープチューブの使用は、不確実性にもかかわらず、状態と入力の制約が満たされ、再帰的実現性と漸近安定性が保たれる。 本研究では,システム力学を最初に認識していたオラクルアルゴリズムと比較して,アルゴリズムの後悔を分析する。 STT-MPC の期待された後悔は $O(T^{1/2 + \epsilon})$ を超えないことを確立し、$\epsilon \in (0,1)$ はアルゴリズムの持続的励起成分をチューニングした設計パラメータである。 我々の結果は、最近提案された感度特性の指数関数的崩壊に依存しており、私たちの知る限りでは、この環境ではこの種のものとなる。 簡単な数値例を用いて,本アルゴリズムの性能について述べる。

We consider the problem of adaptive Model Predictive Control (MPC) for uncertain linear-systems with additive disturbances and with state and input constraints. We present STT-MPC (Self-Tuning Tube-based Model Predictive Control), an online algorithm that combines the certainty-equivalence principle and polytopic tubes. Specifically, at any given step, STT-MPC infers the system dynamics using the Least Squares Estimator (LSE), and applies a controller obtained by solving an MPC problem using these estimates. The use of polytopic tubes is so that, despite the uncertainties, state and input constraints are satisfied, and recursive-feasibility and asymptotic stability hold. In this work, we analyze the regret of the algorithm, when compared to an oracle algorithm initially aware of the system dynamics. We establish that the expected regret of STT-MPC does not exceed $O(T^{1/2 + \epsilon})$, where $\epsilon \in (0,1)$ is a design parameter tuning the persistent excitation component of the algorithm. Our result relies on a recently proposed exponential decay of sensitivity property and, to the best of our knowledge, is the first of its kind in this setting. We illustrate the performance of our algorithm using a simple numerical example.
翻訳日:2023-10-12 15:07:14 公開日:2023-10-07
# 量子マイクロ波によるセンシングと通信

Sensing and Communication with Quantum Microwaves ( http://arxiv.org/abs/2310.04838v1 )

ライセンス: Link先を確認
Mateo Casariego(参考訳) この論文は、量子マイクロ波の伝播分野における理論の基礎と実践的応用のリンクを確立する。 主な結果の具体的な焦点は特定の量子通信とセンシングプロトコルにあるが、この論文は量子パラメータ推定とガウス量子連続変数を自己完結的に導入し、使用した理論結果を正当化する。 Motivated, firstly, by the compatibility between superconducting circuits (a promising quantum computing platform), and the microwave frequency range; and, secondly, by the transparency window of the atmosphere to these frequencies, the work contains two concrete contributions to the fields of microwave quantum sensing and communication: a novel protocol that uses frequency entanglement to measure the first order dependence in frequency of the reflectivity of an object; and a large investigation on different aspects of entanglement degradation due to loss and atmospheric absorption in the context of continuous-variable entanglement distribution for the task of quantum teleportation in open-air. この論文は、最後の章として、量子マイクロ波技術の最先端をレビューし、地球ベースのステーションと衛星間の量子通信、量子レーダー、直接暗黒物質検出、宇宙マイクロ波背景の量子特性の探索を含む、異なる研究ラインを提案する記事を含んでいる。 このより投機的な、しかし厳密な章は、量子マイクロ波を伝播する分野における将来の研究ラインのロードマップと共に締めくくっている。

The thesis establishes a link between theoretical foundations and practical applications in the emerging field of propagating quantum microwaves. Although the concrete focus of the main results lies in specific quantum communication and sensing protocols, the thesis also gives a self-contained introduction to quantum parameter estimation and Gaussian quantum continuous variables, justifying the theoretical results used. Motivated, firstly, by the compatibility between superconducting circuits (a promising quantum computing platform), and the microwave frequency range; and, secondly, by the transparency window of the atmosphere to these frequencies, the work contains two concrete contributions to the fields of microwave quantum sensing and communication: a novel protocol that uses frequency entanglement to measure the first order dependence in frequency of the reflectivity of an object; and a large investigation on different aspects of entanglement degradation due to loss and atmospheric absorption in the context of continuous-variable entanglement distribution for the task of quantum teleportation in open-air. The dissertation includes, as a last chapter, an article that reviews the state-of-the-art in quantum microwave technology, and proposes different research lines, including quantum communication between Earth-based stations and satellites, quantum radar, direct dark matter detection, and exploration of the quantum properties of the cosmic microwave background. This more speculative, yet rigorous chapter closes with a roadmap for possible future research lines in the field of propagating quantum microwaves, that can serve as an outlook of the thesis.
翻訳日:2023-10-12 15:06:49 公開日:2023-10-07
# 自動車用単眼深度推定器のフェデレーション自己監督学習

Federated Self-Supervised Learning of Monocular Depth Estimators for Autonomous Vehicles ( http://arxiv.org/abs/2310.04837v1 )

ライセンス: Link先を確認
Elton F. de S. Soares and Carlos Alberto V. Campos(参考訳) 画像に基づく深度推定は、インテリジェント輸送システムにおける自動運転車のコンピュータビジョンに関する最近の研究で大きな注目を集めている。 この焦点はコスト効率と幅広い潜在的な応用に起因している。 2つの固定カメラを必要とする双眼深度推定法とは異なり、単眼深度推定法は単一のカメラのみに依存しており、非常に多用途である。 このタスクの最先端のアプローチでは、ポーズ推定やセマンティックセグメンテーションといったタスクとともに、ディープニューラルネットワークの自己教師付き学習を活用するが、自動運転車によってキャプチャーされたラベルなしおよびプライベートデータを使用してモデルをトレーニングするためのフェデレーション学習とセルフスーパービジョンの組み合わせは検討されていない。 フェデレーション学習の利用は、プライバシー保護の強化、ネットワーク消費の削減、接続上の問題に対するレジリエンスの改善など、顕著なメリットを提供する。 このギャップに対処するために,federated learning と deep self-supervision を組み合わせた新しい手法である fedscdepth を提案する。 KITTIデータセットのEigen's Splitを用いて行った評価実験により,提案手法は平均1.5kのトレーニングステップと最大0.415GBの重量データ転送を必要とする試験損失が0.13未満で,ほぼ最先端の性能を達成することが示された。

Image-based depth estimation has gained significant attention in recent research on computer vision for autonomous vehicles in intelligent transportation systems. This focus stems from its cost-effectiveness and wide range of potential applications. Unlike binocular depth estimation methods that require two fixed cameras, monocular depth estimation methods only rely on a single camera, making them highly versatile. While state-of-the-art approaches for this task leverage self-supervised learning of deep neural networks in conjunction with tasks like pose estimation and semantic segmentation, none of them have explored the combination of federated learning and self-supervision to train models using unlabeled and private data captured by autonomous vehicles. The utilization of federated learning offers notable benefits, including enhanced privacy protection, reduced network consumption, and improved resilience to connectivity issues. To address this gap, we propose FedSCDepth, a novel method that combines federated learning and deep self-supervision to enable the learning of monocular depth estimators with comparable effectiveness and superior efficiency compared to the current state-of-the-art methods. Our evaluation experiments conducted on Eigen's Split of the KITTI dataset demonstrate that our proposed method achieves near state-of-the-art performance, with a test loss below 0.13 and requiring, on average, only 1.5k training steps and up to 0.415 GB of weight data transfer per autonomous vehicle on each round.
翻訳日:2023-10-12 15:06:28 公開日:2023-10-07
# デュアルグラインド量子化:LLMのための高効率ファイングラインド量子化

Dual Grained Quantization: Efficient Fine-Grained Quantization for LLM ( http://arxiv.org/abs/2310.04836v1 )

ライセンス: Link先を確認
Luoming Zhang, Wen Fei, Weijia Wu, Yefei He, Zhenyu Lou, Hong Zhou(参考訳) 大規模言語モデル(llm)は、メモリ要求と計算能力に関する重要なハードウェア課題を提起する。 llms には、粗粒度 (\textit{e,}$ channel-wise) 量子化と細粒度 (\textit{e,}$ group-wise) 量子化の2つの主要な量子化スキームがある。 微粒化量子化は量子化損失が小さく、結果として優れた性能が得られる。 しかし、ウェイトアクティベーション量子化に適用すると、連続整数行列の乗法を妨害し、非効率な推論をもたらす。 本稿では、高速な推論速度を確保しつつ優れた性能を維持するLLMのための新しいA8W4量子化であるDual Grained Quantization (DGQ)を紹介する。 DSQ は INT4 重みを粗い INT8 表現と INT8 カーネルを用いたプリフォーム行列乗算に分解する。 さらに,細粒度および粗粒度量子化スケールの決定を簡略化する二相グリッド探索アルゴリズムを開発した。 また,複雑な最適化手法を必要とせずに,アクティベーションアウトレーヤをスムーズにするためのパーセンタイルクリッピングスキーマも考案した。 実験の結果、DGQ は様々な LLM アーキテクチャや幅広いタスクにおいて、先行手法よりも一貫して優れていた。 驚くべきことに、効率的なcutlassカーネルによって、a16w4実装と比較して$\textbf{1.12}$$$\times$メモリ削減と$\textbf{3.24}$$$$\times$速度向上を実現しています。 これらの進歩により、現実世界のアプリケーションにA8W4 LLMを効率的に展開できる。

Large Language Models (LLMs) pose significant hardware challenges related to memory requirements and computational ability. There are two mainstream quantization schemes for LLMs: coarse-grained ($\textit{e.g.,}$ channel-wise) quantization and fine-grained ($\textit{e.g.,}$ group-wise) quantization. Fine-grained quantization has smaller quantization loss, consequently achieving superior performance. However, when applied to weight-activation quantization, it disrupts continuous integer matrix multiplication, leading to inefficient inference. In this paper, we introduce Dual Grained Quantization (DGQ), a novel A8W4 quantization for LLM that maintains superior performance while ensuring fast inference speed. DSQ dequantizes the fine-grained INT4 weight into coarse-grained INT8 representation and preform matrix multiplication using INT8 kernels. Besides, we develop a two-phase grid search algorithm to simplify the determination of fine-grained and coarse-grained quantization scales. We also devise a percentile clipping schema for smoothing the activation outliers without the need for complex optimization techniques. Experimental results demonstrate that DGQ consistently outperforms prior methods across various LLM architectures and a wide range of tasks. Remarkably, by our implemented efficient CUTLASS kernel, we achieve $\textbf{1.12}$ $\times$ memory reduction and $\textbf{3.24}$ $\times$ speed gains comparing A16W4 implementation. These advancements enable efficient deployment of A8W4 LLMs for real-world applications.
翻訳日:2023-10-12 15:06:00 公開日:2023-10-07
# 心臓画像からの僧帽弁逆流自動検出のための機械学習

Machine Learning for Automated Mitral Regurgitation Detection from Cardiac Imaging ( http://arxiv.org/abs/2310.04871v1 )

ライセンス: Link先を確認
Ke Xiao, Erik Learned-Miller, Evangelos Kalogerakis, James Priest, Madalina Fiterau(参考訳) 僧帽弁閉鎖不全症(英語: Mitral regurgitation, MR)は、心臓弁疾患の一種で、時間的診断と治療によってのみ森林伐採が可能である。 従来の診断法は高価で, 労働集約的であり, 臨床専門知識を必要とする。この障害を克服するために, CUSSPと呼ばれるMR分類のための新しい半教師付きモデルを提案する。 cusspは、心臓の4つのシャンバービューの心臓イメージングスライスで動作する。 標準的なコンピュータビジョン技術と対照的なモデルを使用して、大量のラベルのないデータから学習し、特別な分類器と共に最初の自動化されたmr分類システムを確立する。 179のラベル付き -- 154の非mrと25のmr -- で評価され、cusspは0.69のf1スコアと0.88のroc-aucスコアを達成し、この新しいタスクの最初のベンチマーク結果を設定する。

Mitral regurgitation (MR) is a heart valve disease with potentially fatal consequences that can only be forestalled through timely diagnosis and treatment. Traditional diagnosis methods are expensive, labor-intensive and require clinical expertise, posing a barrier to screening for MR. To overcome this impediment, we propose a new semi-supervised model for MR classification called CUSSP. CUSSP operates on cardiac imaging slices of the 4-chamber view of the heart. It uses standard computer vision techniques and contrastive models to learn from large amounts of unlabeled data, in conjunction with specialized classifiers to establish the first ever automated MR classification system. Evaluated on a test set of 179 labeled -- 154 non-MR and 25 MR -- sequences, CUSSP attains an F1 score of 0.69 and a ROC-AUC score of 0.88, setting the first benchmark result for this new task.
翻訳日:2023-10-12 14:57:58 公開日:2023-10-07
# ILuvUI: 機械会話からのUIの命令調整型LangUage-Visionモデリング

ILuvUI: Instruction-tuned LangUage-Vision modeling of UIs from Machine Conversations ( http://arxiv.org/abs/2310.04869v1 )

ライセンス: Link先を確認
Yue Jiang, Eldon Schoop, Amanda Swearngin, Jeffrey Nichols(参考訳) マルチモーダルビジョン言語モデル(vlms)は、イメージと言語を融合した理解から強力なアプリケーションを可能にするが、多くはuiトレーニングデータがないため、uiタスクでパフォーマンスが悪い。 本稿では,既存の画素ベース手法と大規模言語モデル(llm)を組み合わせることで,vlmsのペアテキスト画像学習データをuiドメインに生成する手法を提案する。 以前の技術とは異なり、このメソッドは人間が提供するアノテーションを必要とせず、uiスクリーンショットのどんなデータセットにも適用できる。 我々は、Q&A、UI記述、計画をカバーするUIと組み合わせた335Kの会話例のデータセットを生成し、UIタスクのための会話VLMを微調整するためにそれを使用する。 本モデルの性能を評価するために,ui要素検出タスクをベンチマークし,応答品質を評価し,マルチステップuiナビゲーションとプランニングへの適用性を示す。

Multimodal Vision-Language Models (VLMs) enable powerful applications from their fused understanding of images and language, but many perform poorly on UI tasks due to the lack of UI training data. In this paper, we adapt a recipe for generating paired text-image training data for VLMs to the UI domain by combining existing pixel-based methods with a Large Language Model (LLM). Unlike prior art, our method requires no human-provided annotations, and it can be applied to any dataset of UI screenshots. We generate a dataset of 335K conversational examples paired with UIs that cover Q&A, UI descriptions, and planning, and use it to fine-tune a conversational VLM for UI tasks. To assess the performance of our model, we benchmark it on UI element detection tasks, evaluate response quality, and showcase its applicability to multi-step UI navigation and planning.
翻訳日:2023-10-12 14:57:23 公開日:2023-10-07
# ディープネットワークを用いた進化方程式解のためのランダム化スパースニューラルネットワークガレルキンスキーム

Randomized Sparse Neural Galerkin Schemes for Solving Evolution Equations with Deep Networks ( http://arxiv.org/abs/2310.04867v1 )

ライセンス: Link先を確認
Jules Berman, Benjamin Peherstorfer(参考訳) 時間依存偏微分方程式の近似解場に順番にニューラルネットワークを訓練することは因果性やその他の物理学的性質を保存するのに有用であるが、トレーニングエラーが時間とともに蓄積し増幅するので、逐次インタイムトレーニングは数値的に困難である。 この研究は、各タイムステップでネットワークパラメータのランダム化されたスパースサブセットを更新するNeural Galerkinスキームを導入している。 ランダム化は、時間内に局所的に過剰フィッティングを回避し、ニューロンの共適応によるオーバーフィッティングの問題に対処するドロップアウトによって動機付けられたシーケンシャルインタイムトレーニングにおいて、エラーが迅速に蓄積することを防ぐのに役立つ。 更新の間隔は、ネットワークパラメータの多くが各タイムステップでローカルに冗長であるため、表現力を失うことなく、トレーニングの計算コストを削減する。 広範囲の進化方程式を用いた数値実験では、ランダム化されたスパース更新のスキームは、固定された計算予算において最大2桁精度が最大2桁、高密度な更新のスキームよりも最大2桁高速である。

Training neural networks sequentially in time to approximate solution fields of time-dependent partial differential equations can be beneficial for preserving causality and other physics properties; however, the sequential-in-time training is numerically challenging because training errors quickly accumulate and amplify over time. This work introduces Neural Galerkin schemes that update randomized sparse subsets of network parameters at each time step. The randomization avoids overfitting locally in time and so helps prevent the error from accumulating quickly over the sequential-in-time training, which is motivated by dropout that addresses a similar issue of overfitting due to neuron co-adaptation. The sparsity of the update reduces the computational costs of training without losing expressiveness because many of the network parameters are redundant locally at each time step. In numerical experiments with a wide range of evolution equations, the proposed scheme with randomized sparse updates is up to two orders of magnitude more accurate at a fixed computational budget and up to two orders of magnitude faster at a fixed accuracy than schemes with dense updates.
翻訳日:2023-10-12 14:57:07 公開日:2023-10-07
# foreseer: 時間グラフ埋め込みを用いた製品アスペクト予測

ForeSeer: Product Aspect Forecasting Using Temporal Graph Embedding ( http://arxiv.org/abs/2310.04865v1 )

ライセンス: Link先を確認
Zixuan Liu, Gaurush Hiranandani, Kun Qian, Eddie W. Huang, Yi Xu, Belinda Zeng, Karthik Subbian, Sheng Wang(参考訳) 顧客ニーズや製品属性を理解することの重要性から、顧客レビューからテキストマイニングの側面を抽出する手法の開発がよく研究されている。 対照的に、現在のレビュー情報がほとんどない新製品の将来的な側面をどう予測するかは、まだ不明だ。 プロダクトアスペクト予測(product aspect forecasting)と名づけたこのタスクは、新製品を推奨する上では重要ですが、レビュー不足のためにも課題があります。 本稿では,この新たな製品アスペクト予測タスクのために,時間的製品グラフに基づいて漸進的に学習する新しいテキストマイニングおよび製品埋め込み手法であるforeseerを提案する。 ForeSeerは、類似製品からのレビューを大きなプロダクトグラフで転送し、これらのレビューを利用して将来のレビューで現れるであろう側面を予測する。 本手法の重要な特徴は,極めて不均衡なアスペクト周波数の影響を受けない,時間に敏感なアスペクト埋め込みのレビュー,製品,アスペクト埋め込みを共同で提供することである。 ForeSeerは3年間で11,536,382のレビューと11,000の製品を含む実世界の製品レビューシステムで評価した。 アスペクトアソシエーションが与えられない実環境では、foreseerは少なくとも49.1\% auprc改善で既存のアプローチを大きく上回っていることを観察する。 foreseerは、製品グラフの将来のリンク予測とレビューアスペクトアソシエーション予測をさらに改善する。 総じて、foreseerはレビューテキスト、製品ネットワーク、時間情報を効果的に統合し、オンラインショッピングレコメンデーションやeコマースアプリケーションのための新しい道を開くことによって、レビュー予測のための新しいフレームワークを提供する。

Developing text mining approaches to mine aspects from customer reviews has been well-studied due to its importance in understanding customer needs and product attributes. In contrast, it remains unclear how to predict the future emerging aspects of a new product that currently has little review information. This task, which we named product aspect forecasting, is critical for recommending new products, but also challenging because of the missing reviews. Here, we propose ForeSeer, a novel textual mining and product embedding approach progressively trained on temporal product graphs for this novel product aspect forecasting task. ForeSeer transfers reviews from similar products on a large product graph and exploits these reviews to predict aspects that might emerge in future reviews. A key novelty of our method is to jointly provide review, product, and aspect embeddings that are both time-sensitive and less affected by extremely imbalanced aspect frequencies. We evaluated ForeSeer on a real-world product review system containing 11,536,382 reviews and 11,000 products over 3 years. We observe that ForeSeer substantially outperformed existing approaches with at least 49.1\% AUPRC improvement under the real setting where aspect associations are not given. ForeSeer further improves future link prediction on the product graph and the review aspect association prediction. Collectively, Foreseer offers a novel framework for review forecasting by effectively integrating review text, product network, and temporal information, opening up new avenues for online shopping recommendation and e-commerce applications.
翻訳日:2023-10-12 14:56:44 公開日:2023-10-07
# 離間位置と文脈による変圧器内隠れ幾何の解明

Uncovering hidden geometry in Transformers via disentangling position and context ( http://arxiv.org/abs/2310.04861v1 )

ライセンス: Link先を確認
Jiajun Song and Yiqiao Zhong(参考訳) トランスフォーマーは入力トークンから複雑な意味を抽出するために広く使われているが、通常はブラックボックスモデルとして機能する。 本稿では,訓練されたトランスフォーマの隠れた状態(あるいは埋め込み)を解釈可能なコンポーネントに簡易かつ有益に分解する。 任意の層に対して、入力シーケンスサンプルの埋め込みベクトルはテンソル $\boldsymbol{h} \in \mathbb{R}^{C \times T \times d}$ で表される。 Given embedding vector $\boldsymbol{h}_{c,t} \in \mathbb{R}^d$ at sequence position $t \le T$ in a sequence (or context) $c \le C$, extracting the mean effects yields the decomposition \[ \boldsymbol{h}_{c,t} = \boldsymbol{\mu} + \mathbf{pos}_t + \mathbf{ctx}_c + \mathbf{resid}_{c,t} \] where $\boldsymbol{\mu}$ is the global mean vector, $\mathbf{pos}_t$ and $\mathbf{ctx}_c$ are the mean vectors across contexts and across positions respectively, and $\mathbf{resid}_{c,t}$ is the residual vector. For popular transformer architectures and diverse text datasets, empirically we find pervasive mathematical structure: (1) $(\mathbf{pos}_t)_{t}$ forms a low-dimensional, continuous, and often spiral shape across layers, (2) $(\mathbf{ctx}_c)_c$ shows clear cluster structure that falls into context topics, and (3) $(\mathbf{pos}_t)_{t}$ and $(\mathbf{ctx}_c)_c$ are mutually incoherent -- namely $\mathbf{pos}_t$ is almost orthogonal to $\mathbf{ctx}_c$ -- which is canonical in compressed sensing and dictionary learning. この分解は、インコンテキスト学習(特に誘導ヘッド)や算術タスクにおける入力形式に関する構造的な洞察を提供する。

Transformers are widely used to extract complex semantic meanings from input tokens, yet they usually operate as black-box models. In this paper, we present a simple yet informative decomposition of hidden states (or embeddings) of trained transformers into interpretable components. For any layer, embedding vectors of input sequence samples are represented by a tensor $\boldsymbol{h} \in \mathbb{R}^{C \times T \times d}$. Given embedding vector $\boldsymbol{h}_{c,t} \in \mathbb{R}^d$ at sequence position $t \le T$ in a sequence (or context) $c \le C$, extracting the mean effects yields the decomposition \[ \boldsymbol{h}_{c,t} = \boldsymbol{\mu} + \mathbf{pos}_t + \mathbf{ctx}_c + \mathbf{resid}_{c,t} \] where $\boldsymbol{\mu}$ is the global mean vector, $\mathbf{pos}_t$ and $\mathbf{ctx}_c$ are the mean vectors across contexts and across positions respectively, and $\mathbf{resid}_{c,t}$ is the residual vector. For popular transformer architectures and diverse text datasets, empirically we find pervasive mathematical structure: (1) $(\mathbf{pos}_t)_{t}$ forms a low-dimensional, continuous, and often spiral shape across layers, (2) $(\mathbf{ctx}_c)_c$ shows clear cluster structure that falls into context topics, and (3) $(\mathbf{pos}_t)_{t}$ and $(\mathbf{ctx}_c)_c$ are mutually incoherent -- namely $\mathbf{pos}_t$ is almost orthogonal to $\mathbf{ctx}_c$ -- which is canonical in compressed sensing and dictionary learning. This decomposition offers structural insights about input formats in in-context learning (especially for induction heads) and in arithmetic tasks.
翻訳日:2023-10-12 14:56:20 公開日:2023-10-07
# 言語横断的ドメイン適応と側方抑制をともなうルーマニア人の終端唇読解

End-to-End Lip Reading in Romanian with Cross-Lingual Domain Adaptation and Lateral Inhibition ( http://arxiv.org/abs/2310.04858v1 )

ライセンス: Link先を確認
Emilian-Claudiu M\u{a}nescu, R\u{a}zvan-Alexandru Sm\u{a}du, Andrei-Marius Avram, Dumitru-Clementin Cercel, Florin Pop(参考訳) 近年では、特にハードウェア開発やコンピュータビジョンの革新により、唇読みや視覚音声認識が注目されている。 かなりの進歩が得られたが、ほとんどのモデルは少数の大規模データセットでのみテストされている。 この研究は、Wild LRRoと呼ばれるルーマニアの短スケールのデータセットに基づいて、いくつかのアーキテクチャと最適化を分析することで、この欠点に対処する。 最も注目すべきは、異なるバックエンドモジュールを比較し、豊富な正規化メソッドを追加する効果を示しています。 提案手法,すなわち、言語間ドメイン適応と、英語とドイツ語のデータセットからの未ラベルビデオを用いて、モデルが言語不変の特徴を学習するのを助ける。 最後に,神経抑制機構にインスパイアされた層の追加性能を評価する。

Lip reading or visual speech recognition has gained significant attention in recent years, particularly because of hardware development and innovations in computer vision. While considerable progress has been obtained, most models have only been tested on a few large-scale datasets. This work addresses this shortcoming by analyzing several architectures and optimizations on the underrepresented, short-scale Romanian language dataset called Wild LRRo. Most notably, we compare different backend modules, demonstrating the effectiveness of adding ample regularization methods. We obtain state-of-the-art results using our proposed method, namely cross-lingual domain adaptation and unlabeled videos from English and German datasets to help the model learn language-invariant features. Lastly, we assess the performance of adding a layer inspired by the neural inhibition mechanism.
翻訳日:2023-10-12 14:55:06 公開日:2023-10-07
# GradXKG: 時間単位の普遍的な知識グラフ記述器

GradXKG: A Universal Explain-per-use Temporal Knowledge Graph Explainer ( http://arxiv.org/abs/2310.04889v1 )

ライセンス: Link先を確認
Chenhan Yuan and Hoda Eldardiry(参考訳) 時間的知識グラフ(TKG)は、時間とともに事実がどのように進化するかを表現するために時間的次元を組み込むことによって、推論タスクの約束を示す。 しかしながら、既存のtkg推論(tkgr)モデルはブラックボックスの性質から説明可能性に欠ける。 最近の研究は、推論経路を生成するカスタマイズされたモデルアーキテクチャによってこの問題に対処しようとしているが、近年のアプローチは、一般化性に制限があり、スパース説明出力を提供する。 多くのTKGRモデルの解釈可能性を実現するために,リレーショナルグラフ畳み込みネットワーク(RGCN)に基づくTKGRモデルを記述するための2段階勾配に基づく新しいアプローチであるGradXKGを提案する。 まず、Grad-CAMにインスパイアされたRCCNの説明器が勾配を追跡し、各ノードの寄与を効率的な"説明/使用"形式で時間ステップにわたって定量化する。 第2に、統合勾配説明器は、RGCN出力の重要点を集約し、RGCNに基づく様々なTKGRアーキテクチャ間の互換性を拡大する。 2つの説明器は、与えられた予測のために各タイミングで最も重要なノードをハイライトする。 我々の広範な実験により、GradXKGは勾配情報を活用することで、ほとんどのRCCNベースのTKGRモデルに対して、モデル論理にタイムリーに基礎を置く洞察豊かな説明を提供することを示した。 これにより、既存のTKGRモデルの解釈可能性の欠如に対処し、様々なモデルに適用可能な普遍的な説明手法を提供する。

Temporal knowledge graphs (TKGs) have shown promise for reasoning tasks by incorporating a temporal dimension to represent how facts evolve over time. However, existing TKG reasoning (TKGR) models lack explainability due to their black-box nature. Recent work has attempted to address this through customized model architectures that generate reasoning paths, but these recent approaches have limited generalizability and provide sparse explanatory output. To enable interpretability for most TKGR models, we propose GradXKG, a novel two-stage gradient-based approach for explaining Relational Graph Convolution Network (RGCN)-based TKGR models. First, a Grad-CAM-inspired RGCN explainer tracks gradients to quantify each node's contribution across timesteps in an efficient "explain-per-use" fashion. Second, an integrated gradients explainer consolidates importance scores for RGCN outputs, extending compatibility across diverse TKGR architectures based on RGCN. Together, the two explainers highlight the most critical nodes at each timestep for a given prediction. Our extensive experiments demonstrated that, by leveraging gradient information, GradXKG provides insightful explanations grounded in the model's logic in a timely manner for most RGCN-based TKGR models. This helps address the lack of interpretability in existing TKGR models and provides a universal explanation approach applicable across various models.
翻訳日:2023-10-12 14:48:51 公開日:2023-10-07
# 記事の事実と意見と検索エンティティへの分解による質問中心の要約

Question-focused Summarization by Decomposing Articles into Facts and Opinions and Retrieving Entities ( http://arxiv.org/abs/2310.04880v1 )

ライセンス: Link先を確認
Krutika Sarode, Shashidhar Reddy Javaji, Vishal Kalakonnavar(参考訳) 本研究は, 市場機会の獲得に活用可能な, 経済的, 政治的, 社会的, 技術的変化の早期発見に特に関心を持つ, 株価変動の予測に自然言語処理技術を活用することに焦点を当てる。 提案手法は、ニュース記事から健全な事実や出来事を識別し、これらの事実を用いて、特定のエンティティの市場変化の要約を取得し、最終的にすべての要約を結合して、記事全体の最終抽象的な要約を形成することができるエンティティとタプルを形成する。 この研究は、wikipediaのデータとthe economistの記事の分析を通じて、企業とエンティティの関係を確立することを目的としている。 大きな言語モデル GPT 3.5 は要約を得るのに使われ、最終的な要約を形成する。 本研究の最終的な目標は、市場の動向やイベントの早期発見を可能にすることで、金融アナリストや投資家により深い意思決定ツールを提供する包括的システムを開発することである。

This research focuses on utilizing natural language processing techniques to predict stock price fluctuations, with a specific interest in early detection of economic, political, social, and technological changes that can be leveraged for capturing market opportunities. The proposed approach includes the identification of salient facts and events from news articles, then use these facts to form tuples with entities which can be used to get summaries of market changes for particular entity and then finally combining all the summaries to form a final abstract summary of the whole article. The research aims to establish relationships between companies and entities through the analysis of Wikipedia data and articles from the Economist. Large Language Model GPT 3.5 is used for getting the summaries and also forming the final summary. The ultimate goal of this research is to develop a comprehensive system that can provide financial analysts and investors with more informed decision-making tools by enabling early detection of market trends and events.
翻訳日:2023-10-12 14:47:44 公開日:2023-10-07
# グラフニューラルネットワークとBERT埋め込みを用いたハイブリッドレコメンデーションシステム

Hybrid Recommendation System using Graph Neural Network and BERT Embeddings ( http://arxiv.org/abs/2310.04878v1 )

ライセンス: Link先を確認
Shashidhar Reddy Javaji, Krutika Sarode(参考訳) Recommender システムは,現代的な Web エコシステムの重要なコンポーネントとして現れています。 このようなシステムの有効性と正確性は、ユーザが特定の関心やニーズを満たすパーソナライズされたレコメンデーションを提供する上で重要である。 本稿では,グラフニューラルネットワーク(GNN)と文変換器の埋め込みを併用して,異なるユーザに対するアニメレコメンデーションを予測する新しいモデルを提案する。 本モデルでは,アニメの特徴と異なるアニメとのユーザインタラクションの両方を考慮したレコメンデーションシステムを構築するために,リンク予測のタスクを用いる。 GNNのハイブリダイゼーションとトランスフォーマーの埋め込みにより、アニメデータのレベル間とイントラレベルの両方の特徴を捉えることができ、我々のモデルは、ユーザーにアニメを推奨するだけでなく、特定のユーザーがアニメに与える評価も予測する。 モデル構築のためのGraphSAGEネットワークと重み付きルート平均二乗誤差(RMSE)を用いてモデルの性能を評価する。 このアプローチは,アニメレコメンデーションシステムの精度と有効性を大幅に向上させる可能性があり,パーソナライズドレコメンデーションを必要とする他のドメインにも拡張可能である。

Recommender systems have emerged as a crucial component of the modern web ecosystem. The effectiveness and accuracy of such systems are critical for providing users with personalized recommendations that meet their specific interests and needs. In this paper, we introduce a novel model that utilizes a Graph Neural Network (GNN) in conjunction with sentence transformer embeddings to predict anime recommendations for different users. Our model employs the task of link prediction to create a recommendation system that considers both the features of anime and user interactions with different anime. The hybridization of the GNN and transformer embeddings enables us to capture both inter-level and intra-level features of anime data.Our model not only recommends anime to users but also predicts the rating a specific user would give to an anime. We utilize the GraphSAGE network for model building and weighted root mean square error (RMSE) to evaluate the performance of the model. Our approach has the potential to significantly enhance the accuracy and effectiveness of anime recommendation systems and can be extended to other domains that require personalized recommendations.
翻訳日:2023-10-12 14:47:28 公開日:2023-10-07
# Prompt-to-OS (P2OS): オペレーティングシステムの革新と統合AI生成モデルとのヒューマン・コンピュータインタラクション

Prompt-to-OS (P2OS): Revolutionizing Operating Systems and Human-Computer Interaction with Integrated AI Generative Models ( http://arxiv.org/abs/2310.04875v1 )

ライセンス: Link先を確認
Gabriele Tolomei, Cesare Campagnano, Fabrizio Silvestri, Giovanni Trappolini(参考訳) 本稿では,従来のオペレーティングシステムの概念に革命をもたらす,人間とコンピュータのインタラクションのための画期的なパラダイムを提案する。 この革新的なフレームワークでは、マシンに発行されるユーザーリクエストは、従来のソフトウェアアプリケーションとシームレスに統合または置換する生成aiモデルの相互接続されたエコシステムによって処理される。 このパラダイムシフトの中核は、言語や拡散モデルのような大きな生成モデルであり、ユーザとコンピュータの間の中心的なインターフェースとして機能する。 この先駆的なアプローチは、高度な言語モデルの能力を活用し、ユーザーがコンピュータデバイスと自然言語会話を行うことを可能にする。 ユーザは自分の意図やタスク、システムに直接問い合わせることができ、明示的なコマンドや複雑なナビゲーションは不要になる。 言語モデルはユーザのプロンプトを理解し、解釈し、シームレスで直感的な対話を容易にする文脈的および意味のある応答を生成し、表示する。 このパラダイムシフトは、ユーザインタラクションの合理化だけでなく、パーソナライズされたエクスペリエンスの新しい可能性も開きます。 生成モデルは個人の好みに適応し、ユーザの入力から学び、理解と応答生成を継続的に改善することができる。 さらに、ユーザーは音声やテキストを使ってシステムと対話でき、多様なコミュニケーションの好みに適応できるため、アクセシビリティが強化される。 しかし、このビジョン的な概念は、プライバシー、セキュリティ、信頼性、生成モデルの倫理的使用など、重大な課題を提起する。 堅牢なセーフガードは、ユーザデータを保護し、言語モデルの誤用や操作を防止するために必要です。 このパラダイムの完全な実現は、まだ達成されていないが、本論文は、この変革的ポテンシャルを想像するための出発点となる。

In this paper, we present a groundbreaking paradigm for human-computer interaction that revolutionizes the traditional notion of an operating system. Within this innovative framework, user requests issued to the machine are handled by an interconnected ecosystem of generative AI models that seamlessly integrate with or even replace traditional software applications. At the core of this paradigm shift are large generative models, such as language and diffusion models, which serve as the central interface between users and computers. This pioneering approach leverages the abilities of advanced language models, empowering users to engage in natural language conversations with their computing devices. Users can articulate their intentions, tasks, and inquiries directly to the system, eliminating the need for explicit commands or complex navigation. The language model comprehends and interprets the user's prompts, generating and displaying contextual and meaningful responses that facilitate seamless and intuitive interactions. This paradigm shift not only streamlines user interactions but also opens up new possibilities for personalized experiences. Generative models can adapt to individual preferences, learning from user input and continuously improving their understanding and response generation. Furthermore, it enables enhanced accessibility, as users can interact with the system using speech or text, accommodating diverse communication preferences. However, this visionary concept raises significant challenges, including privacy, security, trustability, and the ethical use of generative models. Robust safeguards must be in place to protect user data and prevent potential misuse or manipulation of the language model. While the full realization of this paradigm is still far from being achieved, this paper serves as a starting point for envisioning this transformative potential.
翻訳日:2023-10-12 14:47:08 公開日:2023-10-07
# インドネシアの小学校試験に合格した大規模言語モデル:IndoMMLUの総合的な検証

Large Language Models Only Pass Primary School Exams in Indonesia: A Comprehensive Test on IndoMMLU ( http://arxiv.org/abs/2310.04928v1 )

ライセンス: Link先を確認
Fajri Koto and Nurul Aisyah and Haonan Li and Timothy Baldwin(参考訳) 大規模言語モデルは自然言語処理(NLP)において顕著な進歩を遂げており、様々な古典的NLPタスクにおける人間のパフォーマンスを示している。 しかし、これらのタスクは構造と意味論に重点を置いており、推論能力と実世界の知識を評価するように設計されているものはほとんどなく、これらのモデルは広範なテキストデータと情報に基づいて訓練されているため、ますます重要になっている。 先行研究は主に英語が中心であるが,本研究では,インドネシアの小学校から大学入学試験までの試験問題の集合を収集し,大規模言語モデルが試験に合格できるかどうかを評価する。 14,906の質問を63の課題とレベルに分けて獲得し,インドネシア語の習熟度とインドネシアの9つの言語と文化の知識を評価することに焦点を当てた。 GPT-3.5は,インドネシアの地方言語や文化の知識が限られており,インドネシアの初等教育水準を達成できたに過ぎない。 BLOOMZやファルコンなどの小型モデルも試験に失敗している。

Large language models have made significant advancements in natural language processing (NLP), exhibiting human performance across various classic NLP tasks. These tasks, however, focus on structure and semantics, and few are designed to assess reasoning abilities and real-world knowledge, which are increasingly vital given that these models are trained on extensive textual data and information. While prior research primarily focuses on English, in this work, we gather a collection of exam problems from primary school to university entrance tests in Indonesia, and evaluate whether large language models can pass the exams. We obtain 14,906 questions across 63 tasks and levels, with 46\% of the questions focusing on assessing proficiency in the Indonesian language and knowledge of nine local languages and cultures in Indonesia. Our empirical evaluations show that GPT-3.5 only manages to pass the Indonesian primary school level, with limited knowledge of the Indonesian local languages and cultures. Other smaller models such as BLOOMZ and Falcon fail the exams.
翻訳日:2023-10-12 14:39:17 公開日:2023-10-07
# se(3)不変空間における拡散促進型分子配座生成について

On Accelerating Diffusion-based Molecular Conformation Generation in SE(3)-invariant Space ( http://arxiv.org/abs/2310.04915v1 )

ライセンス: Link先を確認
Zihan Zhou, Ruiying Liu and Tianshu Yu(参考訳) SE(3)不変空間における拡散に基づく生成モデルは、分子配座生成において有望な性能を示すが、通常は数千の更新ステップで確率微分方程式(SDE)を解く必要がある。 いまだに、この手順をSE(3)不変空間においていかに効果的に加速するかは定かではない。 本稿では,SE(3)不変空間における拡散機構を,既存手法による近似誤差のレンズを用いて系統的に研究する。 これにより、射影微分方程式の文脈において、より精密なse(3)近似を開発することができる。 理論解析はまた、超パラメータとそのような誤りに関する経験的証明も提供される。 また,SE(3)不変空間における分子配座生成のための新しい加速法を提案する。 実験により,既存の手法と比較して50x-100xの高速化で高品質なコンフォメーションを生成することができる。

Diffusion-based generative models in SE(3)-invariant space have demonstrated promising performance in molecular conformation generation, but typically require solving stochastic differential equations (SDEs) with thousands of update steps. Till now, it remains unclear how to effectively accelerate this procedure explicitly in SE(3)-invariant space, which greatly hinders its wide application in the real world. In this paper, we systematically study the diffusion mechanism in SE(3)-invariant space via the lens of approximate errors induced by existing methods. Thereby, we develop more precise approximate in SE(3) in the context of projected differential equations. Theoretical analysis is further provided as well as empirical proof relating hyper-parameters with such errors. Altogether, we propose a novel acceleration scheme for generating molecular conformations in SE(3)-invariant space. Experimentally, our scheme can generate high-quality conformations with 50x--100x speedup compared to existing methods.
翻訳日:2023-10-12 14:38:57 公開日:2023-10-07
# 映像理解課題における視覚言語モデルのゼロショット能力の分析

Analyzing Zero-Shot Abilities of Vision-Language Models on Video Understanding Tasks ( http://arxiv.org/abs/2310.04914v1 )

ライセンス: Link先を確認
Avinash Madasu, Anahita Bhiwandiwalla, Vasudev Lal(参考訳) 大規模画像テキストペアやビデオテキストペアで事前訓練された基礎的マルチモーダルモデルは、下流タスクにおいて強力な一般化能力を示している。 しかし、画像テキストモデルとは異なり、大規模なクリーンかつアライメントなデータの収集が困難であり、事前学習フェーズに関わる指数計算コストがかかるため、ビデオテキストモデルの事前学習は不可能である。 ビデオのタスクに画像テキストモデルを適用することは可能か、ビデオ上で直接トレーニングするよりも、これらのモデルを使用することにメリットがあるのか? 本研究では,ゼロショット環境での映像理解タスクの評価において,画像テキストモデルの一般化能力に関する詳細な研究を行うことにより,この問題に焦点をあてる。 ビデオアクション認識(ビデオar)、ビデオ検索(ビデオrt)、ビデオ質問応答(ビデオqa)、ビデオ多重選択(ビデオmc)、ビデオキャプション(ビデオcp)など、さまざまなビデオタスクの9つの基礎的な画像テキストモデルを調査した。 実験の結果,映像テキストモデルでは,映像AR,ビデオRT,ビデオMCに優れた性能を示した。 さらに、ビデオキャプションでは適度に、ビデオQAでは劣る。 これらの結果は、コストのかかる事前学習のステップを回避しつつ、基礎的な画像テキストモデルを一連のビデオタスクに適応する利点を浮き彫りにした。

Foundational multimodal models pre-trained on large scale image-text pairs or video-text pairs or both have shown strong generalization abilities on downstream tasks. However unlike image-text models, pretraining video-text models is always not feasible due to the difficulty in collecting large-scale clean and aligned data, and exponential computational costs involved in the pretraining phase. Therefore, the pertinent question to ask is: Can image-text models be adapted to video tasks and is there any benefit to using these models over pretraining directly on videos? In this work, we focus on this question by proposing a detailed study on the generalization abilities of image-text models when evaluated on video understanding tasks in a zero-shot setting. We investigate 9 foundational image-text models on a diverse set of video tasks that include video action recognition (video AR), video retrieval (video RT), video question answering (video QA), video multiple choice (video MC) and video captioning (video CP). Our experiments show that image-text models exhibit impressive performance on video AR, video RT and video MC. Furthermore, they perform moderately on video captioning and poorly on video QA. These findings shed a light on the benefits of adapting foundational image-text models to an array of video tasks while avoiding the costly pretraining step.
翻訳日:2023-10-12 14:38:45 公開日:2023-10-07
# 線形光学による光の量子状態の非古典性向上

Enhancing nonclassical properties of quantum states of light using linear optics ( http://arxiv.org/abs/2310.04913v1 )

ライセンス: Link先を確認
E.P. Mattos and A. Vidiella-Barranco(参考訳) 本稿では,線形光学系と光検出素子のみを用いて,光状態の非古典性を高めるための簡易かつ汎用的なスキームを提案する。 2つのビームスプリッターにおけるコヒーレント状態 $|\alpha\rangle$ と光の任意の純状態 $|\phi\rangle$(コヒーレント状態を除く)を組み合わせることで、コヒーレント状態の振幅 $\alpha$ が特定のFock成分をフィルタリングし、拡張された非古典的特徴を持つ光の状態を生成することができることを示す。 入力状態の2つの例を示し、サブポアソニアン統計の強化や出力状態の二次的スキューズ化における提案手法の有効性を実証する。

In this letter, we present a simple and versatile scheme for enhancing the nonclassical properties of light states using only linear optics and photodetectors. By combining a coherent state $|\alpha\rangle$ and an arbitrary pure state of light $|\phi\rangle$ (excluding coherent states) at two beam splitters, we show that the amplitude $\alpha$ of the coherent state can be tuned to filter out specific Fock components and generate states of light with enhanced nonclassical features. We provide two examples of input states and demonstrate the effectiveness of our scheme in enhancing the sub-Poissonian statistics or the quadrature squeezing of the output states.
翻訳日:2023-10-12 14:38:20 公開日:2023-10-07
# $H$-RANSAC - 特徴のない点集合からのホログラフィー画像変換のアルゴリズム的変種:ビデオベースフットボール分析への応用

$H$-RANSAC, an algorithmic variant for Homography image transform from featureless point sets: application to video-based football analytics ( http://arxiv.org/abs/2310.04912v1 )

ライセンス: Link先を確認
George Nousias, Konstantinos Delibasis, Ilias Maglogiannis(参考訳) 2つの画像間のホモグラフィ行列の推定には、画像縫合や画像モザイク、複数のカメラビューからの空間情報検索など様々な応用があるが、特に急激な異なるカメラポーズやズームファクターの場合、複雑な問題であることが証明されている。 多くの関連するアプローチが提案されており、直接的特徴ベース、あるいはディープラーニング手法を利用している。 本稿では,局所的特徴ベクトルと点ペアリングを伴わない点集合からホモグラフィ画像変換を検索するための一般化されたRANSACアルゴリズムH-RANSACを提案する。 ポイントを2つのクラスに任意にラベル付けることを許可します。 本稿では,ランダムな点対選択(凸や凹凸,非自己交差)によって形成される四辺形の種類に基づいて,RANSACの各反復前に不明瞭な点選択を拒否する頑健な基準を提案する。 同様のポストホックな基準は、各イテレーションの最後に、意味のないホモグラフィ変換を拒絶する。 期待される$H$-RANSACの最大イテレーションは、画像ごとのポイント数とクラスごとのポイント数、アウトレーヤの割合に応じて、異なる成功の確率で導出される。 提案手法は、実際のフットボールの試合中に12台のカメラが取得した画像の大規模なデータセットでテストされる。 ransacの最先端の実装と古典的および深層学習画像のサルエント点検出との比較は、平均再投影誤差とうまく処理されたフレームの個数の観点から、提案されている$h$-ransacの優れていることを示している。 H$-RANSACの実装はhttps://github.com/gnousias/H-RANSACで利用可能である。

Estimating homography matrix between two images has various applications like image stitching or image mosaicing and spatial information retrieval from multiple camera views, but has been proved to be a complicated problem, especially in cases of radically different camera poses and zoom factors. Many relevant approaches have been proposed, utilizing direct feature based, or deep learning methodologies. In this paper, we propose a generalized RANSAC algorithm, H-RANSAC, to retrieve homography image transformations from sets of points without descriptive local feature vectors and point pairing. We allow the points to be optionally labelled in two classes. We propose a robust criterion that rejects implausible point selection before each iteration of RANSAC, based on the type of the quadrilaterals formed by random point pair selection (convex or concave and (non)-self-intersecting). A similar post-hoc criterion rejects implausible homography transformations is included at the end of each iteration. The expected maximum iterations of $H$-RANSAC are derived for different probabilities of success, according to the number of points per image and per class, and the percentage of outliers. The proposed methodology is tested on a large dataset of images acquired by 12 cameras during real football matches, where radically different views at each timestamp are to be matched. Comparisons with state-of-the-art implementations of RANSAC combined with classic and deep learning image salient point detection indicates the superiority of the proposed $H$-RANSAC, in terms of average reprojection error and number of successfully processed pairs of frames, rendering it the method of choice in cases of image homography alignment with few tens of points, while local features are not available, or not descriptive enough. The implementation of $H$-RANSAC is available in https://github.com/gnousias/H-RANSAC
翻訳日:2023-10-12 14:38:01 公開日:2023-10-07
# 常識推論のための忠実な知識グラフ説明

Faithful Knowledge Graph Explanations for Commonsense Reasoning ( http://arxiv.org/abs/2310.04910v1 )

ライセンス: Link先を確認
Weihe Zhai, Arkaitz Zubiaga, Bingquan Liu(参考訳) 言語モデル (LM) と知識グラフ (KGs) は、一般的な質問応答研究において一般的になっているが、これらのモデルにおける忠実な連鎖説明を可能にすることは、未解決の問題である。 現在のKGに基づく説明手法の大きな弱点は、評価中に生成された説明の忠実さを見落としていることである。 このギャップに対処するために,(1) グラフ一貫性とグラフ忠実性という2つの定量的指標を提案し,検証し,kg に基づく説明の忠実性を評価する。 2) 説明の忠実性を改善するために, 一貫性正規化項を付加した新しい学習法であるconsistence gnn (cgnn) を導入する。 我々の分析では、KGからの予測は元のモデル予測から分岐することが多い。 提案されたCGNNアプローチは一貫性と忠実性を高め、より忠実な説明を生み出す可能性を示している。 我々の研究は、忠実なグラフに基づく説明のためのアーキテクチャ開発への道のりを明示的に評価することの重要性を強調している。

While fusing language models (LMs) and knowledge graphs (KGs) has become common in commonsense question answering research, enabling faithful chain-of-thought explanations in these models remains an open problem. One major weakness of current KG-based explanation techniques is that they overlook the faithfulness of generated explanations during evaluation. To address this gap, we make two main contributions: (1) We propose and validate two quantitative metrics - graph consistency and graph fidelity - to measure the faithfulness of KG-based explanations. (2) We introduce Consistent GNN (CGNN), a novel training method that adds a consistency regularization term to improve explanation faithfulness. Our analysis shows that predictions from KG often diverge from original model predictions. The proposed CGNN approach boosts consistency and fidelity, demonstrating its potential for producing more faithful explanations. Our work emphasises the importance of explicitly evaluating suggest a path forward for developing architectures for faithful graph-based explanations.
翻訳日:2023-10-12 14:37:23 公開日:2023-10-07
# 原子接触Co中のフタロシアニン分子を介した電子輸送

Electronic transport through the phtalocyanine molecule in atomic contacts Co ( http://arxiv.org/abs/2310.04902v1 )

ライセンス: Link先を確認
Ali Jaafar, Tarek Khalil(参考訳) 分子接合STM-tip-Co/CoPc/Co(111)による電子・磁気・電子輸送特性に及ぼす磁気STM-tipの影響を, ab初期電子構造計算を用いて検討した。 スピン遷移は、先端とcopc分子の間の距離(トンネル状態から接触状態まで)を平行と反平行の両方の配置で変化させることで研究されている。 この計算は、copc分子のco原子のスピンの遷移が磁気抵抗(mr)の符号の変化につながったことを示している。 また、I-Vの特性は、CoPc分子の中心原子のスピン遷移の影響を受けていることが示されている。

The effect of magnetic STM-tip on electronic, magnetic and electronic transport properties through the molecule junction STM-tip-Co/CoPc/Co(111), has been investigated by mean of ab initio electronic structure calculations. The spin transition has been studied by varying the distance (passing from the tunneling regime to the contact regime) between the tip and the CoPc molecule in both configurations, parallel and anti-parallel. Our calculation shows that the transition of spin of the Co atom of CoPc molecule has led to a change of the sign of the Magneto-Resistance (MR). It is also shown that the characteristic I-V has been influenced by this spin-transition of central atom of CoPc molecule.
翻訳日:2023-10-12 14:36:59 公開日:2023-10-07
# WAIT:GANを用いたアニメ映像翻訳のための特徴ワープ

WAIT: Feature Warping for Animation to Illustration video Translation using GANs ( http://arxiv.org/abs/2310.04901v1 )

ライセンス: Link先を確認
Samet Hicsonmez, Nermin Samet, Fidan Samet, Oguz Bakir, Emre Akbas, Pinar Duygulu(参考訳) 本稿では,ビデオ間翻訳の新しい領域について検討する。 絵本から子供向けのアニメーション映画が利用可能であることに動機づけられ,これらの動画をオリジナルイラストのスタイルでスタイリッシュすることを目指している。 現在の最先端のビデオ翻訳モデルは、入力されたビデオをスタイリングするために、ビデオシーケンスまたは単一のスタイルのイメージを持つことに依存している。 ビデオのスタイリングにおいて,未順序画像の集合を用いる場合の新たな問題を提案する。 これは2つの理由から難しい課題です 一 ビデオのシーケンスのように時間的一貫性の利点がないこと。 二 単一の画像を用いた場合に比べて、無順序画像の集合から映像フレームの一貫したスタイルを得るのがより困難である。 ビデオ間翻訳のほとんどは画像間翻訳モデルに基づいて構築されており、時間的関係を捉えるために光学フローや時間的予測器などの追加ネットワークを統合している。 これらの追加ネットワークにより、モデルトレーニングと推論が複雑になり、プロセスが遅くなります。 ビデオ間通信における時間的コヒーレンシを確保するため,従来手法の限界を克服した特徴変形層を有する新しいジェネレータネットワークを提案する。 本手法は,質的および定量的に3つのデータセット上で有効性を示す。 コードと事前トレーニングされたモデルはhttps://github.com/giddyyupp/waitで入手できる。

In this paper, we explore a new domain for video-to-video translation. Motivated by the availability of animation movies that are adopted from illustrated books for children, we aim to stylize these videos with the style of the original illustrations. Current state-of-the-art video-to-video translation models rely on having a video sequence or a single style image to stylize an input video. We introduce a new problem for video stylizing where an unordered set of images are used. This is a challenging task for two reasons: i) we do not have the advantage of temporal consistency as in video sequences; ii) it is more difficult to obtain consistent styles for video frames from a set of unordered images compared to using a single image. Most of the video-to-video translation methods are built on an image-to-image translation model, and integrate additional networks such as optical flow, or temporal predictors to capture temporal relations. These additional networks make the model training and inference complicated and slow down the process. To ensure temporal coherency in video-to-video style transfer, we propose a new generator network with feature warping layers which overcomes the limitations of the previous methods. We show the effectiveness of our method on three datasets both qualitatively and quantitatively. Code and pretrained models are available at https://github.com/giddyyupp/wait.
翻訳日:2023-10-12 14:36:37 公開日:2023-10-07
# HowToCaption: LLMを使ってビデオアノテーションを大規模に変換する

HowToCaption: Prompting LLMs to Transform Video Annotations at Scale ( http://arxiv.org/abs/2310.04900v1 )

ライセンス: Link先を確認
Nina Shvetsova, Anna Kukleva, Xudong Hong, Christian Rupprecht, Bernt Schiele, Hilde Kuehne(参考訳) ビデオ中の音声信号から自動音声認識システム(ASR)で抽出したビデオ字幕ペアを活用することで,マルチモーダル表現の学習に優れた教材である。 しかし、人間の注釈付きキャプションとは対照的に、音声と字幕はビデオの視覚内容と自然に異なるため、マルチモーダル学習のためのノイズの多い監視しか提供しない。 その結果、大規模なアノテーションなしWebビデオトレーニングデータは、テキストビデオモデルのトレーニングに最適である。 本研究では,大規模言語モデル(LLM)の能力を活用し,ビデオに合わせた詳細な映像記述を実現することを提案する。 具体的には,大規模な授業用ビデオデータセットに対して,ビデオのasrナレーションに基づく妥当なビデオ記述を作成するよう,llmに促す。 この目的のために,字幕の長文を考慮し,単一文以上の文脈をキャプチャできるプロンプト手法を提案する。 字幕を時間的にビデオに合わせるために,字幕に基づいて生成された字幕ごとにタイムスタンプを生成するようにLCMに促す。 このようにして,人間の監督なしに,大規模に人間の字幕を得る。 我々は、HowTo100Mデータセットの字幕にメソッドを適用し、新しい大規模データセット、HowToCaptionを作成します。 評価の結果,テキスト・ビデオ検索における多くのベンチマーク・データセットの性能向上だけでなく,音声からのテキスト・ナレーションの解消,テキスト・ビデオ・オーディオ・タスクのパフォーマンス向上につながった。

Instructional videos are an excellent source for learning multimodal representations by leveraging video-subtitle pairs extracted with automatic speech recognition systems (ASR) from the audio signal in the videos. However, in contrast to human-annotated captions, both speech and subtitles naturally differ from the visual content of the videos and thus provide only noisy supervision for multimodal learning. As a result, large-scale annotation-free web video training data remains sub-optimal for training text-video models. In this work, we propose to leverage the capability of large language models (LLMs) to obtain fine-grained video descriptions aligned with videos. Specifically, we prompt an LLM to create plausible video descriptions based on ASR narrations of the video for a large-scale instructional video dataset. To this end, we introduce a prompting method that is able to take into account a longer text of subtitles, allowing us to capture context beyond a single sentence. To align the captions to the video temporally, we prompt the LLM to generate timestamps for each produced caption based on the subtitles. In this way, we obtain human-style video captions at scale without human supervision. We apply our method to the subtitles of the HowTo100M dataset, creating a new large-scale dataset, HowToCaption. Our evaluation shows that the resulting captions not only significantly improve the performance over many different benchmark datasets for text-video retrieval but also lead to a disentangling of textual narration from the audio, boosting performance in text-video-audio tasks.
翻訳日:2023-10-12 14:35:47 公開日:2023-10-07
# 生成aiは大陸レベルでの定型的地理的印象に基づく都市の全国的特性の提示を好むかもしれない

Generative AI May Prefer to Present National-level Characteristics of Cities Based on Stereotypical Geographic Impressions at the Continental Level ( http://arxiv.org/abs/2310.04897v1 )

ライセンス: Link先を確認
Shan Ye(参考訳) 中国を拠点とする生成型人工知能(ai)プラットフォームであるwenxin yigeが、異なる国の都市の街並みの画像をレンダリングする能力をテストするために、簡単な実験が行われた。 この研究によると、このAIプラットフォームによって生成された画像は、経済発展と近代化のレベルを示す点で大陸レベルのステレオタイプを含む可能性がある。 wenxin yigeから生成されたストリートビュー画像は、異なる国にまたがる多様な都市景観を適切に表現していない。 これらの生成した画像を地理教育やアウトリーチのイニシアチブに利用することで、個々の国に関する人々の既存のステレオタイプな見解を不注意に強化することができる。

A simple experiment was conducted to test the ability of the Chinese-based generative artificial intelligence (AI) platform, Wenxin Yige, to render images of urban street views of different countries. The study found that images generated by this AI platform may contain continental-level stereotypes in terms of showing the level of economic development and modernization. Street view images generated from Wenxin Yige do not adequately represent the diverse range of urban landscapes found across different nations. Using these generated images for geography education or outreach initiatives could inadvertently strengthen people's existing stereotypical views about individual countries.
翻訳日:2023-10-12 14:35:07 公開日:2023-10-07
# Discover: 競争と差別によるビジョンネットワークの解釈

DISCOVER: Making Vision Networks Interpretable via Competition and Dissection ( http://arxiv.org/abs/2310.04929v1 )

ライセンス: Link先を確認
Konstantinos P. Panousis, Sotirios Chatzis(参考訳) 現代のディープネットワークは非常に複雑で、推論結果の解釈は非常に困難である。 これは、安全クリティカルまたはバイアス対応のアプリケーションに透過的なデプロイを行う上で、重大な障害になります。 この研究はポストホック解釈可能性、特にネットワーク分割に寄与する。 私たちの目標は、視覚タスクで訓練されたネットワーク内の各ニューロンの個々の機能の発見を容易にするフレームワークを提供することです。 この目的を達成するために i)マルチモーダル視覚テキストモデルの最近の進歩と課題 (ii)線形単位間の確率的局所競合という新しい概念に基づくネットワーク層。 この設定では、与えられた入力に対して少数の層ニューロンのみが活性化され、非常に高い活性化間隔(わずか$\approx 4\%$)となる。 提案手法は,ニューロンが特定の特徴を持つ入力を活性化・特定し,個々の機能を多様化する(疎)ニューロン活性化パターンを推論する。 ヒトの理解可能な記述は、ごく少数の活動ニューロンに対してのみ生成されるため、ネットワークの決定過程の直接的調査が容易になる。 私たちが実験的に示すように、我々のアプローチは (i)分類性能を保ち、または向上させるビジョンネットワークを提供する。 (II) 生成したニューロン表現のテキストベース記述と検証のための原則的枠組みを実現する。

Modern deep networks are highly complex and their inferential outcome very hard to interpret. This is a serious obstacle to their transparent deployment in safety-critical or bias-aware applications. This work contributes to post-hoc interpretability, and specifically Network Dissection. Our goal is to present a framework that makes it easier to discover the individual functionality of each neuron in a network trained on a vision task; discovery is performed in terms of textual description generation. To achieve this objective, we leverage: (i) recent advances in multimodal vision-text models and (ii) network layers founded upon the novel concept of stochastic local competition between linear units. In this setting, only a small subset of layer neurons are activated for a given input, leading to extremely high activation sparsity (as low as only $\approx 4\%$). Crucially, our proposed method infers (sparse) neuron activation patterns that enables the neurons to activate/specialize to inputs with specific characteristics, diversifying their individual functionality. This capacity of our method supercharges the potential of dissection processes: human understandable descriptions are generated only for the very few active neurons, thus facilitating the direct investigation of the network's decision process. As we experimentally show, our approach: (i) yields Vision Networks that retain or improve classification performance, and (ii) realizes a principled framework for text-based description and examination of the generated neuronal representations.
翻訳日:2023-10-12 14:28:46 公開日:2023-10-07
# クーロン相互作用によるヘリウム上の電子の絡み合い

Coulomb interaction-driven entanglement of electrons on helium ( http://arxiv.org/abs/2310.04927v1 )

ライセンス: Link先を確認
Niyaz R. Beysengulov, Johannes Pollanen, {\O}yvind S. Sch{\o}yen, Stian D. Bilek, Jonas B. Flaten, Oskar Leinonen, H{\aa}kon Emil Kristiansen, Zachary J. Stewart, Jared D. Weidman, Angela K. Wilson, and Morten Hjorth-Jensen(参考訳) 量子多体系における絡み合いの生成と進化は、量子情報科学から凝縮物質、サブ原子物理学、量子化学で遭遇する量子多体系のシミュレーションまで、多分野にわたる研究の活発な領域である。 低温の希ガス基板表面上に電子を閉じ込めた量子情報処理系を最近の実験で実験した結果, クーロン相互作用による2つの電子間の絡み合いの発生について理論的に検討した。 モデル系は、2つの電子が別々の静電気トラップに閉じ込められ、運動のマイクロ波周波数量子状態を確立する。 我々は、ハミルトニアン模型を単一粒子のハートリー積基底に対して対角化することにより、電子の運動エネルギースペクトルとその絡み合いを計算する。 この計算手順は、実験的な実装のデバイス設計とガイダンスに利用できる。 特に、ここで開発された理論ツールは、超流動ヘリウムや固体ネオンの表面に閉じ込められた電子による将来の実験で制御パラメータの微調整や最適化に利用できる。

The generation and evolution of entanglement in quantum many-body systems is an active area of research that spans multiple fields, from quantum information science to the simulation of quantum many-body systems encountered in condensed matter, subatomic physics, and quantum chemistry. Motivated by recent experiments exploring quantum information processing systems with electrons trapped above the surface of cryogenic noble gas substrates, we theoretically investigate the generation of \emph{motional} entanglement between two electrons via their unscreened Coulomb interaction. The model system consists of two electrons confined in separate electrostatic traps which establish microwave frequency quantized states of their motion. We compute the motional energy spectra of the electrons, as well as their entanglement, by diagonalizing the model Hamiltonian with respect to a single-particle Hartree product basis. This computational procedure can in turn be employed for device design and guidance of experimental implementations. In particular, the theoretical tools developed here can be used for fine tuning and optimization of control parameters in future experiments with electrons trapped above the surface of superfluid helium or solid neon.
翻訳日:2023-10-12 14:28:28 公開日:2023-10-07
# 結晶GFN:望ましい性質と制約を有する結晶のサンプリング

Crystal-GFN: sampling crystals with desirable properties and constraints ( http://arxiv.org/abs/2310.04925v1 )

ライセンス: Link先を確認
Mila AI4Science and Alex Hernandez-Garcia and Alexandre Duval and Alexandra Volokhova and Yoshua Bengio and Divya Sharma and Pierre Luc Carrier and Micha{\l} Koziarski and Victor Schmidt(参考訳) 物質発見の加速は、気候危機の緩和に大きく貢献する可能性がある。 電気触媒、イオン伝導体、太陽電池などの新しい固体結晶の発見は、再生可能エネルギー生産と貯蔵の効率向上に重要な影響を与える可能性がある。 本稿では,結晶組成,空間群,格子パラメータを逐次的にサンプリングする結晶構造の生成モデルである crystal-gflownet を紹介する。 このドメインにインスパイアされたアプローチは、物理的および幾何学的制約を柔軟に組み込むだけでなく、目的の関数として望ましい性質の任意の予測モデルを使用することを可能にする。 マトベンチで訓練された新しいプロキシモデルにより予測された結晶構造の形成エネルギーを客観的に利用して結晶-GFlowNetの能力を評価する。 その結果,Crystal-GFlowNetは低生成エネルギーの多種結晶をサンプリングできることがわかった。

Accelerating material discovery holds the potential to greatly help mitigate the climate crisis. Discovering new solid-state crystals such as electrocatalysts, ionic conductors or photovoltaics can have a crucial impact, for instance, in improving the efficiency of renewable energy production and storage. In this paper, we introduce Crystal-GFlowNet, a generative model of crystal structures that sequentially samples a crystal's composition, space group and lattice parameters. This domain-inspired approach enables the flexible incorporation of physical and geometrical constraints, as well as the use of any available predictive model of a desired property as an objective function. We evaluate the capabilities of Crystal-GFlowNet by using as objective the formation energy of a crystal structure, as predicted by a new proxy model trained on MatBench. The results demonstrate that Crystal-GFlowNet is able to sample diverse crystals with low formation energy.
翻訳日:2023-10-12 14:28:12 公開日:2023-10-07
# クリスタル:自己フィードバックによる内省的推論

Crystal: Introspective Reasoners Reinforced with Self-Feedback ( http://arxiv.org/abs/2310.04921v1 )

ライセンス: Link先を確認
Jiacheng Liu, Ramakanth Pasunuru, Hannaneh Hajishirzi, Yejin Choi, Asli Celikyilmaz(参考訳) 広範にわたる研究により、常識推論の性能と解釈性は、推論プロセスの基盤となる知識が明示的に言語化され、活用される知識増進推論手法によって改善できることが示されている。 しかし、「思考の連鎖」やその変種を含む既存の実装は、常識的推論に必要な知識の内省的な性質を捉え、知識の生成と利用の相互適応を考慮に入れていない。 本稿では,イントロスペクティブ・コモンセンス推論器であるクリスタルを開発するための新しい手法を提案する。 コモンセンス問題に対処するため、まず与えられた質問に関連する知識ステートメントのイントロスペクションを行い、その後、それまでのイントロスペクションされた知識に根ざした情報予測を行う。 モデルの知識イントロスペクションと知識ベース推論モードは、モデル自体が与えるフィードバックから得られる報酬を相互に適応させるために強化学習を介して調整される。 実験により、クリスタルは標準的な微調整法と連鎖蒸留法の両方に優れており、コモンセンス推論プロセスの透明性を高めることが示されている。 我々の研究は最終的に、自己フィードバックで神経モデルを強化する可能性と可能性を検証する。

Extensive work has shown that the performance and interpretability of commonsense reasoning can be improved via knowledge-augmented reasoning methods, where the knowledge that underpins the reasoning process is explicitly verbalized and utilized. However, existing implementations, including "chain-of-thought" and its variants, fall short in capturing the introspective nature of knowledge required in commonsense reasoning, and in accounting for the mutual adaptation between the generation and utilization of knowledge. We propose a novel method to develop an introspective commonsense reasoner, Crystal. To tackle commonsense problems, it first introspects for knowledge statements related to the given question, and subsequently makes an informed prediction that is grounded in the previously introspected knowledge. The knowledge introspection and knowledge-grounded reasoning modes of the model are tuned via reinforcement learning to mutually adapt, where the reward derives from the feedback given by the model itself. Experiments show that Crystal significantly outperforms both the standard supervised finetuning and chain-of-thought distilled methods, and enhances the transparency of the commonsense reasoning process. Our work ultimately validates the feasibility and potential of reinforcing a neural model with self-feedback.
翻訳日:2023-10-12 14:27:57 公開日:2023-10-07
# Universal Symmetric Quantum Cloning を用いた単一ビットマルチパーティ伝送

Single Qubit Multi-Party Transmission Using Universal Symmetric Quantum Cloning ( http://arxiv.org/abs/2310.04920v1 )

ライセンス: Link先を確認
Elijah Pelofske(参考訳) 我々は、アリスが1量子ビットの情報(特に純粋量子状態)を$M$のパーティに送信したいという仮説的な量子ネットワークのケースを考える。 リモートレシーバは、送信されたキュービットに対して単一の量子状態トモグラフィをローカルに実行し、何らかの誤差率で量子状態を計算する(トモグラフィー技術と使用するキュービット数に依存する)。 仮想量子ネットワークにおけるリピータ型ノードとして(aliceとリモートレシーバーの間)中間の最適対称ユニバーサル量子クローンマシンを使用することで、aliceは、$m$のリモートレシーバーに対してメッセージキュービットを直接送信するよりも、かなり少ないキュービットを送信できることを示した。 これは量子クローニングの2つの性質のためである。 第一に、単一量子ビット量子クローンは、初期量子状態であるブロッホ球面表現において同じ角度を保っている。 これは、量子クローンの混合状態が十分な精度で計算できるなら、そのベクトルをブロッホ球面に外挿することで純粋な量子状態を計算することができることを意味する。 2つ目の性質は、元の純粋な量子状態に関する近似量子クローンの状態の重なりがすぐに収束することである(特に 1 \rightarrow m$ に対して、m が無限大になるときの忠実性の限界は $\frac{2}{3}$ である)。 つまり、アリスは、もし$m$が十分大きい場合、所望のエラー率を達成するために、一定数の量子ビット(量子クローンマシンに渡される)を準備できる。 これら2つの特性を組み合わせることで、Aliceは1キュービットの伝送精度を1つの1キュービットの伝送精度と、単純な直接キュービットの伝送方法と比較して、桁違いに少ないキュービットのオーダを作成できる。

We consider the hypothetical quantum network case where Alice wishes to transmit one qubit of information (specifically a pure quantum state) to $M$ parties, where $M$ is some large number. The remote receivers locally perform single qubit quantum state tomography on the transmitted qubits in order to compute the quantum state within some error rate (dependent on the tomography technique and number of qubits used). We show that with the use of an intermediate optimal symmetric universal quantum cloning machine (between Alice and the remote receivers) as a repeater-type node in a hypothetical quantum network, Alice can send significantly fewer qubits compared to direct transmission of the message qubits to each of the $M$ remote receivers. This is possible due to two properties of quantum cloning. The first being that single qubit quantum clones retain the same angle, in the Bloch sphere representation, as the initial quantum state. This means that if the mixed state of the quantum clone can be computed to high enough accuracy, the pure quantum state can be computed by extrapolating that vector to the surface of the Bloch sphere. The second property is that the state overlap of approximate quantum clones, with respect to the original pure quantum state, quickly converges (specifically for $1 \rightarrow M$ the limit of the fidelity as M goes to infinity is $\frac{2}{3}$). This means that Alice can prepare a constant number of qubits (which are then passed through the quantum cloning machine) in order to achieve a desired error rate, if $M$ is large enough. Combined, these two properties mean that for large $M$, Alice can prepare orders of magnitude fewer qubits in order to achieve the same single qubit transmission accuracy compared to the naive direct qubit transmission approach.
翻訳日:2023-10-12 14:27:37 公開日:2023-10-07
# 条件付き予測関数:複素モデルにおける偽発見率を制御する新しい手法

The Conditional Prediction Function: A Novel Technique to Control False Discovery Rate for Complex Models ( http://arxiv.org/abs/2310.04919v1 )

ライセンス: Link先を確認
Yushu Shi and Michael Martens(参考訳) 現代の科学的研究において、その目的は、どの変数が大きな種類の潜在的な予測者の間で結果に関連付けられているかを特定することである。 このゴールは、選択中の無関係な予測者の比率である偽発見率(fdr)を制御する方法で変数を選択することで達成できる。 Knockoff filteringは、FDR制御を提供する可変選択に対する最先端のアプローチである。 既存のノックオフ統計は特徴と応答の関係を評価するためにしばしば線形モデルを用いるが、現実の応用では線形性仮定がしばしば破られる。 これにより、真の予測変数を検出する能力が低下する可能性がある。 本稿では,ニューラルネットワークなどの最先端の機械学習予測モデルと組み合わせた条件付き予測関数(cpf)に基づくノックオフ統計法を提案する。 cpf統計は予測者と結果の間の非線形関係を捉えることができ、特徴間の相関も考慮できる。 繰り返しシミュレーションを用いて,CPF統計を連続的,分類的,生存的な結果を含む共通のノックオフ統計よりも優れたパワーを提供する能力について述べる。 CPF統計を用いたノックオフフィルタリングは,(1)実際の販売価格を予測するための住宅用ビルディングデータセット,(2)肺がん患者の病期と相関する遺伝子を選択するためのTCGAデータセットを用いて実証された。

In modern scientific research, the objective is often to identify which variables are associated with an outcome among a large class of potential predictors. This goal can be achieved by selecting variables in a manner that controls the the false discovery rate (FDR), the proportion of irrelevant predictors among the selections. Knockoff filtering is a cutting-edge approach to variable selection that provides FDR control. Existing knockoff statistics frequently employ linear models to assess relationships between features and the response, but the linearity assumption is often violated in real world applications. This may result in poor power to detect truly prognostic variables. We introduce a knockoff statistic based on the conditional prediction function (CPF), which can pair with state-of-art machine learning predictive models, such as deep neural networks. The CPF statistics can capture the nonlinear relationships between predictors and outcomes while also accounting for correlation between features. We illustrate the capability of the CPF statistics to provide superior power over common knockoff statistics with continuous, categorical, and survival outcomes using repeated simulations. Knockoff filtering with the CPF statistics is demonstrated using (1) a residential building dataset to select predictors for the actual sales prices and (2) the TCGA dataset to select genes that are correlated with disease staging in lung cancer patients.
翻訳日:2023-10-12 14:27:01 公開日:2023-10-07
# スパースエントロピーワッサースタイン回帰を用いたロバストネットワークプラニング

Robust Network Pruning With Sparse Entropic Wasserstein Regression ( http://arxiv.org/abs/2310.04918v1 )

ライセンス: Link先を確認
Lei You and Hei Victor Cheng(参考訳) 本研究では,経験的フィッシャー情報行列 (fim) の計算中に雑音の勾配を巧みに扱うニューラルネットワークプルーニング手法を提案する。 我々は, 最適輸送 (ot) 問題の幾何学的属性を活かしたエントロピーワッサースタイン回帰 (ewr) の定式化を提案する。 これは、データポイント間の近傍補間を採用することでノイズ緩和に優れる分析的に示される。 ワッサーシュタイン距離の独特な強さは、ノイズ低減と共分散情報保存のバランスをとる本質的な能力である。 各種ネットワーク上での大規模実験により,提案手法と最先端(SoTA)ネットワークプルーニングアルゴリズムとの同等の性能を示した。 提案手法は,ネットワークサイズやターゲットのスパース性が大きい場合,ノイズデータやアナログメモリ,逆襲攻撃などにより,ノイズ勾配が存在する場合に,さらに大きな利得が得られる。 特に,提案手法では,ネットワークパラメータの4分の1以下しか残っていないmobilenetv1の精度が6%向上し,テスト損失が8%向上した。

This study unveils a cutting-edge technique for neural network pruning that judiciously addresses noisy gradients during the computation of the empirical Fisher Information Matrix (FIM). We introduce an entropic Wasserstein regression (EWR) formulation, capitalizing on the geometric attributes of the optimal transport (OT) problem. This is analytically showcased to excel in noise mitigation by adopting neighborhood interpolation across data points. The unique strength of the Wasserstein distance is its intrinsic ability to strike a balance between noise reduction and covariance information preservation. Extensive experiments performed on various networks show comparable performance of the proposed method with state-of-the-art (SoTA) network pruning algorithms. Our proposed method outperforms the SoTA when the network size or the target sparsity is large, the gain is even larger with the existence of noisy gradients, possibly from noisy data, analog memory, or adversarial attacks. Notably, our proposed method achieves a gain of 6% improvement in accuracy and 8% improvement in testing loss for MobileNetV1 with less than one-fourth of the network parameters remaining.
翻訳日:2023-10-12 14:26:40 公開日:2023-10-07
# ReLUニューラルネットワークの最小表現による高認証ロバスト性

Tight Certified Robustness via Min-Max Representations of ReLU Neural Networks ( http://arxiv.org/abs/2310.04916v1 )

ライセンス: Link先を確認
Brendon G. Anderson, Samuel Pfrommer, Somayeh Sojoudi(参考訳) 制御システムにおけるニューラルネットワークの信頼性の高いデプロイメントには、厳密な堅牢性保証が必要である。 本稿では,reluニューラルネットワークのmin-max表現に対する凸アタックセットに対する強固な強固性証明を,非凸認証問題の凸再構成法を開発すれば得られる。 これは、問題を確率測度上の無限次元最適化に「リフト」し、分散的ロバストな最適化の最近の結果を利用して最適な離散分布を解き、マイルド有界性、非冗長性、スレーター条件の下で離散分布によって元の非凸問題の解が生成されることを証明した。 その結果、モデルに対する最適な(ワーストケース)攻撃は正確に解くことができる。 これは、高価な分岐とバウンドのスキームや緩やかな緩和技術を必要とする以前の最先端技術とは対照的である。 ロバスト制御とmnist画像分類の実験では,本手法の利点を強調する。

The reliable deployment of neural networks in control systems requires rigorous robustness guarantees. In this paper, we obtain tight robustness certificates over convex attack sets for min-max representations of ReLU neural networks by developing a convex reformulation of the nonconvex certification problem. This is done by "lifting" the problem to an infinite-dimensional optimization over probability measures, leveraging recent results in distributionally robust optimization to solve for an optimal discrete distribution, and proving that solutions of the original nonconvex problem are generated by the discrete distribution under mild boundedness, nonredundancy, and Slater conditions. As a consequence, optimal (worst-case) attacks against the model may be solved for exactly. This contrasts prior state-of-the-art that either requires expensive branch-and-bound schemes or loose relaxation techniques. Experiments on robust control and MNIST image classification examples highlight the benefits of our approach.
翻訳日:2023-10-12 14:26:19 公開日:2023-10-07
# 転送可能な深層クラスタリングモデル

Transferable Deep Clustering Model ( http://arxiv.org/abs/2310.04946v1 )

ライセンス: Link先を確認
Zheng Zhang, Liang Zhao(参考訳) ディープラーニングは最近、クラスタリングの分野で顕著な成功を収めた。 しかし、ソースドメイン上のトレーニング済みクラスタリングモデルを、取得した知識を活用してターゲットドメインに転送する方法は、依然として困難である。 既存のディープクラスタリング手法では、固定されたクラスタセンタロイドのグループを通常学習するため、新しいドメインへの一般化性が欠落することが多い。 本稿では,データサンプルの分布に応じてクラスタセントロイドを自動的に適応できる,転送可能な新しいディープクラスタリングモデルを提案する。 固定されたセントロイドの集合を学習するのではなく、サンプルとの関係を計測することでセントロイドを適応できる新しい注意ベースのモジュールを導入する。 さらに,k-means や gaussian mixed model (gmm) のような古典的クラスタリングアルゴリズムよりも厳密に強力なモデルであることが理論的に示されている。 合成および実世界のデータセットにおける実験結果は,提案するトランスファー学習フレームワークの有効性と効率を示し,対象領域の性能を大幅に改善し,計算コストを低減した。

Deep learning has shown remarkable success in the field of clustering recently. However, how to transfer a trained clustering model on a source domain to a target domain by leveraging the acquired knowledge to guide the clustering process remains challenging. Existing deep clustering methods often lack generalizability to new domains because they typically learn a group of fixed cluster centroids, which may not be optimal for the new domain distributions. In this paper, we propose a novel transferable deep clustering model that can automatically adapt the cluster centroids according to the distribution of data samples. Rather than learning a fixed set of centroids, our approach introduces a novel attention-based module that can adapt the centroids by measuring their relationship with samples. In addition, we theoretically show that our model is strictly more powerful than some classical clustering algorithms such as k-means or Gaussian Mixture Model (GMM). Experimental results on both synthetic and real-world datasets demonstrate the effectiveness and efficiency of our proposed transfer learning framework, which significantly improves the performance on target domain and reduces the computational cost.
翻訳日:2023-10-12 14:17:19 公開日:2023-10-07
# LLMにおける特殊化と一般的なスキルのバランス: 現代的なチューニングとデータ戦略の影響

Balancing Specialized and General Skills in LLMs: The Impact of Modern Tuning and Data Strategy ( http://arxiv.org/abs/2310.04945v1 )

ライセンス: Link先を確認
Zheng Zhang, Chen Zheng, Da Tang, Ke Sun, Yukun Ma, Yingtong Bu, Xun Zhou, Liang Zhao(参考訳) 本稿では,大規模言語モデル (LLM) を細調整し, 評価するための多面的手法を提案する。 目標は、汎用言語とドメイン固有のスキルのバランスをとることです。 方法論には3つの主要な要素がある。 1) 総合能力と専門能力の最適バランスを達成するため、微調整中にドメイン内と汎用データを慎重にブレンドすること。 2) 信頼性,一貫性,ビジネスインパクトといった機能的に関連する次元における性能を評価するために調整された45の質問からなる包括的な評価フレームワークを設計すること。 3)モデルのサイズと連続的なトレーニングが、微調整中の効率的なリソース割り当てをガイドする指標にどのように影響するかを分析する。 論文では、提案するフレームワークの設計、データ収集、分析技術、および結果について詳述する。 LLMを専門的な文脈に効果的に適応するための実践的な洞察を企業や研究者に提供することを目的としている。 また,45の質問とそれぞれの評価ガイドラインを含む総合的な評価フレームワークを公開して,専門的なタスクにLLMを適用する上での透明性とコラボレーションを促進することを目的とする。

This paper introduces a multifaceted methodology for fine-tuning and evaluating large language models (LLMs) for specialized monetization tasks. The goal is to balance general language proficiency with domain-specific skills. The methodology has three main components: 1) Carefully blending in-domain and general-purpose data during fine-tuning to achieve an optimal balance between general and specialized capabilities; 2) Designing a comprehensive evaluation framework with 45 questions tailored to assess performance on functionally relevant dimensions like reliability, consistency, and business impact; 3) Analyzing how model size and continual training influence metrics to guide efficient resource allocation during fine-tuning. The paper details the design, data collection, analytical techniques, and results validating the proposed frameworks. It aims to provide businesses and researchers with actionable insights on effectively adapting LLMs for specialized contexts. We also intend to make public the comprehensive evaluation framework, which includes the 45 tailored questions and their respective scoring guidelines, to foster transparency and collaboration in adapting LLMs for specialized tasks.
翻訳日:2023-10-12 14:16:59 公開日:2023-10-07
# テキストを超えて: グラフデータ理解における大規模言語モデルの能力

Beyond Text: A Deep Dive into Large Language Models' Ability on Understanding Graph Data ( http://arxiv.org/abs/2310.04944v1 )

ライセンス: Link先を確認
Yuntong Hu, Zheng Zhang, Liang Zhao(参考訳) 大規模言語モデル (LLM) は多くの自然言語処理タスクにおいて顕著な性能を達成した。 しかし、グラフ構造データに関する彼らの能力は、比較的未調査のままである。 本稿では,ノード,エッジ,グラフレベルにまたがる多種多様なグラフ予測タスクにおいて,LLMをベンチマークする一連の実験を行う。 我々は,LLMがグラフデータを効果的に処理し,トポロジ的構造を利用して性能を向上させることができるかを評価することを目的とする。 様々なプロンプトフォーマッティングとタスク/データセットの選択を通じて、LLMがグラフ構造をいかにうまく解釈し活用できるかを分析する。 LLMの性能を特殊グラフモデルと比較することにより、グラフ解析にLLMを使用する際の長所と短所について考察する。 本研究は, LLMの能力に関する知見を提供し, グラフ解析に適用するためのさらなる研究の道筋を示唆する。

Large language models (LLMs) have achieved impressive performance on many natural language processing tasks. However, their capabilities on graph-structured data remain relatively unexplored. In this paper, we conduct a series of experiments benchmarking leading LLMs on diverse graph prediction tasks spanning node, edge, and graph levels. We aim to assess whether LLMs can effectively process graph data and leverage topological structures to enhance performance, compared to specialized graph neural networks. Through varied prompt formatting and task/dataset selection, we analyze how well LLMs can interpret and utilize graph structures. By comparing LLMs' performance with specialized graph models, we offer insights into the strengths and limitations of employing LLMs for graph analytics. Our findings provide insights into LLMs' capabilities and suggest avenues for further exploration in applying them to graph analytics.
翻訳日:2023-10-12 14:16:43 公開日:2023-10-07
# 空間軌道パターンマイニングのための大規模言語モデル

Large Language Models for Spatial Trajectory Patterns Mining ( http://arxiv.org/abs/2310.04942v1 )

ライセンス: Link先を確認
Zheng Zhang, Hossein Amiri, Zhenke Liu, Andreas Z\"ufle, Liang Zhao(参考訳) 異常な空間的軌跡パターンの同定は、感染性疾患のモニタリングや高齢者ケアといった領域における移動行動の動的変化を示す可能性がある。 近年の大型言語モデル(llm)の発展は、人間に似た方法で推論する能力を示している。 これは、人間の移動の時間パターンを分析する重要な可能性を示す。 本稿では, GPT-4 や Claude-2 などの LLM を先導して, 移動データから異常な動作を検出する能力を, 特殊手法と比較して評価する実験的検討を行った。 LLMは特定の手がかりを伴わずとも,適切な異常検出性能が得られることを示す。 さらに、潜在的な不規則性に関する文脈的手がかりを提供することで、予測の有効性をさらに高めることができる。 さらに、LCMは判断に合理的な説明を与え、透明性を向上させることができる。 本研究は,人間の空間軌道解析におけるLLMの強度と限界について考察する。

Identifying anomalous human spatial trajectory patterns can indicate dynamic changes in mobility behavior with applications in domains like infectious disease monitoring and elderly care. Recent advancements in large language models (LLMs) have demonstrated their ability to reason in a manner akin to humans. This presents significant potential for analyzing temporal patterns in human mobility. In this paper, we conduct empirical studies to assess the capabilities of leading LLMs like GPT-4 and Claude-2 in detecting anomalous behaviors from mobility data, by comparing to specialized methods. Our key findings demonstrate that LLMs can attain reasonable anomaly detection performance even without any specific cues. In addition, providing contextual clues about potential irregularities could further enhances their prediction efficacy. Moreover, LLMs can provide reasonable explanations for their judgments, thereby improving transparency. Our work provides insights on the strengths and limitations of LLMs for human spatial trajectory analysis.
翻訳日:2023-10-12 14:16:33 公開日:2023-10-07
# アグリーメント・オン・ザ・ラインによる信頼性の高いテストタイム適応

Reliable Test-Time Adaptation via Agreement-on-the-Line ( http://arxiv.org/abs/2310.04941v1 )

ライセンス: Link先を確認
Eungyeup Kim, Mingjie Sun, Aditi Raghunathan, Zico Kolter(参考訳) テスト時間適応 (TTA) 法は、シフトしたテスト分布からラベル付きデータを用いてモデルを適用することにより、分散シフトに対するロバスト性を改善することを目的としている。 しかし、TTAの性能評価の困難、TTA後の誤校正、適応のための信頼性の低いハイパーパラメータチューニングなど、TTAの信頼性を損なう未解決の課題が残っている。 本研究は,ttaedモデルが広範囲の分布シフトにまたがる合意・オン・ザ・ライン現象(baek et al., 2022)を強固に示す,注目すべきかつ驚くべき観察を行う。 このような線形傾向は、様々なハイパーパラメータで適応された幅広いモデルで一貫して発生し、その現象がバニラモデル(つまり適応前)で保持されない分布で持続する。 これらの観測を利用して、TTA法をより信頼性の高いものにする。 i) OOD精度(ラベル付きデータなし)を推定して、TTAがいつ、いつ、そしてそれが痛いかを判断する。 (ii)ラベル情報のないttaモデルの校正 (iii)ラベル付き検証データなしでttaのハイパーパラメータを確実に決定する。 広範囲な実験により, 各種TTA法を精度よく評価し, 改良と劣化の両面から評価できることを示した。 さらに,本提案手法は,OOD精度と校正誤差の両面から,地中トラスラベルへのアクセスを想定した非教師なしキャリブレーションとハイパーパラメータチューニングを両立させる手法である。

Test-time adaptation (TTA) methods aim to improve robustness to distribution shifts by adapting models using unlabeled data from the shifted test distribution. However, there remain unresolved challenges that undermine the reliability of TTA, which include difficulties in evaluating TTA performance, miscalibration after TTA, and unreliable hyperparameter tuning for adaptation. In this work, we make a notable and surprising observation that TTAed models strongly show the agreement-on-the-line phenomenon (Baek et al., 2022) across a wide range of distribution shifts. We find such linear trends occur consistently in a wide range of models adapted with various hyperparameters, and persist in distributions where the phenomenon fails to hold in vanilla models (i.e., before adaptation). We leverage these observations to make TTA methods more reliable in three perspectives: (i) estimating OOD accuracy (without labeled data) to determine when TTA helps and when it hurts, (ii) calibrating TTAed models without label information, and (iii) reliably determining hyperparameters for TTA without any labeled validation data. Through extensive experiments, we demonstrate that various TTA methods can be precisely evaluated, both in terms of their improvements and degradations. Moreover, our proposed methods on unsupervised calibration and hyperparameters tuning for TTA achieve results close to the ones assuming access to ground-truth labels, in terms of both OOD accuracy and calibration error.
翻訳日:2023-10-12 14:16:18 公開日:2023-10-07
# PAC-ベイズ理論を用いた変分オートエンコーダの統計的保証

Statistical Guarantees for Variational Autoencoders using PAC-Bayesian Theory ( http://arxiv.org/abs/2310.04935v1 )

ライセンス: Link先を確認
Sokhna Diarra Mbacke, Florence Clerc, Pascal Germain(参考訳) その誕生以来、変分オートエンコーダ(VAE)は機械学習の中心となっている。 広く使われているにもかかわらず、理論上の性質について多くの疑問が残る。 PAC-ベイジアン理論を用いて、この研究はVAEの統計的保証を発展させる。 まず、データ生成分布から個々のサンプルに条件付き後続分布に対する最初のPAC-Bayesian境界を導出する。 そして,この結果を用いて,vaeの復元損失に対する一般化保証と,入力と再生分布との間の距離の上限を定式化する。 さらに重要なことは、入力分布とVAEの生成モデルで定義される分布の間のワッサーシュタイン距離の上限を与えることである。

Since their inception, Variational Autoencoders (VAEs) have become central in machine learning. Despite their widespread use, numerous questions regarding their theoretical properties remain open. Using PAC-Bayesian theory, this work develops statistical guarantees for VAEs. First, we derive the first PAC-Bayesian bound for posterior distributions conditioned on individual samples from the data-generating distribution. Then, we utilize this result to develop generalization guarantees for the VAE's reconstruction loss, as well as upper bounds on the distance between the input and the regenerated distributions. More importantly, we provide upper bounds on the Wasserstein distance between the input distribution and the distribution defined by the VAE's generative model.
翻訳日:2023-10-12 14:14:56 公開日:2023-10-07
# 二重潜在状態学習アプローチ:QoS予測のための地域ネットワーク類似点の探索

A Dual Latent State Learning Approach: Exploiting Regional Network Similarities for QoS Prediction ( http://arxiv.org/abs/2310.05988v1 )

ライセンス: Link先を確認
Ziliang Wang, Xiaohong Zhang, Meng Yan(参考訳) 特定の領域内のユーザやサービスを問わず、個々のオブジェクトは、同じ都市または自律システム(AS)から共有されるため、しばしば同様のネットワーク状態を示す。 このような地域ネットワークの類似性にもかかわらず、既存の多くの技術はその可能性を見落とし、データスパシティやラベルの不均衡といった課題から生じる低いパフォーマンスをもたらす。 本稿では、QoS(Quality of Service)予測における従来の個別オブジェクトベースの予測手法の落とし穴を克服するために設計された新しいディープラーニングフレームワークである、地域ベースデュアル潜在状態学習ネットワーク(R2SL)を紹介する。 前者とは異なり、R2SLは2つの異なる地域ネットワーク潜在状態(都市ネットワーク潜在状態とASネットワーク潜在状態)を導出することで、地域ネットワークの振舞いのニュアンスを捉えている。 これらの状態は、個々のオブジェクトデータではなく、共通領域からの集約データを利用して構築される。 さらに、R2SLは、線形損失成分を調整する拡張されたハマー損失関数を採用し、ラベルの不均衡の問題に対する対策を提供する。 予測処理を克服するために、マルチスケール知覚ネットワークを利用して、統合特徴マップ、地域ネットワーク潜在特徴の融合、その他の関連する情報を解釈し、最終的にqos予測を実現する。 実世界のQoSデータセットの厳密なテストを通じて、R2SLは、最先端の手法よりも優れたパフォーマンスを示している。 我々のR2SLアプローチは、オブジェクトに固有の地域ネットワークの類似性を十分に活用することで、正確なQoS予測のための革新的な道を開く。

Individual objects, whether users or services, within a specific region often exhibit similar network states due to their shared origin from the same city or autonomous system (AS). Despite this regional network similarity, many existing techniques overlook its potential, resulting in subpar performance arising from challenges such as data sparsity and label imbalance. In this paper, we introduce the regional-based dual latent state learning network(R2SL), a novel deep learning framework designed to overcome the pitfalls of traditional individual object-based prediction techniques in Quality of Service (QoS) prediction. Unlike its predecessors, R2SL captures the nuances of regional network behavior by deriving two distinct regional network latent states: the city-network latent state and the AS-network latent state. These states are constructed utilizing aggregated data from common regions rather than individual object data. Furthermore, R2SL adopts an enhanced Huber loss function that adjusts its linear loss component, providing a remedy for prevalent label imbalance issues. To cap off the prediction process, a multi-scale perception network is leveraged to interpret the integrated feature map, a fusion of regional network latent features and other pertinent information, ultimately accomplishing the QoS prediction. Through rigorous testing on real-world QoS datasets, R2SL demonstrates superior performance compared to prevailing state-of-the-art methods. Our R2SL approach ushers in an innovative avenue for precise QoS predictions by fully harnessing the regional network similarities inherent in objects.
翻訳日:2023-10-12 04:32:06 公開日:2023-10-07
# DynamicBEV:3Dオブジェクト検出のための動的クエリと時間コンテキストを活用する

DynamicBEV: Leveraging Dynamic Queries and Temporal Context for 3D Object Detection ( http://arxiv.org/abs/2310.05989v1 )

ライセンス: Link先を確認
Jiawei Yao and Yingxin Lai(参考訳) 3Dオブジェクト検出は、自動運転やロボティクスといったアプリケーションには不可欠だ。 BEV(Bird's Eye View)画像に対するクエリベースの3Dオブジェクト検出は大幅に進歩しているが、既存の手法のほとんどは静的クエリのパラダイムに従っている。 このようなパラダイムは、シーン内の複雑な空間的時間的関係に適応できない。 この問題を解決するために,BEVに基づく3次元オブジェクト検出に動的クエリを利用する新しいアプローチであるDynamicBEVのパラダイムを導入する。 静的クエリとは対照的に,提案する動的クエリはk-meansクラスタリングとtop-kアテンションを創造的な方法で活用し,局所的特徴と遠方特徴の両方からより効率的に情報を集約する。 効率をさらに高めるため、DynamicBEVは、時間文脈の効率的な統合と計算の大幅な削減のために設計された軽量時間融合モジュール(LTFM)を組み込んでいる。 さらに、カスタム設計の多様性損失によって、シナリオ間でバランスのとれた機能表現が保証される。 nuScenesデータセットの大規模な実験はDynamicBEVの有効性を検証し、新しい最先端技術を確立し、クエリベースのBEVオブジェクト検出におけるパラダイムレベルのブレークスルーを宣言する。

3D object detection is crucial for applications like autonomous driving and robotics. While query-based 3D object detection for BEV (Bird's Eye View) images has seen significant advancements, most existing methods follows the paradigm of static query. Such paradigm is incapable of adapting to complex spatial-temporal relationships in the scene. To solve this problem, we introduce a new paradigm in DynamicBEV, a novel approach that employs dynamic queries for BEV-based 3D object detection. In contrast to static queries, the proposed dynamic queries exploit K-means clustering and Top-K Attention in a creative way to aggregate information more effectively from both local and distant feature, which enable DynamicBEV to adapt iteratively to complex scenes. To further boost efficiency, DynamicBEV incorporates a Lightweight Temporal Fusion Module (LTFM), designed for efficient temporal context integration with a significant computation reduction. Additionally, a custom-designed Diversity Loss ensures a balanced feature representation across scenarios. Extensive experiments on the nuScenes dataset validate the effectiveness of DynamicBEV, establishing a new state-of-the-art and heralding a paradigm-level breakthrough in query-based BEV object detection.
翻訳日:2023-10-12 04:17:28 公開日:2023-10-07