このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20240610となっている論文です。

PDF登録状況(公開日: 20240610)

TitleAuthorsAbstract論文公表日・翻訳日
# Yolov4-tinyに基づくPPEのリアルタイム自動ドッキングとドッフィング検出

Real-Time Automated donning and doffing detection of PPE based on Yolov4-tiny ( http://arxiv.org/abs/2407.17471v1 )

ライセンス: Link先を確認
Anusha Verma, Ghazal Ghajari, K M Tawsik Jawad, Dr. Hugh P. Salehi, Dr. Fathi Amsaad, (参考訳) 病院や診療所における医療従事者(HCW)の安全と安全を維持することは、個人用防護具(PPE)の装着・取外しに関する適切なプロトコルに従うことに依存している。 HCWは、プロセスが認知的に要求され、エラーが一般的であるため、着用および除去プロセス中にフィードバックシステムから恩恵を受けることができる。 CDC(Centers for Disease Control and Prevention, 疾病予防センター)は、PPEを正しく使用するためのガイドラインを策定した。 ユニークなシークエンシングアルゴリズムとともに、リアルタイムオブジェクト検出を使用して、ドッキングとドッフィングのプロセスをリアルタイムで識別し、決定する。 この技術研究の目的は2つある: 利用者は、ドッキングやドッフィング中に適切な手順に従わなければ、シーケンスで見逃したステップに対してリアルタイムに警告を受ける。 第二に、組み込みシステムアーキテクチャにおける小さな機械学習(yolov4-tiny)を使用することで、異なるヘルスケア環境でのデプロイが実現可能でコスト効率が向上する。

Maintaining patient safety and the safety of healthcare workers (HCWs) in hospitals and clinics highly depends on following the proper protocol for donning and taking off personal protective equipment (PPE). HCWs can benefit from a feedback system during the putting on and removal process because the process is cognitively demanding and errors are common. Centers for Disease Control and Prevention (CDC) provided guidelines for correct PPE use which should be followed. A real time object detection along with a unique sequencing algorithms are used to identify and determine the donning and doffing process in real time. The purpose of this technical research is two-fold: The user gets real time alert to the step they missed in the sequence if they don't follow the proper procedure during donning or doffing. Secondly, the use of tiny machine learning (yolov4-tiny) in embedded system architecture makes it feasible and cost-effective to deploy in different healthcare settings.
翻訳日:2024-08-05 01:45:45 公開日:2024-06-10
# 流動等化としての合成映像生成

Compositional Video Generation as Flow Equalization ( http://arxiv.org/abs/2407.06182v1 )

ライセンス: Link先を確認
Xingyi Yang, Xinchao Wang, (参考訳) 大規模テキスト・トゥ・ビデオ拡散モデル(T2V)は、最近、自然言語記述を驚くべき、フォトリアリスティックなビデオに変換する前例のない能力を示した。 これらのモデルは、複数の概念と行動の間の複雑な構成的相互作用を完全に把握するのに苦労する。 この問題に対処するために,すべての概念が適切に表現されることを明確に保証する合成ビデオ生成のための汎用フレームワークである \textbf{Vico} を導入する。 中心となるVicoは、入力トークンが生成したビデオにどのように影響するかを分析し、モデルを調整することで、任意の概念が支配的になるのを防ぐ。 具体的には、Vicoはすべてのレイヤから注目重みを抽出し、空間的時間的注意グラフを構築し、その影響をソーステキストトークンからビデオターゲットトークンへのemph{max-flow}として推定する。 拡散モデルにおけるアテンションフローの直接計算は、通常実現不可能であるが、サブグラフフローに基づく効率的な近似を考案し、高速かつベクトル化された実装を用いて、フロー計算を管理および微分可能とする。 これらのフローのバランスをとるためにノイズの多い潜水器を更新することで、Vicoは複雑なインタラクションをキャプチャし、テキスト記述に密着したビデオを生成する。 合成T2Vとビデオ編集のための多重拡散型ビデオモデルに本手法を適用した。 実験により,本フレームワークは生成した映像の合成豊かさと精度を著しく向上させることが示された。 https://adamdad.github.io/vico/}{\url{https://adamdad.github.io/vico/}}

Large-scale Text-to-Video (T2V) diffusion models have recently demonstrated unprecedented capability to transform natural language descriptions into stunning and photorealistic videos. Despite the promising results, a significant challenge remains: these models struggle to fully grasp complex compositional interactions between multiple concepts and actions. This issue arises when some words dominantly influence the final video, overshadowing other concepts.To tackle this problem, we introduce \textbf{Vico}, a generic framework for compositional video generation that explicitly ensures all concepts are represented properly. At its core, Vico analyzes how input tokens influence the generated video, and adjusts the model to prevent any single concept from dominating. Specifically, Vico extracts attention weights from all layers to build a spatial-temporal attention graph, and then estimates the influence as the \emph{max-flow} from the source text token to the video target token. Although the direct computation of attention flow in diffusion models is typically infeasible, we devise an efficient approximation based on subgraph flows and employ a fast and vectorized implementation, which in turn makes the flow computation manageable and differentiable. By updating the noisy latent to balance these flows, Vico captures complex interactions and consequently produces videos that closely adhere to textual descriptions. We apply our method to multiple diffusion-based video models for compositional T2V and video editing. Empirical results demonstrate that our framework significantly enhances the compositional richness and accuracy of the generated videos. Visit our website at~\href{https://adamdad.github.io/vico/}{\url{https://adamdad.github.io/vico/}}.
翻訳日:2024-07-22 14:07:46 公開日:2024-06-10
# 自己監督型位置細胞学習のための高次空間情報

Higher-Order Spatial Information for Self-Supervised Place Cell Learning ( http://arxiv.org/abs/2407.06195v1 )

ライセンス: Link先を確認
Jared Deighton, Wyatt Mackey, Ioannis Schizas, David L. Boothe Jr., Vasileios Maroulas, (参考訳) 哺乳類は、新しい環境をナビゲートし、空間における位置をコードする場所と格子細胞を介して、環境感覚を疎外するためのレジリエンスを示す。 グリッドセル符号化の効率性は広く研究されているが、プレースセルの計算的役割は理解されていない。 このギャップは、空間情報測度がこれまでは単一場所の細胞に限られていたため、部分的に生じる。 我々は高次空間情報尺度を導出し,実装し,複数の位置細胞が自己管理的に出現することを研究する。 創発性場所細胞には、高精度な空間デコードを含む多くの望ましい特徴があることを示す。 これは、場所細胞の発火速度のみに依存する高次空間情報測度が導出され、自己監督学習による複数の場所細胞の出現に焦点を当てた最初の作品である。 複数位置細胞の空間情報を定量化することにより、再帰的なニューラルネットワークにおける位置セルの形成と能力の理解を深め、客観的な位置情報を持たない新規環境における人工システムの潜在的なナビゲーション能力を向上させる。

Mammals navigate novel environments and exhibit resilience to sparse environmental sensory cues via place and grid cells, which encode position in space. While the efficiency of grid cell coding has been extensively studied, the computational role of place cells is less well understood. This gap arises partially because spatial information measures have, until now, been limited to single place cells. We derive and implement a higher-order spatial information measure, allowing for the study of the emergence of multiple place cells in a self-supervised manner. We show that emergent place cells have many desirable features, including high-accuracy spatial decoding. This is the first work in which higher-order spatial information measures that depend solely on place cells' firing rates have been derived and which focuses on the emergence of multiple place cells via self-supervised learning. By quantifying the spatial information of multiple place cells, we enhance our understanding of place cell formation and capabilities in recurrent neural networks, thereby improving the potential navigation capabilities of artificial systems in novel environments without objective location information.
翻訳日:2024-07-22 14:07:46 公開日:2024-06-10
# トレンドの追従を超えて: 市場トレンド予測のためのディープラーニング

Beyond Trend Following: Deep Learning for Market Trend Prediction ( http://arxiv.org/abs/2407.13685v1 )

ライセンス: Link先を確認
Fernando Berzal, Alberto Garcia, (参考訳) トレンドフォローとモーメント投資は、資産運用者が採用する一般的な戦略である。 適切な状況では役に立ちますが、バックミラーに集中して運転しているように、過去を見るだけで機能するという意味では限定的です。 本稿では,今後の市場動向を予測するための人工知能と機械学習技術の利用を提唱する。 これらの予測は、適切に実行されれば、リターンを増やし、損失を減らすことで資産運用者のパフォーマンスを向上させることができる。

Trend following and momentum investing are common strategies employed by asset managers. Even though they can be helpful in the proper situations, they are limited in the sense that they work just by looking at past, as if we were driving with our focus on the rearview mirror. In this paper, we advocate for the use of Artificial Intelligence and Machine Learning techniques to predict future market trends. These predictions, when done properly, can improve the performance of asset managers by increasing returns and reducing drawdowns.
翻訳日:2024-07-22 08:07:30 公開日:2024-06-10
# データ駆動型潮流線形化理論

Data-driven Power Flow Linearization: Theory ( http://arxiv.org/abs/2407.02501v1 )

ライセンス: Link先を確認
Mengshuo Jia, Gabriela Hug, Ning Zhang, Zhaojian Wang, Yi Wang, Chongqing Kang, (参考訳) この2部構成のチュートリアルでは、データ駆動型電力フロー線形化(DPFL)の分野を掘り下げた。 DPFLは、高い近似精度、広い適応性、そして最新のシステム属性を暗黙的に組み込む能力で際立っている。 これにより、DPFLは、より高いモデル精度を経済効率の向上とエネルギー損失の低減に変換することで、より持続可能なエネルギーの未来を実現するための、再生可能エネルギー源からの重大な変動を管理するための、潜在的に優れた選択肢となる。 そこで本チュートリアルでは,既存のDPFL手法をDPFL学習アルゴリズムと支援手法に分類する。 彼らの数学的モデル、解析解、能力、限界、一般化可能性は体系的に検討され、議論され、要約される。 さらに,本チュートリアルでは,既存のDPFL実験をレビューし,テストシステムの設定,データセットの忠実度,DPFL法との比較を行った。 さらに、本チュートリアルでは、既存のDPFL法(合計40手法)と4つの古典物理学駆動アプローチの広範な数値比較を行い、その一般化性、適用性、精度、計算効率に着目した。 これらのシミュレーション手法を通じて、このチュートリアルは、すべての手法(データノイズや外れ値に露呈する性能を含む)の実際の性能を明らかにし、適切な線形化手法の選択を導くことを目的としている。 さらに, このチュートリアルでは, 理論的, 数値的考察に基づいて今後の方向性を論じる。 まず, DPFL理論を再検討し, 全ての学習アルゴリズムと支援手法について述べる。 これまでの文献では未完成であった能力、限界、一般化性の側面が特定されている。

This two-part tutorial dives into the field of data-driven power flow linearization (DPFL), a domain gaining increased attention. DPFL stands out for its higher approximation accuracy, wide adaptability, and better ability to implicitly incorporate the latest system attributes. This renders DPFL a potentially superior option for managing the significant fluctuations from renewable energy sources, a step towards realizing a more sustainable energy future, by translating the higher model accuracy into increased economic efficiency and less energy losses. To conduct a deep and rigorous reexamination, this tutorial first classifies existing DPFL methods into DPFL training algorithms and supportive techniques. Their mathematical models, analytical solutions, capabilities, limitations, and generalizability are systematically examined, discussed, and summarized. In addition, this tutorial reviews existing DPFL experiments, examining the settings of test systems, the fidelity of datasets, and the comparison made among a limited number of DPFL methods. Further, this tutorial implements extensive numerical comparisons of all existing DPFL methods (40 methods in total) and four classic physics-driven approaches, focusing on their generalizability, applicability, accuracy, and computational efficiency. Through these simulationmethodss, this tutorial aims to reveal the actual performance of all the methods (including the performances exposed to data noise or outliers), guiding the selection of appropriate linearization methods. Furthermore, this tutorial discusses future directions based on the theoretical and numerical insights gained. As the first part, this paper reexamines DPFL theories, covering all the training algorithms and supportive techniques. Capabilities, limitations, and aspects of generalizability, which were previously unmentioned in the literature, have been identified.
翻訳日:2024-07-07 13:24:39 公開日:2024-06-10
# 検索付加生成に及ぼす量子化の影響:小型LLMの解析

The Impact of Quantization on Retrieval-Augmented Generation: An Analysis of Small LLMs ( http://arxiv.org/abs/2406.10251v1 )

ライセンス: Link先を確認
Mert Yazan, Suzan Verberne, Frederik Situmeang, (参考訳) 学習後の量子化は、Large Language Models (LLM) の計算需要を減らすが、その能力の一部を弱める可能性がある。 LLM能力はスケールとともに出現するので、より小さなLCMは量子化に敏感である。 本稿では,量子化がLLMの検索強化生成(RAG)能力にどのように影響するかを,より長い文脈で検討する。 複数の文書に対する長文推論を必要とするため、RAGを用いることが難しいため、評価のためにパーソナライズを選択した。 元のFP16と、複数の7Bと8BのINT4の性能を2つのタスクで比較し、検索された文書の数を徐々に増加させ、より長いコンテキストに対して量子化されたモデルがどのように一致するかを検証した。 検索の効果をよりよく理解するために,本実験における3つの検索モデルの評価を行った。 この結果から, 7B LLM がそのタスクをうまく実行した場合, 量子化ではその性能や長文推論能力が損なわれないことが判明した。 我々は、RAGを量子化された小さなLCMで利用することは可能であると結論付けている。

Post-training quantization reduces the computational demand of Large Language Models (LLMs) but can weaken some of their capabilities. Since LLM abilities emerge with scale, smaller LLMs are more sensitive to quantization. In this paper, we explore how quantization affects smaller LLMs' ability to perform retrieval-augmented generation (RAG), specifically in longer contexts. We chose personalization for evaluation because it is a challenging domain to perform using RAG as it requires long-context reasoning over multiple documents. We compare the original FP16 and the quantized INT4 performance of multiple 7B and 8B LLMs on two tasks while progressively increasing the number of retrieved documents to test how quantized models fare against longer contexts. To better understand the effect of retrieval, we evaluate three retrieval models in our experiments. Our findings reveal that if a 7B LLM performs the task well, quantization does not impair its performance and long-context reasoning capabilities. We conclude that it is possible to utilize RAG with quantized smaller LLMs.
翻訳日:2024-06-23 13:35:51 公開日:2024-06-10
# lexiques pour les concept émergents:une exploration méthodologique

Développement automatique de lexiques pour les concepts émergents : une exploration méthodologique ( http://arxiv.org/abs/2406.10253v1 )

ライセンス: Link先を確認
Revekka Kyriakoglou, Anna Pappa, Jilin He, Antoine Schoen, Patricia Laurens, Markarit Vartampetian, Philippe Laredo, Tita Kyriacopoulou, (参考訳) 本稿では,非技術革新を中心に,新しい概念を中心としたレキシコンの開発について述べる。 人間の専門知識、統計分析、機械学習技術を組み合わせた4段階の方法論を導入し、複数のドメインにまたがって一般化可能なモデルを確立する。 このプロセスには、テーマコーパスの作成、ゴールドスタンダードレキシコンの開発、トレーニングコーパスのアノテーションと準備、そして最後に、新しい用語を特定するための学習モデルの実装が含まれる。 その結果,アプローチの堅牢性と妥当性が示され,様々な文脈への適応性と語彙研究への貢献が強調された。 開発された方法論は、概念分野に適用可能であることを約束する。

This paper presents the development of a lexicon centered on emerging concepts, focusing on non-technological innovation. It introduces a four-step methodology that combines human expertise, statistical analysis, and machine learning techniques to establish a model that can be generalized across multiple domains. This process includes the creation of a thematic corpus, the development of a Gold Standard Lexicon, annotation and preparation of a training corpus, and finally, the implementation of learning models to identify new terms. The results demonstrate the robustness and relevance of our approach, highlighting its adaptability to various contexts and its contribution to lexical research. The developed methodology promises applicability in conceptual fields.
翻訳日:2024-06-23 13:35:51 公開日:2024-06-10
# 大規模言語モデルにおける信号処理に向けて

Towards Signal Processing In Large Language Models ( http://arxiv.org/abs/2406.10254v1 )

ライセンス: Link先を確認
Prateek Verma, Mert Pilanci, (参考訳) 本稿では,Large Language Model (LLM) 内で信号処理を適用するという考え方を紹介する。 最近の生成AIの爆発により、我々の研究は2つの分野、すなわち信号処理の分野と大きな言語モデルとの橋渡しに役立ちます。 LLMのすべての中間活性化信号に対して、古典的なフーリエ変換とフーリエ変換のような学習可能な時間周波数表現とを並列に描画する。 トークンをまたいだすべてのアクティベーションシグナルを時間周波数表現に分解すると、スクラッチから学習したすべてのコンポーネントでそれらをフィルタして再構築する方法を学び、前回のコンテキストから次のトークンを予測する。 GPTのようなアーキテクチャでは、同じエポックに対してトレーニングされた際のパラメータの最小値を追加することで、より高速な収束を実現し、性能を大幅に向上することを示す。 この研究が、LLMなどのニューラルアーキテクチャに見られる信号の内部で信号処理を探索するアルゴリズムの道を開くことを願っている。

This paper introduces the idea of applying signal processing inside a Large Language Model (LLM). With the recent explosion of generative AI, our work can help bridge two fields together, namely the field of signal processing and large language models. We draw parallels between classical Fourier-Transforms and Fourier Transform-like learnable time-frequency representations for every intermediate activation signal of an LLM. Once we decompose every activation signal across tokens into a time-frequency representation, we learn how to filter and reconstruct them, with all components learned from scratch, to predict the next token given the previous context. We show that for GPT-like architectures, our work achieves faster convergence and significantly increases performance by adding a minuscule number of extra parameters when trained for the same epochs. We hope this work paves the way for algorithms exploring signal processing inside the signals found in neural architectures like LLMs and beyond.
翻訳日:2024-06-23 13:35:51 公開日:2024-06-10
# WarCov -- ソーシャルプラットフォームによる大規模マルチラベルおよびマルチモーダルデータセット

WarCov -- Large multilabel and multimodal dataset from social platform ( http://arxiv.org/abs/2406.10255v1 )

ライセンス: Link先を確認
Weronika Borek-Marciniec, Pawel Zyblewski, Jakub Klikowski, Pawel Ksieniewicz, (参考訳) 分類タスクでは、生データ取得から機械学習モデル評価に適したデータセットのキュレーションに至るまで、一連のステップ(しばしば高コストに関連する)が必要である。 自然言語処理の場合、初期クリーニングと変換は自動で行うことができるが、ラベルを取得するには人間の専門家の合理的な入力が必要である。 その結果、多くの記事が「世界はデータで満たされている」と記しているが、データサイエンティストはその不足に悩まされている。 自然言語アプリケーションの場合、それは常に進化しており、新しい概念やイベントに適応する必要があります。 例えば、新型コロナウイルスのパンデミックとそれに関連する語彙の話題は、2019年以前にはほとんど認識できなかっただろう。 そのため、英語以外の言語でも、新しいデータセットを作成することが依然として不可欠である。 この研究は、ポーランドにおけるパンデミックとウクライナでの戦争に関する3~187~105の投稿を2022年にポピュラーなソーシャルメディアプラットフォームで発表している。 このコレクションは、事前処理されたテキストだけでなく、画像も含まれており、マルチモーダル認識タスクにも使用できる。 ラベルは投稿のトピックを定義し、投稿に付随するハッシュタグを使用して作成された。 この研究は、取得からサンプルパターン認識実験までデータセットをキュレートする過程を示す。

In the classification tasks, from raw data acquisition to the curation of a dataset suitable for use in evaluating machine learning models, a series of steps - often associated with high costs - are necessary. In the case of Natural Language Processing, initial cleaning and conversion can be performed automatically, but obtaining labels still requires the rationalized input of human experts. As a result, even though many articles often state that "the world is filled with data", data scientists suffer from its shortage. It is crucial in the case of natural language applications, which is constantly evolving and must adapt to new concepts or events. For example, the topic of the COVID-19 pandemic and the vocabulary related to it would have been mostly unrecognizable before 2019. For this reason, creating new datasets, also in languages other than English, is still essential. This work presents a collection of 3~187~105 posts in Polish about the pandemic and the war in Ukraine published on popular social media platforms in 2022. The collection includes not only preprocessed texts but also images so it can be used also for multimodal recognition tasks. The labels define posts' topics and were created using hashtags accompanying the posts. The work presents the process of curating a dataset from acquisition to sample pattern recognition experiments.
翻訳日:2024-06-23 13:35:51 公開日:2024-06-10
# 言語モデリングにおける単語密度の明示的推定

Explicit Word Density Estimation for Language Modelling ( http://arxiv.org/abs/2406.10256v1 )

ライセンス: Link先を確認
Jovan Andonov, Octavian Ganea, Paulina Grnarova, Gary Bécigneul, Thomas Hofmann, (参考訳) 言語モデリングは非常に長い間、自然言語処理の中心的存在であり、ここ数年、LSTMベースの言語モデルは、商用言語モデリングのゴーツーメソッドとなっている。 近年,行列因数分解の観点から言語モデルを考えると,最終的なソフトマックス層は行列のランクに上界を置くことによってモデルの表現性を制限することが示されている。 さらに、ニューラルネットワークの新たなファミリーであるNeuralODEsが、Residual Networksの継続的な代替として導入された。 さらに、これらのモデルと正規化フローの間には関係があることが示されている。 本研究では,ニューラルネットワークと正規化フローの連続的類似に基づく新しい言語モデル群を提案する。

Language Modelling has been a central part of Natural Language Processing for a very long time and in the past few years LSTM-based language models have been the go-to method for commercial language modeling. Recently, it has been shown that when looking at language modelling from a matrix factorization point of view, the final Softmax layer limits the expressiveness of the model, by putting an upper bound on the rank of the resulting matrix. Additionally, a new family of neural networks based called NeuralODEs, has been introduced as a continuous alternative to Residual Networks. Moreover, it has been shown that there is a connection between these models and Normalizing Flows. In this work we propose a new family of language models based on NeuralODEs and the continuous analogue of Normalizing Flows and manage to improve on some of the baselines.
翻訳日:2024-06-23 13:24:48 公開日:2024-06-10
# 最適合成埋め込み

Optimal synthesis embeddings ( http://arxiv.org/abs/2406.10259v1 )

ライセンス: Link先を確認
Roberto Santana, Mauricio Romero Sicre, (参考訳) 本稿では,与えられた単語の集合に対する公平な埋め込み表現が,各成分のベクトル表現の同じ距離にあることを満足すべきである,という直感的な考え方に基づく単語埋め込み合成手法を提案する。 埋め込み合成法は、静的かつ文脈化された単語表現で機能し、文の表現を作成し、必ずしもシーケンスとして組織化されていない単語の集合の表現も学習することができる。 このタイプの表現の存在条件を理論的に特徴づけ、解を導出する。 本研究では,データ拡張および文分類タスクにおける手法の評価を行い,組込み法と合成法の設計選択について検討した。 本手法は,文の単純な言語的特徴を捉えることを目的とした探索課題の解法に優れていることを示す。

In this paper we introduce a word embedding composition method based on the intuitive idea that a fair embedding representation for a given set of words should satisfy that the new vector will be at the same distance of the vector representation of each of its constituents, and this distance should be minimized. The embedding composition method can work with static and contextualized word representations, it can be applied to create representations of sentences and learn also representations of sets of words that are not necessarily organized as a sequence. We theoretically characterize the conditions for the existence of this type of representation and derive the solution. We evaluate the method in data augmentation and sentence classification tasks, investigating several design choices of embeddings and composition methods. We show that our approach excels in solving probing tasks designed to capture simple linguistic features of sentences.
翻訳日:2024-06-23 13:24:48 公開日:2024-06-10
# AIは入学レベルのJavaアサインメントで学部生に勝てるか? JavaBench上での大規模言語モデルのベンチマーク

Can AI Beat Undergraduates in Entry-level Java Assignments? Benchmarking Large Language Models on JavaBench ( http://arxiv.org/abs/2406.12902v1 )

ライセンス: Link先を確認
Jialun Cao, Zhiyong Chen, Jiarong Wu, Shing-chi Cheung, Chang Xu, (参考訳) HumanEvalのようなコード生成ベンチマークは、LLMの能力を評価するために広く採用されている。 しかし、最新の24ベンチマークを統合した後、3つの重要な不均衡に気付きました。 まず、不均衡なプログラミング言語。 95.8%のベンチマークがPython、わずか5つのベンチマークがJavaである。 第二に、コードの粒度の不均衡。 関数/ステートメントレベルのベンチマークは83.3%以上を占める。 クラス/プロジェクトレベルまでほんの一握りで、すべてPythonに限られています。 第3に、高度な機能がない。 既存のベンチマークは主に基本的なコーディングスキルを評価し、高度なオブジェクト指向プログラミング(OOP)機能(カプセル化、継承、多型)を見渡す。 これらのギャップを埋めるために、OOP機能を実行するプロジェクトレベルのJavaベンチマークであるJavaBenchを提案する。 106のJavaクラスに389のメソッドを持つ4つのJavaプロジェクトで構成されている。 テストカバレッジは最大92%、JavaBenchは282人の大学生によってテストされ、90.93/100の平均スコア(テストスイートに対するパスレート)に達し、ドキュメント、コードスケルトン、テストの質を保証する。 JavaBenchに対してLLMの能力を評価するために,3つのコンテキスト設定と5つの合成戦略を2つの階層的メトリクスを用いて網羅的に評価する手法を提案する。 我々の広範な実験は、いくつかの興味深い発見をもたらす。 まず、プロジェクトレベルのJavaプログラミングに関して、LLMは学部生よりはるかに遅れていることに気づきました。 第二に、プロンプトコンテキストとしてメソッドシグネチャを使用することは、プロジェクトレベルのコード生成に理想的なバランスを取る可能性がある。 JavaBenchはhttps://github.com/java-bench/JavaBench.comで公開されている。

Code generation benchmarks such as HumanEval are widely adopted to evaluate LLMs' capabilities. However, after consolidating the latest 24 benchmarks, we noticed three significant imbalances. First, imbalanced programming language. 95.8% of benchmarks involve Python, while only 5 benchmarks involve Java. Second, imbalanced code granularity. Function-/statement-level benchmarks account for over 83.3% of benchmarks. Only a mere handful extends to class-/project-levels, and all are limited to Python. Third, lacking advanced features. Existing benchmarks primarily assess basic coding skills, while overlooking advanced Object-Oriented Programming (OOP) features (i.e., encapsulation, inheritance, and polymorphism). To fill these gaps, we propose JavaBench, a project-level Java benchmark that exercises OOP features. It comprises four Java projects with 389 methods in 106 Java classes. The test coverage is up to 92%, and JavaBench is attested by 282 undergraduate students, reaching a 90.93/100 average score (i.e., pass rate against the test suite), ensuring the quality of documentation, code skeleton, and tests. To better evaluate LLM's capability against JavaBench, we introduce a systematic evaluation design covering three context settings and five synthesis strategies at two granularities using three hierarchical metrics. Our extensive experiment yields several interesting findings. First, we noticed that regarding project-level Java programming, LLMs are far behind undergraduate students (no project can be correctly completed by any studied LLMs, and at most 41.17% Pass@5 in a more relaxed evaluation). Second, using method signature as prompt context may strike an ideal balance for project-level code generation. JavaBench is publicly available at https://github.com/java-bench/JavaBench.
翻訳日:2024-06-23 13:15:04 公開日:2024-06-10
# 変分推論によるベイズニューラルネットワークの中枢限界理論

Central Limit Theorem for Bayesian Neural Network trained with Variational Inference ( http://arxiv.org/abs/2406.09048v1 )

ライセンス: Link先を確認
Arnaud Descours, Tom Huix, Arnaud Guillin, Manon Michel, Éric Moulines, Boris Nectoux, (参考訳) 本稿では,無限幅のベイズ型2層ニューラルネットワークに対する中央極限定理(CLT)を厳格に導出し,回帰タスクの変分推論により学習する。 異なるネットワークは、正規化されたエビデンスの下限の異なる最大化スキームによって訓練される。 i) 再パラメータ化トリックから多重ガウス積分を正確に推定した理想化されたケース。 (二)モンテカルロサンプリング(通称ベイズ・バイ・バックプロップ)を用いたミニバッチ方式 (iii)ミニマルVIという計算コストの低いアルゴリズム。 後者は、平均フィールド限界のレベルで得られた情報を活用することで最近導入された。 大数の法則は、同じ漸近極限を持つ3つのスキームに対して、既に厳密に証明されている。 CLTを導出することにより、理想化およびベイズ・バイ・バックプロップスキームは、ミニマル VI と異なる、同様のゆらぎ挙動を持つことを示す。 数値実験により、より大きな分散にもかかわらず、最小の VI スキームは依然としてより効率的であることが示される。

In this paper, we rigorously derive Central Limit Theorems (CLT) for Bayesian two-layerneural networks in the infinite-width limit and trained by variational inference on a regression task. The different networks are trained via different maximization schemes of the regularized evidence lower bound: (i) the idealized case with exact estimation of a multiple Gaussian integral from the reparametrization trick, (ii) a minibatch scheme using Monte Carlo sampling, commonly known as Bayes-by-Backprop, and (iii) a computationally cheaper algorithm named Minimal VI. The latter was recently introduced by leveraging the information obtained at the level of the mean-field limit. Laws of large numbers are already rigorously proven for the three schemes that admits the same asymptotic limit. By deriving CLT, this work shows that the idealized and Bayes-by-Backprop schemes have similar fluctuation behavior, that is different from the Minimal VI one. Numerical experiments then illustrate that the Minimal VI scheme is still more efficient, in spite of bigger variances, thanks to its important gain in computational complexity.
翻訳日:2024-06-14 18:05:18 公開日:2024-06-10
# ボウフリー非環状経路図の代数的等価性

Efficiently Deciding Algebraic Equivalence of Bow-Free Acyclic Path Diagrams ( http://arxiv.org/abs/2406.09049v1 )

ライセンス: Link先を確認
Thijs van Ommen, (参考訳) 潜伏した共同創設者の存在下で因果発見を行うには、因果発見アルゴリズムによってより多くのグラフを区別できる条件付き独立性以外の制約が存在する。 このような制約はまだ十分に理解されていない。 弓のない線形構造方程式モデルの設定において、代数的制約について研究し、これらが最もきめ細かい解が得られると論じる。 2つのグラフが同じ代数的制約を課すか、あるいは1つのグラフが課す制約が他のグラフが課す制約のサブセットであるかどうかを決定する効率的なアルゴリズムを提案する。

For causal discovery in the presence of latent confounders, constraints beyond conditional independences exist that can enable causal discovery algorithms to distinguish more pairs of graphs. Such constraints are not well-understood yet. In the setting of linear structural equation models without bows, we study algebraic constraints and argue that these provide the most fine-grained resolution achievable. We propose efficient algorithms that decide whether two graphs impose the same algebraic constraints, or whether the constraints imposed by one graph are a subset of those imposed by another graph.
翻訳日:2024-06-14 18:05:18 公開日:2024-06-10
# データ vs. 物理:物理インフォームドニューラルネットワークの最前線

Data vs. Physics: The Apparent Pareto Front of Physics-Informed Neural Networks ( http://arxiv.org/abs/2105.00862v2 )

ライセンス: Link先を確認
Franz M. Rohrhofer, Stefan Posch, Clemens Gößnitzer, Bernhard C. Geiger, (参考訳) 物理インフォームドニューラルネットワーク(PINN)は、微分方程式によって支配される前方および逆問題を解くことができる有望なディープラーニング手法として登場した。 最近の進歩にもかかわらず、PINNは訓練が困難であり、多目的(MO)問題のスカラー化によってデータと物理損失関数が組み合わされた場合、損失重み付けを慎重に調整する必要があることが広く認識されている。 本稿では,物理系のパラメータ,例えば特徴量や時間スケール,微分方程式の計算領域,係数が,MO最適化や損失重みの最適選択にどのように影響するかを理解することを目的とする。 PINNトレーニングでこれらのシステムパラメータがどこに現れるのかを理論的に検討した結果、損失残差を効果的に個々にスケールし、システムパラメータの特定の選択とMO最適化の不均衡を引き起こすことがわかった。 これの即時効果は、勾配に基づくトレーニングで達成可能な損失値の集合として定義し、それに応じて可視化するパレートフロントに反映される。 我々は、損失重みがシステムパラメータのスケーリングを補うのに成功し、物理的に有効な解とよく整合したパレートフロントでの最適解の選択を可能にすることを実証的に検証した。 さらに, システムのパラメータ化を変えることで, 見かけのパレートフロントは局所凸部をシフトさせ, より広い範囲の損失重みを生じさせ, 勾配に基づくトレーニングが成功することを示した。 本研究は,システムパラメータがPINNのMO最適化に与える影響を解説し,損失重み付け方式の有用性を強調した。

Physics-informed neural networks (PINNs) have emerged as a promising deep learning method, capable of solving forward and inverse problems governed by differential equations. Despite their recent advance, it is widely acknowledged that PINNs are difficult to train and often require a careful tuning of loss weights when data and physics loss functions are combined by scalarization of a multi-objective (MO) problem. In this paper, we aim to understand how parameters of the physical system, such as characteristic length and time scales, the computational domain, and coefficients of differential equations affect MO optimization and the optimal choice of loss weights. Through a theoretical examination of where these system parameters appear in PINN training, we find that they effectively and individually scale the loss residuals, causing imbalances in MO optimization with certain choices of system parameters. The immediate effects of this are reflected in the apparent Pareto front, which we define as the set of loss values achievable with gradient-based training and visualize accordingly. We empirically verify that loss weights can be used successfully to compensate for the scaling of system parameters, and enable the selection of an optimal solution on the apparent Pareto front that aligns well with the physically valid solution. We further demonstrate that by altering the system parameterization, the apparent Pareto front can shift and exhibit locally convex parts, resulting in a wider range of loss weights for which gradient-based training becomes successful. This work explains the effects of system parameters on MO optimization in PINNs, and highlights the utility of proposed loss weighting schemes.
翻訳日:2024-06-14 02:02:19 公開日:2024-06-10
# Situ Annotateでデータラベルを割り振ることによるバイアス認識AIの強化

Situated Ground Truths: Enhancing Bias-Aware AI by Situating Data Labels with SituAnnotate ( http://arxiv.org/abs/2406.07583v1 )

ライセンス: Link先を確認
Delfina Sol Martinez Pandiani, Valentina Presutti, (参考訳) 現代のAIやデータ駆動型アプリケーションの世界では、教師あり機械は、言葉やラベルの形で典型的に伝えられるアノテーションを通じて、その理解を模倣し、再現することが多い。 しかし、このようなアノテーションは、しばしば文脈情報から分離されるか、あるいは欠落しているため、トレーニングに使用されると、不注意にバイアスを発生させる可能性がある。 本稿では,AIシステムのトレーニングに使用される基礎的真理データを,それらの基礎的真理が出現する状況における文脈的・文化的に束縛された状況に固定することを目的とした,新たなオントロジーであるSituAnnotateを紹介する。 SituAnnotateは、構造化およびコンテキスト対応のデータアノテーションに対するオントロジーベースのアプローチを提供し、分離されたアノテーションに関連する潜在的なバイアス問題に対処する。 その表現力は、アノテータの詳細、タイミング、場所、報酬スキーム、アノテーションの役割など、状況に応じたコンテキストを含む。 基礎的なDolce Ultralightオントロジーと並行して、知識表現のための堅牢で一貫したフレームワークを提供する。 ラベルベースのデータセットを作成し、クエリし、比較する方法として、SituAnnotateは、ダウンストリームAIシステムに対して、コンテキストと文化バイアスを明確に考慮してトレーニングを行う権限を与え、システムの解釈可能性と適応性を高めるための基盤を築き、AIモデルをさまざまな文化的コンテキストと視点に合わせることを可能にする。

In the contemporary world of AI and data-driven applications, supervised machines often derive their understanding, which they mimic and reproduce, through annotations--typically conveyed in the form of words or labels. However, such annotations are often divorced from or lack contextual information, and as such hold the potential to inadvertently introduce biases when subsequently used for training. This paper introduces SituAnnotate, a novel ontology explicitly crafted for 'situated grounding,' aiming to anchor the ground truth data employed in training AI systems within the contextual and culturally-bound situations from which those ground truths emerge. SituAnnotate offers an ontology-based approach to structured and context-aware data annotation, addressing potential bias issues associated with isolated annotations. Its representational power encompasses situational context, including annotator details, timing, location, remuneration schemes, annotation roles, and more, ensuring semantic richness. Aligned with the foundational Dolce Ultralight ontology, it provides a robust and consistent framework for knowledge representation. As a method to create, query, and compare label-based datasets, SituAnnotate empowers downstream AI systems to undergo training with explicit consideration of context and cultural bias, laying the groundwork for enhanced system interpretability and adaptability, and enabling AI models to align with a multitude of cultural contexts and viewpoints.
翻訳日:2024-06-13 21:45:26 公開日:2024-06-10
# BrainChat: 視覚言語事前学習モデルを用いたfMRIからの意味情報のデコード

BrainChat: Decoding Semantic Information from fMRI using Vision-language Pretrained Models ( http://arxiv.org/abs/2406.07584v1 )

ライセンス: Link先を確認
Wanaiu Huang, (参考訳) 意味情報は人間の相互作用に不可欠であり、脳活動から切り離すことで、非侵襲的な臨床的増強と代替的なコミュニケーションが可能になる。 視覚画像の再構成には大きな進歩があったが、言語的な側面に焦点を当てた研究はほとんどない。 このギャップに対処するために、デコーダベースの視覚言語事前訓練モデルCoCaの強力な機能を活用し、fMRI質問応答やfMRIキャプションなどの脳活動から意味情報デコーディングタスクを迅速に達成することを目的とした、シンプルで効果的な生成フレームワークBrainChatを提案する。 BrainChatはMasked Brain Modelingの自己教師型アプローチを用いてスパースfMRIデータをエンコードし、潜伏空間によりコンパクトな埋め込み表現を得る。 その後、BrainChatは、コントラスト損失を適用してモダリティ間のギャップを埋め、その結果、fMRI、画像、テキスト埋め込みの整列表現をもたらす。 さらに、fMRI埋め込みは、生成したBrain Decoderにクロスアテンション層を介してマッピングされ、キャプション損失を最小限に抑えて、fMRIに関するテキストコンテンツの生成を回帰的にガイドする。 経験的に、BrainChatはfMRIキャプションタスクにおける既存の最先端メソッドのパフォーマンスを超え、初めてfMRI質問応答を実装した。 さらに、BrainChatは非常に柔軟で、画像データなしで高いパフォーマンスを実現できます。

Semantic information is vital for human interaction, and decoding it from brain activity enables non-invasive clinical augmentative and alternative communication. While there has been significant progress in reconstructing visual images, few studies have focused on the language aspect. To address this gap, leveraging the powerful capabilities of the decoder-based vision-language pretrained model CoCa, this paper proposes BrainChat, a simple yet effective generative framework aimed at rapidly accomplishing semantic information decoding tasks from brain activity, including fMRI question answering and fMRI captioning. BrainChat employs the self-supervised approach of Masked Brain Modeling to encode sparse fMRI data, obtaining a more compact embedding representation in the latent space. Subsequently, BrainChat bridges the gap between modalities by applying contrastive loss, resulting in aligned representations of fMRI, image, and text embeddings. Furthermore, the fMRI embeddings are mapped to the generative Brain Decoder via cross-attention layers, where they guide the generation of textual content about fMRI in a regressive manner by minimizing caption loss. Empirically, BrainChat exceeds the performance of existing state-of-the-art methods in the fMRI captioning task and, for the first time, implements fMRI question answering. Additionally, BrainChat is highly flexible and can achieve high performance without image data, making it better suited for real-world scenarios with limited data.
翻訳日:2024-06-13 21:45:26 公開日:2024-06-10
# ブラックウェルの接近性に対する保存率低減

Rate-Preserving Reductions for Blackwell Approachability ( http://arxiv.org/abs/2406.07585v1 )

ライセンス: Link先を確認
Christoph Dann, Yishay Mansour, Mehryar Mohri, Jon Schneider, Balasubramanian Sivan, (参考訳) Abernethy et al (2011) は、特定のブラックウェルアプローチ性インスタンスを解くアルゴリズムは、特定の非回帰学習インスタンスのサブ線形後悔アルゴリズムに変換できるという意味で、ブラックウェルアプローチ性と非回帰学習は等価であることを示した。 本稿では,このような縮小のよりきめ細かな形式について検討し,この問題間の変換が収束のサブ線形率だけでなく,収束の最適率も保持するかどうかを問う。 つまり、対応するアプローチ可能性インスタンスに対する最適収束率を求めるために、非回帰学習インスタンスに対する最適後悔境界を見つけるのに十分である場合がありますか? Abernethy et al (2011) の減少は、例えば、$d$-dimensional approachability instance $I_1$ を、最適収束率$R_1$ を任意の再帰学習インスタンス $R_2$ に還元する(特に、$R_{2}/R_{1}$ は、$R_1 = 0$ と $R_{2} > 0$ が任意に大きい)。 一方、任意のアプローチ可能性のインスタンスを、不適切な$\phi$-regret最小化(Gordon et al (2008) の$\phi$-regret最小化の変種)と呼ぶ一般的な後悔の形のインスタンスに厳密に還元することは可能である。 最後に, 線形変換が不適切な$\phi$-regret最小化問題を, 保留率で最小化問題の標準クラスに還元するのに十分である場合を特徴付ける。 このような方法では,いくつかの不適切な$\phi$-regret最小化インスタンスをインスタンスのいずれのサブクラスにも還元できないことを証明する。

Abernethy et al. (2011) showed that Blackwell approachability and no-regret learning are equivalent, in the sense that any algorithm that solves a specific Blackwell approachability instance can be converted to a sublinear regret algorithm for a specific no-regret learning instance, and vice versa. In this paper, we study a more fine-grained form of such reductions, and ask when this translation between problems preserves not only a sublinear rate of convergence, but also preserves the optimal rate of convergence. That is, in which cases does it suffice to find the optimal regret bound for a no-regret learning instance in order to find the optimal rate of convergence for a corresponding approachability instance? We show that the reduction of Abernethy et al. (2011) does not preserve rates: their reduction may reduce a $d$-dimensional approachability instance $I_1$ with optimal convergence rate $R_1$ to a no-regret learning instance $I_2$ with optimal regret-per-round of $R_2$, with $R_{2}/R_{1}$ arbitrarily large (in particular, it is possible that $R_1 = 0$ and $R_{2} > 0$). On the other hand, we show that it is possible to tightly reduce any approachability instance to an instance of a generalized form of regret minimization we call improper $\phi$-regret minimization (a variant of the $\phi$-regret minimization of Gordon et al. (2008) where the transformation functions may map actions outside of the action set). Finally, we characterize when linear transformations suffice to reduce improper $\phi$-regret minimization problems to standard classes of regret minimization problems in a rate preserving manner. We prove that some improper $\phi$-regret minimization instances cannot be reduced to either subclass of instance in this way, suggesting that approachability can capture some problems that cannot be phrased in the language of online learning.
翻訳日:2024-06-13 21:45:26 公開日:2024-06-10
# SciRIFF: 言語モデル指導を促進するためのリソース-科学文献を追従する

SciRIFF: A Resource to Enhance Language Model Instruction-Following over Scientific Literature ( http://arxiv.org/abs/2406.07835v1 )

ライセンス: Link先を確認
David Wadden, Kejian Shi, Jacob Morrison, Aakanksha Naik, Shruti Singh, Nitzan Barzilay, Kyle Lo, Tom Hope, Luca Soldaini, Shannon Zejiang Shen, Doug Downey, Hannaneh Hajishirzi, Arman Cohan, (参考訳) SciRIFF (Scientific Resource for Instruction-Following and Finetuning, SciRIFF) は,情報抽出,要約,質問応答,クレーム検証,および分類の5つの重要な科学的文献理解能力をカバーする,54のタスクを対象とした137Kの指示追従デモのデータセットである。 SciRIFFのデモは、長い入力コンテキスト、詳細なタスク仕様、複雑な構造化出力で有名である。 SciRIFFは、臨床医学や化学などの特定の領域で利用することができるが、研究文献から情報を抽出し合成することに焦点を当てた最初のデータセットである。 SciRIFFの実用性を実証するために、汎用ドメインとSciRIFFのデモを混合して追加的な微調整を行うことにより、科学のための一般的な命令追従モデルを適応するためのサンプル効率のよい戦略を開発した。 9つの科学課題の評価において、SciTuluと呼ばれるモデルでは、7Bスケールと70Bスケールでそれぞれ28.1%と6.5%の強いLCMベースラインを改良し、ベースラインの2%以内の一般的な命令追従性能を維持した。 我々はSciRIFFがLLMの開発と評価を円滑に進め、研究者が今後も成長を続ける科学文献をナビゲートするのに役立つと楽観している。 我々は、さらなる研究を可能にするために、データセット、モデルチェックポイント、データ処理および評価コードをリリースします。

We present SciRIFF (Scientific Resource for Instruction-Following and Finetuning), a dataset of 137K instruction-following demonstrations for 54 tasks covering five essential scientific literature understanding capabilities: information extraction, summarization, question answering, claim verification, and classification. SciRIFF demonstrations are notable for their long input contexts, detailed task specifications, and complex structured outputs. While instruction-following resources are available in specific domains such as clinical medicine and chemistry, SciRIFF is the first dataset focused on extracting and synthesizing information from research literature across a wide range of scientific fields. To demonstrate the utility of SciRIFF, we develop a sample-efficient strategy to adapt a general instruction-following model for science by performing additional finetuning on a mix of general-domain and SciRIFF demonstrations. In evaluations on nine held-out scientific tasks, our model -- called SciTulu -- improves over a strong LLM baseline by 28.1% and 6.5% at the 7B and 70B scales respectively, while maintaining general instruction-following performance within 2% of the baseline. We are optimistic that SciRIFF will facilitate the development and evaluation of LLMs to help researchers navigate the ever-growing body of scientific literature. We release our dataset, model checkpoints, and data processing and evaluation code to enable further research.
翻訳日:2024-06-13 20:36:36 公開日:2024-06-10
# スペクトル和に対する量子アルゴリズム

Quantum algorithms for spectral sums ( http://arxiv.org/abs/2011.06475v2 )

ライセンス: Link先を確認
Alessandro Luongo, Changpeng Shao, (参考訳) 正半定値行列(PSD)のスペクトル和を推定するための新しい量子アルゴリズムを提案する。 関数 $f$ に対する PSD 行列 $A$ のスペクトル和は $ \text{Tr}[f(A)] = \sum_j f(\lambda_j)$ と定義される。 スペクトル和の典型的な例は、フォン・ノイマンエントロピー、$A^{-1}$のトレース、対数行列式、およびSchatten $p$-norm である。 現在の古典的ランダム化アルゴリズムでは、これらの量の推定は、行列のゼロでない成分の数と推定誤差の2乗数で少なくとも線形である。 行列のブロックエンコーディングを仮定すると、我々のアルゴリズムは行列サイズにおいてサブ線形であり、条件数や近似誤差などの他のパラメータに大きく依存するので、文献で提案されているランダム化および分散古典アルゴリズムのほとんどと競合し、同じ問題に対して提案された他の量子アルゴリズムのランタイムを多項式的に改善することができる。 本稿では, スペクトルグラフ理論における3つの問題, 三角形の数の近似, 有効抵抗, およびグラフ内の分布木数について, アルゴリズムと手法が適用可能であることを示す。

We propose new quantum algorithms for estimating spectral sums of positive semi-definite (PSD) matrices. The spectral sum of an PSD matrix $A$, for a function $f$, is defined as $ \text{Tr}[f(A)] = \sum_j f(\lambda_j)$, where $\lambda_j$ are the eigenvalues of $A$. Typical examples of spectral sums are the von Neumann entropy, the trace of $A^{-1}$, the log-determinant, and the Schatten $p$-norm, where the latter does not require the matrix to be PSD. The current best classical randomized algorithms estimating these quantities have a runtime that is at least linearly in the number of nonzero entries of the matrix and quadratic in the estimation error. Assuming access to a block-encoding of a matrix, our algorithms are sub-linear in the matrix size, and depend at most quadratically on other parameters, like the condition number and the approximation error, and thus can compete with most of the randomized and distributed classical algorithms proposed in the literature, and polynomially improve the runtime of other quantum algorithms proposed for the same problems. We show how the algorithms and techniques used in this work can be applied to three problems in spectral graph theory: approximating the number of triangles, the effective resistance, and the number of spanning trees within a graph.
翻訳日:2024-06-13 01:45:51 公開日:2024-06-10
# 一般化された「Notの平方根」行列とその隠れた論理作用素の発表および完全行列円ユーラー関数の定義への応用

Generalized "Square roots of Not" matrices, their application to the unveiling of hidden logical operators and to the definition of fully matrix circular Euler functions ( http://arxiv.org/abs/2107.06067v5 )

ライセンス: Link先を確認
Eduardo Mizraji, (参考訳) ノットの平方根は量子コンピューティング理論において重要な論理演算子であり、それ自身で数学的対象として興味を持つ。 物理学では、次元 2 の平方複素行列である。 現在の研究において、これは任意の次元の複素正方行列である。 線形代数の論理理論への導入は、近年、ニューラルネットワークと量子コンピューティングの分野の研究によって強化されている。 ここでは、行列による論理演算の表現を簡潔に記述し、Nt演算子の2乗根に対する一般表現がどのように得られるかを示す。 次に2つのトピックを探求します。 まず、Deutschのアルゴリズムの短い形式の非量子領域の拡張について検討する。 そして、Not の根は虚数単位 i の行列拡大であると仮定し、この考えの下で、オイラー拡大と複素指数関数による円函数の表現に対する完全行列バージョンを得る。

The square root of Not is a logical operator of importance in quantum computing theory and of interest as a mathematical object in its own right. In physics, it is a square complex matrix of dimension 2. In the present work it is a complex square matrix of arbitrary dimension. The introduction of linear algebra into logical theory has been enhanced in recent decades by the researches in the field of neural networks and quantum computing. Here we will make a brief description of the representation of logical operations through matrices and we show how general expressions for the two square roots of the Not operator are obtained. Then, we explore two topics. First, we study an extension to a non-quantum domain of a short form of Deutsch's algorithm. Then, we assume that a root of Not is a matrix extension of the imaginary unit i, and under this idea we obtain fully matrix versions for the Euler expansions and for the representations of circular functions by complex exponentials.
翻訳日:2024-06-13 01:45:51 公開日:2024-06-10
# 異種環境からの最適化に基づく因果推定

Optimization-based Causal Estimation from Heterogenous Environments ( http://arxiv.org/abs/2109.11990v3 )

ライセンス: Link先を確認
Mingzhang Yin, Yixin Wang, David M. Blei, (参考訳) 本稿では,因果推定に対する新しい最適化手法を提案する。 共変量と結果を含むデータについて、共変量が結果の原因であり、因果関係の強さは何か。 古典機械学習(ML)では、最適化の目的は予測精度を最大化することである。 しかし、一部の共変種は結果と非因果関係を示すかもしれない。 このような急激な協会は、古典的なMLに予測力を提供しますが、結果の因果的解釈を妨げます。 本稿では,純粋予測と因果推論のギャップを埋める最適化アルゴリズムCoCoを提案する。 CoCoは、最近提案された環境の概念、因果関係が不変であるが、共変数の分布が環境から環境に変化するような共変数/応答のデータセットを活用している。 複数の環境と十分な不均一性を示すデータセットが与えられた場合、CoCoは唯一の解決策が因果解である目的を最大化する。 本稿では,本手法の理論的基礎を説明し,シミュレーションおよび実データに対する有効性を示す。 従来のMLや既存の手法と比較して、CoCoは因果モデルのより正確な推定と介入によるより正確な予測を提供する。

This paper presents a new optimization approach to causal estimation. Given data that contains covariates and an outcome, which covariates are causes of the outcome, and what is the strength of the causality? In classical machine learning (ML), the goal of optimization is to maximize predictive accuracy. However, some covariates might exhibit a non-causal association with the outcome. Such spurious associations provide predictive power for classical ML, but they prevent us from causally interpreting the result. This paper proposes CoCo, an optimization algorithm that bridges the gap between pure prediction and causal inference. CoCo leverages the recently-proposed idea of environments, datasets of covariates/response where the causal relationships remain invariant but where the distribution of the covariates changes from environment to environment. Given datasets from multiple environments-and ones that exhibit sufficient heterogeneity-CoCo maximizes an objective for which the only solution is the causal solution. We describe the theoretical foundations of this approach and demonstrate its effectiveness on simulated and real datasets. Compared to classical ML and existing methods, CoCo provides more accurate estimates of the causal model and more accurate predictions under interventions.
翻訳日:2024-06-13 01:45:51 公開日:2024-06-10
# 過パラメータモデルに対する局所SGDの高速収束

Faster Convergence of Local SGD for Over-Parameterized Models ( http://arxiv.org/abs/2201.12719v3 )

ライセンス: Link先を確認
Tiancheng Qin, S. Rasoul Etesami, César A. Uribe, (参考訳) 現代の機械学習アーキテクチャは、しばしば非常に表現力が高い。 通常は過パラメータ化され、経験的損失を0に近づけることでデータを補間することができる。 ヘテロジニアスなデータ設定における過パラメータ化モデルに対する局所SGD(またはFedAvg)の収束を解析し、以下の収束率を確立することにより既存の文献を改善する。 一般凸損失関数に対しては、軽度のデータ類似性仮定の下で$\O(1/T)$の誤差境界と$\O(K/T)$のエラー境界を定め、そうでなければ、$K$は局所的なステップの数であり、$T$は反復の総数である。 非凸損失関数に対しては、誤差境界が$\O(K/T)$であることを証明する。 これらの境界は、両方の場合において$\O(1/\sqrt{nT})$の最良の前の境界で改善される。 確立された収束率を、合理的に小さなステップサイズで一定の要因に密着した問題インスタンスを提供することで、結果を完成させる。 最後に,実測過度学習モデルの局所SGDの収束挙動を明らかにするための大規模数値実験を行い,局所SGDの収束速度を$\O(1/T)$とする理論結果を検証した。

Modern machine learning architectures are often highly expressive. They are usually over-parameterized and can interpolate the data by driving the empirical loss close to zero. We analyze the convergence of Local SGD (or FedAvg) for such over-parameterized models in the heterogeneous data setting and improve upon the existing literature by establishing the following convergence rates. For general convex loss functions, we establish an error bound of $\O(1/T)$ under a mild data similarity assumption and an error bound of $\O(K/T)$ otherwise, where $K$ is the number of local steps and $T$ is the total number of iterations. For non-convex loss functions we prove an error bound of $\O(K/T)$. These bounds improve upon the best previous bound of $\O(1/\sqrt{nT})$ in both cases, where $n$ is the number of nodes, when no assumption on the model being over-parameterized is made. We complete our results by providing problem instances in which our established convergence rates are tight to a constant factor with a reasonably small stepsize. Finally, we validate our theoretical results by performing large-scale numerical experiments that reveal the convergence behavior of Local SGD for practical over-parameterized deep learning models, in which the $\O(1/T)$ convergence rate of Local SGD is clearly shown.
翻訳日:2024-06-13 01:45:51 公開日:2024-06-10
# 微分可能な反復関数系

Differentiable Iterated Function Systems ( http://arxiv.org/abs/2203.01231v2 )

ライセンス: Link先を確認
Cory Braker Scott, (参考訳) 本稿では、微分可能なレンダリングパイプラインを用いたIFSフラクタルのレンダリングにおける初期探索について述べる。 微分レンダリングは、コンピュータグラフィックスと機械学習の交差点における最近のイノベーションである。 微分可能な操作からなるフラクタルレンダリングパイプラインは、特定の基準を満たすフラクタルを生成する多くの可能性を開く。 本稿では,所定の対象画像に類似した固定点を持つIFSフラクタルを生成することにより,このパイプラインを実証する。 この作品の主な貢献は次の通りである。 1) このレンダリングパイプラインをデモ(そして利用可能に)します。 2) フラクタル構造に対する勾配差に基づく最適化におけるニュアンスと落とし穴について論じる。 3)これらの落とし穴に対処するためのベストプラクティスについて議論し、最後に 4) 本手法を検証するためのさらなる実験の方向性について論じる。

This preliminary paper presents initial explorations in rendering Iterated Function System (IFS) fractals using a differentiable rendering pipeline. Differentiable rendering is a recent innovation at the intersection of computer graphics and machine learning. A fractal rendering pipeline composed of differentiable operations opens up many possibilities for generating fractals that meet particular criteria. In this paper I demonstrate this pipeline by generating IFS fractals with fixed points that resemble a given target image - a famous problem known as the \emph{inverse IFS problem}. The main contributions of this work are as follows: 1) I demonstrate (and make code available) this rendering pipeline; 2) I discuss some of the nuances and pitfalls in gradient-descent-based optimization over fractal structures; 3) I discuss best practices to address some of these pitfalls; and finally 4) I discuss directions for further experiments to validate the technique.
翻訳日:2024-06-13 01:45:51 公開日:2024-06-10
# ノイズクディット対多重クビット : 忠実度向上のためのゲート効率の条件

Noisy Qudit vs Multiple Qubits : Conditions on Gate Efficiency for enchancing Fidelity ( http://arxiv.org/abs/2302.04543v3 )

ライセンス: Link先を確認
Denis Janković, Jean-Gabriel Hartmann, Mario Ruben, Paul-Antoine Hervieux, (参考訳) 今日、複数の新しいプラットフォームが量子情報処理(QIP)のために、$d$レベルの量子ベースであるquditsを実装している。 したがって、より伝統的な量子ビットプラットフォームと比較して、QIPの効率性を研究することが重要である。 我々は、ヒルベルト空間次元と雑音環境の両方で、qudit と $n$-qubit 系の不忠実性スケーリングの比較研究を行う。 AGI (Average Gate Infidelity) のゲートに依存しないリンドブラッド形式における雑音に対する1次応答は、比較される2つのシステムで解析的に計算された。 これにより臨界曲線が$O(d^2/\log_2(d))$となり、それぞれのゲート時間の割合はデコヒーレンス時間単位となった。 この量は、これらのシステムにおける時間効率の操作の仕方を示している。 曲線は、各系が他方よりもAGIの増加率が高い領域を規定する。 ゲート効率のこの条件は、既存の異なるプラットフォームに適用された。 特定のキューディットプラットフォームは、最先端のキュービットプラットフォームと競合するゲート効率を持つことがわかった。 数値シミュレーションはこの研究を補完し、線形応答形式論の適用性と限界について議論することを可能にした。

Today, multiple new platforms are implementing qudits, $d$-level quantum bases of information, for Quantum Information Processing (QIP). It is therefore crucial to study their efficiencies for QIP compared to more traditional qubit platforms. We present a comparative study of the infidelity scalings of a qudit and $n$-qubit systems, both with identical Hilbert space dimensions and noisy environments. The first-order response of the Average Gate Infidelity (AGI) to the noise in the Lindblad formalism, which was found to be gate-independent, was calculated analytically in the two systems being compared. This yielded a critical curve $O(d^2/\log_2(d))$ of the ratio of their respective gate times in units of decoherence time. This quantity indicates how time-efficient operations on these systems are. The curve delineates regions where each system has a higher rate of increase of the AGI than the other. This condition on gate efficiency was applied to different existing platforms. It was found that specific qudit platforms possess gate efficiencies competitive with state-of-the-art qubit platforms. Numerical simulations complemented this work and allowed for discussion of the applicability and limits of the linear response formalism.
翻訳日:2024-06-13 01:37:54 公開日:2024-06-10
# 自己監督型ネットワーク蒸留 : スパース報酬環境における探索への効果的なアプローチ

Self-supervised network distillation: an effective approach to exploration in sparse reward environments ( http://arxiv.org/abs/2302.11563v4 )

ライセンス: Link先を確認
Matej Pecháč, Michal Chovanec, Igor Farkaš, (参考訳) 強化学習は、意思決定の問題を解決することができ、事前に設計された報酬関数に従って、エージェントに環境の中で振る舞うように訓練する。 しかし, 報酬が小さすぎる場合, 環境調査において, エージェントが報酬に遭遇しない場合, このようなアプローチは非常に問題となる。 このような問題の解決策は、エージェントに固有の動機を与え、エージェントが外部の報酬に遭遇する可能性のある情報探索を提供するかもしれない。 新規性検出は本質的動機づけ研究の有望な分野の1つである。 本稿では, 蒸留誤差に基づく本質的なモチベーションアルゴリズムである自己教師ネットワーク蒸留(SND)について, 予測モデルと対象モデルの両方を訓練した新規性指標として提示する。 この目的のために既存の3つの自己監督手法を適用し, 探索が困難と考えられる10の環境上で実験を行った。 その結果,本手法はベースラインモデルと同等のトレーニング時間において,より高速な成長とより高い外部報酬を達成できることが示唆された。 さらに,本手法を応用し,提案モデルに有意な説明的洞察を与える。

Reinforcement learning can solve decision-making problems and train an agent to behave in an environment according to a predesigned reward function. However, such an approach becomes very problematic if the reward is too sparse and so the agent does not come across the reward during the environmental exploration. The solution to such a problem may be to equip the agent with an intrinsic motivation that will provide informed exploration during which the agent is likely to also encounter external reward. Novelty detection is one of the promising branches of intrinsic motivation research. We present Self-supervised Network Distillation (SND), a class of intrinsic motivation algorithms based on the distillation error as a novelty indicator, where the predictor model and the target model are both trained. We adapted three existing self-supervised methods for this purpose and experimentally tested them on a set of ten environments that are considered difficult to explore. The results show that our approach achieves faster growth and higher external reward for the same training time compared to the baseline models, which implies improved exploration in a very sparse reward environment. In addition, the analytical methods we applied provide valuable explanatory insights into our proposed models.
翻訳日:2024-06-13 01:28:06 公開日:2024-06-10
# 共有値に基づくインスタンスレベルのデータ再重み付けによるアルゴリズムフェアネスを目指して

Towards Algorithmic Fairness by means of Instance-level Data Re-weighting based on Shapley Values ( http://arxiv.org/abs/2303.01928v4 )

ライセンス: Link先を確認
Adrian Arnaiz-Rodriguez, Nuria Oliver, (参考訳) アルゴリズムの公正性は、最も社会的に重要であるが、最先端の大規模機械学習モデルは、しばしばバイアスを受ける巨大なデータセットによるトレーニングを必要とする。 この文脈では、データのモデリングとバイアスの修正に焦点を当てた事前処理手法が、価値あるアプローチとして現れます。 本稿では,共有値を用いたデータ評価による公正なアルゴリズム決定のための,新しいインスタンスレベルのデータ再重み付け手法であるFairShapを提案する。 FairShapはモデルに依存しない、容易に解釈できる。 各トレーニングデータポイントのコントリビューションを、予め定義された公正度メトリックに測定する。 さまざまなトレーニングシナリオと機械学習モデルを備えた、さまざまな性質の最先端データセット上で、FairShapを実証的に検証し、ベースラインと同じような精度で、より公平なモデルを生成する方法を示します。 ヒストグラムと潜時空間の可視化によるFairShapの解釈可能性について説明する。 さらに,FairShapの計算コストを,データセットのサイズや特徴数によって分析する。 FairShapは、アルゴリズムの公正性に対する解釈およびモデルに依存しないアプローチにおいて、バイアス付きトレーニングデータセットのみが利用可能であっても、競争の正確性をもたらす新しい貢献であると考えています。

Algorithmic fairness is of utmost societal importance, yet state-of-the-art large-scale machine learning models require training with massive datasets that are frequently biased. In this context, pre-processing methods that focus on modeling and correcting bias in the data emerge as valuable approaches. In this paper, we propose FairShap, a novel instance-level data re-weighting method for fair algorithmic decision-making through data valuation by means of Shapley Values. FairShap is model-agnostic and easily interpretable. It measures the contribution of each training data point to a predefined fairness metric. We empirically validate FairShap on several state-of-the-art datasets of different nature, with a variety of training scenarios and machine learning models and show how it yields fairer models with similar levels of accuracy than the baselines. We illustrate FairShap's interpretability by means of histograms and latent space visualizations. Moreover, we perform a utility-fairness study and analyze FairShap's computational cost depending on the size of the dataset and the number of features. We believe that FairShap represents a novel contribution in interpretable and model-agnostic approaches to algorithmic fairness that yields competitive accuracy even when only biased training datasets are available.
翻訳日:2024-06-13 01:28:06 公開日:2024-06-10
# グラフフィルタを用いたヘテロフォイなグラフコントラスト学習

Graph Contrastive Learning under Heterophily via Graph Filters ( http://arxiv.org/abs/2303.06344v2 )

ライセンス: Link先を確認
Wenhan Yang, Baharan Mirzasoleiman, (参考訳) グラフコントラスト学習(CL)法は,GNNエンコーダを用いて得られる拡張ノード表現の類似性を最大化することにより,ノード表現を自己指導的に学習する。 しかし、CL法は、連結ノードが異なるクラスに属する傾向にあるヘテロフィリーグラフ上では不十分である。 本研究では、ヘテロフィリーなグラフ表現の学習に有効なグラフCL法であるHLCLを提案し、この問題に対処する。 HLCLはまず、ノード特徴のコサイン類似性に基づいて、ホモ親和性とヘテロ親和性部分グラフを同定する。 次に、ローパスグラフフィルタとハイパスグラフフィルタを用いて、ホモ親和部分グラフに連結されたノードの表現を集約し、ヘテロ親和部分グラフ内のノードの表現を区別する。 最終ノード表現は、拡張されたハイパスフィルタビューと拡張されたローパスフィルタノードビューの対比によって学習される。 我々の広範な実験により、HLCLはヘテロフィリーのベンチマークデータセットや大規模実世界のグラフで最先端のグラフCL法を最大7%上回り、ヘテロフィリーのデータセットでグラフ教師あり学習法を最大10%上回ります。

Graph contrastive learning (CL) methods learn node representations in a self-supervised manner by maximizing the similarity between the augmented node representations obtained via a GNN-based encoder. However, CL methods perform poorly on graphs with heterophily, where connected nodes tend to belong to different classes. In this work, we address this problem by proposing an effective graph CL method, namely HLCL, for learning graph representations under heterophily. HLCL first identifies a homophilic and a heterophilic subgraph based on the cosine similarity of node features. It then uses a low-pass and a high-pass graph filter to aggregate representations of nodes connected in the homophilic subgraph and differentiate representations of nodes in the heterophilic subgraph. The final node representations are learned by contrasting both the augmented high-pass filtered views and the augmented low-pass filtered node views. Our extensive experiments show that HLCL outperforms state-of-the-art graph CL methods on benchmark datasets with heterophily, as well as large-scale real-world graphs, by up to 7%, and outperforms graph supervised learning methods on datasets with heterophily by up to 10%.
翻訳日:2024-06-13 01:28:06 公開日:2024-06-10
# パーキンソン病サブタイプの解析・同定・予測と機械学習による進展

Analysis, Identification and Prediction of Parkinson Disease Sub-Types and Progression through Machine Learning ( http://arxiv.org/abs/2306.04748v2 )

ライセンス: Link先を確認
Ashwin Ram, (参考訳) 本稿では,パーキンソン病(PD)研究における新たな機械学習フレームワークを用いて,PDを異なるサブタイプに分類し,その進行を予測することによって,画期的な進歩を示す。 臨床および神経学的パラメータの両方を含む包括的データセットを利用することで、高度な教師なしおよび教師なしの学習技術を適用する。 この革新的なアプローチは、従来の方法論がしばしば見逃すPDマニフェストの微妙だが批判的なパターンを識別することを可能にする。 この研究は、パーソナライズされた治療戦略への道筋を提供し、精密医療領域における大きな進歩と、機械学習を医学研究に統合する変革の可能性を示している。

This paper represents a groundbreaking advancement in Parkinson disease (PD) research by employing a novel machine learning framework to categorize PD into distinct subtypes and predict its progression. Utilizing a comprehensive dataset encompassing both clinical and neurological parameters, the research applies advanced supervised and unsupervised learning techniques. This innovative approach enables the identification of subtle, yet critical, patterns in PD manifestation, which traditional methodologies often miss. Significantly, this research offers a path toward personalized treatment strategies, marking a major stride in the precision medicine domain and showcasing the transformative potential of integrating machine learning into medical research.
翻訳日:2024-06-13 01:28:06 公開日:2024-06-10
# ICSVR:ビデオ検索モデルにおける構成的・構文的理解の検討

ICSVR: Investigating Compositional and Syntactic Understanding in Video Retrieval Models ( http://arxiv.org/abs/2306.16533v3 )

ライセンス: Link先を確認
Avinash Madasu, Vasudev Lal, (参考訳) ビデオ検索(VR)は、テキストキャプションまたはリバーサが与えられたビデオデータベースから地上の真理ビデオを取得することを含む。 コンポジションの2つの重要なコンポーネント:オブジェクトと属性とアクションは正しい構文を使って結合され、適切なテキストクエリを形成する。 これらのコンポーネント(オブジェクト、属性、アクション、構文)は、それぞれがビデオの区別を助け、正しい真実のビデオを検索するために重要な役割を果たす。 しかし,これらの成分がビデオ検索性能に与える影響は明らかでない。 そこで我々は,MSRVTT,MSVD,DIDEMOなどの標準ベンチマークを用いて,映像検索モデルの合成および構文的理解を評価するための体系的研究を行った。 この研究は、ビデオ検索モデルの2つのカテゴリで実施されている。 (i)ビデオテキストペアで事前学習し、下流ビデオ検索データセット(例えば、Frozen-in-Time、Violet、MCQなど)で微調整する。 (ii) ビデオ検索にCLIP(CLIP4Clip、XCLIP、CLIP2Videoなど)のような事前訓練済みの画像テキスト表現を適用する。 ビデオ理解におけるオブジェクトや属性と比較して,アクションや構文が軽微な役割を担っていることが明らかとなった。 さらに、事前学習された画像テキスト表現(CLIP)を用いたビデオ検索モデルは、ビデオテキストデータに事前学習されたモデルと比較して、構文的および構成的理解が優れている。 コードはhttps://github.com/IntelLabs/multimodal_cognitive_ai/tree/main/ICSVRで公開されている。

Video retrieval (VR) involves retrieving the ground truth video from the video database given a text caption or vice-versa. The two important components of compositionality: objects & attributes and actions are joined using correct syntax to form a proper text query. These components (objects & attributes, actions and syntax) each play an important role to help distinguish among videos and retrieve the correct ground truth video. However, it is unclear what is the effect of these components on the video retrieval performance. We therefore, conduct a systematic study to evaluate the compositional and syntactic understanding of video retrieval models on standard benchmarks such as MSRVTT, MSVD and DIDEMO. The study is performed on two categories of video retrieval models: (i) which are pre-trained on video-text pairs and fine-tuned on downstream video retrieval datasets (Eg. Frozen-in-Time, Violet, MCQ etc.) (ii) which adapt pre-trained image-text representations like CLIP for video retrieval (Eg. CLIP4Clip, XCLIP, CLIP2Video etc.). Our experiments reveal that actions and syntax play a minor role compared to objects & attributes in video understanding. Moreover, video retrieval models that use pre-trained image-text representations (CLIP) have better syntactic and compositional understanding as compared to models pre-trained on video-text data. The code is available at https://github.com/IntelLabs/multimodal_cognitive_ai/tree/main/ICSVR
翻訳日:2024-06-13 01:18:21 公開日:2024-06-10
# グラフ位置と構造エンコーダ

Graph Positional and Structural Encoder ( http://arxiv.org/abs/2307.07107v2 )

ライセンス: Link先を確認
Semih Cantürk, Renming Liu, Olivier Lapointe-Gagné, Vincent Létourneau, Guy Wolf, Dominique Beaini, Ladislav Rampášek, (参考訳) 位置符号化と構造符号化(PSE)により、グラフ内のノードの識別性が向上し、最新のGNN、特にグラフ変換器の強化に欠かせないツールをレンダリングする。 しかしながら、全てのグラフ予測タスクに最適に動作するPSEを設計することは、困難で未解決な問題である。 グラフ位置と構造エンコーダ(GPSE)について述べる。これはGNNを拡張するためのリッチなPSE表現をキャプチャするために設計された最初のグラフエンコーダである。 特定のグラフデータセットでトレーニングされたエンコーダは、明らかに異なる分布とモダリティから引き出されたデータセットに対して効果的に使用することができます。 我々は、幅広いベンチマークにおいて、GPSEにより強化されたモデルは、明示的に計算されたPSEを使用するモデルよりも大幅に優れており、少なくとも他のベンチマークでの性能に匹敵することを示す。 本研究は、位置情報や構造情報を抽出する基礎的な事前学習型グラフエンコーダの開発を図り、PSEや既存の自己管理型事前学習手法よりも強力で効率的な代替手段としての可能性を強調した。 我々のフレームワークと事前訓練されたモデルは、https://github.com/G-Taxonomy-Workgroup/GPSEで公開されています。 利便性のために、GPSEは下流アプリケーションを容易にするためにPyGライブラリに統合されている。

Positional and structural encodings (PSE) enable better identifiability of nodes within a graph, rendering them essential tools for empowering modern GNNs, and in particular graph Transformers. However, designing PSEs that work optimally for all graph prediction tasks is a challenging and unsolved problem. Here, we present the Graph Positional and Structural Encoder (GPSE), the first-ever graph encoder designed to capture rich PSE representations for augmenting any GNN. GPSE learns an efficient common latent representation for multiple PSEs, and is highly transferable: The encoder trained on a particular graph dataset can be used effectively on datasets drawn from markedly different distributions and modalities. We show that across a wide range of benchmarks, GPSE-enhanced models can significantly outperform those that employ explicitly computed PSEs, and at least match their performance in others. Our results pave the way for the development of foundational pre-trained graph encoders for extracting positional and structural information, and highlight their potential as a more powerful and efficient alternative to explicitly computed PSEs and existing self-supervised pre-training approaches. Our framework and pre-trained models are publicly available at https://github.com/G-Taxonomy-Workgroup/GPSE. For convenience, GPSE has also been integrated into the PyG library to facilitate downstream applications.
翻訳日:2024-06-13 01:18:21 公開日:2024-06-10
# TinyTrain: Data-Scarce EdgeにおけるDNNのリソース対応タスク適応スパーストレーニング

TinyTrain: Resource-Aware Task-Adaptive Sparse Training of DNNs at the Data-Scarce Edge ( http://arxiv.org/abs/2307.09988v2 )

ライセンス: Link先を確認
Young D. Kwon, Rui Li, Stylianos I. Venieris, Jagmohan Chauhan, Nicholas D. Lane, Cecilia Mascolo, (参考訳) デバイス上でのトレーニングは、ユーザのパーソナライゼーションとプライバシにとって不可欠である。 IoTデバイスとマイクロコントローラユニット(MCU)の普及により、メモリと計算リソースの制約やラベル付きユーザデータの可用性の制限により、このタスクはより困難になる。 それでも、事前の作業はデータ不足の問題を無視し、過度に長いトレーニング時間(例えば数時間)を必要とするか、あるいは相当な精度の損失(>10%)を引き起こす。 本稿では、モデルの一部を選択的に更新し、データ不足に明示的に対処することにより、トレーニング時間を劇的に短縮する、デバイス上でのトレーニングアプローチであるTinyTrainを提案する。 TinyTrainはタスク適応スパース更新方式を導入し、マルチオブジェクトの基準に基づいて動的にレイヤ/チャネルを選択して、ユーザデータ、メモリ、およびターゲットデバイスの計算能力を共同でキャプチャし、計算量とメモリフットプリントを削減した未確認タスクの精度を高める。 TinyTrainは、ネットワーク全体のバニラ微調整を3.6-5.0%精度で上回り、後方通過メモリと計算コストを1,098xと7.68xに下げる。 広く使われている現実世界のエッジデバイスをターゲットとして、TinyTrainは9.5倍高速で3.5倍のエネルギー効率のトレーニングを実現し、MCUグレードプラットフォームの1MBメモリエンベロープ内に留まりながら、SOTA法よりも2.23倍少ないメモリフットプリントを実現している。

On-device training is essential for user personalisation and privacy. With the pervasiveness of IoT devices and microcontroller units (MCUs), this task becomes more challenging due to the constrained memory and compute resources, and the limited availability of labelled user data. Nonetheless, prior works neglect the data scarcity issue, require excessively long training time (e.g. a few hours), or induce substantial accuracy loss (>10%). In this paper, we propose TinyTrain, an on-device training approach that drastically reduces training time by selectively updating parts of the model and explicitly coping with data scarcity. TinyTrain introduces a task-adaptive sparse-update method that dynamically selects the layer/channel to update based on a multi-objective criterion that jointly captures user data, the memory, and the compute capabilities of the target device, leading to high accuracy on unseen tasks with reduced computation and memory footprint. TinyTrain outperforms vanilla fine-tuning of the entire network by 3.6-5.0% in accuracy, while reducing the backward-pass memory and computation cost by up to 1,098x and 7.68x, respectively. Targeting broadly used real-world edge devices, TinyTrain achieves 9.5x faster and 3.5x more energy-efficient training over status-quo approaches, and 2.23x smaller memory footprint than SOTA methods, while remaining within the 1 MB memory envelope of MCU-grade platforms.
翻訳日:2024-06-13 01:18:21 公開日:2024-06-10
# LLMによるEHRからの証拠の回収:可能性と課題

Retrieving Evidence from EHRs with LLMs: Possibilities and Challenges ( http://arxiv.org/abs/2309.04550v3 )

ライセンス: Link先を確認
Hiba Ahsan, Denis Jered McInerney, Jisoo Kim, Christopher Potter, Geoffrey Young, Silvio Amir, Byron C. Wallace, (参考訳) エレクトロニック・ヘルス・レコーズ(EHR)の非構造化データには、放射線学者の診断を知らせる重要な情報が含まれていることが多い。 しかし、時間的制約を伴って患者に関連付けられた大量のメモは、実際に不可能な証拠を手作業で特定する。 本研究では, あるクエリに関連する患者EMHの非構造的証拠を効率よく検索し, 要約するメカニズムとして, LLMを用いたゼロショット戦略を提案し, 評価する。 本手法では, 患者に特定の症状があるか, あるいはそのリスクがあるかを, 関連するメモに基づいて推定する。 専門家による評価では、このLCMベースのアプローチは、LLM以前の情報検索ベースラインに一貫して好まれる出力を提供する。 手作業による評価は高価であり, LLM を用いて(他の) LLM の出力を評価する手法の提案と検証を行い, 評価のスケールアップを可能にする。 以上の結果から,ELHのインターフェースとしてLLMが期待できることに加えて,「幻覚」によって引き起こされる顕著な課題も浮き彫りにされている。 しかし、この設定では、出力のモデル信頼度は忠実な要約と強く相関し、信頼度を制限するための実践的な手段を提供する。

Unstructured data in Electronic Health Records (EHRs) often contains critical information -- complementary to imaging -- that could inform radiologists' diagnoses. But the large volume of notes often associated with patients together with time constraints renders manually identifying relevant evidence practically infeasible. In this work we propose and evaluate a zero-shot strategy for using LLMs as a mechanism to efficiently retrieve and summarize unstructured evidence in patient EHR relevant to a given query. Our method entails tasking an LLM to infer whether a patient has, or is at risk of, a particular condition on the basis of associated notes; if so, we ask the model to summarize the supporting evidence. Under expert evaluation, we find that this LLM-based approach provides outputs consistently preferred to a pre-LLM information retrieval baseline. Manual evaluation is expensive, so we also propose and validate a method using an LLM to evaluate (other) LLM outputs for this task, allowing us to scale up evaluation. Our findings indicate the promise of LLMs as interfaces to EHR, but also highlight the outstanding challenge posed by "hallucinations". In this setting, however, we show that model confidence in outputs strongly correlates with faithful summaries, offering a practical means to limit confabulations.
翻訳日:2024-06-13 01:08:37 公開日:2024-06-10
# 標準電子部品を用いたディジタルMemComputingの実装

Implementation of digital MemComputing using standard electronic components ( http://arxiv.org/abs/2309.12437v3 )

ライセンス: Link先を確認
Yuan-Hang Zhang, Massimiliano Di Ventra, (参考訳) DMM(Digital MemComputing Machine)は、メモリを持つ非線形力学系(時限非局所性)を用いており、様々な組合せ最適化問題の解法として、堅牢でスケーラブルな非伝統的な計算手法であることが証明されている。 しかし、これまでの研究の大部分は、DMMの運動方程式の数値シミュレーションに重点を置いている。 これは必然的に離散化に時間がかかるため、連続的に動作する実際の物理システムに欠落する独自の(数値的な)問題をもたらす。 DMMのハードウェア実現は以前から提案されていたが、その実装には従来の電子機器と簡単に統合できない材料や装置が必要である。 そこで本研究では,利用可能な電子部品を活用して,DMMのための新しいハードウェア設計を提案する。 このアプローチは、現在のモデルに比べて計算速度を著しく向上させるだけでなく、加法雑音に対する顕著な堅牢性を示す。 重要なことに、これは数値ノイズによる制限を回避し、拡張操作時の安定性と信頼性を向上する。 これは、より実用的でアクセスしやすいフレームワークにおいて、DMMの固有の利点を活用することによって、ますます複雑な問題に取り組むための新しい道を開く。

Digital MemComputing machines (DMMs), which employ nonlinear dynamical systems with memory (time non-locality), have proven to be a robust and scalable unconventional computing approach for solving a wide variety of combinatorial optimization problems. However, most of the research so far has focused on the numerical simulations of the equations of motion of DMMs. This inevitably subjects time to discretization, which brings its own (numerical) issues that would be otherwise absent in actual physical systems operating in continuous time. Although hardware realizations of DMMs have been previously suggested, their implementation would require materials and devices that are not so easy to integrate with traditional electronics. Addressing this, our study introduces a novel hardware design for DMMs, utilizing readily available electronic components. This approach not only significantly boosts computational speed compared to current models but also exhibits remarkable robustness against additive noise. Crucially, it circumvents the limitations imposed by numerical noise, ensuring enhanced stability and reliability during extended operations. This paves a new path for tackling increasingly complex problems, leveraging the inherent advantages of DMMs in a more practical and accessible framework.
翻訳日:2024-06-13 01:08:37 公開日:2024-06-10
# 超音速真空変調によるポンポンピング

Phonon Pumping by Modulating the Ultrastrong Vacuum ( http://arxiv.org/abs/2309.15891v2 )

ライセンス: Link先を確認
Fabrizio Minganti, Alberto Mercurio, Fabio Mauceri, Marco Scigliuzzo, Salvatore Savasta, Vincenzo Savona, (参考訳) 超強光物質結合における系の真空(すなわち基底状態)は、動的摂動なしでは放出できない粒子を含み、したがって仮想と呼ばれる。 仮想光子によって実現されたミラーの実際の機械的励起をトリパルタイト系の基底状態に誘導し観測するためのプロトコルを提案し, 共振共振器を超強結合し, 同時に機械的共振器に光学的に結合する。 実フォノンは、2レベル系の周波数が機械共振器の周波数に匹敵する周波数で変調されるとコヒーレントに放出されるため、光学周波数よりもはるかに低い。 このハイブリッド効果は、基底状態における仮想光子集団の直接的な帰結であることを示す。 古典物理学のアナロジーでは、バネに重みを付けると休息位置が変化し、一方、重みを動的に調節することでシステムが振動する。 しかし、我々の場合、重さは真空そのものである。 本研究では, この効果を実験的に観測できる技術を用いて, ハイブリッド超電導-オプトメカニカル・セットアップを提案し, 正確に評価する。

The vacuum (i.e., the ground state) of a system in ultrastrong light-matter coupling contains particles that cannot be emitted without any dynamical perturbation and is thus called virtual. We propose a protocol for inducing and observing real mechanical excitations of a mirror enabled by the virtual photons in the ground state of a tripartite system, where a resonant optical cavity is ultrastrongly coupled to a two-level system (qubit) and, at the same time, optomechanically coupled to a mechanical resonator. Real phonons are coherently emitted when the frequency of the two-level system is modulated at a frequency comparable to that of the mechanical resonator and, therefore much lower than the optical frequency. We demonstrate that this hybrid effect is a direct consequence of the virtual photon population in the ground state. Within a classical physics analogy, attaching a weight to a spring only changes its resting position, whereas dynamically modulating the weight makes the system oscillate. In our case, however, the weight is the vacuum itself. We propose and accurately characterize a hybrid superconducting-optomechanical setup based on available state-of-the-art technology, where this effect can be experimentally observed.
翻訳日:2024-06-13 01:08:37 公開日:2024-06-10
# 低エネルギー状態のハミルトン人は$Ω(n)$Tゲートを必要とする

Hamiltonians whose low-energy states require $Ω(n)$ T gates ( http://arxiv.org/abs/2310.01347v2 )

ライセンス: Link先を確認
Nolan J. Coble, Matthew Coudron, Jon Nelson, Seyed Sajjad Nezhadi, (参考訳) NLTS Conjecture[ABN22]の最近の解決は、新たに構築されたQLDPC符号[LZ22]を新規に使用することにより、量子PCP(QPCP) Conjectureの前提条件を確立する。 NLTSが解決されたとしても、[GL22]の NLSS Conjecture など、QPCP Conjecture には独立で未解決の前提条件が多数残っている。 本研究では、NLSS と QPCP Conjecture の両方に対する特異かつ自然な前提、すなわち、低エネルギー状態がすべて準備するために$\omega(\log n)$ T ゲートを必要とする局所ハミルトニアンの存在に焦点を当てる。 すなわち、低エネルギー状態が$\Omega(n)$Tゲートを必要とする局所ハミルトニアンを構成する。 さらに、[ABN22] の NLTS Hamiltonian に対して、低エネルギー状態が$\Omega(\log n)$-depth と $\Omega(n)$ T ゲートの両方を必要とする局所ハミルトニアンが得られることを示す。 これを達成するために、各局所ハミルトン項に関する状態の「擬安定化器」特性を定義し、状態が擬安定化器である各項に対する加法的局所エネルギー下限を証明する。 状態を作成するTゲートの数と状態が擬安定化子である項の数との関係を証明することにより、ある一定の正の定数$c$に対して、Tカウントが$c \cdot n$未満の状態に適用される定数エネルギーの下限を与えることができる。 この結果は, 安定化状態と非ゼロ数のTゲートを必要とする状態のみを区別するエネルギー境界を与えるために, 異なる手法を用いた [CCNN23] よりも大幅に改善されたことを示す。

The recent resolution of the NLTS Conjecture [ABN22] establishes a prerequisite to the Quantum PCP (QPCP) Conjecture through a novel use of newly-constructed QLDPC codes [LZ22]. Even with NLTS now solved, there remain many independent and unresolved prerequisites to the QPCP Conjecture, such as the NLSS Conjecture of [GL22]. In this work we focus on a specific and natural prerequisite to both NLSS and the QPCP Conjecture, namely, the existence of local Hamiltonians whose low-energy states all require $\omega(\log n)$ T gates to prepare. In fact, we prove a stronger result which is not necessarily implied by either conjecture: we construct local Hamiltonians whose low-energy states require $\Omega(n)$ T gates. We further show that our procedure can be applied to the NLTS Hamiltonians of [ABN22] to yield local Hamiltonians whose low-energy states require both $\Omega(\log n)$-depth and $\Omega(n)$ T gates to prepare. In order to accomplish this we define a "pseudo-stabilizer" property of a state with respect to each local Hamiltonian term, and prove an additive local energy lower bound for each term at which the state is pseudo-stabilizer. By proving a relationship between the number of T gates preparing a state and the number of terms at which the state is pseudo-stabilizer, we are able to give a constant energy lower bound which applies to any state with T-count less than $c \cdot n$ for some fixed positive constant $c$. This result represents a significant improvement over [CCNN23] where we used a different technique to give an energy bound which only distinguishes between stabilizer states and states which require a non-zero number of T gates.
翻訳日:2024-06-13 01:08:37 公開日:2024-06-10
# MAD Max Beyond Single-Node: 分散システム上での大規模機械学習モデル高速化の実現

MAD Max Beyond Single-Node: Enabling Large Machine Learning Model Acceleration on Distributed Systems ( http://arxiv.org/abs/2310.02784v3 )

ライセンス: Link先を確認
Samuel Hsia, Alicia Golden, Bilge Acun, Newsha Ardalani, Zachary DeVito, Gu-Yeon Wei, David Brooks, Carole-Jean Wu, (参考訳) 大規模な機械学習モデルのトレーニングとデプロイには時間がかかり、分散コンピューティングのインフラがかなり必要で、運用コストも高い。 我々の分析は、データセンター規模のインフラに関する実世界の大規模モデルトレーニングに基づいており、全GPU時間の14~32%が重複計算なしで通信に費やされていることを示している。 この卓越した通信遅延を最小化するために、我々はアジャイルのパフォーマンスモデリングフレームワークMAD-Maxを導入しました。 このフレームワークは、並列化戦略を最適化し、ハードウェアとソフトウェアの共同設計の機会を促進するように設計されている。 現状のGPUクラスタ上で,MAD-Maxを実世界の大規模MLモデルスイートに適用することにより,事前トレーニングで最大2.24倍,推論シナリオで最大5.2倍のスループット向上が期待できることを示す。

Training and deploying large-scale machine learning models is time-consuming, requires significant distributed computing infrastructures, and incurs high operational costs. Our analysis, grounded in real-world large model training on datacenter-scale infrastructures, reveals that 14~32% of all GPU hours are spent on communication with no overlapping computation. To minimize this outstanding communication latency and other inherent at-scale inefficiencies, we introduce an agile performance modeling framework, MAD-Max. This framework is designed to optimize parallelization strategies and facilitate hardware-software co-design opportunities. Through the application of MAD-Max to a suite of real-world large-scale ML models on state-of-the-art GPU clusters, we showcase potential throughput enhancements of up to 2.24x for pre-training and up to 5.2x for inference scenarios, respectively.
翻訳日:2024-06-13 01:08:37 公開日:2024-06-10
# Sorryより安全: ターゲットデータに対するCLIPの事前トレーニングとバックドア攻撃

Better Safe than Sorry: Pre-training CLIP against Targeted Data Poisoning and Backdoor Attacks ( http://arxiv.org/abs/2310.05862v2 )

ライセンス: Link先を確認
Wenhan Yang, Jingdong Gao, Baharan Mirzasoleiman, (参考訳) 大規模な画像キャプチャデータセット上でのコントラスト言語-画像事前学習(CLIP)は、ゼロショット分類において顕著な成功を収め、新しいドメインへの転送可能性を実現している。 しかし、CLIPは教師付き学習と比較して、ターゲットデータ中毒やバックドア攻撃に対して極めて脆弱である。 意外なことに、CLIP事前トレーニングデータの0.0001%を汚染することは、ターゲットデータ中毒攻撃を成功させるのに十分である。 これは、教師付きモデルに要求されるものよりも、桁違いに小さい4桁である。 この脆弱性にもかかわらず、既存のメソッドは事前トレーニング中にCLIPモデルを保護するために非常に制限されている。 本研究は、ターゲットデータ中毒やバックドア攻撃に対するCLIPの訓練を安全に行うための強力な防御策であるSAFECLIPを提案する。 SAFECLIPは、画像とテキストのモダリティに一元的コントラスト学習(CL)を別々に適用することにより、モデルをウォームアップする。 次に、画像キャプチャ対表現のコサイン類似性にガウス混合モデルを適用することにより、データを安全かつ危険なセットに分割する。 SAFECLIPは、安全セットにCLIP損失を適用し、リスクセットのイメージとテキストのモダリティを別々に適用することで、モデルを事前トレーニングする。 トレーニング前の安全なセットのサイズを徐々に大きくすることで、SAFECLIPはCLIPのパフォーマンスを損なうことなく、ターゲットデータ中毒やバックドア攻撃を効果的に破壊する。 CC3M, Visual Genome, MSCOCOの広範な実験により, SAFECLIPはCLIPの性能を損なうことなく, 標的データ中毒攻撃の成功率を93.75%から0%, 各種バックドア攻撃の成功率を100%から0%に低下させることが示された。

Contrastive Language-Image Pre-training (CLIP) on large image-caption datasets has achieved remarkable success in zero-shot classification and enabled transferability to new domains. However, CLIP is extremely more vulnerable to targeted data poisoning and backdoor attacks, compared to supervised learning. Perhaps surprisingly, poisoning 0.0001% of CLIP pre-training data is enough to make targeted data poisoning attacks successful. This is four orders of magnitude smaller than what is required to poison supervised models. Despite this vulnerability, existing methods are very limited in defending CLIP models during pre-training. In this work, we propose a strong defense, SAFECLIP, to safely pre-train CLIP against targeted data poisoning and backdoor attacks. SAFECLIP warms up the model by applying unimodal contrastive learning (CL) on image and text modalities separately. Then, it divides the data into safe and risky sets, by applying a Gaussian Mixture Model to the cosine similarity of image-caption pair representations. SAFECLIP pre-trains the model by applying the CLIP loss to the safe set and applying unimodal CL to image and text modalities of the risky set separately. By gradually increasing the size of the safe set during pre-training, SAFECLIP effectively breaks targeted data poisoning and backdoor attacks without harming the CLIP performance. Our extensive experiments on CC3M, Visual Genome, and MSCOCO demonstrate that SAFECLIP significantly reduces the success rate of targeted data poisoning attacks from 93.75% to 0% and that of various backdoor attacks from up to 100% to 0%, without harming CLIP's performance.
翻訳日:2024-06-13 00:58:30 公開日:2024-06-10
# SAM-CLIP:意味的・空間的理解に向けた視覚基礎モデルの融合

SAM-CLIP: Merging Vision Foundation Models towards Semantic and Spatial Understanding ( http://arxiv.org/abs/2310.15308v4 )

ライセンス: Link先を確認
Haoxiang Wang, Pavan Kumar Anasosalu Vasu, Fartash Faghri, Raviteja Vemulapalli, Mehrdad Farajtabar, Sachin Mehta, Mohammad Rastegari, Oncel Tuzel, Hadi Pouransari, (参考訳) CLIP や Segment Anything Model (SAM) など,一般公開されたビジョンファウンデーションモデル (VFM) の展望は急速に拡大している。 VFMには、訓練済みの目標から派生した、異なる能力が与えられている。 例えば、CLIPはセグメンテーションの空間的理解に特化しているのに対し、SAMはセグメンテーションの空間的理解に特化している。 本研究では,VFMを効率よく統合したモデルにマージする簡単なレシピを提案する。 本手法は,マルチタスク学習,連続学習,蒸留技術を統合する。 さらに、スクラッチから行う従来のマルチタスクトレーニングに比べて計算コストが大幅に削減され、個々のモデルのトレーニングに使用された事前トレーニングデータセットのごく一部しか必要としない。 本手法をSAMおよびCLIPに適用することにより,SAMとCLIPの機能を組み合わせた一元モデルであるSAM-CLIPを単一視覚変換器に適用する。 SAMとCLIPを独立してデプロイするのに対し、SAM-CLIPという統合モデルでは、推論のストレージと計算コストを削減し、エッジデバイスアプリケーションに適しています。 SAM-CLIPはSAMとCLIPの基礎的強みを保っているだけでなく、特にゼロショットセマンティックセマンティックセグメンテーションにおいて相乗的機能を導入し、SAM-CLIPは5つのベンチマークで新しい最先端結果を確立している。 6.8%、+5.9%はPascal-VOCとCOCO-StuffのデータセットのIoUの改善を意味している。

The landscape of publicly available vision foundation models (VFMs), such as CLIP and Segment Anything Model (SAM), is expanding rapidly. VFMs are endowed with distinct capabilities stemming from their pre-training objectives. For instance, CLIP excels in semantic understanding, while SAM specializes in spatial understanding for segmentation. In this work, we introduce a simple recipe to efficiently merge VFMs into a unified model that absorbs their expertise. Our method integrates techniques of multi-task learning, continual learning, and distillation. Further, it demands significantly less computational cost compared to traditional multi-task training from scratch, and it only needs a small fraction of the pre-training datasets that were initially used to train individual models. By applying our method to SAM and CLIP, we obtain SAM-CLIP: a unified model that combines the capabilities of SAM and CLIP into a single vision transformer. Compared with deploying SAM and CLIP independently, our merged model, SAM-CLIP, reduces storage and compute costs for inference, making it well-suited for edge device applications. We show that SAM-CLIP not only retains the foundational strengths of SAM and CLIP, but also introduces synergistic functionalities, notably in zero-shot semantic segmentation, where SAM-CLIP establishes new state-of-the-art results on 5 benchmarks. It outperforms previous models that are specifically designed for this task by a large margin, including +6.8% and +5.9% mean IoU improvement on Pascal-VOC and COCO-Stuff datasets, respectively.
翻訳日:2024-06-13 00:58:30 公開日:2024-06-10
# 入力の明確化による大規模言語モデルの不確かさの分解

Decomposing Uncertainty for Large Language Models through Input Clarification Ensembling ( http://arxiv.org/abs/2311.08718v2 )

ライセンス: Link先を確認
Bairu Hou, Yujian Liu, Kaizhi Qian, Jacob Andreas, Shiyu Chang, Yang Zhang, (参考訳) 不確実性分解とは、予測モデルの全体的不確実性を、データ生成プロセスにおける固有のランダム性や、モデルのトレーニングデータに欠落した情報から生じるエピステミック(モデル)不確実性に分解するタスクを指す。 大規模言語モデル(LLM)において、不確実性の原因を特定することは信頼性、信頼性、解釈可能性を改善するための重要なステップであるが、依然として重要なオープンな研究課題である。 本稿では,LLMに対する不確実性分解フレームワークである入力明確化アンサンブルについて述べる。 提案手法は,入力に対する一連の明確化を生成し,それらをLLMに入力し,対応する予測をアンサンブルする。 本研究では,LLM入力のあいまいさや不明瞭さからアレータリック不確かさが生じると,ベイズニューラルネットワークが用いたものと類似した分解を用いて,LLMの予測を別個のアレータリック・エピステマティックな用語に分解することができることを示す。 経験的評価は、入力の明確化が複数の言語処理タスクに対して正確で確実な不確実性定量化を提供することを示している。 コードとデータはhttps://github.com/UCSB-NLP-Chang/llm_uncertaintyで公開されている。

Uncertainty decomposition refers to the task of decomposing the total uncertainty of a predictive model into aleatoric (data) uncertainty, resulting from inherent randomness in the data-generating process, and epistemic (model) uncertainty, resulting from missing information in the model's training data. In large language models (LLMs) specifically, identifying sources of uncertainty is an important step toward improving reliability, trustworthiness, and interpretability, but remains an important open research question. In this paper, we introduce an uncertainty decomposition framework for LLMs, called input clarification ensembling, which can be applied to any pre-trained LLM. Our approach generates a set of clarifications for the input, feeds them into an LLM, and ensembles the corresponding predictions. We show that, when aleatoric uncertainty arises from ambiguity or under-specification in LLM inputs, this approach makes it possible to factor an (unclarified) LLM's predictions into separate aleatoric and epistemic terms, using a decomposition similar to the one employed by Bayesian neural networks. Empirical evaluations demonstrate that input clarification ensembling provides accurate and reliable uncertainty quantification on several language processing tasks. Code and data are available at https://github.com/UCSB-NLP-Chang/llm_uncertainty.
翻訳日:2024-06-13 00:58:30 公開日:2024-06-10
# テキスト・アズ・イメージ:多モーダルな大言語モデルで画像に印刷命令を送れるか?

Text as Images: Can Multimodal Large Language Models Follow Printed Instructions in Pixels? ( http://arxiv.org/abs/2311.17647v2 )

ライセンス: Link先を確認
Xiujun Li, Yujie Lu, Zhe Gan, Jianfeng Gao, William Yang Wang, Yejin Choi, (参考訳) 近年のマルチモーダル・大規模言語モデル (MLLM) は,視覚言語タスクにおいて有望な命令に従う能力を示している。 本研究では,VIM (VISUAL MoDALITY InstructuCTION) を導入し,事前トレーニングや微調整において,これらのデータに対して明示的に訓練されていないにもかかわらず,画素内のテキスト命令をマルチモーダルモデルでどの程度理解できるかを検討する。 我々は、OKVQA、MM-Vet、MathVista、MMMUを含む8つのベンチマークにVIMを適用し、テキスト・モダリティ・インストラクション(TEM)とVIMセッティングの両方で様々なMLLMを探索する。 特に,オープンソースMLLMのオリジナルTEM設定とVIM設定との大幅な性能格差を観察し,画像形式でのみテキスト命令を提示する場合,オープンソースMLLMはより大きな課題に直面していることを示す。 この問題に対処するため,テキスト・モダリティと視覚・モダリティの両方で頑健な指示を行うことができる一般化可能なモデルであるv-MLLMを訓練する。

Recent multimodal large language models (MLLMs) have shown promising instruction following capabilities on vision-language tasks. In this work, we introduce VISUAL MODALITY INSTRUCTION (VIM), and investigate how well multimodal models can understand textual instructions provided in pixels, despite not being explicitly trained on such data during pretraining or fine-tuning. We adapt VIM to eight benchmarks, including OKVQA, MM-Vet, MathVista, MMMU, and probe diverse MLLMs in both the text-modality instruction (TEM) setting and VIM setting. Notably, we observe a significant performance disparity between the original TEM and VIM settings for open-source MLLMs, indicating that open-source MLLMs face greater challenges when text instruction is presented solely in image form. To address this issue, we train v-MLLM, a generalizable model that is capable to conduct robust instruction following in both text-modality and visual-modality instructions.
翻訳日:2024-06-13 00:48:47 公開日:2024-06-10
# GraphDreamer: シーングラフからの合成3次元シーン合成

GraphDreamer: Compositional 3D Scene Synthesis from Scene Graphs ( http://arxiv.org/abs/2312.00093v2 )

ライセンス: Link先を確認
Gege Gao, Weiyang Liu, Anpei Chen, Andreas Geiger, Bernhard Schölkopf, (参考訳) 事前学習されたテキスト・ツー・イメージの拡散モデルがますます強力になるにつれて、これらのテキスト・ツー・イメージの事前学習モデルから知識を抽出し、テキスト誘導3Dモデルを最適化する試みが近年行われている。 既存の手法のほとんどは、平易なテキスト入力から総体的な3Dモデルを生成する。 テキストが複数のオブジェクトを持つ複雑なシーンを記述する場合、ベクトル化されたテキストの埋め込みは本質的に複数のエンティティと関係を持つ複雑な記述をキャプチャできないため、これは問題となる可能性がある。 全体像のホロスティックな3Dモデリングにより、テキストエンティティやコンセプトの正確なグラウンド化が防止される。 この制限に対処するために、我々はシーングラフから合成3Dシーンを生成する新しいフレームワークであるGraphDreamerを提案し、そこでオブジェクトはノードとして表現され、それらの相互作用はエッジとして表現される。 シーングラフにおけるノード情報とエッジ情報を活用することにより,事前学習したテキスト・画像拡散モデルをより有効活用し,画像レベルの監督を伴わずに,異なるオブジェクトを完全に切り離すことができる。 オブジェクト関係のモデリングを容易にするために,署名付き距離場を表現として使用し,オブジェクトの相互接続を回避するために制約を課す。 手動のシーングラフ作成を避けるため,ChatGPTのためのテキストプロンプトを設計し,テキスト入力に基づいてシーングラフを生成する。 対象物が絡み合っていない高忠実度合成3Dシーンの生成におけるGraphDreamerの有効性を検証するために,定性的かつ定量的な実験を行った。

As pretrained text-to-image diffusion models become increasingly powerful, recent efforts have been made to distill knowledge from these text-to-image pretrained models for optimizing a text-guided 3D model. Most of the existing methods generate a holistic 3D model from a plain text input. This can be problematic when the text describes a complex scene with multiple objects, because the vectorized text embeddings are inherently unable to capture a complex description with multiple entities and relationships. Holistic 3D modeling of the entire scene further prevents accurate grounding of text entities and concepts. To address this limitation, we propose GraphDreamer, a novel framework to generate compositional 3D scenes from scene graphs, where objects are represented as nodes and their interactions as edges. By exploiting node and edge information in scene graphs, our method makes better use of the pretrained text-to-image diffusion model and is able to fully disentangle different objects without image-level supervision. To facilitate modeling of object-wise relationships, we use signed distance fields as representation and impose a constraint to avoid inter-penetration of objects. To avoid manual scene graph creation, we design a text prompt for ChatGPT to generate scene graphs based on text inputs. We conduct both qualitative and quantitative experiments to validate the effectiveness of GraphDreamer in generating high-fidelity compositional 3D scenes with disentangled object entities.
翻訳日:2024-06-13 00:48:47 公開日:2024-06-10
# 木を用いた医療AIモデルにおけるアルゴリズムバイアスの検出

Detecting algorithmic bias in medical-AI models using trees ( http://arxiv.org/abs/2312.02959v6 )

ライセンス: Link先を確認
Jeffrey Smith, Andre Holder, Rishikesan Kamaleswaran, Yao Xie, (参考訳) 機械学習と人工知能に基づく医療意思決定支援システムの普及に伴い、これらのシステムが公平かつ公平な方法で患者結果を提供するようにすることが重要である。 本稿では,医療AI意思決定支援システムにおけるアルゴリズムバイアスの領域を検出するための革新的な枠組みを提案する。 本手法は,医学・AIモデル,特に敗血症予測の文脈における潜在的なバイアスを,整合性スコアを持つ分類・回帰木(CART)アルゴリズムを用いて効果的に同定する。 我々は,一連の合成データ実験を行い,制御された環境におけるバイアス領域を正確に推定する能力を示す。 この概念の有効性は、ジョージア州アトランタのグレイディ記念病院(Grady Memorial Hospital)の電子カルテを用いた実験によってさらに検証されている。 これらのテストは、AIベースの医療決定における公平性と公平性を保証する重要な手段として機能する、臨床環境における我々の戦略の実践的実装を実証するものである。

With the growing prevalence of machine learning and artificial intelligence-based medical decision support systems, it is equally important to ensure that these systems provide patient outcomes in a fair and equitable fashion. This paper presents an innovative framework for detecting areas of algorithmic bias in medical-AI decision support systems. Our approach efficiently identifies potential biases in medical-AI models, specifically in the context of sepsis prediction, by employing the Classification and Regression Trees (CART) algorithm with conformity scores. We verify our methodology by conducting a series of synthetic data experiments, showcasing its ability to estimate areas of bias in controlled settings precisely. The effectiveness of the concept is further validated by experiments using electronic medical records from Grady Memorial Hospital in Atlanta, Georgia. These tests demonstrate the practical implementation of our strategy in a clinical environment, where it can function as a vital instrument for guaranteeing fairness and equity in AI-based medical decisions.
翻訳日:2024-06-13 00:48:47 公開日:2024-06-10
# (加速)雑音適応型確率重ボールモーメント

(Accelerated) Noise-adaptive Stochastic Heavy-Ball Momentum ( http://arxiv.org/abs/2401.06738v2 )

ライセンス: Link先を確認
Anh Dang, Reza Babanezhad, Sharan Vaswani, (参考訳) 確率重球運動量(SHB)は、機械学習モデルのトレーニングに一般的に用いられ、確率勾配よりも経験的な改善を提供することが多い。 強凸二次論に主に焦点をあてることで、SHBの理論的優位性をよりよく理解し、その方法を改善することを目指している。 強い凸二次数について、Kidambi et al (2018) はSHB (ミニバッチが 1 ドル) は加速収束を達成できず、従ってSGD よりも理論的に有利であることを示した。 彼らはSHBの実用的利益はより大きなミニバッチを使用する副産物であると推測した。 まず、SHBが条件数$\kappa$に依存するしきい値$b^*$より大きい場合、SHBが加速できることを示す。 具体的には、決定論的設定と同じステップサイズと運動量パラメータで、十分に大きなミニバッチサイズを持つSHBは、$O\left(\exp(-\frac{T}{\sqrt{\kappa}}) + \sigma \right)$ convergence, where $T$ is the number of iterations and $\sigma^2$ is the variance in the stochastic gradients。 我々は、$\kappa$が$b^*$に依存する必要があることを示す下界を証明する。 最小化器への収束を確保するために、我々は$O\left(-\frac{T}{\sqrt{\kappa}}\right) + \frac{\sigma}{T}\right)$ rateとなる雑音適応型多段アルゴリズムを設計する。 また、一般的な滑らかで強凸な設定を考慮し、$O(\exp(-\frac{T}{\kappa}) + \frac{\sigma^2}{T})$レートで最小値に収束する最初のノイズ適応型SHB変種を提案する。 提案アルゴリズムの有効性を実証的に示す。

Stochastic heavy ball momentum (SHB) is commonly used to train machine learning models, and often provides empirical improvements over stochastic gradient descent. By primarily focusing on strongly-convex quadratics, we aim to better understand the theoretical advantage of SHB and subsequently improve the method. For strongly-convex quadratics, Kidambi et al. (2018) show that SHB (with a mini-batch of size $1$) cannot attain accelerated convergence, and hence has no theoretical benefit over SGD. They conjecture that the practical gain of SHB is a by-product of using larger mini-batches. We first substantiate this claim by showing that SHB can attain an accelerated rate when the mini-batch size is larger than a threshold $b^*$ that depends on the condition number $\kappa$. Specifically, we prove that with the same step-size and momentum parameters as in the deterministic setting, SHB with a sufficiently large mini-batch size results in an $O\left(\exp(-\frac{T}{\sqrt{\kappa}}) + \sigma \right)$ convergence, where $T$ is the number of iterations and $\sigma^2$ is the variance in the stochastic gradients. We prove a lower-bound which demonstrates that a $\kappa$ dependence in $b^*$ is necessary. To ensure convergence to the minimizer, we design a noise-adaptive multi-stage algorithm that results in an $O\left(\exp\left(-\frac{T}{\sqrt{\kappa}}\right) + \frac{\sigma}{T}\right)$ rate. We also consider the general smooth, strongly-convex setting and propose the first noise-adaptive SHB variant that converges to the minimizer at an $O(\exp(-\frac{T}{\kappa}) + \frac{\sigma^2}{T})$ rate. We empirically demonstrate the effectiveness of the proposed algorithms.
翻訳日:2024-06-12 22:42:29 公開日:2024-06-10
# AIによる検証ダニー法の合成に向けて

Towards AI-Assisted Synthesis of Verified Dafny Methods ( http://arxiv.org/abs/2402.00247v2 )

ライセンス: Link先を確認
Md Rakib Hossain Misu, Cristina V. Lopes, Iris Ma, James Noble, (参考訳) 大規模言語モデルは、プログラミングを含む多くの領域で非常に有望である。 約束は簡単ですが、維持するのは難しく、言語モデルは約束を守るのに失敗し、誤ったコードを生成します。 モデルを誠実に保つための有望な方法は、形式的な検証を組み込むことである。プログラムの仕様とコードを生成することで、仕様に関してコードが正しいことを証明できる。 残念ながら、既存の大規模言語モデルは、検証プログラミングの熟練度が著しく低いことを示している。 本稿では,Dafny検証言語における2つの事前学習モデルの習熟度を改善する方法について述べる。 MBPPデータセットから178個の問題を用いて、ダフニー法を合成するために、2つの現代モデル(GPT-4とPaLM-2)を誘導する。 直接コンテキストレスプロンプト、メソッドシグネチャとテストケースを含む署名プロンプト、および問題をステップに分解し、検索拡張生成されたサンプル問題とソリューションを含む思考のチェーンプロンプトの3つの異なるタイプのプロンプトを使用します。 以上の結果から, GPT-4 は PaLM-2 よりも優れた性能を示し, 両モデルとも, CoT プロンプトの検索により高い性能を示した。 GPT-4は58%の精度で検証されたダフニー法を生成できたが、GPT-4はコンテキストレスプロンプトの19%に過ぎず、シグナチャプロンプトの10%も少なかった。 これにより、MBPP問題に153のDafnyソリューション、手書き50、GPT-4で合成された103のソリューションをコントリビュートすることができる。 我々の結果は,プログラム検証の形式的メリットが,大規模言語モデルを生成するコードの範囲内にあることを示している。

Large language models show great promise in many domains, including programming. A promise is easy to make but hard to keep, and language models often fail to keep their promises, generating erroneous code. A promising avenue to keep models honest is to incorporate formal verification: generating programs' specifications as well as code so that the code can be proved correct with respect to the specifications. Unfortunately, existing large language models show a severe lack of proficiency in verified programming. In this paper, we demonstrate how to improve two pretrained models' proficiency in the Dafny verification-aware language. Using 178 problems from the MBPP dataset, we prompt two contemporary models (GPT-4 and PaLM-2) to synthesize Dafny methods. We use three different types of prompts: a direct Contextless prompt; a Signature prompt that includes a method signature and test cases, and a Chain of Thought (CoT) prompt that decomposes the problem into steps and includes retrieval augmentation generated example problems and solutions. Our results show that GPT-4 performs better than PaLM-2 on these tasks and that both models perform best with the retrieval augmentation generated CoT prompt. GPT-4 was able to generate verified, human-evaluated, Dafny methods for 58% of the problems, however, GPT-4 managed only 19% of the problems with the Contextless prompt, and even fewer (10%) for the Signature prompt. We are thus able to contribute 153 verified Dafny solutions to MBPP problems, 50 that we wrote manually, and 103 synthesized by GPT-4. Our results demonstrate that the benefits of formal program verification are now within reach of code generating large language models...
翻訳日:2024-06-12 22:42:29 公開日:2024-06-10
# データ透かしを用いたLLM事前学習データの証明

Proving membership in LLM pretraining data via data watermarks ( http://arxiv.org/abs/2402.10892v2 )

ライセンス: Link先を確認
Johnny Tian-Zheng Wei, Ryan Yixiang Wang, Robin Jia, (参考訳) LLM事前学習において著作権保持者の著作物が使用されているかどうかを検出することは重要な問題であると考えられる。 本研究は,データ透かしを用いてブラックボックスモデルアクセスのみによる原則的検出を実現することを提案する。 ランダムにサンプリングされたデータ透かしを適用することで、偽検出率の保証を提供する仮説テストとして検出を行うことができる。 ランダムなシーケンスを挿入する2つの透かしと、Unicodeに似た文字をランダムに置換する2つの透かしについて検討する。 まず、透かし設計の3つの側面(透かしの長さ、重複数、干渉数)が仮説テストの力にどのように影響するかを示す。 次に,モデルおよびデータセットのスケーリングにおいて,透かしの検出強度がどう変化するかを検討する。データセットサイズの増加は透かしの強度を減少させるが,モデルサイズが増大しても透かしは強いままである。 最後に、SHAハッシュを自然の透かしとみなし、少なくとも90回はBLOOM-176Bのトレーニングデータからハッシュを確実に検出できることを示す。 我々の結果は、現実世界でのデータ透かしに将来性のある未来に向けられている。

Detecting whether copyright holders' works were used in LLM pretraining is poised to be an important problem. This work proposes using data watermarks to enable principled detection with only black-box model access, provided that the rightholder contributed multiple training documents and watermarked them before public release. By applying a randomly sampled data watermark, detection can be framed as hypothesis testing, which provides guarantees on the false detection rate. We study two watermarks: one that inserts random sequences, and another that randomly substitutes characters with Unicode lookalikes. We first show how three aspects of watermark design -- watermark length, number of duplications, and interference -- affect the power of the hypothesis test. Next, we study how a watermark's detection strength changes under model and dataset scaling: while increasing the dataset size decreases the strength of the watermark, watermarks remain strong if the model size also increases. Finally, we view SHA hashes as natural watermarks and show that we can robustly detect hashes from BLOOM-176B's training data, as long as they occurred at least 90 times. Together, our results point towards a promising future for data watermarks in real world use.
翻訳日:2024-06-12 22:32:43 公開日:2024-06-10
# 機械生成テキストローカライゼーション

Machine-Generated Text Localization ( http://arxiv.org/abs/2402.11744v2 )

ライセンス: Link先を確認
Zhongping Zhang, Wenda Qin, Bryan A. Plummer, (参考訳) MGT(Machine-Generated Text)検出は、テキストを機械または人文として識別することを目的としている。 それまでの作業は、MGT検出を文書全体のバイナリ分類タスクとして定式化し、文書の一部のみが機械生成される場合に限定的な作業探索を行う。 本稿では,機械が生成した文書の一部をローカライズするMGTの詳細な研究について述べる。 したがって、悪いアクターがニュース記事のキー部分を変更して誤報を広める場合、MGT検出の文書は、大多数が人間であるので失敗する可能性があるが、我々のアプローチは、その粒度の細かいアプローチによって成功する。 MGTローカライゼーションタスクにおける重要な課題は、テキストの短いスパン(例:1文)が、その短い長さのために機械が生成されるかどうかを示す情報が少ないことである。 これに対処するために、複数の文が機械か人間かを同時に予測する文脈情報を利用する。 これにより、パフォーマンスを高めるために、スタイルやコンテンツの変更を特定することができます。 前回の作業よりも平均精度(mAP)が4-13%向上したことは、GoodNews、VisualNews、WikiText、Essay、WPという5つの多様なデータセットに対するアプローチの有効性を示している。 実装はhttps://github.com/Zhongping-Zhang/MGT_Localizationで公開しています。

Machine-Generated Text (MGT) detection aims to identify a piece of text as machine or human written. Prior work has primarily formulated MGT detection as a binary classification task over an entire document, with limited work exploring cases where only part of a document is machine generated. This paper provides the first in-depth study of MGT that localizes the portions of a document that were machine generated. Thus, if a bad actor were to change a key portion of a news article to spread misinformation, whole document MGT detection may fail since the vast majority is human written, but our approach can succeed due to its granular approach. A key challenge in our MGT localization task is that short spans of text, e.g., a single sentence, provides little information indicating if it is machine generated due to its short length. To address this, we leverage contextual information, where we predict whether multiple sentences are machine or human written at once. This enables our approach to identify changes in style or content to boost performance. A gain of 4-13% mean Average Precision (mAP) over prior work demonstrates the effectiveness of approach on five diverse datasets: GoodNews, VisualNews, WikiText, Essay, and WP. We release our implementation at https://github.com/Zhongping-Zhang/MGT_Localization.
翻訳日:2024-06-12 22:22:49 公開日:2024-06-10
# 社会環境設計

Social Environment Design ( http://arxiv.org/abs/2402.14090v2 )

ライセンス: Link先を確認
Edwin Zhang, Sadie Zhao, Tonghan Wang, Safwan Hossain, Henry Gasztowtt, Stephan Zheng, David C. Parkes, Milind Tambe, Yiling Chen, (参考訳) 人工知能(AI)は、政府や経済政策の改善に使用できる技術として、約束を守る。 本稿では、強化学習、EconCS、計算社会選択のコミュニティと連携する自動政策作成にAIを使用するための一般的なフレームワークである社会環境設計を導入することにより、この目的に向けた新たな研究課題を提案する。 このフレームワークは、一般的な経済環境を捉え、政策目標に関する投票を含め、AIシミュレーションを通じて政府と経済政策を体系的に分析するための方向性を提供する。 AIベースの政策決定における今後の研究の鍵となるオープンな問題を強調します。 これらの課題を解決することで、我々は様々な社会福祉目標を達成することができ、それによってより倫理的で責任ある意思決定を促進することを望んでいます。

Artificial Intelligence (AI) holds promise as a technology that can be used to improve government and economic policy-making. This paper proposes a new research agenda towards this end by introducing Social Environment Design, a general framework for the use of AI for automated policy-making that connects with the Reinforcement Learning, EconCS, and Computational Social Choice communities. The framework seeks to capture general economic environments, includes voting on policy objectives, and gives a direction for the systematic analysis of government and economic policy through AI simulation. We highlight key open problems for future research in AI-based policy-making. By solving these challenges, we hope to achieve various social welfare objectives, thereby promoting more ethical and responsible decision making.
翻訳日:2024-06-12 22:22:49 公開日:2024-06-10
# 協調ゲーム理論を用いたオープンアドホックワーク

Open Ad Hoc Teamwork with Cooperative Game Theory ( http://arxiv.org/abs/2402.15259v4 )

ライセンス: Link先を確認
Jianhong Wang, Yang Li, Yuan Zhang, Wei Pan, Samuel Kaski, (参考訳) アドホックなチームワークは、事前の調整や共同トレーニングなしに、チームメイトと協力するエージェントの設計を必要とする、困難な問題を引き起こします。 オープンアドホックチームワーク(OAHT)は、オープンチームと呼ばれるチームメイトの数が増える環境を考えることで、この課題をさらに複雑にします。 この問題に対する現実的な解決策の1つは、グラフニューラルネットワークの一般化性を活用して、さまざまなエージェントタイプを持つ制限されていないエージェントの数を処理し、グラフベースのポリシー学習(GPL)と呼ぶ。 しかし、協調グラフ上の共同Q値表現は説得力のある説明を欠いている。 本稿では,協調ゲーム理論のレンズを通して,OAHTの合同Q値とその学習パラダイムの表現を理解するための新たな理論を確立する。 本理論に基づいて,GPL フレームワークに基づく新しいアルゴリズム CIAO を提案する。 実験結果のデモはhttps://sites.google.com/view/ciao2024で公開されており、実験のコードはhttps://github.com/hsvgbgbv/CIAOで公開されている。

Ad hoc teamwork poses a challenging problem, requiring the design of an agent to collaborate with teammates without prior coordination or joint training. Open ad hoc teamwork (OAHT) further complicates this challenge by considering environments with a changing number of teammates, referred to as open teams. One promising solution in practice to this problem is leveraging the generalizability of graph neural networks to handle an unrestricted number of agents with various agent-types, named graph-based policy learning (GPL). However, its joint Q-value representation over a coordination graph lacks convincing explanations. In this paper, we establish a new theory to understand the representation of the joint Q-value for OAHT and its learning paradigm, through the lens of cooperative game theory. Building on our theory, we propose a novel algorithm named CIAO, based on GPL's framework, with additional provable implementation tricks that can facilitate learning. The demos of experimental results are available on https://sites.google.com/view/ciao2024, and the code of experiments is published on https://github.com/hsvgbkhgbv/CIAO.
翻訳日:2024-06-12 22:22:49 公開日:2024-06-10
# バッチ非パラメトリックなコンテキスト帯域

Batched Nonparametric Contextual Bandits ( http://arxiv.org/abs/2402.17732v2 )

ライセンス: Link先を確認
Rong Jiang, Cong Ma, (参考訳) 本研究では,各行動に対する期待される報酬を共変量のスムーズな関数としてモデル化したバッチ制約下での非パラメトリック文脈帯域について検討し,各観測結果の最後にポリシー更新を行う。 我々は,この設定に対して最小限の後悔を減らし,最適な後悔(対数的要因まで)を達成する新しいバッチ学習アルゴリズムを提案する。 本質的に、我々の手順は共変量空間をより小さなビンに動的に分割し、その幅とバッチサイズを慎重に調整する。 我々の理論的結果は、非パラメトリックな文脈的帯域幅では、ほぼ一定数のポリシー更新が、完全なオンライン設定において最適な後悔をもたらすことを示唆している。

We study nonparametric contextual bandits under batch constraints, where the expected reward for each action is modeled as a smooth function of covariates, and the policy updates are made at the end of each batch of observations. We establish a minimax regret lower bound for this setting and propose a novel batch learning algorithm that achieves the optimal regret (up to logarithmic factors). In essence, our procedure dynamically splits the covariate space into smaller bins, carefully aligning their widths with the batch size. Our theoretical results suggest that for nonparametric contextual bandits, a nearly constant number of policy updates can attain optimal regret in the fully online setting.
翻訳日:2024-06-12 22:22:49 公開日:2024-06-10
# BlendSQL:リレーショナル代数におけるハイブリッド質問回答の統合のためのスケーラブルなダイアレクト

BlendSQL: A Scalable Dialect for Unifying Hybrid Question Answering in Relational Algebra ( http://arxiv.org/abs/2402.17882v2 )

ライセンス: Link先を確認
Parker Glenn, Parag Pravin Dakle, Liang Wang, Preethi Raghavan, (参考訳) ハイブリッドな質問応答タスクのための既存のエンドツーエンドシステムの多くは、ユーザが最終的な結果を達成するのに使用される中間的推論ステップを制限された制御と洞察を持つ"prompt-and-pray"パラダイムに導かれることが多い。 加えて、多くのトランスフォーマーベースのLCMのコンテキストサイズ制限のため、フル構造化および非構造化のコンテキストがゼロショット設定で与えられたプロンプトに収まることを期待することは、数ショット設定で言うまでもない。 BlendSQLはSQLiteのスーパーセットで、構造化されていないデータと構造化されていないデータの両方で推論をオーケストレーションするための統一された方言として機能する。 マルチホップ推論を含むハイブリッドな質問応答タスクに対しては、完全な分解された推論ロードマップを単一の解釈可能なBlendSQLクエリにエンコードする。 特に、BlendSQLは、トークンを35%減らしながら、大量のデータセットにスケールし、エンドツーエンドシステムのパフォーマンスを向上させることができることを示す。 私たちのコードはhttps://github.com/parkervg/blendsql.comでパッケージとしてインストールできます。

Many existing end-to-end systems for hybrid question answering tasks can often be boiled down to a "prompt-and-pray" paradigm, where the user has limited control and insight into the intermediate reasoning steps used to achieve the final result. Additionally, due to the context size limitation of many transformer-based LLMs, it is often not reasonable to expect that the full structured and unstructured context will fit into a given prompt in a zero-shot setting, let alone a few-shot setting. We introduce BlendSQL, a superset of SQLite to act as a unified dialect for orchestrating reasoning across both unstructured and structured data. For hybrid question answering tasks involving multi-hop reasoning, we encode the full decomposed reasoning roadmap into a single interpretable BlendSQL query. Notably, we show that BlendSQL can scale to massive datasets and improve the performance of end-to-end systems while using 35% fewer tokens. Our code is available and installable as a package at https://github.com/parkervg/blendsql.
翻訳日:2024-06-12 22:22:49 公開日:2024-06-10
# サブサンプリングによる統一メカニズム特異的増幅とグループプライバシ増幅

Unified Mechanism-Specific Amplification by Subsampling and Group Privacy Amplification ( http://arxiv.org/abs/2403.04867v2 )

ライセンス: Link先を確認
Jan Schuchardt, Mihail Stoian, Arthur Kosmala, Stephan Günnemann, (参考訳) サブサンプリングによる増幅は、差分プライバシ(DP): 完全なデータセットの代わりにランダムなバッチ上でモデルをトレーニングすることで、より強力なプライバシをもたらす。 これは伝統的に、元のメカニズムのプライバシパラメータの関数としてサブサンプル機構のプライバシパラメータを表現するメカニズム非依存のサブサンプリング保証によって形式化されている。 サブサンプル機構のプライバシをより厳格に特徴付けるために,これらのパラメータ以外の追加情報を活用する機構固有の保証を導出するための,最初の汎用フレームワークを提案する。 このような保証は、プライバシー会計において特に重要である。 全体として、条件付き最適輸送に基づく枠組みにより、近似DPの既存および新しい保証を導出し、R'enyi DPを会計し、支配的なペアを統一的で原則化された方法で会計することができる。 アプリケーションとして,サブサンプリングが複数ユーザのプライバシに与える影響を分析する。 厳密なメカニズム固有のバウンダリは、厳密なメカニズムに依存しないバウンダリと、古典的なグループプライバシ結果よりも優れています。

Amplification by subsampling is one of the main primitives in machine learning with differential privacy (DP): Training a model on random batches instead of complete datasets results in stronger privacy. This is traditionally formalized via mechanism-agnostic subsampling guarantees that express the privacy parameters of a subsampled mechanism as a function of the original mechanism's privacy parameters. We propose the first general framework for deriving mechanism-specific guarantees, which leverage additional information beyond these parameters to more tightly characterize the subsampled mechanism's privacy. Such guarantees are of particular importance for privacy accounting, i.e., tracking privacy over multiple iterations. Overall, our framework based on conditional optimal transport lets us derive existing and novel guarantees for approximate DP, accounting with R\'enyi DP, and accounting with dominating pairs in a unified, principled manner. As an application, we analyze how subsampling affects the privacy of groups of multiple users. Our tight mechanism-specific bounds outperform tight mechanism-agnostic bounds and classic group privacy results.
翻訳日:2024-06-12 22:13:02 公開日:2024-06-10
# 分子進化をシミュレートする進化的アルゴリズム:新しい分野の提案

Evolutionary Algorithms Simulating Molecular Evolution: A New Field Proposal ( http://arxiv.org/abs/2403.08797v2 )

ライセンス: Link先を確認
James S. L. Browning Jr., Daniel R. Tauritz, John Beckmann, (参考訳) 生命の本質的な機能の遺伝的青写真はDNAにコード化され、タンパク質に翻訳される。 近年のゲノムシークエンシングの進歩により、タンパク質ファミリーの多様性が明らかにされているが、全てのアミノ酸配列の膨大な検索空間と比較して、既知の機能ファミリーのセットは最小限である。 自然は限定的なタンパク質「語彙」を持っていると言うことができる。 したがって、計算生物学者にとっての最大の疑問は、この語彙が、昔に絶滅した、あるいはそもそも進化しなかった、有用なタンパク質を含むように拡張できるかどうかである。 この問題を解決するための計算手法を概説する。 進化的アルゴリズム、機械学習(ML)、バイオインフォマティクスを組み合わせることで、これまで存在しなかった全く新しいタンパク質の開発を促進することができる。 我々は、分子進化(EASME)をシミュレートする進化アルゴリズムをダブし、計算進化の新しいサブフィールドを形成することを想定する。

The genetic blueprint for the essential functions of life is encoded in DNA, which is translated into proteins -- the engines driving most of our metabolic processes. Recent advancements in genome sequencing have unveiled a vast diversity of protein families, but compared to the massive search space of all possible amino acid sequences, the set of known functional families is minimal. One could say nature has a limited protein "vocabulary." The major question for computational biologists, therefore, is whether this vocabulary can be expanded to include useful proteins that went extinct long ago, or maybe never evolved in the first place. We outline a computational approach to solving this problem. By merging evolutionary algorithms, machine learning (ML), and bioinformatics, we can facilitate the development of completely novel proteins which have never existed before. We envision this work forming a new sub-field of computational evolution we dub evolutionary algorithms simulating molecular evolution (EASME).
翻訳日:2024-06-12 22:13:02 公開日:2024-06-10
# 生成的知識抽出、グラフベース表現、マルチモーダル・インテリジェントグラフ推論による科学的発見の高速化

Accelerating Scientific Discovery with Generative Knowledge Extraction, Graph-Based Representation, and Multimodal Intelligent Graph Reasoning ( http://arxiv.org/abs/2403.11996v3 )

ライセンス: Link先を確認
Markus J. Buehler, (参考訳) 生成人工知能(AI)を活用して、1000の科学論文からなるデータセットをオントロジ知識グラフに変換する。 詳細な構造解析を通じて,ノード度を計算し,コミュニティとコネクティビティを同定し,中心ノードのクラスタリング係数と相互中心性を評価し,興味深い知識アーキテクチャを明らかにした。 このグラフは本質的にはスケールのない性質を持ち、高度に連結されており、推移的および同型性を利用してグラフ推論に使用することができる。 経路サンプリング戦略における組み合わせノード類似度ランキングのためのディープノード埋め込みを計算し、これまで関係のない異種概念をリンクする。 ある比較では、生体材料とベートーヴェンの第9交響曲の構造的類似が明らかとなり、同型写像による複雑さの共有パターンが強調された。 別の例として、アルゴリズムは、経路サンプリングとカンディンスキーの「コンポジションVII」の絵から抽出された原理を統合した階層的な菌糸体に基づく合成法を提案した。 得られた材料は、カオス/秩序のバランス、調整可能なポロシティ、機械的強度、複雑なパターン化された化学機能化を含む革新的な概念のセットを統合している。 我々は、科学、技術、芸術にまたがる他のアイソモーフィズムを発見し、構成員の文脈に依存したヘテロ構造的相互作用を明らかにする、無実のニュアンスなオントロジーを明らかにした。 グラフベースの生成AIは、従来のアプローチよりもはるかに高度な斬新さ、爆発能力、技術的詳細を実現し、隠れた接続を明らかにすることによって、イノベーションのための広く有用なフレームワークを確立する。

Leveraging generative Artificial Intelligence (AI), we have transformed a dataset comprising 1,000 scientific papers into an ontological knowledge graph. Through an in-depth structural analysis, we have calculated node degrees, identified communities and connectivities, and evaluated clustering coefficients and betweenness centrality of pivotal nodes, uncovering fascinating knowledge architectures. The graph has an inherently scale-free nature, is highly connected, and can be used for graph reasoning by taking advantage of transitive and isomorphic properties that reveal unprecedented interdisciplinary relationships that can be used to answer queries, identify gaps in knowledge, propose never-before-seen material designs, and predict material behaviors. We compute deep node embeddings for combinatorial node similarity ranking for use in a path sampling strategy links dissimilar concepts that have previously not been related. One comparison revealed structural parallels between biological materials and Beethoven's 9th Symphony, highlighting shared patterns of complexity through isomorphic mapping. In another example, the algorithm proposed a hierarchical mycelium-based composite based on integrating path sampling with principles extracted from Kandinsky's 'Composition VII' painting. The resulting material integrates an innovative set of concepts that include a balance of chaos/order, adjustable porosity, mechanical strength, and complex patterned chemical functionalization. We uncover other isomorphisms across science, technology and art, revealing a nuanced ontology of immanence that reveal a context-dependent heterarchical interplay of constituents. Graph-based generative AI achieves a far higher degree of novelty, explorative capacity, and technical detail, than conventional approaches and establishes a widely useful framework for innovation by revealing hidden connections.
翻訳日:2024-06-12 22:13:02 公開日:2024-06-10
# AnyV2V: ビデオ対ビデオ編集タスクのためのチューニング不要のフレームワーク

AnyV2V: A Tuning-Free Framework For Any Video-to-Video Editing Tasks ( http://arxiv.org/abs/2403.14468v3 )

ライセンス: Link先を確認
Max Ku, Cong Wei, Weiming Ren, Harry Yang, Wenhu Chen, (参考訳) 生成モデルを用いたデジタルコンテンツ作成のダイナミックな分野において、最先端のビデオ編集モデルは、ユーザーが望む品質とコントロールのレベルを提供していない。 これまでは、画像ベースの生成モデルからゼロショットで拡張されたビデオ編集や、流体ビデオ編集の妨げとなる広範囲な微調整が必要だった。 さらに、これらの手法は、しばしばテキスト入力を編集指導として頼りにしており、曖昧さと実行可能な編集の種類を制限している。 これらの課題を認識し,ビデオ編集を簡略化するために設計された新しいチューニング不要なパラダイムであるAnyV2Vを紹介した。(1)既製の画像編集モデルを用いて第1フレームを編集し,(2)既存の画像・映像生成モデルを用いて時間的特徴注入により編集ビデオを生成する。 AnyV2Vは既存の画像編集ツールを利用して、プロンプトベースの編集、参照ベースのスタイル転送、主観駆動編集、アイデンティティ操作など、様々なビデオ編集タスクをサポートすることができる。 AnyV2Vはどんなビデオ長もサポートできる。 評価の結果,AnyV2Vは,全編集作業において高品質な編集を行いながら,映像との視覚的整合性を保ちながら,自動的,人為的評価において,他のベースライン手法よりも有意に優れていたことが示唆された。

In the dynamic field of digital content creation using generative models, state-of-the-art video editing models still do not offer the level of quality and control that users desire. Previous works on video editing either extended from image-based generative models in a zero-shot manner or necessitated extensive fine-tuning, which can hinder the production of fluid video edits. Furthermore, these methods frequently rely on textual input as the editing guidance, leading to ambiguities and limiting the types of edits they can perform. Recognizing these challenges, we introduce AnyV2V, a novel tuning-free paradigm designed to simplify video editing into two primary steps: (1) employing an off-the-shelf image editing model to modify the first frame, (2) utilizing an existing image-to-video generation model to generate the edited video through temporal feature injection. AnyV2V can leverage any existing image editing tools to support an extensive array of video editing tasks, including prompt-based editing, reference-based style transfer, subject-driven editing, and identity manipulation, which were unattainable by previous methods. AnyV2V can also support any video length. Our evaluation indicates that AnyV2V significantly outperforms other baseline methods in automatic and human evaluations by significant margin, maintaining visual consistency with the source video while achieving high-quality edits across all the editing tasks.
翻訳日:2024-06-12 22:03:14 公開日:2024-06-10
# AIの意識は必然的:理論的コンピュータ科学の視点

AI Consciousness is Inevitable: A Theoretical Computer Science Perspective ( http://arxiv.org/abs/2403.17101v4 )

ライセンス: Link先を確認
Lenore Blum, Manuel Blum, (参考訳) 我々は,資源制限下での計算を研究する数学の分野である理論計算機科学のレンズを通して,意識を考察する。 この観点から、意識のための正式な機械モデルを開発する。 このモデルはアラン・チューリングの単純だが強力な計算モデルとバーナード・ベアーズの意識の劇場モデルにインスパイアされている。 非常に単純ではあるが、このモデルは人間と動物の意識に関する主要な科学的理論の多くと高いレベルで一致しており、機械の意識は避けられないという我々の主張を支持している。

We look at consciousness through the lens of Theoretical Computer Science, a branch of mathematics that studies computation under resource limitations. From this perspective, we develop a formal machine model for consciousness. The model is inspired by Alan Turing's simple yet powerful model of computation and Bernard Baars' theater model of consciousness. Though extremely simple, the model aligns at a high level with many of the major scientific theories of human and animal consciousness, supporting our claim that machine consciousness is inevitable.
翻訳日:2024-06-12 22:03:14 公開日:2024-06-10
# LLaVA-Gemma: コンパクト言語モデルによるマルチモーダル基礎モデルの高速化

LLaVA-Gemma: Accelerating Multimodal Foundation Models with a Compact Language Model ( http://arxiv.org/abs/2404.01331v2 )

ライセンス: Link先を確認
Musashi Hinck, Matthew L. Olson, David Cobbley, Shao-Yen Tseng, Vasudev Lal, (参考訳) 我々は、最近リリースされた大規模言語モデル(LLM)のGemmaファミリで、人気のあるLLaVAフレームワークを使用して、MMFM(Multimodal foundation model)のスイートをトレーニングする。 特に興味深いのは、2Bパラメータ Gemma モデルであり、これは有能な小規模MMFMを構築する機会を提供する。 本研究は, コネクタの事前訓練, より強力な画像バックボーンの利用, 言語バックボーンの大きさの増大という, 3つの設計上の特徴について検討した。 LLaVA-Gemmaと呼ばれる結果のモデルは、評価の配列に対して適度な性能を示すが、現在の大容量SOTAモデルよりは改善されない。 事前学習をスキップすると性能が低下する傾向があり、より大きな視覚モデルでは性能が向上する傾向があり、言語モデルのサイズが大きくなると矛盾する効果がある。 LLaVA-Gemmaモデルのトレーニングレシピ、コード、重み付けを公開しています。

We train a suite of multimodal foundation models (MMFM) using the popular LLaVA framework with the recently released Gemma family of large language models (LLMs). Of particular interest is the 2B parameter Gemma model, which provides opportunities to construct capable small-scale MMFMs. In line with findings from other papers in this space, we test the effect of ablating three design features: pretraining the connector, utilizing a more powerful image backbone, and increasing the size of the language backbone. The resulting models, which we call LLaVA-Gemma, exhibit moderate performance on an array of evaluations, but fail to improve past the current comparably sized SOTA models. Closer analysis of performance shows mixed effects; skipping pretraining tends to reduce performance, larger vision models sometimes improve performance, and increasing language model size has inconsistent effects. We publicly release training recipes, code and weights for our models for the LLaVA-Gemma models.
翻訳日:2024-06-12 22:03:14 公開日:2024-06-10
# PRISM-TopoMap: 位置認識とスキャンマッチングを備えたオンライントポロジマッピング

PRISM-TopoMap: Online Topological Mapping with Place Recognition and Scan Matching ( http://arxiv.org/abs/2404.01674v2 )

ライセンス: Link先を確認
Kirill Muravyev, Alexander Melekhin, Dmitry Yudin, Konstantin Yakovlev, (参考訳) マッピングは、移動ロボットの自律的なナビゲーションを可能にする重要なタスクの1つだ。 従来のマッピング手法は、例えば占有格子のような密度の高い幾何学的地図表現を出力する。 一方、ワークスペースのトポロジ的構造をキャプチャすることで、高速な経路計画が可能となり、計測誤差の蓄積が少なくなり、メモリをあまり消費しない。 本稿では,グローバルな距離座標に依存しない局所的な位置のグラフを保持するトポロジカルマッピング手法であるPRISM-TopoMapを紹介する。 提案手法は,学習可能なマルチモーダル位置認識とスキャンマッチングパイプラインを組み合わせ,位置グラフの局所化とループ閉鎖を行う。 後者はオンラインで更新され、ロボットは各タイミングで適切なノードにローカライズされる。 提案手法を実物と実物(車輪付きディファレンシャル駆動型ハスキーロボット)で広範に実験的に評価し,最先端技術と比較した。 実験による評価の結果,PRISM-Topomap は地図作成とナビゲーションの効率性において競争相手より一貫して優れており,実際のロボットでは良好であることがわかった。 PRISM-Topomapのコードは、https://github.com/kirillMouraviev/prism-topomap.comで公開されている。

Mapping is one of the crucial tasks enabling autonomous navigation of a mobile robot. Conventional mapping methods output dense geometric map representation, e.g. an occupancy grid, which is not trivial to keep consistent for the prolonged runs covering large environments. Meanwhile, capturing the topological structure of the workspace enables fast path planning, is less prone to odometry error accumulation and does not consume much memory. Following this idea, this paper introduces PRISM-TopoMap -- a topological mapping method that maintains a graph of locally aligned locations not relying on global metric coordinates. The proposed method involves learnable multimodal place recognition paired with the scan matching pipeline for localization and loop closure in the graph of locations. The latter is updated online and the robot is localized in a proper node at each time step. We conduct a broad experimental evaluation of the suggested approach in a range of photo-realistic environments and on a real robot (wheeled differential driven Husky robot), and compare it to state of the art. The results of the empirical evaluation confirm that PRISM-Topomap consistently outperforms competitors across several measures of mapping and navigation efficiency and performs well on a real robot. The code of PRISM-Topomap is open-sourced and available at https://github.com/kirillMouraviev/prism-topomap.
翻訳日:2024-06-12 22:03:14 公開日:2024-06-10
# 学生から学ぶ: t-distributions を適用して LLM の正確かつ効率的なフォーマットを探索する

Learning from Students: Applying t-Distributions to Explore Accurate and Efficient Formats for LLMs ( http://arxiv.org/abs/2405.03103v2 )

ライセンス: Link先を確認
Jordan Dotzel, Yuzong Chen, Bahaa Kotb, Sushma Prasad, Gang Wu, Sheng Li, Mohamed S. Abdelfattah, Zhiru Zhang, (参考訳) 大規模言語モデル(LLM)のサイズが大きくなるには、従来、厳格なレイテンシと電力需要を満たすために、低精度の整数形式が必要となる。 最近では、NF4(Normal Float)のような代替フォーマットが、チップ面積の増加によるモデル精度の向上を実現している。 本研究ではまず,30のネットワークにわたるLLM重みとアクティベーションの大規模解析を行い,ほとんどの分布は学生のt分布に従っていると結論づける。 次に、LLaMA2-7Bにおける平均精度をタスク毎に0.76%向上させる、理論上最適な新しい形式である学生フロート(SF4)を導出する。 このフォーマットを高精度な参照として使用し、モデル精度を高めるための2種類の超正規サポートを持つ拡張E2M1を提案する。 最後に、モデル精度とハードウェアの複雑さを評価し、11のデータタイプにわたる品質と効率のフロンティアについて検討する。 超正規サポートを持つINT4, E2M1, E2M1からなるPareto曲線を発見し, モデル精度とチップ面積の連続的なトレードオフを提供する。 例えば、超正規サポートを持つE2M1は、1.22%のオーバヘッドでPhi-2の精度を2.19%向上させ、LCMベースのアプリケーションを4ビットで実行できるようにする。 サポートコードはhttps://github.com/cornell-zhang/llm-datatypesでホストされている。

The increasing size of large language models (LLMs) traditionally requires low-precision integer formats to meet strict latency and power demands. Yet recently, alternative formats such as Normal Float (NF4) have increased model accuracy at the cost of increased chip area. In this work, we first conduct a large-scale analysis of LLM weights and activations across 30 networks and conclude that most distributions follow a Student's t-distribution. We then derive a new theoretically optimal format, Student Float (SF4), that improves over NF4 across modern LLMs, for example increasing the average accuracy on LLaMA2-7B by 0.76% across tasks. Using this format as a high-accuracy reference, we then propose augmenting E2M1 with two variants of supernormal support for higher model accuracy. Finally, we explore the quality and efficiency frontier across 11 datatypes by evaluating their model accuracy and hardware complexity. We discover a Pareto curve composed of INT4, E2M1, and E2M1 with supernormal support, which offers a continuous tradeoff between model accuracy and chip area. For example, E2M1 with supernormal support increases the accuracy of Phi-2 by up to 2.19% with 1.22% area overhead, enabling more LLM-based applications to be run at four bits. The supporting code is hosted at https://github.com/cornell-zhang/llm-datatypes.
翻訳日:2024-06-12 21:53:26 公開日:2024-06-10
# カメラポーズを伴わないスパースビュー合成のための構成最適化手法

A Construct-Optimize Approach to Sparse View Synthesis without Camera Pose ( http://arxiv.org/abs/2405.03659v2 )

ライセンス: Link先を確認
Kaiwen Jiang, Yang Fu, Mukund Varma T, Yash Belhe, Xiaolong Wang, Hao Su, Ravi Ramamoorthi, (参考訳) 入力画像のスパース集合からの新しいビュー合成は、特にカメラポーズが欠落したり不正確な場合には、非常に実践的な問題である。 カメラポーズの直接最適化とニューラルレイディアンス場アルゴリズムにおける推定深度の利用は、ポーズと深さのカップリングや単眼深度推定の不正確さのため、通常は良い結果を出さない。 本稿では,最近の3次元ガウススプラッティング法を活用し,カメラポーズを伴わないスパースビュー合成のための新しい構成と最適化法を開発した。 具体的には、単分子深度と画素を3次元の世界に投影することで、解を段階的に構築する。 構築中、トレーニングビューと対応するレンダリング画像の2次元対応を検知し、解を最適化する。 我々は、カメラのポーズと奥行きの調整とカメラ登録のための一元化可能なパイプラインを開発し、その後にバックプロジェクションを行う。 また、ガウススプラッティングにおいて期待面という新たな概念を導入し、最適化に不可欠である。 これらのステップにより粗い解が実現され、標準最適化法を用いて低域通過フィルタと精細化が可能となる。 筆者らは,3つの広視野ビューで,タンクとテンプルと静的ハイクスのデータセットを用いて,近似カメラポーズ情報を含む競合手法よりもはるかに高品質な結果を示した。 さらに,データセットを半分使用しても,従来のInstantNGPおよびGaussian Splattingアルゴリズムよりも多くのビューと性能が向上した。 プロジェクトページ: https://raymondjiangkw.github.io/cogs.github.io/

Novel view synthesis from a sparse set of input images is a challenging problem of great practical interest, especially when camera poses are absent or inaccurate. Direct optimization of camera poses and usage of estimated depths in neural radiance field algorithms usually do not produce good results because of the coupling between poses and depths, and inaccuracies in monocular depth estimation. In this paper, we leverage the recent 3D Gaussian splatting method to develop a novel construct-and-optimize method for sparse view synthesis without camera poses. Specifically, we construct a solution progressively by using monocular depth and projecting pixels back into the 3D world. During construction, we optimize the solution by detecting 2D correspondences between training views and the corresponding rendered images. We develop a unified differentiable pipeline for camera registration and adjustment of both camera poses and depths, followed by back-projection. We also introduce a novel notion of an expected surface in Gaussian splatting, which is critical to our optimization. These steps enable a coarse solution, which can then be low-pass filtered and refined using standard optimization methods. We demonstrate results on the Tanks and Temples and Static Hikes datasets with as few as three widely-spaced views, showing significantly better quality than competing methods, including those with approximate camera pose information. Moreover, our results improve with more views and outperform previous InstantNGP and Gaussian Splatting algorithms even when using half the dataset. Project page: https://raymondjiangkw.github.io/cogs.github.io/
翻訳日:2024-06-12 21:53:26 公開日:2024-06-10
# 小角制御相ゲートを最適化した現実的中性原子系のフィードバックに基づく量子最適化アルゴリズムのシミュレーション

Simulation of a feedback-based algorithm for quantum optimization for a realistic neutral atom system with an optimized small-angle controlled-phase gate ( http://arxiv.org/abs/2405.10451v3 )

ライセンス: Link先を確認
S. X. Li, W. L. Mu, J. B. You, X. Q. Shao, (参考訳) 量子近似最適化アルゴリズムで求められる古典的な最適化プロセスとは対照的に、FALQONは量子最適化のためのフィードバックベースのアルゴリズムである。 B. Magann {\it et al ,} {\color{blue}Phys。 レヴ・レヴ・レヴ・レヴ・レヴ・レヴ・レヴ・レヴ・レヴ・レヴ・レヴ・レヴ・レヴ・レヴ・レヴ・レヴ・レヴ・レヴ・レヴ・レヴ・レヴ・レヴ・レヴ・ bf129}, 250502 (2022)}] は、古典的な最適化の努力なしに組合せ最適化問題の近似解を得ることを可能にする。 本研究では,中性原子系 [Z。 Fu {\it et al ,} {\color{blue}Phys。 A {\bf105}, 042430 (2022)}] は最適に調整された小角制御相ゲートを実装するスキームを示す。 最大カット問題における2-4-qubit FALQONアルゴリズムの検証と中性原子系の自然放出を考慮した結果、小角制御相ゲートを用いたFALQONの性能は、CZゲートを用いたFALQONよりも優れていることがわかった。 このアプローチは、FALQONをシミュレートし、Max-Cut問題に効果的に対処するために必要な論理回路を著しく単純化する可能性がある。

In contrast to the classical optimization process required by the quantum approximate optimization algorithm, FALQON, a feedback-based algorithm for quantum optimization [A. B. Magann {\it et al.,} {\color{blue}Phys. Rev. Lett. {\bf129}, 250502 (2022)}], enables one to obtain approximate solutions to combinatorial optimization problems without any classical optimization effort. In this study, we leverage the specifications of a recent experimental platform for the neutral atom system [Z. Fu {\it et al.,} {\color{blue}Phys. Rev. A {\bf105}, 042430 (2022)}] and present a scheme to implement an optimally tuned small-angle controlled-phase gate. By examining the 2- to 4-qubit FALQON algorithms in the Max-Cut problem and considering the spontaneous emission of the neutral atomic system, we have observed that the performance of FALQON implemented with small-angle controlled-phase gates exceeds that of FALQON utilizing CZ gates. This approach has the potential to significantly simplify the logic circuit required to simulate FALQON and effectively address the Max-Cut problem, which may pave a way for the experimental implementation of near-term noisy intermediate-scale quantum algorithms with neutral-atom systems.
翻訳日:2024-06-12 21:53:26 公開日:2024-06-10
# 大規模言語モデルによる問題仕様の緩和

Eliciting Problem Specifications via Large Language Models ( http://arxiv.org/abs/2405.12147v2 )

ライセンス: Link先を確認
Robert E. Wray, James R. Kirk, John E. Laird, (参考訳) 認知システムは一般に、人間に問題の定義を、認知システムが問題の解決やタスクの実行に使用可能な仕様に変換することを要求する。 本稿では,大規模言語モデル(LLM)を用いて,自然言語で定義された問題クラスを半形式仕様にマッピングし,既存の推論学習システムを用いて問題クラスからインスタンスを解く方法を提案する。 本稿では,LLM対応認知タスク分析エージェントの設計について述べる。 LLMエージェントによって実装された本システムは,自然言語で指定されたタスクに対する問題空間の定義を生成する。 LLMプロンプトは、AI文学における問題空間の定義と一般的な問題解決戦略(Polya's How to Solve It)から導かれる。 認知システムは、問題空間の仕様を使い、ドメイン一般の問題解決戦略(探索のような弱い方法)を適用して、問題クラスから複数の問題を解くことができる。 この結果は、予備的ではあるが、問題定式化の切り離しを通じて認知システム研究を加速し、堅牢な推論やオンライン学習のような認知システムのコア能力を維持できる可能性を示唆している。

Cognitive systems generally require a human to translate a problem definition into some specification that the cognitive system can use to attempt to solve the problem or perform the task. In this paper, we illustrate that large language models (LLMs) can be utilized to map a problem class, defined in natural language, into a semi-formal specification that can then be utilized by an existing reasoning and learning system to solve instances from the problem class. We present the design of LLM-enabled cognitive task analyst agent(s). Implemented with LLM agents, this system produces a definition of problem spaces for tasks specified in natural language. LLM prompts are derived from the definition of problem spaces in the AI literature and general problem-solving strategies (Polya's How to Solve It). A cognitive system can then use the problem-space specification, applying domain-general problem solving strategies ("weak methods" such as search), to solve multiple instances of problems from the problem class. This result, while preliminary, suggests the potential for speeding cognitive systems research via disintermediation of problem formulation while also retaining core capabilities of cognitive systems, such as robust inference and online learning.
翻訳日:2024-06-12 21:43:40 公開日:2024-06-10
# 制約のあるゴールの定式化と計画に向けて

Toward Constraint Compliant Goal Formulation and Planning ( http://arxiv.org/abs/2405.12862v2 )

ライセンス: Link先を確認
Steven J. Jones, Robert E. Wray, (参考訳) 規範、規則、嗜好に従うことの1つは、目標の定式化と計画処理に制約(倫理の知識など)を取り入れることである。 異なる倫理的枠組みにおける知識の符号化がエージェントの目的の定式化と計画処理にどのように影響するかを簡単なドメインで検討し、関連する制約の集合が様々なタイプの「ハード」と「ソフト」の制約の混合を含む場合、エージェントが満足し満足する能力を示す。 エージェントが倫理的制約にどう従おうとするかは倫理的枠組みに依存しており、我々は倫理的規範に従うための非倫理的枠組みと実用的枠組みのトレードオフを調査する。 代表的なシナリオは、同じ規範の異なるフレーミングで同じタスクを実行することが、どのように異なる振る舞いをもたらすかを強調する。 本研究は,目標定式化・計画中の倫理的対立を解決する上で,メタ認知的判断に重要な役割を担っていることを示唆する。

One part of complying with norms, rules, and preferences is incorporating constraints (such as knowledge of ethics) into one's goal formulation and planning processing. We explore in a simple domain how the encoding of knowledge in different ethical frameworks influences an agent's goal formulation and planning processing and demonstrate ability of an agent to satisfy and satisfice when its collection of relevant constraints includes a mix of "hard" and "soft" constraints of various types. How the agent attempts to comply with ethical constraints depends on the ethical framing and we investigate tradeoffs between deontological framing and utilitarian framing for complying with an ethical norm. Representative scenarios highlight how performing the same task with different framings of the same norm leads to different behaviors. Our explorations suggest an important role for metacognitive judgments in resolving ethical conflicts during goal formulation and planning.
翻訳日:2024-06-12 21:43:40 公開日:2024-06-10
# ML駆動科学における過剰最適化と出版バイアスの解消

Unraveling overoptimism and publication bias in ML-driven science ( http://arxiv.org/abs/2405.14422v2 )

ライセンス: Link先を確認
Pouria Saidi, Gautam Dasarathy, Visar Berisha, (参考訳) 機械学習(ML)は多くの分野にまたがって使われており、多くの領域で印象的な結果が報告されている。 しかし,近年の研究では,MLモデルの性能が過度に最適化されていることが示唆されている。 標本サイズと報告された精度の逆関係の発見は, 標本サイズの増加とともに精度が向上あるいは安定する学習曲線の理論と対比して, 妥当性の懸念を浮き彫りにしている。 本稿では,データ漏洩と公開バイアスに着目し,ML駆動科学における過大評価精度レポートに寄与する要因について検討する。 本稿では,パラメトリック学習曲線と前述のバイアスを統合した新しい確率モデルを提案する。 次に、観測データにおけるこれらのバイアスを補正する推定器を構築する。 理論的および実証的な結果は,本フレームワークが学習曲線を推定できることを示し,その結果から現実的な性能評価を提供する。 ML駆動科学におけるメタアナライズモデルの適用により、神経画像に基づく、および音声に基づく神経学的条件の分類が可能となり、各領域におけるMLに基づく予測の固有の限界を推定する。

Machine Learning (ML) is increasingly used across many disciplines with impressive reported results across many domain areas. However, recent studies suggest that the published performance of ML models are often overoptimistic. Validity concerns are underscored by findings of an inverse relationship between sample size and reported accuracy in published ML models, contrasting with the theory of learning curves where accuracy should improve or remain stable with increasing sample size. This paper investigates factors contributing to overoptimistic accuracy reports in ML-driven science, focusing on data leakage and publication bias. We introduce a novel stochastic model for observed accuracy, integrating parametric learning curves and the aforementioned biases. We then construct an estimator that corrects for these biases in observed data. Theoretical and empirical results show that our framework can estimate the underlying learning curve, providing realistic performance assessments from published results. Applying the model to meta-analyses in ML-driven science, including neuroimaging-based and speech-based classifications of neurological conditions, we find prevalent overoptimism and estimate the inherent limits of ML-based prediction in each domain.
翻訳日:2024-06-12 21:43:40 公開日:2024-06-10
# OpenAPIコード補完のための大規模言語モデルの最適化

Optimizing Large Language Models for OpenAPI Code Completion ( http://arxiv.org/abs/2405.15729v2 )

ライセンス: Link先を確認
Bohdan Petryshyn, Mantas Lukoševičius, (参考訳) 大規模言語モデル(LLM)の最近の進歩とコード生成タスクの利用は、ソフトウェア開発の分野を大きく変えた。 主流プログラミング言語におけるコード補完ソリューションの顕著な有効性にもかかわらず、その性能はOpenAPI定義のようなユビキタスでないフォーマットに適用した場合に遅れている。 本研究では,商用コード補完ツールであるGitHub CopilotのOpenAPI補完性能を評価し,MetaのオープンソースモデルであるCode Llamaを利用したタスク固有の最適化セットを提案する。 本研究で提案したセマンティックス対応のOpenAPI補完ベンチマークを用いて,コードラマモデルの性能に対する各種のプロンプトエンジニアリングおよび微調整技術の影響を分析する。 微調整されたCode Llamaモデルは、商用ソリューションの基盤であるCodexモデルの25倍のパラメータを使用するにもかかわらず、GitHub Copilot上で55.2%のピーク精度向上を達成した。 さらに,本研究では,訓練中に使用したコードよりもコンテキストサイズが小さいモデルが誘導される場合のアンダーパフォーマンスの問題に対処するため,広く使用されているコード埋込み訓練手法の強化を提案する。 データセット、ベンチマーク、モデルの微調整コードが公開されている。

Recent advancements in Large Language Models (LLMs) and their utilization in code generation tasks have significantly reshaped the field of software development. Despite the remarkable efficacy of code completion solutions in mainstream programming languages, their performance lags when applied to less ubiquitous formats such as OpenAPI definitions. This study evaluates the OpenAPI completion performance of GitHub Copilot, a prevalent commercial code completion tool, and proposes a set of task-specific optimizations leveraging Meta's open-source model Code Llama. A semantics-aware OpenAPI completion benchmark proposed in this research is used to perform a series of experiments through which the impact of various prompt-engineering and fine-tuning techniques on the Code Llama model's performance is analyzed. The fine-tuned Code Llama model reaches a peak correctness improvement of 55.2% over GitHub Copilot despite utilizing 25 times fewer parameters than the commercial solution's underlying Codex model. Additionally, this research proposes an enhancement to a widely used code infilling training technique, addressing the issue of underperformance when the model is prompted with context sizes smaller than those used during training. The dataset, the benchmark, and the model fine-tuning code are made publicly available.
翻訳日:2024-06-12 21:43:40 公開日:2024-06-10
# 部分微分方程式制約最適化のための変分量子フレームワーク

Variational Quantum Framework for Partial Differential Equation Constrained Optimization ( http://arxiv.org/abs/2405.16651v2 )

ライセンス: Link先を確認
Amit Surana, Abeynaya Gnanasekaran, (参考訳) 線形偏微分方程式(PDE)制約最適化問題に対する新しい変分量子フレームワークを提案する。 このような問題は、多くの科学的・工学的な領域で発生する。 例えば、空気力学では、PDEの制約は運動量、質量、エネルギー収支などの保存則であり、設計変数は車両形状パラメータと材料特性であり、車両への過渡的な熱負荷の影響を最小限に抑えるか、リフト・アンド・ドラッグ比を最大化することである。 提案フレームワークは,変分量子線形システム(VQLS)アルゴリズムとブラックボックスオプティマイザを2つの主構成ブロックとして利用する。 VQLSは、与えられた設計パラメータに対するPDE制約の離散化から生じる線形システムを解くために使用され、設計コスト/オブジェクト関数を評価する。 ブラックボックスオプティマイザは、この評価コストに基づいて、次のパラメータ値のセットを選択するために使用される。 本稿では,従来の手法に比較して,提案するフレームワークの潜在的な利点を明らかにするために,計算誤差と複雑性解析について述べる。 我々はPennyLaneライブラリを用いてフレームワークを実装し,熱伝達最適化問題に適用し,ブラックボックス最適化器としてベイズ最適化を用いたシミュレーション結果を示す。

We present a novel variational quantum framework for linear partial differential equation (PDE) constrained optimization problems. Such problems arise in many scientific and engineering domains. For instance, in aerodynamics, the PDE constraints are the conservation laws such as momentum, mass and energy balance, the design variables are vehicle shape parameters and material properties, and the objective could be to minimize the effect of transient heat loads on the vehicle or to maximize the lift-to-drag ratio. The proposed framework utilizes the variational quantum linear system (VQLS) algorithm and a black box optimizer as its two main building blocks. VQLS is used to solve the linear system, arising from the discretization of the PDE constraints for given design parameters, and evaluate the design cost/objective function. The black box optimizer is used to select next set of parameter values based on this evaluated cost, leading to nested bi-level optimization structure within a hybrid classical-quantum setting. We present detailed computational error and complexity analysis to highlight the potential advantages of our proposed framework over classical techniques. We implement our framework using the PennyLane library, apply it to a heat transfer optimization problem, and present simulation results using Bayesian optimization as the black box optimizer.
翻訳日:2024-06-12 21:43:40 公開日:2024-06-10
# マルチキュービット格子手術スケジューリング

Multi-qubit Lattice Surgery Scheduling ( http://arxiv.org/abs/2405.17688v2 )

ライセンス: Link先を確認
Allyson Silva, Xiangyi Zhang, Zak Webb, Mia Kramer, Chan Woo Yang, Xiao Liu, Jessica Lemieux, Ka-Wai Chen, Artur Scherer, Pooya Ronagh, (参考訳) 2次元トポロジカル量子誤り訂正符号を用いたフォールトトレラント量子計算は、多ビット長距離演算の恩恵を受けることができる。 単純な可換規則を用いることで、量子回路をクリフォード以外の複数の量子ビットゲートの列に変換することができる。 フォールトトレラントコンパイルの以前の研究は、回路の並列化性を低減するため、そのようなゲートの最適スケジューリングを避ける。 並列化ポテンシャルの低減は, ゲート数の大幅な減少により達成される。 そこで我々は、最初期の利用可能な第一ポリシーを用いて、マルチキュービットゲートをスタイナーツリーとして表現することで、関連する森林包装問題を解決し、マルチキュービット格子手術をスケジューリングする方法を考案した。 ランダム回路とアプリケーションインスパイア回路の広範なテストにより,本手法のスケーラビリティと性能が実証された。 その結果, 回路の回路長を著しく低減し, 多ビットゲートの回路は, シリアル実行よりも回路実行時間を短縮できることがわかった。

Fault-tolerant quantum computation using two-dimensional topological quantum error correcting codes can benefit from multi-qubit long-range operations. By using simple commutation rules, a quantum circuit can be transpiled into a sequence of solely non-Clifford multi-qubit gates. Prior work on fault-tolerant compilation avoids optimal scheduling of such gates since they reduce the parallelizability of the circuit. We observe that the reduced parallelization potential is outweighed by the significant reduction in the number of gates. We therefore devise a method for scheduling multi-qubit lattice surgery using an earliest-available-first policy, solving the associated forest packing problem using a representation of the multi-qubit gates as Steiner trees. Our extensive testing on random and application-inspired circuits demonstrates the method's scalability and performance. We show that the transpilation significantly reduces the circuit length on the set of circuits tested, and that the resulting circuit of multi-qubit gates has a further reduction in the expected circuit execution time compared to serial execution.
翻訳日:2024-06-12 21:43:40 公開日:2024-06-10
# SoundCTM:テキスト・ツー・サウンド・ジェネレーションのためのスコアベース・一貫性モデル

SoundCTM: Uniting Score-based and Consistency Models for Text-to-Sound Generation ( http://arxiv.org/abs/2405.18503v2 )

ライセンス: Link先を確認
Koichi Saito, Dongjun Kim, Takashi Shibuya, Chieh-Hsin Lai, Zhi Zhong, Yuhta Takida, Yuki Mitsufuji, (参考訳) サウンドコンテンツは、ビデオゲーム、音楽、映画などのマルチメディア作品にとって欠かせない要素である。 最近の高品質な拡散型音響生成モデルは、クリエイターにとって貴重なツールとなりうる。 しかし、高品質な音を出すにもかかわらず、これらのモデルは推論速度が遅い。 この欠点は、通常、試行錯誤によって音を洗練させ、芸術的な意図と整合させるクリエーターの負担を和らげる。 この問題に対処するため,SoundCTM(Sound Consistency Trajectory Models)を導入する。 提案モデルは,高品位1段音生成と高品位1段音生成との柔軟な遷移を可能にする。 これにより、クリエーターは最初は1ステップのサンプルで音をコントロールし、マルチステップ生成によってそれを精製することができる。 CTMは基本的にフレキシブルな1ステップとマルチステップの生成を実現するが、その顕著な性能は追加の事前訓練された特徴抽出器と、他のドメインでは必ずしも利用できない訓練に高価である敵の損失に大きく依存する。 そこで我々は,CTMのトレーニングフレームワークを再構築し,蒸留損失に教師のネットワークを活用することにより,新たな特徴距離を導入する。 さらに, 分類器を含まない誘導軌道を蒸留しながら, 条件付きおよび無条件の学生モデルを同時に訓練し, 推論中にそれらのモデルを補間する。 また,SoundCTMのフレキシブルサンプリング機能を活用して,トレーニング不要な制御可能なフレームワークを提案する。 SoundCTMは、余分なオフザシェルフネットワークを使わずに、有望な1ステップと複数ステップのリアルタイムサウンド生成を実現する。 さらに,SoundCTMの可制御音発生能力について,無訓練で実演する。 私たちのコード、事前訓練されたモデル、オーディオサンプルはhttps://github.com/sony/soundctm.comで公開されています。

Sound content is an indispensable element for multimedia works such as video games, music, and films. Recent high-quality diffusion-based sound generation models can serve as valuable tools for the creators. However, despite producing high-quality sounds, these models often suffer from slow inference speeds. This drawback burdens creators, who typically refine their sounds through trial and error to align them with their artistic intentions. To address this issue, we introduce Sound Consistency Trajectory Models (SoundCTM). Our model enables flexible transitioning between high-quality 1-step sound generation and superior sound quality through multi-step generation. This allows creators to initially control sounds with 1-step samples before refining them through multi-step generation. While CTM fundamentally achieves flexible 1-step and multi-step generation, its impressive performance heavily depends on an additional pretrained feature extractor and an adversarial loss, which are expensive to train and not always available in other domains. Thus, we reframe CTM's training framework and introduce a novel feature distance by utilizing the teacher's network for a distillation loss. Additionally, while distilling classifier-free guided trajectories, we train conditional and unconditional student models simultaneously and interpolate between these models during inference. We also propose training-free controllable frameworks for SoundCTM, leveraging its flexible sampling capability. SoundCTM achieves both promising 1-step and multi-step real-time sound generation without using any extra off-the-shelf networks. Furthermore, we demonstrate SoundCTM's capability of controllable sound generation in a training-free manner. Our codes, pretrained models, and audio samples are available at https://github.com/sony/soundctm.
翻訳日:2024-06-12 21:33:54 公開日:2024-06-10
# モデル予測制御と強化学習:動的プログラミングに基づく統一フレームワーク

Model Predictive Control and Reinforcement Learning: A Unified Framework Based on Dynamic Programming ( http://arxiv.org/abs/2406.00592v2 )

ライセンス: Link先を確認
Dimitri P. Bertsekas, (参考訳) 本稿では、近似動的プログラミング(DP)、モデル予測制御(MPC)、強化学習(RL)を結合する新しい概念フレームワークについて述べる。 このフレームワークは2つのアルゴリズムを中心に設計されており、ニュートンの手法の強力なメカニズムを通じて互いに独立に設計され、シナジーで動作している。 オフライントレーニングとオンラインプレイアルゴリズムと呼んでいます。 主な例として、2017年のAlphaZeroプログラム(チェス、[SHS17]、[SSS17])、1990年代のTD-Gammonプログラム(バックギャモン、[Tes94]、[Tes95]、[TeG96])などがある。 これらのゲームコンテキストにおいて、オフライントレーニングアルゴリズムは、プログラムに位置を評価し、任意の位置で良い動きを生成する方法を教える方法であり、オンラインプレイアルゴリズムは、人間やコンピュータの対戦相手に対してリアルタイムにプレイする手法である。 重要なことに、オフライントレーニングとオンラインプレイの相乗効果は、MPC(および他のシーケンシャルな決定問題の主要なクラス)の基盤にもなり、実際、MPC設計アーキテクチャはAlphaZeroとTD-Gammonのものと非常によく似ている。 この概念的な洞察は、RLとMPCの文化的ギャップを埋める手段を提供し、MPCの基本的な問題に新たな光を当てる。 これには、ロールアウトによる安定性の強化、確実性等価性による不確実性処理、システムパラメータの変更を含む適応制御設定におけるMPCのレジリエンス、ニュートン法によって示唆された超線形性能境界による洞察などが含まれる。

In this paper we describe a new conceptual framework that connects approximate Dynamic Programming (DP), Model Predictive Control (MPC), and Reinforcement Learning (RL). This framework centers around two algorithms, which are designed largely independently of each other and operate in synergy through the powerful mechanism of Newton's method. We call them the off-line training and the on-line play algorithms. The names are borrowed from some of the major successes of RL involving games; primary examples are the recent (2017) AlphaZero program (which plays chess, [SHS17], [SSS17]), and the similarly structured and earlier (1990s) TD-Gammon program (which plays backgammon, [Tes94], [Tes95], [TeG96]). In these game contexts, the off-line training algorithm is the method used to teach the program how to evaluate positions and to generate good moves at any given position, while the on-line play algorithm is the method used to play in real time against human or computer opponents. Significantly, the synergy between off-line training and on-line play also underlies MPC (as well as other major classes of sequential decision problems), and indeed the MPC design architecture is very similar to the one of AlphaZero and TD-Gammon. This conceptual insight provides a vehicle for bridging the cultural gap between RL and MPC, and sheds new light on some fundamental issues in MPC. These include the enhancement of stability properties through rollout, the treatment of uncertainty through the use of certainty equivalence, the resilience of MPC in adaptive control settings that involve changing system parameters, and the insights provided by the superlinear performance bounds implied by Newton's method.
翻訳日:2024-06-12 21:33:54 公開日:2024-06-10
# 新型コロナウイルスパンデミック中の公衆衛生メッセージング #EpiTwitter

#EpiTwitter: Public Health Messaging During the COVID-19 Pandemic ( http://arxiv.org/abs/2406.01866v2 )

ライセンス: Link先を確認
Ashwin Rao, Nazanin Sabri, Siyi Guo, Louiqa Raschid, Kristina Lerman, (参考訳) 健康危機時の効果的なコミュニケーションは重要であり、ソーシャルメディアは公衆衛生専門家(PHE)にとって重要なプラットフォームとなっている。 しかし、反トラスト的な見解を奨励する擬似的な専門家を増幅する。 その重要性にもかかわらず、COVID-19におけるPHEのコミュニケーションにおける感情的・道徳的言語の役割は検討されていない。 本研究では、パンデミックの間、PHEと擬似専門家がTwitter上でどのようにコミュニケーションし、感情的・道徳的言語と政治的エリートとの関わりに焦点を当てた。 2020年1月から2021年1月までの489人のPHEと356人の擬似専門家のツイートを分析し、公衆の反応とともに、重要な優先順位とメッセージ戦略の違いを特定した。 PHEは、楽観主義のようなポジティブな感情言語を用いて、マスク、医療、教育、ワクチンを優先する。 対照的に、擬似専門家は治療やロックダウンをより頻繁に議論し、悲観主義や嫌悪感といった否定的な感情を取り入れている。 否定的な感情的・道徳的な言語はエンゲージメントを促進する傾向にあるが、PHEからの肯定的な言語は世論の反応において肯定性を育む。 PHEはリベラルなパルチザン性を示し、保守的なエリートに対してリベラル派や否定的な態度を示す一方、擬似的な専門家は保守的なパルチザン性を示す。 これらの発見は、新型コロナウイルスの言論の偏極に光を当て、偏極を緩和し、公衆の信頼を高めるための専門家による感情的・道徳的な言葉の戦略的利用の重要性を浮き彫りにした。

Effective communication during health crises is critical, with social media serving as a key platform for public health experts (PHEs) to engage with the public. However, it also amplifies pseudo-experts promoting contrarian views. Despite its importance, the role of emotional and moral language in PHEs' communication during COVID-19 remains under explored. This study examines how PHEs and pseudo-experts communicated on Twitter during the pandemic, focusing on emotional and moral language and their engagement with political elites. Analyzing tweets from 489 PHEs and 356 pseudo-experts from January 2020 to January 2021, alongside public responses, we identified key priorities and differences in messaging strategy. PHEs prioritize masking, healthcare, education, and vaccines, using positive emotional language like optimism. In contrast, pseudo-experts discuss therapeutics and lockdowns more frequently, employing negative emotions like pessimism and disgust. Negative emotional and moral language tends to drive engagement, but positive language from PHEs fosters positivity in public responses. PHEs exhibit liberal partisanship, expressing more positivity towards liberals and negativity towards conservative elites, while pseudo-experts show conservative partisanship. These findings shed light on the polarization of COVID-19 discourse and underscore the importance of strategic use of emotional and moral language by experts to mitigate polarization and enhance public trust.
翻訳日:2024-06-12 21:33:54 公開日:2024-06-10
# Event3DGS: 高速ロボットエゴモーションのためのイベントベース3Dガウススプレイティング

Event3DGS: Event-Based 3D Gaussian Splatting for High-Speed Robot Egomotion ( http://arxiv.org/abs/2406.02972v2 )

ライセンス: Link先を確認
Tianyi Xiong, Jiayi Wu, Botao He, Cornelia Fermuller, Yiannis Aloimonos, Heng Huang, Christopher A. Metzler, (参考訳) 微分可能レンダリングと明示的な点ベースシーン表現を組み合わせることで、3Dガウススプラッティング(3DGS)は画期的な3D再構成能力を実証した。 しかし、これまで3DGSは、高速な移動が広まるロボット工学に限られた影響を与えてきた: Egomotionは動きのぼやけを導入し、既存のフレームベースの3DGS再構築手法の成果物に繋がる。 この課題に対処するために、イベントベースの3DGSフレームワークであるEvent3DGSを紹介します。 イベントカメラの例外的な時間分解能を利用して、Event3GDSは高速なエゴモーションの下で高忠実度3D構造と外観を再構築することができる。 Event3DGSは、計算コストを95%削減しつつ、再構成品質(+3dB)を大幅に改善する。 また, 構造的精度を損なうことなく, 外観の忠実度をより高められるように, フレームベースで数回の動特性測定を再構成プロセスに組み込むことも可能である。

By combining differentiable rendering with explicit point-based scene representations, 3D Gaussian Splatting (3DGS) has demonstrated breakthrough 3D reconstruction capabilities. However, to date 3DGS has had limited impact on robotics, where high-speed egomotion is pervasive: Egomotion introduces motion blur and leads to artifacts in existing frame-based 3DGS reconstruction methods. To address this challenge, we introduce Event3DGS, an {\em event-based} 3DGS framework. By exploiting the exceptional temporal resolution of event cameras, Event3GDS can reconstruct high-fidelity 3D structure and appearance under high-speed egomotion. Extensive experiments on multiple synthetic and real-world datasets demonstrate the superiority of Event3DGS compared with existing event-based dense 3D scene reconstruction frameworks; Event3DGS substantially improves reconstruction quality (+3dB) while reducing computational costs by 95\%. Our framework also allows one to incorporate a few motion-blurred frame-based measurements into the reconstruction process to further improve appearance fidelity without loss of structural accuracy.
翻訳日:2024-06-12 21:33:54 公開日:2024-06-10
# ネットワークによる転送学習による犯罪予測の短期的精度向上

Network-Based Transfer Learning Helps Improve Short-Term Crime Prediction Accuracy ( http://arxiv.org/abs/2406.06645v1 )

ライセンス: Link先を確認
Jiahui Wu, Vanessa Frias-Martinez, (参考訳) 人間の移動データで強化されたディープラーニングアーキテクチャは、過去の犯罪データで訓練された短期犯罪予測モデルの精度を向上させることが示されている。 しかしながら、一部の地域では人間の移動データが不足しており、これらのモデルの正しいトレーニングに悪影響を及ぼす可能性がある。 そこで本研究では,短時間の犯罪予測モデルのための新たな伝達学習フレームワークを提案する。これにより,移動データの多いソース領域で訓練された深層学習犯罪予測モデルからの重みを対象領域に伝達し,その局所犯罪予測モデルを微調整し,犯罪予測精度を向上させる。 以上の結果から,移動データが少ない都市において,移動データが少ない都市において,移動データ数が少ない場合にF1スコアが向上することが示唆された。 また、F1スコアの改善は、米国の様々な種類の犯罪や多様な都市に広く浸透していることも示している。

Deep learning architectures enhanced with human mobility data have been shown to improve the accuracy of short-term crime prediction models trained with historical crime data. However, human mobility data may be scarce in some regions, negatively impacting the correct training of these models. To address this issue, we propose a novel transfer learning framework for short-term crime prediction models, whereby weights from the deep learning crime prediction models trained in source regions with plenty of mobility data are transferred to target regions to fine-tune their local crime prediction models and improve crime prediction accuracy. Our results show that the proposed transfer learning framework improves the F1 scores for target cities with mobility data scarcity, especially when the number of months of available mobility data is small. We also show that the F1 score improvements are pervasive across different types of crimes and diverse cities in the US.
翻訳日:2024-06-12 20:44:57 公開日:2024-06-10
# LLM生成コードはどの程度効率的か?厳格で高水準なベンチマーク

How Efficient is LLM-Generated Code? A Rigorous & High-Standard Benchmark ( http://arxiv.org/abs/2406.06647v1 )

ライセンス: Link先を確認
Ruizhong Qiu, Weiliang Will Zeng, Hanghang Tong, James Ezick, Christopher Lott, (参考訳) 大規模言語モデル(LLM)の出現は、プログラム合成のフロンティアを著しく押し上げている。 LLMに基づくプログラム合成の進歩は、LLM生成コードの徹底的な評価を要求する。 ほとんどの評価フレームワークは生成したコードの(機能的な)正しさに重点を置いています。 本研究では,LLMの効率性を評価するための厳密で高水準なベンチマークであるENAMEL (EfficeNcy AutoMatic EvaLuator) を開発した。 まず、eff@kと呼ばれる新しい効率指標を提案する。これは、pass@kメトリックを正確性から効率性に一般化し、正しく検閲された実行時間を適切に処理する。 さらに,Rao-Blackwellization による eff@k の非バイアスおよび分散還元推定器を導出し,新しい推定器の数値的に安定な実装も提供する。 第2に、効率評価のための高標準を設定するために、人間の専門家を用いて、効率の基準解として最適なアルゴリズムと実装を設計し、その多くがHumanEvalやHumanEval+の既存の標準解よりもはるかに効率的である。 さらに、厳密な評価を確保するために、人間の専門家を用いて、強力なテストケースジェネレータをキュレートし、間違ったコードをフィルタリングし、準最適アルゴリズムを区別する。 我々のベンチマークENAMELを用いた30の人気のあるLLMの広範な研究は、LLMがまだ専門家レベルの効率的なコードを生成するに足りていないことを示している。 我々の問題集合の2つの部分集合を用いて、そのような不足は、現在のLLMが高度なアルゴリズムの設計に苦慮し、実装の最適化をほとんど意識していないためであることを示す。 私たちのベンチマークはhttps://github.com/q-rz/enamelで公開されています。

The emergence of large language models (LLMs) has significantly pushed the frontiers of program synthesis. Advancement of LLM-based program synthesis calls for a thorough evaluation of LLM-generated code. Most evaluation frameworks focus on the (functional) correctness of generated code; efficiency, as an important measure of code quality, has been overlooked in existing evaluations. In this work, we develop ENAMEL (EfficeNcy AutoMatic EvaLuator), a rigorous and high-standard benchmark for evaluating the capability of LLMs in generating efficient code. Firstly, we propose a new efficiency metric called eff@k, which generalizes the pass@k metric from correctness to efficiency and appropriately handles right-censored execution time. Furthermore, we derive an unbiased and variance-reduced estimator of eff@k via Rao--Blackwellization; we also provide a numerically stable implementation for the new estimator. Secondly, to set a high-standard for efficiency evaluation, we employ a human expert to design best algorithms and implementations as our reference solutions of efficiency, many of which are much more efficient than existing canonical solutions in HumanEval and HumanEval+. Moreover, to ensure a rigorous evaluation, we employ a human expert to curate strong test case generators to filter out wrong code and differentiate suboptimal algorithms. An extensive study across 30 popular LLMs using our benchmark ENAMEL shows that LLMs still fall short of generating expert-level efficient code. Using two subsets of our problem set, we demonstrate that such deficiency is because current LLMs struggle in designing advanced algorithms and are barely aware of implementation optimization. Our benchmark is publicly available at https://github.com/q-rz/enamel .
翻訳日:2024-06-12 20:44:57 公開日:2024-06-10
# SignBLEU:多チャンネル手話翻訳の自動評価

SignBLEU: Automatic Evaluation of Multi-channel Sign Language Translation ( http://arxiv.org/abs/2406.06648v1 )

ライセンス: Link先を確認
Jung-Ho Kim, Mathew Huerta-Enochian, Changyong Ko, Du Hui Lee, (参考訳) 手話は、手(手)だけでなく、表情や上半身の動き(手)を通して情報を伝達する多チャンネル言語である。 しかしながら、手話の自動翻訳は通常、単一のグルース列を生成することで行われるため、研究者は手動と共同で手動のシグナルを抽出し、手動グルースのリストを単純化する。 これは、重大な情報損失と曖昧さをもたらす可能性がある。 本稿では,マルチチャネル手話翻訳(MCSLT)という新しいタスクを導入し,複数の信号チャネルをキャプチャする新しいメトリクスであるSignBLEUを提案する。 本研究では,3つの手話コーパスを用いたシステムレベルでのSignBLEUの検証を行った。 SignBLEUは、競合する指標よりも、人間の判断と常に相関していることがわかった。 MCSLTのさらなる研究を容易にするため、3つの手話コーパスのベンチマークスコアを報告し、SignBLEUのソースコードをhttps://github.com/eq4all-projects/SignBLEUでリリースする。

Sign languages are multi-channel languages that communicate information through not just the hands (manual signals) but also facial expressions and upper body movements (non-manual signals). However, since automatic sign language translation is usually performed by generating a single sequence of glosses, researchers eschew non-manual and co-occurring manual signals in favor of a simplified list of manual glosses. This can lead to significant information loss and ambiguity. In this paper, we introduce a new task named multi-channel sign language translation (MCSLT) and present a novel metric, SignBLEU, designed to capture multiple signal channels. We validated SignBLEU on a system-level task using three sign language corpora with varied linguistic structures and transcription methodologies and examined its correlation with human judgment through two segment-level tasks. We found that SignBLEU consistently correlates better with human judgment than competing metrics. To facilitate further MCSLT research, we report benchmark scores for the three sign language corpora and release the source code for SignBLEU at https://github.com/eq4all-projects/SignBLEU.
翻訳日:2024-06-12 20:44:57 公開日:2024-06-10
# 2DQuant:画像超解像のための低ビット後処理量子化

2DQuant: Low-bit Post-Training Quantization for Image Super-Resolution ( http://arxiv.org/abs/2406.06649v1 )

ライセンス: Link先を確認
Kai Liu, Haotong Qin, Yong Guo, Xin Yuan, Linghe Kong, Guihai Chen, Yulun Zhang, (参考訳) 低ビット量子化は、エッジ配置のための画像超解像(SR)モデルを圧縮するために広く普及し、より高度なSRモデルは、それぞれ、コンパクトな低ビットパラメータと、ストレージ圧縮と推論アクセラレーションのための効率的な整数/ビット分割を楽しむことができる。 しかしながら、低ビット量子化は、フル精度(FP)と比較してSRモデルの精度を低下させることが知られている。 劣化を緩和する試みはいくつかあるが、トランスフォーマーベースのSRモデルは、その特異な活性化分布のために依然として深刻な劣化を被っている。 本稿では,2DQuantという画像超解像のための2段階の低ビット後量子化(PTQ)手法を提案する。 提案手法はまず, 重みと活性化について検討し, その分布は対称性と非対称性, 長い尾の共存によって特徴づけられることを示した。 具体的には,分布指向境界初期化 (DOBI) を提案し,様々な探索手法を用いて量子化器の粗い境界を探索する。 精製された量子化器パラメータを得るために、蒸留手法を用いてFPモデルから量子化モデルを学習させる蒸留量子化校正(DQC)を提案する。 様々なビットやスケーリング要因に関する広範な実験により、DOBIの性能は最先端(SOTA)に到達し、ステージ2の後、既存のPTQを計測値と視覚効果の両方で上回っている。 2DQuantは2ビットに量子化されたSOTAと比較してPSNRが最大4.52dB増加し、圧縮比が3.60倍、スピードアップ比が5.08倍である。 コードとモデルはhttps://github.com/Kai-Liu001/2DQuant.comから入手できる。

Low-bit quantization has become widespread for compressing image super-resolution (SR) models for edge deployment, which allows advanced SR models to enjoy compact low-bit parameters and efficient integer/bitwise constructions for storage compression and inference acceleration, respectively. However, it is notorious that low-bit quantization degrades the accuracy of SR models compared to their full-precision (FP) counterparts. Despite several efforts to alleviate the degradation, the transformer-based SR model still suffers severe degradation due to its distinctive activation distribution. In this work, we present a dual-stage low-bit post-training quantization (PTQ) method for image super-resolution, namely 2DQuant, which achieves efficient and accurate SR under low-bit quantization. The proposed method first investigates the weight and activation and finds that the distribution is characterized by coexisting symmetry and asymmetry, long tails. Specifically, we propose Distribution-Oriented Bound Initialization (DOBI), using different searching strategies to search a coarse bound for quantizers. To obtain refined quantizer parameters, we further propose Distillation Quantization Calibration (DQC), which employs a distillation approach to make the quantized model learn from its FP counterpart. Through extensive experiments on different bits and scaling factors, the performance of DOBI can reach the state-of-the-art (SOTA) while after stage two, our method surpasses existing PTQ in both metrics and visual effects. 2DQuant gains an increase in PSNR as high as 4.52dB on Set5 (x2) compared with SOTA when quantized to 2-bit and enjoys a 3.60x compression ratio and 5.08x speedup ratio. The code and models will be available at https://github.com/Kai-Liu001/2DQuant.
翻訳日:2024-06-12 20:44:57 公開日:2024-06-10
# H&E染色組織像を用いた早期乳癌再発の予測

Predicting the risk of early-stage breast cancer recurrence using H\&E-stained tissue images ( http://arxiv.org/abs/2406.06650v1 )

ライセンス: Link先を確認
Geongyu Lee, Joonho Lee, Tae-Yeong Kwak, Sun Woo Kim, Youngmee Kwon, Chungyeul Kim, Hyeyoon Chang, (参考訳) 早期乳癌に対する術後治療の選択において,再発の正確な予測が重要である。 本研究では, 癌組織像を解析することにより, 深層学習アルゴリズムが再発リスクを予測できるかどうかを検討した。 ゲノミクス法によるリスク予測とラベル付けされた125個のヘマトキシリンおよびエオシン染色乳がん全スライド画像を用いて, 低, 中間, 高リスクの予測に0.857, 0.746, 0.529の感度, 0.816, 0.803, 0.972の特異性を得た。 Pearson's correlation coefficient of 0.61 was obtained to the expert pathologist's Regional histology grade information。 クラス活性化マップを用いてこれらの研究を通して得られたモデルをチェックすると、異なるリスクグループを予測する際に、実際に管の形成と分裂速度を検討した。

Accurate prediction of the likelihood of recurrence is important in the selection of postoperative treatment for patients with early-stage breast cancer. In this study, we investigated whether deep learning algorithms can predict patients' risk of recurrence by analyzing the pathology images of their cancer histology. A total of 125 hematoxylin and eosin stained breast cancer whole slide images labeled with the risk prediction via genomics assays were used, and we obtained sensitivity of 0.857, 0.746, and 0.529 for predicting low, intermediate, and high risk, and specificity of 0.816, 0.803, and 0.972. When compared to the expert pathologist's regional histology grade information, a Pearson's correlation coefficient of 0.61 was obtained. When we checked the model learned through these studies through the class activation map, we found that it actually considered tubule formation and mitotic rate when predicting different risk groups.
翻訳日:2024-06-12 20:44:57 公開日:2024-06-10
# 積層BiLSTMを用いたCNNを用いたダッカ市の短期電力需要予測

Short-Term Electricity Demand Forecasting of Dhaka City Using CNN with Stacked BiLSTM ( http://arxiv.org/abs/2406.06651v1 )

ライセンス: Link先を確認
Kazi Fuad Bin Akhter, Sadia Mobasshira, Saief Nowaz Haque, Mahjub Alam Khan Hesham, Tanvir Ahmed, (参考訳) 電力需要の正確な予測は負荷予測とも呼ばれ、電力系統の計画と管理に不可欠である。 電力ユニットの選択、将来の発電能力の計画、電力ネットワークの強化、電力消費の制御など、多くのタスクに欠かせない。 バングラデシュは発展途上国であるため、電力インフラはこの国の経済成長と雇用に欠かせない。 電力需要の正確な予測は、人口増加と経済の需要を満たすため、この国が確実かつ持続可能な電力供給を確実にする上で不可欠である。 このようなエネルギー系の複雑な非線形挙動は、正確なアルゴリズムの作成を阻害する。 本稿では,ダッカ市の電力需要を短時間で正確に予測するために,畳み込みニューラルネットワーク(CNN)と積み重ねた双方向長短項メモリ(BiLSTM)アーキテクチャのハイブリッドモデルを提案する。 短期予測は通常、次の数時間から数週間の負荷を予測するために行われる。 また,これらのモデルが入力範囲に対して感度が高いため,正規化手法も検討されている。 提案手法は,MAPE 1.64%,MSE 0.015,RMSE 0.122,MAE 0.092に対して,他のベンチマークモデル (LSTM, CNN-BiLSTM, CNN-LSTM) と比較して最高の予測結果を得た。 提案したモデルの結果は、負荷予測に関する既存の作業よりも優れていた。

The precise forecasting of electricity demand also referred to as load forecasting, is essential for both planning and managing a power system. It is crucial for many tasks, including choosing which power units to commit to, making plans for future power generation capacity, enhancing the power network, and controlling electricity consumption. As Bangladesh is a developing country, the electricity infrastructure is critical for economic growth and employment in this country. Accurate forecasting of electricity demand is crucial for ensuring that this country has a reliable and sustainable electricity supply to meet the needs of its growing population and economy. The complex and nonlinear behavior of such energy systems inhibits the creation of precise algorithms. Within this context, this paper aims to propose a hybrid model of Convolutional Neural Network (CNN) and stacked Bidirectional Long-short Term Memory (BiLSTM) architecture to perform an accurate short-term forecast of the electricity demand of Dhaka city. Short-term forecasting is ordinarily done to anticipate load for the following few hours to a few weeks. Normalization techniques have been also investigated because of the sensitivity of these models towards the input range. The proposed approach produced the best prediction results in comparison to the other benchmark models (LSTM, CNN- BiLSTM and CNN-LSTM) used in the study, with MAPE 1.64%, MSE 0.015, RMSE 0.122 and MAE 0.092. The result of the proposed model also outperformed some of the existing works on load-forecasting.
翻訳日:2024-06-12 20:44:57 公開日:2024-06-10
# モデルアーキテクチャのレンズによるニューラルビークルルーティング問題解法の一般化

Improving Generalization of Neural Vehicle Routing Problem Solvers Through the Lens of Model Architecture ( http://arxiv.org/abs/2406.06652v1 )

ライセンス: Link先を確認
Yubin Xiao, Di Wang, Xuan Wu, Yuesong Wu, Boyang Li, Wei Du, Liupu Wang, You Zhou, (参考訳) ニューラルモデルは、車両ルーティング問題(VRP)を解決する際に有望な結果をもたらすが、一般化においてしばしば不足する。 モデル一般化の最近の試みは、必要以上に大規模なトレーニングコストを発生させるか、あるいは異なるVRPのバリエーションを解決する他のモデルに直接適用できない場合が多い。 これらの課題に対処するため,本研究では,モデルアーキテクチャの新たな視点について考察する。 具体的には,Scaling Factor (ESF) とDistributment-Specific (DS) デコーダをそれぞれ提案し,サイズと分布の一般化を促進させる。 ESFは、様々な大きさのVRPを解く際に、トレーニング中に発見された慣れ親しんだものに対して、モデルの注意重みパターンを調整する。 DSデコーダは、複数の補助光デコーダを通して複数のトレーニング分布パターンのVRPを明示的にモデル化し、より広範な分散シナリオを含むモデル表現空間を拡張する。 我々は,合成および広く認識されている実世界のベンチマークデータセットについて広範な実験を行い,その性能を7つのベースラインモデルと比較した。 その結果、ESFとDSデコーダを用いてより一般化可能なモデルを得ることができ、様々なVRP、すなわち旅行セールスマン問題と静電容量化VRPを解くための適用性を示すことができた。 特に,提案する汎用コンポーネントは最小限の計算資源を必要とするため,モデル一般化をさらに高めるため,従来の一般化戦略に精力的に組み込むことができる。

Neural models produce promising results when solving Vehicle Routing Problems (VRPs), but often fall short in generalization. Recent attempts to enhance model generalization often incur unnecessarily large training cost or cannot be directly applied to other models solving different VRP variants. To address these issues, we take a novel perspective on model architecture in this study. Specifically, we propose a plug-and-play Entropy-based Scaling Factor (ESF) and a Distribution-Specific (DS) decoder to enhance the size and distribution generalization, respectively. ESF adjusts the attention weight pattern of the model towards familiar ones discovered during training when solving VRPs of varying sizes. The DS decoder explicitly models VRPs of multiple training distribution patterns through multiple auxiliary light decoders, expanding the model representation space to encompass a broader range of distributional scenarios. We conduct extensive experiments on both synthetic and widely recognized real-world benchmarking datasets and compare the performance with seven baseline models. The results demonstrate the effectiveness of using ESF and DS decoder to obtain a more generalizable model and showcase their applicability to solve different VRP variants, i.e., travelling salesman problem and capacitated VRP. Notably, our proposed generic components require minimal computational resources, and can be effortlessly integrated into conventional generalization strategies to further elevate model generalization.
翻訳日:2024-06-12 20:44:57 公開日:2024-06-10
# DKDL-Net:Decoupled Knowledge Distillation and Low-Rank Adaptation Fine-tuningによる軽量軸受故障検出モデル

DKDL-Net: A Lightweight Bearing Fault Detection Model via Decoupled Knowledge Distillation and Low-Rank Adaptation Fine-tuning ( http://arxiv.org/abs/2406.06653v1 )

ライセンス: Link先を確認
Ovanes Petrosyan, Li Pengyi, He Yulong, Liu Jiarui, Sun Zhaoruikun, Fu Guofeng, Meng Liping, (参考訳) 転がり軸受の故障検出は, 断層診断技術の分野で急速に発展し, この分野では非常に重要な位置を占めている。 深層学習に基づく断層診断モデルは大きな成功を収めた。 同時に、フーリエ変換、ウェーブレット変換、実証モード分解といった新しい信号処理技術の継続的な改良により、転がり軸受の故障診断技術も大きく発展し、新たな研究段階に入ったと言える。 しかし、既存の手法のほとんどは工業分野の様々な程度に限られている。 主なものは、高速な特徴抽出と計算の複雑さである。 本稿では,これらの課題を解決するための軽量軸受断層診断モデルDKDL-Netを提案する。 このモデルは、知識蒸留と低階適応微調整を分離することにより、CWRUデータセットに基づいて訓練される。 具体的には,69,626個のトレーニング可能なパラメータを持つ6層ニューラルネットワークを用いて教師モデルを構築し,このモデルに基づいて,6838個のパラメータしか持たない学生サグモデルDKDL-Netを訓練した。 実験の結果、DKDL-Netは、モデル性能を維持しながら、テストセット上での計算複雑性の99.48\%の精度を実現しており、これは最先端(SOTA)モデルよりも0.58\%高い。 私たちのコードはGithubの https://github.com/SPBU-LiPengyi/DKDL-Net.git.com リンクで公開されています。

Rolling bearing fault detection has developed rapidly in the field of fault diagnosis technology, and it occupies a very important position in this field. Deep learning-based bearing fault diagnosis models have achieved significant success. At the same time, with the continuous improvement of new signal processing technologies such as Fourier transform, wavelet transform and empirical mode decomposition, the fault diagnosis technology of rolling bearings has also been greatly developed, and it can be said that it has entered a new research stage. However, most of the existing methods are limited to varying degrees in the industrial field. The main ones are fast feature extraction and computational complexity. The key to this paper is to propose a lightweight bearing fault diagnosis model DKDL-Net to solve these challenges. The model is trained on the CWRU data set by decoupling knowledge distillation and low rank adaptive fine tuning. Specifically, we built and trained a teacher model based on a 6-layer neural network with 69,626 trainable parameters, and on this basis, using decoupling knowledge distillation (DKD) and Low-Rank adaptive (LoRA) fine-tuning, we trained the student sag model DKDL-Net, which has only 6838 parameters. Experiments show that DKDL-Net achieves 99.48\% accuracy in computational complexity on the test set while maintaining model performance, which is 0.58\% higher than the state-of-the-art (SOTA) model, and our model has lower parameters. Our code is available at Github link: https://github.com/SPBU-LiPengyi/DKDL-Net.git.
翻訳日:2024-06-12 20:44:57 公開日:2024-06-10
# 部分的検証エビデンスによる治療レコメンダの訓練と検証

Training and Validating a Treatment Recommender with Partial Verification Evidence ( http://arxiv.org/abs/2406.06654v1 )

ライセンス: Link先を確認
Vishnu Unnikrishnan, Clara Puga, Miro Schleicher, Uli Niemann, Berthod Langguth, Stefan Schoisswohl, Birgit Mazurek, Rilana Cima, Jose Antonio Lopez-Escamez, Dimitris Kikidis, Eleftheria Vellidou, Ruediger Pryss, Winfried Schlee, Myra Spiliopoulou, (参考訳) 現在の臨床意思決定支援システム(DSS)は,対象クリニックの観察データに基づいて訓練され,検証されている。 これは、ランダム化臨床試験(RCT)で検証された治療には問題があるが、どのクリニックにもまだ導入されていない。 本稿では,RDTデータを用いたDSSの訓練・検証手法について報告する。 患者に対する治療の効果は、実際に患者に割り当てられたものに対してのみ検証できる(地上の真実)ためである。 当科では, 240例以上のチニタス患者に対して, 単剤と組み合わせ療法の有効性について検討した。 本研究では, ランダムに指定した治療の効果を抑えるため, 対象変数(アウトカム)をモデル化し, 一般に治療の効果を制御する。 また,本手法は特徴値の欠落に対して頑健であり,RCTアーム1本あたりの患者数は少ない。 我々は,DSS勧告の有効性と,一致しない v/s が一致していない場合の RCT 課題の有効性を比較検討した。 我々は,本手法が学習と検証にRTTデータを活用することを実証し,DSSが結果を改善する治療を提案することを示した。 この効果を緩和するためのアンサンブルが設計されているのに対し、本手法の予測性能は、データの小型化によって影響を受ける。 RCTで検査されたが,まだ臨床に導入されていない治療に対する意思決定支援ルーチンの確立の基盤を提供する。

Current clinical decision support systems (DSS) are trained and validated on observational data from the target clinic. This is problematic for treatments validated in a randomized clinical trial (RCT), but not yet introduced in any clinic. In this work, we report on a method for training and validating the DSS using the RCT data. The key challenges we address are of missingness -- missing rationale for treatment assignment (the assignment is at random), and missing verification evidence, since the effectiveness of a treatment for a patient can only be verified (ground truth) for treatments what were actually assigned to a patient. We use data from a multi-armed RCT that investigated the effectiveness of single- and combination- treatments for 240+ tinnitus patients recruited and treated in 5 clinical centers. To deal with the 'missing rationale' challenge, we re-model the target variable (outcome) in order to suppress the effect of the randomly-assigned treatment, and control on the effect of treatment in general. Our methods are also robust to missing values in features and with a small number of patients per RCT arm. We deal with 'missing verification evidence' by using counterfactual treatment verification, which compares the effectiveness of the DSS recommendations to the effectiveness of the RCT assignments when they are aligned v/s not aligned. We demonstrate that our approach leverages the RCT data for learning and verification, by showing that the DSS suggests treatments that improve the outcome. The results are limited through the small number of patients per treatment; while our ensemble is designed to mitigate this effect, the predictive performance of the methods is affected by the smallness of the data. We provide a basis for the establishment of decision supporting routines on treatments that have been tested in RCTs but have not yet been deployed clinically.
翻訳日:2024-06-12 20:44:57 公開日:2024-06-10
# Fed-Sophia: コミュニケーション効率の良い2次フェデレーション学習アルゴリズム

Fed-Sophia: A Communication-Efficient Second-Order Federated Learning Algorithm ( http://arxiv.org/abs/2406.06655v1 )

ライセンス: Link先を確認
Ahmed Elbakary, Chaouki Ben Issaid, Mohammad Shehab, Karim Seddik, Tamer ElBatt, Mehdi Bennis, (参考訳) フェデレーション学習(Federated Learning)は、複数のデバイスが、ローカル更新のみを共有することで、パラメータサーバの助けを借りて協調的に学習する、機械学習アプローチである。 この領域では勾配に基づく最適化手法が広く採用されているが、二階法が示す曲率情報は収束のガイドと高速化に不可欠である。 本稿では,フェデレートされた大規模モデルにおける曲率情報の導入を可能にする,スケーラブルな2次法を提案する。 提案手法はFed-Sophiaと呼ばれ,勾配の重み付き移動平均とクリッピング演算を組み合わせ,降下方向を求める。 それに加えて、曲率情報を組み込むためにヘッセン対角線の軽量な推定が用いられる。 数値評価は, 提案したFed-Sophiaスキームの1次および2次ベースラインと比較して, 優位性, 堅牢性, 拡張性を示す。

Federated learning is a machine learning approach where multiple devices collaboratively learn with the help of a parameter server by sharing only their local updates. While gradient-based optimization techniques are widely adopted in this domain, the curvature information that second-order methods exhibit is crucial to guide and speed up the convergence. This paper introduces a scalable second-order method, allowing the adoption of curvature information in federated large models. Our method, coined Fed-Sophia, combines a weighted moving average of the gradient with a clipping operation to find the descent direction. In addition to that, a lightweight estimation of the Hessian's diagonal is used to incorporate the curvature information. Numerical evaluation shows the superiority, robustness, and scalability of the proposed Fed-Sophia scheme compared to first and second-order baselines.
翻訳日:2024-06-12 20:44:57 公開日:2024-06-10
# 複雑な政策文書の効率的な分析のためのAIのハーネス化 : 執行命令14110を事例として

Harnessing AI for efficient analysis of complex policy documents: a case study of Executive Order 14110 ( http://arxiv.org/abs/2406.06657v1 )

ライセンス: Link先を確認
Mark A. Kramer, Allen Leavens, Alexander Scarlat, (参考訳) 法律、規制、執行命令などの政策文書は、社会の形成に不可欠である。 しかし、その長さと複雑さは解釈と応用を困難にし、時間がかかる。 人工知能(AI)、特に大きな言語モデル(LLM)は、これらの文書を分析するプロセスを自動化する可能性があり、精度と効率を向上させる。 本研究の目的は、政策分析の合理化におけるAIの可能性を評価し、現在のAIアプローチの強みと限界を特定することである。 本研究は、ポリシー文書からのコンテンツ抽出に関わる質問応答とタスクに焦点を当てている。 テストケースとして, 「安全, 安全, 信頼に足る人工知能の発達と利用」に関する執行命令14110を用いてケーススタディを行った。 4つの商用AIシステムが、文書を分析し、代表的ポリシーの質問に答えるために使用された。 AIシステムの性能は、人間の専門家による手動分析と比較された。 この研究は、2つのAIシステム、Gemini 1.5 ProとClaude 3 Opusが、複雑なドキュメントから正確で信頼性の高い情報を抽出し、ポリシー分析をサポートする重要な可能性を示した。 彼らは人間アナリストと相容れないパフォーマンスをしたが、高い効率で実行した。 しかし、再現性を達成することは依然として課題であり、さらなる研究と開発が必要である。

Policy documents, such as legislation, regulations, and executive orders, are crucial in shaping society. However, their length and complexity make interpretation and application challenging and time-consuming. Artificial intelligence (AI), particularly large language models (LLMs), has the potential to automate the process of analyzing these documents, improving accuracy and efficiency. This study aims to evaluate the potential of AI in streamlining policy analysis and to identify the strengths and limitations of current AI approaches. The research focuses on question answering and tasks involving content extraction from policy documents. A case study was conducted using Executive Order 14110 on "Safe, Secure, and Trustworthy Development and Use of Artificial Intelligence" as a test case. Four commercial AI systems were used to analyze the document and answer a set of representative policy questions. The performance of the AI systems was compared to manual analysis conducted by human experts. The study found that two AI systems, Gemini 1.5 Pro and Claude 3 Opus, demonstrated significant potential for supporting policy analysis, providing accurate and reliable information extraction from complex documents. They performed comparably to human analysts but with significantly higher efficiency. However, achieving reproducibility remains a challenge, necessitating further research and development.
翻訳日:2024-06-12 20:44:57 公開日:2024-06-10
# バイパートイトネットワークにおけるリンク予測

Link Prediction in Bipartite Networks ( http://arxiv.org/abs/2406.06658v1 )

ライセンス: Link先を確認
Şükrü Demir İnan Özer, Günce Keziban Orman, Vincent Labatut, (参考訳) Bipartite Networkは、オンラインデートプラットフォーム、求人検索サービス、eコマースウェブサイトなど、2つの異なるタイプのエンティティ間のインタラクションを含むシステムを表現するのに、非常に適したモデルとして機能する。 これらのモデルは、特にレコメンデーションシステムの設計において、最も有用なものの中でリンク予測を含む、多くのタスクに取り組むために利用することができる。 しかし、このタスクがユニパーティイト(すなわち標準)ネットワーク上で実行されるときに多くの関心を集めているなら、バイパーティライトネットワークには程遠い。 本研究では,両部グラフを扱える19種類のリンク予測手法を実験的に比較することにより,このギャップに対処する。 一部は文学から直接来ており、一部はもともと単部ネットワーク用に設計された技法から私たちによって適応されている。 また,グラフ畳み込みネットワーク (GCN) に基づくレコメンデーションシステムを,バイパーティイトネットワークのための新しいリンク予測ソリューションとして提案する。 実験を行うために,実世界の2部ネットワークデータセットを3つのトポロジでベンチマークする。 近年注目されているGCNベースのパーソナライズドレコメンデーションシステムは,バイパーティイトネットワークにおけるリンク予測に有効であることを示す。 さらに、構造摂動法(Structure Perturbation Method, SPM)のような学習プロセスに依存しない純粋にヒューリスティックなメトリクスも成功できる。

Bipartite networks serve as highly suitable models to represent systems involving interactions between two distinct types of entities, such as online dating platforms, job search services, or ecommerce websites. These models can be leveraged to tackle a number of tasks, including link prediction among the most useful ones, especially to design recommendation systems. However, if this task has garnered much interest when conducted on unipartite (i.e. standard) networks, it is far from being the case for bipartite ones. In this study, we address this gap by performing an experimental comparison of 19 link prediction methods able to handle bipartite graphs. Some come directly from the literature, and some are adapted by us from techniques originally designed for unipartite networks. We also propose to repurpose recommendation systems based on graph convolutional networks (GCN) as a novel link prediction solution for bipartite networks. To conduct our experiments, we constitute a benchmark of 3 real-world bipartite network datasets with various topologies. Our results indicate that GCN-based personalized recommendation systems, which have received significant attention in recent years, can produce successful results for link prediction in bipartite networks. Furthermore, purely heuristic metrics that do not rely on any learning process, like the Structural Perturbation Method (SPM), can also achieve success.
翻訳日:2024-06-12 20:35:12 公開日:2024-06-10
# 主題の排除と世界の顕在化

The elision of the subject and the manifestation of the world ( http://arxiv.org/abs/2406.06659v1 )

ライセンス: Link先を確認
Ulrich Mohrhoff, (参考訳) 量子オブジェクトの性質の文脈性のため、量子力学は思考と知覚対象の除去をカウントしていないように見える。 量子オブジェクトがそれらが観測される実験条件にそれらの性質を負うならば、実験装置はその性質を一般に構成される量子オブジェクトに負うことはできない。 量子オブジェクトも測定器も、意識的な対象から独立して存在する特性担体とはみなせない。 しかし、古典的領域と量子領域の違いが、本質的には表象された世界とその表象に欠かせないものの違いであると理解されれば、主題の除去は再び達成できる。

Owing to the contextuality of the properties of quantum objects, quantum mechanics does not appear to countenance the elision of the thinking and perceiving subject. If quantum objects owe their properties to the experimental conditions in which they are observed, the experimental apparatus cannot owe its properties to the quantum objects of which it is commonly said to be composed. It follows that neither quantum objects nor measuring instruments can be regarded as property-carriers existing independently of conscious subjects. However, if the difference between the classical domain and the quantum domain is understood as essentially the difference between the manifested world and what is instrumental in its manifestation, the elision of the subject can again be achieved.
翻訳日:2024-06-12 20:35:12 公開日:2024-06-10
# 等変ニューラル場を用いた時空間連続PDE予測

Space-Time Continuous PDE Forecasting using Equivariant Neural Fields ( http://arxiv.org/abs/2406.06660v1 )

ライセンス: Link先を確認
David M. Knigge, David R. Wessels, Riccardo Valperga, Samuele Papa, Jan-Jakob Sonke, Efstratios Gavves, Erik J. Bekkers, (参考訳) 近年、条件付きニューラルネットワーク(NeF)は、条件付きNeFの潜在空間におけるフローとして解を学習することによって、PDEの強力なモデリングパラダイムとして登場した。 グリッド非依存性や時空連続力学モデリングのようなNeFの好ましい性質から恩恵を受けるが、このアプローチは、モデリングの柔軟性のために、PDEの既知の制約をソリューション(例えば対称性や境界条件)に課す能力を制限する。 代わりに、PDE の既知対称性を尊重する時空連続 NeF-based solve framework を提案する。 利息グループに対するポイントクラウドのフローとしてのソリューションをモデル化することで、一般化とデータ効率が向上することを示す。 我々は,他のNeFベースのPDE予測手法が失敗する初期条件の幾何学的変換と同様に,我々のフレームワークが空間的および時空間的な位置に容易に一般化し,多くの挑戦的な測地におけるベースラインよりも改善できることを検証した。

Recently, Conditional Neural Fields (NeFs) have emerged as a powerful modelling paradigm for PDEs, by learning solutions as flows in the latent space of the Conditional NeF. Although benefiting from favourable properties of NeFs such as grid-agnosticity and space-time-continuous dynamics modelling, this approach limits the ability to impose known constraints of the PDE on the solutions -- e.g. symmetries or boundary conditions -- in favour of modelling flexibility. Instead, we propose a space-time continuous NeF-based solving framework that - by preserving geometric information in the latent space - respects known symmetries of the PDE. We show that modelling solutions as flows of pointclouds over the group of interest $G$ improves generalization and data-efficiency. We validated that our framework readily generalizes to unseen spatial and temporal locations, as well as geometric transformations of the initial conditions - where other NeF-based PDE forecasting methods fail - and improve over baselines in a number of challenging geometries.
翻訳日:2024-06-12 20:35:12 公開日:2024-06-10
# 近縁性の問題:AI研究コラボレーション形成における地理的近縁性の役割の分析

Proximity Matters: Analyzing the Role of Geographical Proximity in Shaping AI Research Collaborations ( http://arxiv.org/abs/2406.06662v1 )

ライセンス: Link先を確認
Mohammadmahdi Toobaee, Andrea Schiffauerova, Ashkan Ebadi, (参考訳) 近年,地域間・組織間協力の促進における地理的近接の役割が深く研究されている。 しかし、地理的近接が個々のレベルでの科学的コラボレーション形成に与える影響には、依然として対処が必要である。 本研究は,2001年から2019年までの人工知能分野における出版データを用いて,今後の研究者間の科学的コラボレーション形成の可能性に対する地理的近接の影響について検討した。 さらに、地理的近接性とネットワーク近接性との相互作用について検討し、長距離科学的コラボレーションを促進するために、ネットワーク近接性が地理的近接性を置き換えることができるかどうかを検討した。 従来の機械学習技術と機械学習技術を用いることで,近年の交通・通信技術の改善にもかかわらず,地理的距離が個々のレベルでの科学的コラボレーションを妨げることが示唆された。 さらに, ネットワーク近接が科学的コラボレーションの可能性に与える影響は, 地理的距離とともに増大し, ネットワーク近接が地理的近接の代替となる可能性が示唆された。

The role of geographical proximity in facilitating inter-regional or inter-organizational collaborations has been studied thoroughly in recent years. However, the effect of geographical proximity on forming scientific collaborations at the individual level still needs to be addressed. Using publication data in the field of artificial intelligence from 2001 to 2019, in this work, the effect of geographical proximity on the likelihood of forming future scientific collaborations among researchers is studied. In addition, the interaction between geographical and network proximities is examined to see whether network proximity can substitute geographical proximity in encouraging long-distance scientific collaborations. Employing conventional and machine learning techniques, our results suggest that geographical distance impedes scientific collaboration at the individual level despite the tremendous improvements in transportation and communication technologies during recent decades. Moreover, our findings show that the effect of network proximity on the likelihood of scientific collaboration increases with geographical distance, implying that network proximity can act as a substitute for geographical proximity.
翻訳日:2024-06-12 20:35:12 公開日:2024-06-10
# SecureNet: フィッシング検出のためのDeBERTaと大規模言語モデルの比較検討

SecureNet: A Comparative Study of DeBERTa and Large Language Models for Phishing Detection ( http://arxiv.org/abs/2406.06663v1 )

ライセンス: Link先を確認
Sakshi Mahendru, Tejul Pandit, (参考訳) フィッシングはメール、SMS、悪意のあるウェブサイトを通じてでも、ソーシャルエンジニアリングを使ってユーザーを騙して機密情報を公開することで、組織にとって大きな脅威となる。 これは会社のデータセキュリティを損なうだけでなく、大きな損失をもたらす。 本稿では,Large Language Models (LLMs) の顕著な性能をテキスト分類,特に悪意のあるコンテンツの検出などのタスクに活用できるかどうかを,ELECTRA-Style Pre-Training with Gradient-Disentangled Embedding Sharing(ELECTRA-Style Pre-Training with Gradient-Disentangled Embedding Sharing)モデルを用いて,最先端のDeberta V3(DeBERTa)モデルと比較する。 電子メール,HTML,URL,SMS,合成データ生成など,さまざまなデータソースからなる包括的公開データセットを用いて,両アプローチの可能性と限界を体系的に評価する。 さらに、LLMがいかにして説得力のあるフィッシングメールを生成できるかを実証し、詐欺を見つけにくくし、この文脈で両方のモデルの性能を評価する。 本研究は,DeBERTa V3の訓練段階における課題,微調整手法,伝達学習プロセスについて,さらに詳しく検討した。 同様に、LLMに関連する課題を調査し、それぞれの性能を評価する。 我々の実験的アプローチの中で、トランスフォーマーベースのDeBERTa法が最も効果的で、テストデータセット(HuggingFaceフィッシングデータセット)のリコール(感度)が95.17%、GPT-4のリコールが91.04%に達した。 トレーニングしたDeBERTa V3モデルと,GPT 4 や Gemini 1.5 などの LLM 上で,他のデータセットを用いた追加実験を行った。 我々は,これらの先進言語モデルの有効性と堅牢性に関する貴重な知見を提供し,フィッシングの脅威を検出し緩和するためのサイバーセキュリティ対策を強化するための今後の研究成果を詳細に比較分析する。

Phishing, whether through email, SMS, or malicious websites, poses a major threat to organizations by using social engineering to trick users into revealing sensitive information. It not only compromises company's data security but also incurs significant financial losses. In this paper, we investigate whether the remarkable performance of Large Language Models (LLMs) can be leveraged for particular task like text classification, particularly detecting malicious content and compare its results with state-of-the-art Deberta V3 (DeBERTa using ELECTRA-Style Pre-Training with Gradient-Disentangled Embedding Sharing) model. We systematically assess the potential and limitations of both approaches using comprehensive public datasets comprising diverse data sources such as email, HTML, URL, SMS, and synthetic data generation. Additionally, we demonstrate how LLMs can generate convincing phishing emails, making it harder to spot scams and evaluate the performance of both models in this context. Our study delves further into the challenges encountered by DeBERTa V3 during its training phases, fine-tuning methodology and transfer learning processes. Similarly, we examine the challenges associated with LLMs and assess their respective performance. Among our experimental approaches, the transformer-based DeBERTa method emerged as the most effective, achieving a test dataset (HuggingFace phishing dataset) recall (sensitivity) of 95.17% closely followed by GPT-4 providing a recall of 91.04%. We performed additional experiments with other datasets on the trained DeBERTa V3 model and LLMs like GPT 4 and Gemini 1.5. Based on our findings, we provide valuable insights into the effectiveness and robustness of these advanced language models, offering a detailed comparative analysis that can inform future research efforts in strengthening cybersecurity measures for detecting and mitigating phishing threats.
翻訳日:2024-06-12 20:35:12 公開日:2024-06-10
# ASTRA: サンプリングなしのアサーのための音声とテキスト表現のアライメント

ASTRA: Aligning Speech and Text Representations for Asr without Sampling ( http://arxiv.org/abs/2406.06664v1 )

ライセンス: Link先を確認
Neeraj Gaur, Rohan Agrawal, Gary Wang, Parisa Haghani, Andrew Rosenberg, Bhuvana Ramabhadran, (参考訳) 本稿では,テキスト注入による音声認識(ASR)の改良手法であるASTRAを紹介する。 代わりに、CTC/RNNTモデルで学んだ固有のアライメントを活用する。 このアプローチは、アップサンプリングから生じる可能性のある音声とテキストの特徴の潜在的な不一致を回避し、サブワードトークンの期間を正確に予測するモデルの必要性を排除し、以下の2つの利点を提供する。 重み付けされたRNNTの目的とするモダリティ(長さ)マッチングの新規な定式化は、FLEURSベンチマークにおける最先端の持続時間に基づく手法の性能と一致し、音声処理における他の研究の道を開く。

This paper introduces ASTRA, a novel method for improving Automatic Speech Recognition (ASR) through text injection.Unlike prevailing techniques, ASTRA eliminates the need for sampling to match sequence lengths between speech and text modalities. Instead, it leverages the inherent alignments learned within CTC/RNNT models. This approach offers the following two advantages, namely, avoiding potential misalignment between speech and text features that could arise from upsampling and eliminating the need for models to accurately predict duration of sub-word tokens. This novel formulation of modality (length) matching as a weighted RNNT objective matches the performance of the state-of-the-art duration-based methods on the FLEURS benchmark, while opening up other avenues of research in speech processing.
翻訳日:2024-06-12 20:35:12 公開日:2024-06-10
# 音声感情認識における個人レベルの公平性向上のためのエンロメントに基づくパーソナライゼーション

Enrolment-based personalisation for improving individual-level fairness in speech emotion recognition ( http://arxiv.org/abs/2406.06665v1 )

ライセンス: Link先を確認
Andreas Triantafyllopoulos, Björn Schuller, (参考訳) 感情の表現は個性が高い。 しかし、現代の音声感情認識(SER)システムは通常、感情を予測するのに 'one-size-all' アプローチを採用する集団レベルのモデルに依存している。 さらに、標準評価プラクティスは、人口レベルでのパフォーマンスも測定するので、異なる話者間でモデルがどのように機能するかを特徴づけることができない。 本稿では,各話者に対して最小限のエンロルメント発話を用いてSERモデルを適応させる手法を提案する。 さらに,異なる話者間での公平性を評価するための新しい評価手法を提案する。 本研究の結果から, 評価指標の集約化は, 個人レベルでの公平性を損なう可能性があり, 提案手法は, 集約化と非集約化の両方において, 性能を向上できる可能性が示唆された。

The expression of emotion is highly individualistic. However, contemporary speech emotion recognition (SER) systems typically rely on population-level models that adopt a `one-size-fits-all' approach for predicting emotion. Moreover, standard evaluation practices measure performance also on the population level, thus failing to characterise how models work across different speakers. In the present contribution, we present a new method for capitalising on individual differences to adapt an SER model to each new speaker using a minimal set of enrolment utterances. In addition, we present novel evaluation schemes for measuring fairness across different speakers. Our findings show that aggregated evaluation metrics may obfuscate fairness issues on the individual-level, which are uncovered by our evaluation, and that our proposed method can improve performance both in aggregated and disaggregated terms.
翻訳日:2024-06-12 20:35:12 公開日:2024-06-10
# 正準変数を用いた量子機械学習

Quantum Machine Learning With Canonical Variables ( http://arxiv.org/abs/2406.06666v1 )

ライセンス: Link先を確認
Jesús Fuentes, (参考訳) 荷電粒子上での動的電磁界制御の利用は、状態を直接ではなく観測可能上で動く量子機械学習プラットフォームの基礎となる。 このようなプラットフォームは、電磁場を制御源として利用するイオントラップや粒子閉じ込め装置で物理的に実現することができる。 電磁場は学習アルゴリズムのアンザッツとして機能する。 議論されたモデルは正確に解決可能であり、特定のケースとして回帰アルゴリズムや分類アルゴリズムを含む、学習タスクの前駆体として機能する正確な解である。 このアプローチは、半古典的な振る舞いを持つ正準変数の観点で考慮され、相対論的自由度を無視している。

Utilising dynamic electromagnetic field control over charged particles serves as the basis for a quantum machine learning platform that operates on observables rather than directly on states. Such a platform can be physically realised in ion traps or particle confinement devices that utilise electromagnetic fields as the source of control. The electromagnetic field acts as the ansatz within the learning algorithm. The models discussed are exactly solvable, with exact solutions serving as precursors for learning tasks to emerge, including regression and classification algorithms as particular cases. This approach is considered in terms of canonical variables with semi-classical behaviour, disregarding relativistic degrees of freedom.
翻訳日:2024-06-12 20:35:12 公開日:2024-06-10
# 予測集合に基づく意思決定支援システムにおける対実的ハームの制御

Controlling Counterfactual Harm in Decision Support Systems Based on Prediction Sets ( http://arxiv.org/abs/2406.06671v1 )

ライセンス: Link先を確認
Eleni Straitouri, Suhas Thejaswi, Manuel Gomez Rodriguez, (参考訳) 予測セットに基づく決定支援システムは、潜在的なラベル値のセットをそのサブセット、すなわち予測セットに絞り込み、予測セットから常にラベル値を予測することで、人間がマルチクラス分類タスクを解くのに役立つ。 この種のシステムは、人間による予測の平均精度を向上させるのに有効であることが証明されているが、人間のエージェントを制限することで、それらのシステムを使用した場合、インスタンスの基底構造ラベルの予測に成功した人間に有害な$\unicode{x2014}$aを引き起こす可能性がある。 本稿では,予測セットに基づく意思決定支援システムが,設計によってどの程度の頻度で害をもたらすかを制御することを目的とする。 この目的のために、構造因果モデルの理論的枠組みを用いて、上記の調和の概念を特徴づけることから始める。 そして,自然に検証不可能な単調性仮定の下で,人間による予測のみを用いて,システムがどの程度の頻度で害を引き起こすかを推定できることを示した。 さらに,実験により検証可能な,より弱い単調性仮定の下では,人間のみによる予測を用いて,システムが再び害を引き起こす頻度を制限できることも示している。 このような仮定に基づいて,予測セットに基づく意思決定支援システムを設計するための計算フレームワークを導入し,コンフォメーションリスク制御を用いたユーザ指定値よりも高い頻度で害をもたらすことを保証した。 我々は,2つの異なる被験者による実際の人的予測を用いて枠組みを検証し,予測セットに基づく意思決定支援システムにおいては,精度と対実的害との間にトレードオフが存在することを示す。

Decision support systems based on prediction sets help humans solve multiclass classification tasks by narrowing down the set of potential label values to a subset of them, namely a prediction set, and asking them to always predict label values from the prediction sets. While this type of systems have been proven to be effective at improving the average accuracy of the predictions made by humans, by restricting human agency, they may cause harm$\unicode{x2014}$a human who has succeeded at predicting the ground-truth label of an instance on their own may have failed had they used these systems. In this paper, our goal is to control how frequently a decision support system based on prediction sets may cause harm, by design. To this end, we start by characterizing the above notion of harm using the theoretical framework of structural causal models. Then, we show that, under a natural, albeit unverifiable, monotonicity assumption, we can estimate how frequently a system may cause harm using only predictions made by humans on their own. Further, we also show that, under a weaker monotonicity assumption, which can be verified experimentally, we can bound how frequently a system may cause harm again using only predictions made by humans on their own. Building upon these assumptions, we introduce a computational framework to design decision support systems based on prediction sets that are guaranteed to cause harm less frequently than a user-specified value using conformal risk control. We validate our framework using real human predictions from two different human subject studies and show that, in decision support systems based on prediction sets, there is a trade-off between accuracy and counterfactual harm.
翻訳日:2024-06-12 20:35:12 公開日:2024-06-10
# PatchRefiner: リアルタイム高分解能単分子深さ推定のための合成データを活用する

PatchRefiner: Leveraging Synthetic Data for Real-Domain High-Resolution Monocular Metric Depth Estimation ( http://arxiv.org/abs/2406.06679v1 )

ライセンス: Link先を確認
Zhenyu Li, Shariq Farooq Bhat, Peter Wonka, (参考訳) 本稿では,高分解能な実領域入力を目的とした1次元画像深度推定のための高度なフレームワークであるPatchRefinerを紹介する。 深度推定は, 自律運転, 3次元生成モデル, 3次元再構成などのアプリケーションにおいて重要であるが, 既存のアーキテクチャの制約や, 詳細な現実世界の深度データの不足により, 現実のシナリオにおいて正確な高精度の深度を達成することは困難である。 PatchRefinerはタイルベースの手法を採用し、高分解能深度推定を洗練プロセスとして再認識し、顕著な性能向上をもたらす。 PatchRefinerは、合成データを活用する擬似ラベル戦略を利用することで、Detail and Scale Disentangling(DSD)損失を取り入れ、スケール精度を維持しながら詳細なキャプチャを強化し、合成データから実世界のデータへの知識の効果的な伝達を容易にする。 我々の広範な評価は、PatchRefinerの優れた性能を示し、Unreal4KStereoデータセットの既存のベンチマークを18.1%上回り、CityScape、ScanNet++、ETH3Dといった様々な実世界のデータセットの精度と一貫したスケール推定の精度が著しく向上したことを示している。

This paper introduces PatchRefiner, an advanced framework for metric single image depth estimation aimed at high-resolution real-domain inputs. While depth estimation is crucial for applications such as autonomous driving, 3D generative modeling, and 3D reconstruction, achieving accurate high-resolution depth in real-world scenarios is challenging due to the constraints of existing architectures and the scarcity of detailed real-world depth data. PatchRefiner adopts a tile-based methodology, reconceptualizing high-resolution depth estimation as a refinement process, which results in notable performance enhancements. Utilizing a pseudo-labeling strategy that leverages synthetic data, PatchRefiner incorporates a Detail and Scale Disentangling (DSD) loss to enhance detail capture while maintaining scale accuracy, thus facilitating the effective transfer of knowledge from synthetic to real-world data. Our extensive evaluations demonstrate PatchRefiner's superior performance, significantly outperforming existing benchmarks on the Unreal4KStereo dataset by 18.1% in terms of the root mean squared error (RMSE) and showing marked improvements in detail accuracy and consistent scale estimation on diverse real-world datasets like CityScape, ScanNet++, and ETH3D.
翻訳日:2024-06-12 20:35:12 公開日:2024-06-10
# 代数的非エルミート皮膚効果と任意の次元における統一的非ブロッホバンド理論

Algebraic non-Hermitian skin effect and unified non-Bloch band theory in arbitrary dimensions ( http://arxiv.org/abs/2406.06682v1 )

ライセンス: Link先を確認
Kai Zhang, Chang Shu, Kai Sun, (参考訳) 非エルミート皮膚効果は指数関数的に局所化されたエッジモードの増大によって特徴づけられ、従来のバンド理論の限界に挑戦する多くの新しい物理現象をもたらした。 従来の指数的局所化とは対照的に,本写本では新しいタイプの非エルミート皮膚効果を報告しており,これは「代数的非エルミート皮膚効果」と呼ばれている。 「この効果は、二次元と高次元の両方において、非エルミート系の様々なスペクトルにわたって現れる。」 代数的非エルミタンスキン効果を持つ2次元系では、トーラスやシリンダーのような測地線上では、固有モードがバルクブロッホ波(トーラス上)または指数的に局所化されたエッジモード(シリンダー上)である従来の非エルミタンスキン効果に類似した挙動を示す。 しかし、同じ系を円盤上に配置したり、あらゆる方向の境界が開いている幾何形状にすると、スキンモードは直ちに代数形式に変換され、振幅は境界からの距離の力-法則関数として崩壊する。 これらの新しい効果を探索するために、一般化移動行列法を用いて開発された、任意の空間次元にわたる非エルミート皮膚効果のすべてのバリエーションに普遍的に適用可能な統合一般化ブリルアンゾーン(GBZ)フレームワークを定式化する。 一般に、$d$-次元非エルミート系において、GBZ多様体の次元性は$d$から$d-1$(${d \leq \dim\text{GBZ} \leq 2d-1}$)の範囲に収まらなければならない。 1Dでは、この不等式は上界と下界が収束するため自明であり、GBZの次元は物理空間の次元と一致するように強制される。 しかし、2D以上では、この不等式は、GBZの次元性が物理空間の次元性と一致するという義務がないことを示している。

The non-Hermitian skin effect, characterized by a proliferation of exponentially-localized edge modes, has led to numerous novel physical phenomena that challenge the limits of conventional band theory. In sharp contrast to the traditional exponential localization, this manuscript reports a new kind of non-Hermitian skin effect, which we term the ``algebraic non-Hermitian skin effect." This effect emerges across a diverse spectrum of non-Hermitian systems in both two- and higher space dimensions. For 2D systems with algebraic non-Hermitian skin effect, on geometries such as a torus or cylinder, these systems exhibit behavior reminiscent of the conventional non-Hermitian skin effect, where eigenmodes are either bulk Bloch waves (on a torus) or exponentially localized edge modes (on a cylinder). However, if the same system is placed on a disk or any geometrical shape featuring open boundaries in all directions, the skin modes immediately transform into the algebraic form, with amplitude decaying as a power-law function of the distance from the boundary. To explore these novel effects, we formulate a unified generalized Brillouin zone (GBZ) framework that is universally applicable to all variations of non-Hermitian skin effects across any spatial dimension, developed through the usage of a generalized transfer-matrix approach. We find that in a $d$-dimensional non-Hermitian system, in general, the GBZ manifold's dimensionality must fall into the range from $d$ to $2d-1$, denoted by ${d \leq \dim\text{GBZ} \leq 2d-1}$. In 1D, this inequality is trivial because the upper and lower bounds converge, forcing the GBZ's dimensionality to match with that of the physical space. However, in 2D and above, this inequality indicates that there is no obligation for the GBZ's dimensionality to concur with the physical space's dimensionality, which gives rise to a new class of non-Hermitian skin effects.
翻訳日:2024-06-12 20:35:12 公開日:2024-06-10
# argument Miningのための文脈学習と微調整GPT

In-Context Learning and Fine-Tuning GPT for Argument Mining ( http://arxiv.org/abs/2406.06699v1 )

ライセンス: Link先を確認
Jérémie Cabessa, Hugo Hernault, Umer Mushtaq, (参考訳) 大規模言語モデル(LLM)は、NLPやディープラーニングにおいて広く普及している。 In-Context Learning (ICL) は、トレーニングフリーと微調整 LLM 設定の間のブリッジングパラダイムとして提案されている。 ICLでは、LLMはプロンプトを含むいくつかの解決された実演例を用いてタスクを解くよう条件付けられている。 Argument Mining (AM) はテキストの複雑な議論構造を抽出することを目的としており、Argument Type Classification (ATC) はAMの重要なサブタスクである。 我々は、kNNに基づくサンプル選択と多数決のアンサンブルを組み合わせたATCのためのICL戦略を導入する。 In the training-free ICL set, we show that GPT-4 can able to leverage relevant information from only few demonstration example and achieve very competitive classification accuracy on ATC。 我々はさらに、テキスト形式で直接与えられる構造的特徴をうまく組み込んだ微調整戦略を構築した。 この設定では、GPT-3.5はATCの最先端性能を達成する。 これらの結果から,LLMが生テキスト中の大域的分散フローをオフザシェルフと微調整の両方で把握できることが示唆された。

Large Language Models (LLMs) have become ubiquitous in NLP and deep learning. In-Context Learning (ICL) has been suggested as a bridging paradigm between the training-free and fine-tuning LLMs settings. In ICL, an LLM is conditioned to solve tasks by means of a few solved demonstration examples included as prompt. Argument Mining (AM) aims to extract the complex argumentative structure of a text, and Argument Type Classification (ATC) is an essential sub-task of AM. We introduce an ICL strategy for ATC combining kNN-based examples selection and majority vote ensembling. In the training-free ICL setting, we show that GPT-4 is able to leverage relevant information from only a few demonstration examples and achieve very competitive classification accuracy on ATC. We further set up a fine-tuning strategy incorporating well-crafted structural features given directly in textual form. In this setting, GPT-3.5 achieves state-of-the-art performance on ATC. Overall, these results emphasize the emergent ability of LLMs to grasp global discursive flow in raw text in both off-the-shelf and fine-tuned setups.
翻訳日:2024-06-12 20:35:12 公開日:2024-06-10
# Forget Sharpness:SAM Dynamics内のモデルバイアスの摂動予測

Forget Sharpness: Perturbed Forgetting of Model Biases Within SAM Dynamics ( http://arxiv.org/abs/2406.06700v1 )

ライセンス: Link先を確認
Ankit Vani, Frederick Tung, Gabriel L. Oliveira, Hossein Sharifi-Noghabi, (参考訳) 高経験的一般化を達成したにもかかわらず、シャープネス認識最小化(SAM)で訓練されたモデルのシャープネスは、必ずしも一般化誤差と相関しない。 そこで本研究では,SAMの学習力学に基づく新たな視点を考察する。 本研究では,SAMにおける摂動が摂動を忘れることを提案する。そこでは,望ましくないモデルバイアスを排除し,より一般化した学習信号を示す。 我々は,情報ボトルネックの原理を忘れることの概念に関連付けるとともに,より小さな摂動バッチのより優れた一般化のような観察を説明するために利用し,摂動を忘れることが平坦性よりもより強い相関を示すことを示す。 標準SAMは、最も急激な上昇方向で露出するモデルバイアスを対象とするが、モデル出力から露出するバイアスを対象とする新しい摂動を提案する。 出力バイアスは、ImageNet上の標準SAM、GSAM、ASAMよりも優れており、ロバスト性ベンチマーク、CIFAR-{10,100}への転送は、時にはよりシャープな領域に収束する。 本結果は,損失面の平坦性を必要としない代替力学原理によってSAMの利点を説明できることを示唆している。

Despite attaining high empirical generalization, the sharpness of models trained with sharpness-aware minimization (SAM) do not always correlate with generalization error. Instead of viewing SAM as minimizing sharpness to improve generalization, our paper considers a new perspective based on SAM's training dynamics. We propose that perturbations in SAM perform perturbed forgetting, where they discard undesirable model biases to exhibit learning signals that generalize better. We relate our notion of forgetting to the information bottleneck principle, use it to explain observations like the better generalization of smaller perturbation batches, and show that perturbed forgetting can exhibit a stronger correlation with generalization than flatness. While standard SAM targets model biases exposed by the steepest ascent directions, we propose a new perturbation that targets biases exposed through the model's outputs. Our output bias forgetting perturbations outperform standard SAM, GSAM, and ASAM on ImageNet, robustness benchmarks, and transfer to CIFAR-{10,100}, while sometimes converging to sharper regions. Our results suggest that the benefits of SAM can be explained by alternative mechanistic principles that do not require flatness of the loss surface.
翻訳日:2024-06-12 20:35:12 公開日:2024-06-10
# ハイブリッドX3D-SlowFastネットワークを用いたビデオベース運動分類と活動筋群予測

Video-based Exercise Classification and Activated Muscle Group Prediction with Hybrid X3D-SlowFast Network ( http://arxiv.org/abs/2406.06703v1 )

ライセンス: Link先を確認
Manvik Pasula, Pramit Saha, (参考訳) 本稿では,運動分類と筋群活性化予測(MGAP)のための簡易かつ効果的な戦略を提案する。 これらのタスクは、より手頃で、アクセスしやすく、安全で、より簡単なエクササイズルーチンを促進するために、個人のフィットネスに重要な意味を持つ。 これは特に障害のある初心者や個人に関係している。 この分野におけるこれまでの研究は、主に搭載センサーへの依存と運動範囲の制限によって支配されており、日常的な使用の実用性が低下している。 さらに、既存のMGAP法は、センサーと制限された筋肉群への同様の依存に悩まされ、多くの場合、総合的なフィットネスレギュレーションにおいて重要な強度トレーニング演習を除外する。 これらの制限に対処するために、我々の研究は、力トレーニングに不可欠な運動や筋グループを含む幅広い範囲の運動を含む、ビデオベースのディープラーニングフレームワークを使用している。 ワークアウト/エクササイズビデオ」データセットを利用することで、エクササイズ分類とMGAP性能を向上させる効果的な方法として、X3DとSlowFastのビデオアクティビティ認識モデルを統合する。 その結果,重み付けアンサンブルにより得られたハイブリッド手法は,既存のベースラインモデルよりも精度が高いことがわかった。 事前学習したモデルは,SlowFastモデルに対して,10付近で同定された最適なチャネル縮小値を用いて,全体的な性能向上に重要な役割を果たす。 微調整を探求するアブレーション研究を通じて、この2つのタスク間の相互関係をさらに解明する。 X3DとSlowFastの重み付き平均アンサンブルである我々の複合モデルは、すべての評価カテゴリーでエクササイズ分類とMGAPの両方の新しいベンチマークを設定し、従来のアプローチの限界に対する堅牢な解決策を提供する。

This paper introduces a simple yet effective strategy for exercise classification and muscle group activation prediction (MGAP). These tasks have significant implications for personal fitness, facilitating more affordable, accessible, safer, and simpler exercise routines. This is particularly relevant for novices and individuals with disabilities. Previous research in the field is mostly dominated by the reliance on mounted sensors and a limited scope of exercises, reducing practicality for everyday use. Furthermore, existing MGAP methodologies suffer from a similar dependency on sensors and a restricted range of muscle groups, often excluding strength training exercises, which are pivotal for a comprehensive fitness regimen. Addressing these limitations, our research employs a video-based deep learning framework that encompasses a broad spectrum of exercises and muscle groups, including those vital for strength training. Utilizing the "Workout/Exercises Video" dataset, our approach integrates the X3D and SlowFast video activity recognition models in an effective way to enhance exercise classification and MGAP performance. Our findings demonstrate that this hybrid method obtained via weighted ensemble outperforms existing baseline models in accuracy. Pretrained models play a crucial role in enhancing overall performance, with optimal channel reduction values for the SlowFast model identified near 10. Through an ablation study that explores fine-tuning, we further elucidate the interrelation between the two tasks. Our composite model, a weighted-average ensemble of X3D and SlowFast, sets a new benchmark in both exercise classification and MGAP across all evaluated categories, offering a robust solution to the limitations of previous approaches.
翻訳日:2024-06-12 20:35:12 公開日:2024-06-10
# 弱い測定値を持つ準確率分布

Quasiprobability distributions with weak measurements ( http://arxiv.org/abs/2406.06713v1 )

ライセンス: Link先を確認
Gabriele Bizzarri, Stefano Gherardini, Mylenne Manrique, Fabio Bruni, Ilaria Gianani, Marco Barbieri, (参考訳) 量子コヒーレンス(quantum coherence, 量子コヒーレンス, 量子コヒーレンス, 量子コヒーレンス)は, 結果対の準確率統計を弱い測定値を用いて2つの異なる時間に連続的に記録することを示す。 そこで我々は,フォトニック量子ビットを用いた弱系列測定を実現し,第1の測定は正の演算子値で行い,第2の計測は射影演算であることを示す。 この手順に付随する準確率分布は、これらの記述とマーガナウ・ヒルのアプローチの両方に基づいて定式化することで決定する。 本研究では,初期量子コヒーレンスを完全に損なうことなく,タスクの実装や安定化を目的とした量子モニタリングへの応用を見出した。

We show how quantum coherence governs the quasiprobability statistics of outcome pairs, consecutively recorded at two distinct times, using weak measurements. In doing this, we have realised weak-sequential measurement with photonic qubits, where the first measurement is carried out by a positive operator-valued measure, whereas the second one is a projective operation. We determine the quasiprobability distributions associated to this procedure, based on both the commensurate and the Margenau-Hill approach, by establishing a link between these descriptions. Our results find application to quantum monitoring aimed at implementing or stabilising task without completely loosing the initial quantum coherence.
翻訳日:2024-06-12 20:35:12 公開日:2024-06-10
# コプロセッサアクター批判:適応的脳刺激のためのモデルに基づく強化学習アプローチ

Coprocessor Actor Critic: A Model-Based Reinforcement Learning Approach For Adaptive Brain Stimulation ( http://arxiv.org/abs/2406.06714v1 )

ライセンス: Link先を確認
Michelle Pan, Mariah Schrum, Vivek Myers, Erdem Bıyık, Anca Dragan, (参考訳) 適応的な脳刺激は、パーキンソン病やストローク後の運動障害などの神経疾患を、異常な神経活動に影響を与えることによって治療することができる。 患者の不均一性のため、各患者は最適な神経反応を達成するために独自の刺激ポリシーを必要とする。 モデルフリー強化学習(MFRL)は、様々な類似した制御タスクの効果的なポリシーを学ぶことを約束するが、多くのコストのかかる環境相互作用の必要性により、脳刺激のような領域で制限される。 本稿では,脳刺激のためのニューラルコプロセッサポリシーを学習するための,新しいモデルベース強化学習(MBRL)アプローチであるCoprocessor Actor Criticを紹介する。 私たちの重要な洞察は、コプロセッサのポリシー学習は、世界において最適な行動の仕方を学ぶことと、負傷した脳の刺激を通じて世界の最適な行動の仕方を学ぶことの組み合わせであるということです。 我々は,従来のMFRL手法の限界を,標本効率とタスク成功の観点から克服し,神経学的に現実的な損傷脳モデルにおいてベースラインMBRLアプローチより優れていることを示す。

Adaptive brain stimulation can treat neurological conditions such as Parkinson's disease and post-stroke motor deficits by influencing abnormal neural activity. Because of patient heterogeneity, each patient requires a unique stimulation policy to achieve optimal neural responses. Model-free reinforcement learning (MFRL) holds promise in learning effective policies for a variety of similar control tasks, but is limited in domains like brain stimulation by a need for numerous costly environment interactions. In this work we introduce Coprocessor Actor Critic, a novel, model-based reinforcement learning (MBRL) approach for learning neural coprocessor policies for brain stimulation. Our key insight is that coprocessor policy learning is a combination of learning how to act optimally in the world and learning how to induce optimal actions in the world through stimulation of an injured brain. We show that our approach overcomes the limitations of traditional MFRL methods in terms of sample efficiency and task success and outperforms baseline MBRL approaches in a neurologically realistic model of an injured brain.
翻訳日:2024-06-12 20:25:28 公開日:2024-06-10
# 量子エージェントの相対的記述子

Relative descriptors for quantum agents ( http://arxiv.org/abs/2406.06719v1 )

ライセンス: Link先を確認
David Möckli, Lorenzo Spies Perraro, (参考訳) 我々は、エベレット量子力学のハイゼンベルク図を用いて、フラウチャー=レンナーの思考実験の相対的な記述子を探索する。 エベレット力学は思考実験においてパラドックスを示さないが、デコヒーレンスのないセットアップは指示的分岐木を提供する。 伝統的に、Schr\"odinger 図から導かれる分岐構造は、葉が常に鋭く定義されることを示唆している。 しかし、ハイゼンベルクの図は、この木が本質的に非シャープな葉を持つ領域を含んでいることを示しており、エベレット力学において、量子エージェントはぼやけた記憶を持つという結論に至った。 この分析は、シュリンガー図から生じるいくつかの誤解を解決するのに役立つ。

We use the Heisenberg picture of Everettian quantum mechanics to work out the relative descriptors for the Frauchiger-Renner thought experiment. While Everettian mechanics reveals no paradox within the thought experiment, the decoherence-free setup offers an instructive branching tree. Traditionally, branching structures derived from the Schr\"odinger picture suggest that foliations are always sharply defined. However, the Heisenberg picture demonstrates that the tree contains regions with inherently non-sharp foliations, leading to the conclusion that, in Everettian mechanics, quantum agents possess a blurry memory. This analysis helps resolve several misconceptions stemming from the Schr\"odinger picture.
翻訳日:2024-06-12 20:25:28 公開日:2024-06-10
# トラップイオンによる光ツイーザの配向と最適化

Alignment and Optimisation of Optical Tweezers on Trapped Ions ( http://arxiv.org/abs/2406.06721v1 )

ライセンス: Link先を確認
M. Mazzanti, C. Robalo Pereira, N. A. Diepeveen, B. Gerritsen, Z. Wu, Z. E. D. Ackerman, L. P. H. Gallagher, A. Safavi-Naini, R. Gerritsma, R. X. Schüssler, (参考訳) 本稿では,光学式ツイーザを単一トラップイオン上に配向させ,このイオンをプローブとして利用してツイーザを特徴づけるルーチンを提案する。 我々は、2.3(2)\,\mu$m の最小のツイーザー腰を見つけるが、これは理論上の最小到達可能な腰の2.5(2)\,\mu$m と一致する。 本研究では, トウィーザーラビ周波数の空間依存性を, イオンの近傍で19(3) の係数で抑制する。 イオンに対する光力とコヒーレント集団トラップの効果について検討した。 最後に、これらの力によって引き起こされる課題を克服し、空間光変調器を用いることで、トウィーザの数を簡単にスケールアップし、複数のイオンに到達できることを示す。

This paper presents a routine to align an optical tweezer on a single trapped ion and use the ion as a probe to characterize the tweezer. We find a smallest tweezer waist of $2.3(2)\,\mu$m, which is in agreement with the theoretical minimal attainable waist of $2.5(2)\,\mu$m in our setup. We characterize the spatial dependence of the tweezer Rabi frequency which is suppressed by a factor of 19(3) in the immediate surrounding of the ion. We investigate the effects of optical forces and coherent population trapping on the ion. Finally, we show that the challenges posed by these forces can be overcome, and that the number of tweezers can be easily scaled up to reach several ions by using a spatial light modulator.
翻訳日:2024-06-12 20:25:28 公開日:2024-06-10
# 臨床自然言語処理における知識のない弱視のための大規模言語モデルの活用

Leveraging Large Language Models for Knowledge-free Weak Supervision in Clinical Natural Language Processing ( http://arxiv.org/abs/2406.06723v1 )

ライセンス: Link先を確認
Enshuo Hsu, Kirk Roberts, (参考訳) 深層学習に基づく自然言語処理システムの性能は、臨床領域において、容易に利用でき、手頃な価格で利用できない大量のラベル付きトレーニングデータに基づいている。 弱監督と文脈内学習は、特に大きな言語モデル(LLM)を用いて、この問題に対する部分的な解決策を提供するが、その性能は依然として、適度な量の金標準データを持つ従来の教師付き手法に追随している。 特に LLM での推論は計算量が多い。 本稿では,微調整 LLM と弱監督を両立させるアプローチを提案する。 プロンプトベースのアプローチを用いて、LLMは下流のBERTモデルをトレーニングするための弱いラベル付きデータを生成する。 弱教師付きモデルはさらに少量の金標準データに基づいて微調整される。 3つの異なるn2c2データセット上でLlama2を用いてこのアプローチを評価する。 金の標準紙幣が10枚しかなく、最終BERTモデルは微調整のLlama2-13Bによって弱く管理され、F1スコアの4.7%から47.9%の精度でPubMedBERTを上回った。 ゴールド・スタンダード・ノートは50枚しかなく、完全に微調整されたシステムに非常に近い性能を実現した。

The performance of deep learning-based natural language processing systems is based on large amounts of labeled training data which, in the clinical domain, are not easily available or affordable. Weak supervision and in-context learning offer partial solutions to this issue, particularly using large language models (LLMs), but their performance still trails traditional supervised methods with moderate amounts of gold-standard data. In particular, inferencing with LLMs is computationally heavy. We propose an approach leveraging fine-tuning LLMs and weak supervision with virtually no domain knowledge that still achieves consistently dominant performance. Using a prompt-based approach, the LLM is used to generate weakly-labeled data for training a downstream BERT model. The weakly supervised model is then further fine-tuned on small amounts of gold standard data. We evaluate this approach using Llama2 on three different n2c2 datasets. With no more than 10 gold standard notes, our final BERT models weakly supervised by fine-tuned Llama2-13B consistently outperformed out-of-the-box PubMedBERT by 4.7% to 47.9% in F1 scores. With only 50 gold standard notes, our models achieved close performance to fully fine-tuned systems.
翻訳日:2024-06-12 20:25:28 公開日:2024-06-10
# エンサンブルラーニングと説明可能なAIを用いた慢性腎臓病早期予後のためのAI駆動予測分析アプローチ

AI-Driven Predictive Analytics Approach for Early Prognosis of Chronic Kidney Disease Using Ensemble Learning and Explainable AI ( http://arxiv.org/abs/2406.06728v1 )

ライセンス: Link先を確認
K M Tawsik Jawad, Anusha Verma, Fathi Amsaad, (参考訳) 慢性腎臓病(英: chronic Kidney Disease, CKD)は、慢性疾患の1つである。 進行性慢性腎臓病(CKD)は、腎臓の構造と機能に大きな影響を及ぼし、最終的には腎不全を引き起こす異種性疾患である。 時間の経過とともに、慢性腎臓病は、少数の人に影響を及ぼす致命的な病気から、様々な重症度の共通の疾患へと移行してきた。 本研究の目的は、アンサンブル学習と説明可能なAIを用いて、早期予後とCKDの検出のための支配的特徴、特徴スコア、および値の可視化である。 そのため、AIによる予測分析手法が提案され、臨床医が個々の患者のライフスタイル修正を処方し、この疾患の進行率を低下させる。 我々のデータセットは、CKDおよび健康な被験者の身体のバイタルに基づいて収集され、提案したAI駆動ソリューションを正確に開発する。 この点に関して血液および尿検査結果を提供し、アンサンブルツリーに基づく機械学習モデルを適用し、CKDの未確認症例を予測する。 腎医との長期の相談の結果,本研究の妥当性が検証された。 我々の実験と解釈結果は、CKDを含む様々な医療分野の既存の説明可能なAIアプリケーションと比較される。 この比較は、私たちの開発したAIモデル、特にランダムフォレストモデルが、XgBoostよりも多くの機能を重要なコントリビュータとして特定したことを示している。 解析可能性 (I) は, 我々のXgBoostモデルが, この指標では98 %, FII 指数では競合モデルと比較して自然に高いスコアを得たことを示している。

Chronic Kidney Disease (CKD) is one of the widespread Chronic diseases with no known ultimo cure and high morbidity. Research demonstrates that progressive Chronic Kidney Disease (CKD) is a heterogeneous disorder that significantly impacts kidney structure and functions, eventually leading to kidney failure. With the progression of time, chronic kidney disease has moved from a life-threatening disease affecting few people to a common disorder of varying severity. The goal of this research is to visualize dominating features, feature scores, and values exhibited for early prognosis and detection of CKD using ensemble learning and explainable AI. For that, an AI-driven predictive analytics approach is proposed to aid clinical practitioners in prescribing lifestyle modifications for individual patients to reduce the rate of progression of this disease. Our dataset is collected on body vitals from individuals with CKD and healthy subjects to develop our proposed AI-driven solution accurately. In this regard, blood and urine test results are provided, and ensemble tree-based machine-learning models are applied to predict unseen cases of CKD. Our research findings are validated after lengthy consultations with nephrologists. Our experiments and interpretation results are compared with existing explainable AI applications in various healthcare domains, including CKD. The comparison shows that our developed AI models, particularly the Random Forest model, have identified more features as significant contributors than XgBoost. Interpretability (I), which measures the ratio of important to masked features, indicates that our XgBoost model achieved a higher score, specifically a Fidelity of 98\%, in this metric and naturally in the FII index compared to competing models.
翻訳日:2024-06-12 20:25:28 公開日:2024-06-10
# 仮想アシスタントのための大規模言語モデルを用いた合成クエリ生成

Synthetic Query Generation using Large Language Models for Virtual Assistants ( http://arxiv.org/abs/2406.06729v1 )

ライセンス: Link先を確認
Sonal Sannigrahi, Thiago Fraga-Silva, Youssef Oualil, Christophe Van Gysel, (参考訳) 仮想アシスタント(VA)は、ユーザーが音声コマンドで様々なタスクを遂行するのを助ける重要な情報検索プラットフォームである。 音声認識システム(speech-to-text)は、音声学的に紛らわしい代替語を区別するために、テキストのみに基づいて訓練されたクエリ先を使用する。 したがって、既存のVA使用法に類似した合成クエリの生成は、VAの能力を大幅に改善することができる。 本稿では,テンプレートベースの手法を補完する合成クエリを生成するために,Large Language Models (LLMs) の使用を予備検討する。 我々はその方法について検討する。 a) 人気のあるVAからランダムにサンプリングされた、代表された、匿名化されたユーザクエリに似たクエリを生成し、 (b) 生成されたクエリが特定のかどうか。 LLMはテンプレートベースのメソッドやエンティティ固有の参照アスペクトよりも冗長なクエリを生成する。 生成されたクエリはVAユーザクエリに似ており、関連するエンティティを取得するのに十分なものだ。 LLMとテンプレートによって生成されたクエリは相補的であると結論付けている。

Virtual Assistants (VAs) are important Information Retrieval platforms that help users accomplish various tasks through spoken commands. The speech recognition system (speech-to-text) uses query priors, trained solely on text, to distinguish between phonetically confusing alternatives. Hence, the generation of synthetic queries that are similar to existing VA usage can greatly improve upon the VA's abilities -- especially for use-cases that do not (yet) occur in paired audio/text data. In this paper, we provide a preliminary exploration of the use of Large Language Models (LLMs) to generate synthetic queries that are complementary to template-based methods. We investigate whether the methods (a) generate queries that are similar to randomly sampled, representative, and anonymized user queries from a popular VA, and (b) whether the generated queries are specific. We find that LLMs generate more verbose queries, compared to template-based methods, and reference aspects specific to the entity. The generated queries are similar to VA user queries, and are specific enough to retrieve the relevant entity. We conclude that queries generated by LLMs and templates are complementary.
翻訳日:2024-06-12 20:25:28 公開日:2024-06-10
# TRINS: 読めるマルチモーダル言語モデルを目指して

TRINS: Towards Multimodal Language Models that Can Read ( http://arxiv.org/abs/2406.06730v1 )

ライセンス: Link先を確認
Ruiyi Zhang, Yanzhe Zhang, Jian Chen, Yufan Zhou, Jiuxiang Gu, Changyou Chen, Tong Sun, (参考訳) 大規模なマルチモーダル言語モデルは、画像の理解と編集に優れた能力を示している。 しかし、これらの視覚的に調整されたモデルのほとんどは、主にトレーニングデータの制限のために、画像に埋め込まれたテキストの内容を理解するのに苦労している。 本稿では,テキストリッチ画像INStructionデータセットであるTRINSを紹介する。 TRINSは、マシンアシストおよびヒューマンアシストアノテーションプロセスを含むハイブリッドデータアノテーション戦略を使用して、LAION上に構築されている。 39,153の画像、キャプション、102,437の質問が含まれている。 具体的には、TRINSにおけるアノテーション1語あたりの単語数は、関連するデータセットの単語よりもかなり長いことを示し、新しい課題を提供する。 さらに,Language-vision Reading Assistant (LaRA) と呼ばれる,画像中のテキスト内容の理解に長けた,シンプルで効果的なアーキテクチャを導入する。 LaRAは、TRINSデータセット上の既存の最先端のマルチモーダルな大規模言語モデルや、他の古典的なベンチマークよりも優れています。 最後に, TRINSを用いて, テキストに富んだ画像理解・生成タスクの総合的な評価を行い, その効果を実証した。

Large multimodal language models have shown remarkable proficiency in understanding and editing images. However, a majority of these visually-tuned models struggle to comprehend the textual content embedded in images, primarily due to the limitation of training data. In this work, we introduce TRINS: a Text-Rich image INStruction dataset, with the objective of enhancing the reading ability of the multimodal large language model. TRINS is built upon LAION using hybrid data annotation strategies that include machine-assisted and human-assisted annotation processes. It contains 39,153 text-rich images, captions, and 102,437 questions. Specifically, we show that the number of words per annotation in TRINS is significantly longer than that of related datasets, providing new challenges. Furthermore, we introduce a simple and effective architecture, called a Language-vision Reading Assistant (LaRA), which is good at understanding textual content within images. LaRA outperforms existing state-of-the-art multimodal large language models on the TRINS dataset, as well as other classical benchmarks. Lastly, we conducted a comprehensive evaluation with TRINS on various text-rich image understanding and generation tasks, demonstrating its effectiveness.
翻訳日:2024-06-12 20:25:28 公開日:2024-06-10
# ソフトウェア実践者の議論におけるクラウドアーキテクチャの持続可能性のマイニング--データセットの構築

Mining for sustainability in cloud architecture among the discussions of software practitioners: building a dataset ( http://arxiv.org/abs/2406.06732v1 )

ライセンス: Link先を確認
Sahar Ahmadisakha, Vasilios Andrikopoulos, (参考訳) クラウドコンピューティングの採用は、ソフトウェアシステムの設計と実装において着実に増加しており、これらのプロセスの持続可能性の影響を考慮することが不可欠になっている。 この話題に関する学術的な研究はすでにいくつかあるが、実践者からは見当がつかない。 このギャップを埋めるために、ソフトウェアリポジトリマイニング技術を使用して、StackExchangeプラットフォームのソフトウェアエンジニアリングフォーラムの実践者間の192の議論を調査し、クラウドアーキテクチャに関する議論を含む注釈付きデータセットを構築し、クラウドアーキテクチャの持続可能性に関する現在の議論を理解することを目的としています。 これらの議論を識別するために,我々はまず,持続可能性をトピックとして示す用語のリストを作成した。 最初の知見は, 設計面(分析, 合成, 実装)に重点を置くと同時に, 評価や保守といった複雑な作業は避けていることを示す。 技術的持続性は強調され、経済的な側面は、それにのみ焦点を絞った議論が最多である。 これは、環境の持続可能性を強調した以前の学術文献とは対照的である。

The adoption of cloud computing is steadily increasing in designing and implementing software systems, thus it becomes imperative to consider the sustainability implications of these processes. While there has already been some academic research on this topic, there is a lack of perspective from practitioners. To bridge this gap, we utilize software repository mining techniques to examine 192 discussions among practitioners on the Software Engineering forum of the StackExchange platform, aiming to build an annotated dataset containing cloud architectural discussions and to understand the current discussion on sustainability in cloud architecture. To identify these discussions, we first put together a list of terms indicating sustainability as the topic. Our initial findings indicate practitioners mainly focus on design aspects (analysis, synthesis, and implementation) while avoiding complex activities like evaluation and maintenance. Technical sustainability is emphasized, while the economic dimension has the most discussions exclusively focused on it. This contrasts with previous academic literature, which highlighted environmental sustainability.
翻訳日:2024-06-12 20:25:28 公開日:2024-06-10
# 機械学習における長期フェアネス調査と課題--表記・方法・課題の調査から

Long-Term Fairness Inquiries and Pursuits in Machine Learning: A Survey of Notions, Methods, and Challenges ( http://arxiv.org/abs/2406.06736v1 )

ライセンス: Link先を確認
Usman Gohar, Zeyu Tang, Jialu Wang, Kun Zhang, Peter L. Spirtes, Yang Liu, Lu Cheng, (参考訳) 機械学習システムの日常生活、特にハイテイクドメインにおける広範な統合は、フェアネスの影響を懸念している。 先行研究は静的フェアネス対策を研究してきたが、最近の研究では、自動意思決定は長期的な意味を持ち、既成のフェアネスアプローチは長期的なフェアネスを達成する目的を果たさない可能性があることが示されている。 さらに、フィードバックループの存在とモデルと環境の間の相互作用は、初期公正性目標から逸脱する可能性のある追加の複雑さを導入します。 本稿では,様々な観点からの長期公正に関する文献をレビューし,長期公正研究のための分類について紹介する。 我々は、重要な課題を強調し、今後の研究の方向性を考察し、現在の課題とさらなる調査の可能性の両方を分析します。

The widespread integration of Machine Learning systems in daily life, particularly in high-stakes domains, has raised concerns about the fairness implications. While prior works have investigated static fairness measures, recent studies reveal that automated decision-making has long-term implications and that off-the-shelf fairness approaches may not serve the purpose of achieving long-term fairness. Additionally, the existence of feedback loops and the interaction between models and the environment introduces additional complexities that may deviate from the initial fairness goals. In this survey, we review existing literature on long-term fairness from different perspectives and present a taxonomy for long-term fairness studies. We highlight key challenges and consider future research directions, analyzing both current issues and potential further explorations.
翻訳日:2024-06-12 20:25:28 公開日:2024-06-10
# Raccoon: LLM統合アプリケーションのプロンプト抽出ベンチマーク

Raccoon: Prompt Extraction Benchmark of LLM-Integrated Applications ( http://arxiv.org/abs/2406.06737v1 )

ライセンス: Link先を確認
Junlin Wang, Tianyi Yang, Roy Xie, Bhuwan Dhingra, (参考訳) GPT-sのようなLCM統合アプリケーションの普及に伴い、数百万がデプロイされ、プロプライエタリな命令プロンプトを通じて貴重なサービスを提供する。 しかし、これらのシステムは厳密に設計されたクエリを通じて攻撃を抽出する傾向にある。 この問題を軽減するために,モデルが抽出攻撃を迅速化するための感受性を包括的に評価するRacoonベンチマークを導入する。 本手法は,既存の防御の有効性とモデルのレジリエンスを評価するための2つのアプローチを用いて,無防備シナリオと無防備シナリオの両方でモデルを評価する。 ベンチマークには14のカテゴリのプロンプト抽出攻撃が含まれており、様々な防御テンプレートのコレクションとともに、潜在的な攻撃者の戦略を忠実に模倣する複合攻撃が加えられている。 この配列は、我々の知る限り、これまでで最も広範な盗難攻撃と防御機構のコンパイルである。 本研究は,防衛の欠如を契機に,盗難を助長するための普遍的感受性を強調し,保護時に顕著なレジリエンスを示すOpenAIモデルを示した。 本稿では,LSMの迅速な抽出攻撃に対するロバスト性を評価するための,より体系的なベンチマークを確立することを目的としている。 Raccoonのリソースはhttps://github.com/M0gician/RaccoonBench.comで公開されている。

With the proliferation of LLM-integrated applications such as GPT-s, millions are deployed, offering valuable services through proprietary instruction prompts. These systems, however, are prone to prompt extraction attacks through meticulously designed queries. To help mitigate this problem, we introduce the Raccoon benchmark which comprehensively evaluates a model's susceptibility to prompt extraction attacks. Our novel evaluation method assesses models under both defenseless and defended scenarios, employing a dual approach to evaluate the effectiveness of existing defenses and the resilience of the models. The benchmark encompasses 14 categories of prompt extraction attacks, with additional compounded attacks that closely mimic the strategies of potential attackers, alongside a diverse collection of defense templates. This array is, to our knowledge, the most extensive compilation of prompt theft attacks and defense mechanisms to date. Our findings highlight universal susceptibility to prompt theft in the absence of defenses, with OpenAI models demonstrating notable resilience when protected. This paper aims to establish a more systematic benchmark for assessing LLM robustness against prompt extraction attacks, offering insights into their causes and potential countermeasures. Resources of Raccoon are publicly available at https://github.com/M0gician/RaccoonBench.
翻訳日:2024-06-12 20:25:28 公開日:2024-06-10
# 効率的な生成検索のための非自己回帰モデルの語彙のスケーリング

Scaling the Vocabulary of Non-autoregressive Models for Efficient Generative Retrieval ( http://arxiv.org/abs/2406.06739v1 )

ライセンス: Link先を確認
Ravisri Valluri, Akash Kumar Mohankumar, Kushal Dave, Amit Singh, Jian Jiao, Manik Varma, Gaurav Sinha, (参考訳) Generative Retrievalは、制約付き生成タスクとして、Autoregressive (AR)言語モデルの最近の進歩を活用することで、Information Retrievalに新しいアプローチを導入する。 しかし、ARベースのジェネレーティブ検索手法は、従来の高密度検索手法と比較して高い推論遅延とコストに悩まされており、実用性に制限がある。 本稿では、生成的検索のより効率的な代替手段として、完全非自己回帰(NAR)言語モデルについて検討する。 標準的なNARモデルはレイテンシとコストの懸念を軽減するが、ターゲットトークン間の依存関係をキャプチャできないため、検索パフォーマンス(ARモデルと比較)が大幅に低下する。 この問題に対処するために、ターゲットトークン空間を単に単語やサブワードに限定する従来の選択に疑問を呈する。 PIXARは,NARモデルのターゲット語彙を拡張して,複数単語のエンティティと共通フレーズ(最大500万トークン)を含む新しいアプローチを提案する。 PIXARは、非常に大きな語彙にもかかわらず、低推論レイテンシを維持するために推論最適化戦略を採用している。 PIXARはMS MARCOではMRR@10で31.0%,Hits@5では23.2%の相対的な改善を実現している。 さらに、大規模な商用検索エンジンでのオンラインA/B実験では、PIXARは広告クリックを5.08%増加し、収益は4.02%増加した。

Generative Retrieval introduces a new approach to Information Retrieval by reframing it as a constrained generation task, leveraging recent advancements in Autoregressive (AR) language models. However, AR-based Generative Retrieval methods suffer from high inference latency and cost compared to traditional dense retrieval techniques, limiting their practical applicability. This paper investigates fully Non-autoregressive (NAR) language models as a more efficient alternative for generative retrieval. While standard NAR models alleviate latency and cost concerns, they exhibit a significant drop in retrieval performance (compared to AR models) due to their inability to capture dependencies between target tokens. To address this, we question the conventional choice of limiting the target token space to solely words or sub-words. We propose PIXAR, a novel approach that expands the target vocabulary of NAR models to include multi-word entities and common phrases (up to 5 million tokens), thereby reducing token dependencies. PIXAR employs inference optimization strategies to maintain low inference latency despite the significantly larger vocabulary. Our results demonstrate that PIXAR achieves a relative improvement of 31.0% in MRR@10 on MS MARCO and 23.2% in Hits@5 on Natural Questions compared to standard NAR models with similar latency and cost. Furthermore, online A/B experiments on a large commercial search engine show that PIXAR increases ad clicks by 5.08% and revenue by 4.02%.
翻訳日:2024-06-12 20:25:28 公開日:2024-06-10
# ハイパースペクトルアンミックスのための楕円カーネル教師なしオートエンコーダ-グラフ畳み込みネットワークアンサンブルモデル

An Elliptic Kernel Unsupervised Autoencoder-Graph Convolutional Network Ensemble Model for Hyperspectral Unmixing ( http://arxiv.org/abs/2406.06742v1 )

ライセンス: Link先を確認
Estefania Alfaro-Mejia, Carlos J Delgado, Vidya Manian, (参考訳) スペクトルアンミキシング(Spectral Unmixing)は、ハイパースペクトル画像を分析し、エンドメンバーを特定し、アブリダンスマップを推定するために使用されるリモートセンシングにおいて重要な技術である。 過去数十年間、エンドメンバー抽出法と分数量マップ推定法の性能は大幅に向上した。 本稿では,エンサンブルモデルワークフローであるAutoencoder Graph Ensemble Model (AEGEM)について述べる。 楕円核を用いてスペクトル距離を測定し、楕円近傍の隣接行列を生成する。 この情報は楕円グラフの構築に使われ、センチロイドを送信機とし、静止画素を受信機として使用する。 次のステップでは、グラフ畳み込みネットワークへの入力として、アバンダンスマップ、送信機、受信機を積み重ねて、この入力を処理してアバンダンスマップを洗練させる。 最後に、アンサンブル決定プロセスは、ルート平均二乗誤差距離に基づいて最適なアマンダンスマップを決定する。 提案したAEGEMは、Samson、Jasper、Urbanなどのベンチマークデータセットを用いて評価され、ベースラインアルゴリズムによって得られた結果よりも優れている。 サムソンのデータセットでは、AEGEMは、それぞれ0.081、0.158、0.182の値を持つ水、木、土壌の3つの豊富なマップを抽出している。 ジャスパーデータセットでは,その順に0.035,0.060,およびスペクトル角距離測定値0.109の平均値で木と水が改良された。 アーバン・データセットでは、AEGEMは、屋根とアスファルトの豊富なマップの以前の結果より優れており、それぞれ0.135と0.240の値が得られた。 さらに、草と屋根のエンドメンバーに対しては、AEGEMは0.063と0.094の値を達成している。

Spectral Unmixing is an important technique in remote sensing used to analyze hyperspectral images to identify endmembers and estimate abundance maps. Over the past few decades, performance of techniques for endmember extraction and fractional abundance map estimation have significantly improved. This article presents an ensemble model workflow called Autoencoder Graph Ensemble Model (AEGEM) designed to extract endmembers and fractional abundance maps. An elliptical kernel is applied to measure spectral distances, generating the adjacency matrix within the elliptical neighborhood. This information is used to construct an elliptical graph, with centroids as senders and remaining pixels within the geometry as receivers. The next step involves stacking abundance maps, senders, and receivers as inputs to a Graph Convolutional Network, which processes this input to refine abundance maps. Finally, an ensemble decision-making process determines the best abundance maps based on root mean square error metric. The proposed AEGEM is assessed with benchmark datasets such as Samson, Jasper, and Urban, outperforming results obtained by baseline algorithms. For the Samson dataset, AEGEM excels in three abundance maps: water, tree and soil yielding values of 0.081, 0.158, and 0.182, respectively. For the Jasper dataset, results are improved for the tree and water endmembers with values of 0.035 and 0.060 in that order, as well as for the mean average of the spectral angle distance metric 0.109. For the Urban dataset, AEGEM outperforms previous results for the abundance maps of roof and asphalt, achieving values of 0.135 and 0.240, respectively. Additionally, for the endmembers of grass and roof, AEGEM achieves values of 0.063 and 0.094.
翻訳日:2024-06-12 20:25:28 公開日:2024-06-10
# 偽ラベル注入サイバー攻撃に対する過渡安定度評価のためのマルチモジュールロバスト法

A Multi-module Robust Method for Transient Stability Assessment against False Label Injection Cyberattacks ( http://arxiv.org/abs/2406.06744v1 )

ライセンス: Link先を確認
Hanxuan Wang, Na Lu, Yinhong Liu, Zhuqing Wang, Zixuan Wang, (参考訳) 過渡安定度評価(TSA)におけるディープラーニングの成功は、高品質なトレーニングデータに大きく依存している。 しかし、TSAデータセットのラベル情報は、偽ラベル注入(FLI)サイバー攻撃による汚染に弱いため、深いTSAモデルの性能が低下する。 この課題に対処するために、FLIが誤用した指導過程を教師なしで修正するMulti-Module Robust TSA法(MMR)を提案する。 MMRでは、教師付き分類モジュールと教師なしクラスタリングモジュールを代わりに訓練し、表現傾きのクラスタリング親しみを改善し、正確なクラスタリング割り当てを実現する。 クラスタリングの割り当てを活用することで、インジェクトされた偽ラベルを修正し、FLIに対する堅牢性とレジリエンスを徐々に強化するトレーニングラベルの修正を行う。 しかし,MMRモデルとFLIフリー深部TSAモデルの間には,精度と収束速度にはまだ差がある。 また,このギャップを狭めるために,MMR-HILというループ内トレーニング戦略を提案する。 MMR-HILでは、トレーニング損失をガウス分布でモデル化することで、潜在的な偽サンプルを検出することができる。 これらのサンプルから、最も可能性の高い偽のサンプルと最も曖昧なサンプルは、TSAの専門家が双方向アノテータをガイドし、精度と収束速度を改善するためにペナル化最適化を施された。 MMRとMMR-HILはいずれも,TSA性能においてFLIに対して強力な堅牢性を示した。 さらに, 汚染ラベルを効果的に補正し, 提案手法の優れたレジリエンスを実証する。

The success of deep learning in transient stability assessment (TSA) heavily relies on high-quality training data. However, the label information in TSA datasets is vulnerable to contamination through false label injection (FLI) cyberattacks, resulting in degraded performance of deep TSA models. To address this challenge, a Multi-Module Robust TSA method (MMR) is proposed to rectify the supervised training process misguided by FLI in an unsupervised manner. In MMR, a supervised classification module and an unsupervised clustering module are alternatively trained to improve the clustering friendliness of representation leaning, thereby achieving accurate clustering assignments. Leveraging the clustering assignments, we construct a training label corrector to rectify the injected false labels and progressively enhance robustness and resilience against FLI. However, there is still a gap on accuracy and convergence speed between MMR and FLI-free deep TSA models. To narrow this gap, we further propose a human-in-the-loop training strategy, named MMR-HIL. In MMR-HIL, potential false samples can be detected by modeling the training loss with a Gaussian distribution. From these samples, the most likely false samples and most ambiguous samples are re-labeled by a TSA experts guided bi-directional annotator and then subjected to penalized optimization, aimed at improving accuracy and convergence speed. Extensive experiments indicate that MMR and MMR-HIL both exhibit powerful robustness against FLI in TSA performance. Moreover, the contaminated labels can also be effectively corrected, demonstrating superior resilience of the proposed methods.
翻訳日:2024-06-12 20:25:28 公開日:2024-06-10
# インメモリコンピューティングのための多目的ニューラルアーキテクチャ探索

Multi-Objective Neural Architecture Search for In-Memory Computing ( http://arxiv.org/abs/2406.06746v1 )

ライセンス: Link先を確認
Md Hasibul Amin, Mohammadreza Mohammadi, Ramtin Zand, (参考訳) 本研究では、インメモリコンピューティング(IMC)アーキテクチャ上での機械学習(ML)タスクの展開効率を高めるために、ニューラルネットワークサーチ(NAS)を用いる。 当初、VGGとResNetモデルに見られる畳み込み層にインスパイアされた3つの基本的なコンポーネントを設計しました。 その後、ベイズ最適化を用いて、適応可能な深度を持つ畳み込みニューラルネットワーク(CNN)モデルを構築し、これらのコンポーネントを利用する。 ベイジアン探索アルゴリズムを用いて、6億4000万以上のネットワーク構成からなる広い探索空間を探索し、精度・レイテンシ・精度・エネルギーなどの多目的コスト関数を考慮して最適解を同定する。 IMCアーキテクチャ展開のためのNAS手法の評価は3つの異なる画像分類データセットにまたがっており、高い精度と遅延とエネルギー消費の低減を特徴とする平衡解を実現する上での本手法の有効性を実証している。

In this work, we employ neural architecture search (NAS) to enhance the efficiency of deploying diverse machine learning (ML) tasks on in-memory computing (IMC) architectures. Initially, we design three fundamental components inspired by the convolutional layers found in VGG and ResNet models. Subsequently, we utilize Bayesian optimization to construct a convolutional neural network (CNN) model with adaptable depths, employing these components. Through the Bayesian search algorithm, we explore a vast search space comprising over 640 million network configurations to identify the optimal solution, considering various multi-objective cost functions like accuracy/latency and accuracy/energy. Our evaluation of this NAS approach for IMC architecture deployment spans three distinct image classification datasets, demonstrating the effectiveness of our method in achieving a balanced solution characterized by high accuracy and reduced latency and energy consumption.
翻訳日:2024-06-12 20:25:28 公開日:2024-06-10
# 差分プライバシー制約を用いたフェデレーション非パラメトリック仮説テスト:最適速度と適応テスト

Federated Nonparametric Hypothesis Testing with Differential Privacy Constraints: Optimal Rates and Adaptive Tests ( http://arxiv.org/abs/2406.06749v1 )

ライセンス: Link先を確認
T. Tony Cai, Abhinav Chakraborty, Lasse Vuursteen, (参考訳) フェデレート学習は、さまざまな場所でデータが収集され分析される広範囲な設定で適用可能であることから、近年大きな注目を集めている。 本稿では,分散差分プライバシー(DP)制約下でのホワイトノイズ・アンド・ドリフトモデルにおける非パラメトリック適合性試験について検討する。 我々はまず,最小値分離率に基づいて,対数係数まで,下界と上界の整合性を確立する。 この最適速度は、テスト問題の難しさのベンチマークとして機能し、$(\epsilon,\delta)$-DP要件の厳密さとともに、観測数、ノイズレベル、信号クラスの正則性などのモデル特性を分解する。 その結果, 興味深い相転移現象と新しい相転移現象が示された。 さらに,この結果から,共有ランダム性にアクセス可能なワンショットプロトコルが,共有ランダム性にアクセスできないプロトコルよりも優れているという興味深い現象が明らかになった。 また,データ駆動型テスト手法を構築し,同じDP制約セットの遵守を維持しつつ,大量の関数クラスに対して,未知の正則性パラメータに最小限のコストで適応する機能を備えている。

Federated learning has attracted significant recent attention due to its applicability across a wide range of settings where data is collected and analyzed across disparate locations. In this paper, we study federated nonparametric goodness-of-fit testing in the white-noise-with-drift model under distributed differential privacy (DP) constraints. We first establish matching lower and upper bounds, up to a logarithmic factor, on the minimax separation rate. This optimal rate serves as a benchmark for the difficulty of the testing problem, factoring in model characteristics such as the number of observations, noise level, and regularity of the signal class, along with the strictness of the $(\epsilon,\delta)$-DP requirement. The results demonstrate interesting and novel phase transition phenomena. Furthermore, the results reveal an interesting phenomenon that distributed one-shot protocols with access to shared randomness outperform those without access to shared randomness. We also construct a data-driven testing procedure that possesses the ability to adapt to an unknown regularity parameter over a large collection of function classes with minimal additional cost, all while maintaining adherence to the same set of DP constraints.
翻訳日:2024-06-12 20:25:28 公開日:2024-06-10
# 高次ポアンカレ球と比スペクトルポアンカレビーム

Higher-order Poincaré Spheres and Spatio-Spectral Poincaré Beams ( http://arxiv.org/abs/2406.06750v1 )

ライセンス: Link先を確認
Robert Fickler, Lea Kopf, Marco Ornigotti, (参考訳) 基本的な光学効果の研究は、洗練された単純な実験環境で自由度(DOF)の光を構造化する能力の増大によって刺激されている。 しかし、このような実験能力の増大に伴い、基礎となる概念をより直感的に理解するために理論的記述を研究することも重要である。 ここでは、その横空間、周波数、偏光が高次ポアンカー球面の形で構成される光の視覚的表現を導入し、その基本空間との興味深いリンクについて議論する。 さらに、この接続を利用して、スポース-スペクトル形状にまたがる全ての可能な偏光状態を持つ光を議論し、実験的に生成する。 光のDOFを高次ポアンカー球の強力な記述で呼び出すことで、我々の研究は光学における強力なツールとしての構造化光のより深い理解と有益な応用の道を開くことができる。

The study of fundamental optics effects has been stimulated through the increasing ability to structure light in all its degrees of freedom (DOFs) in sophisticated but simple experimental settings. However, with such an increase in experimental capabilities, it has also become important to study theoretical descriptions for a more intuitive understanding of the underlying concepts. Here, we introduce a visual representation of light that is structured in its transverse space, frequency, and polarization in the form of a higher-order Poincar\'e sphere and discuss interesting links to its fundamental counterpart. We further leverage this connection to discuss and experimentally generate light possessing all possible polarization states across its spatio-spectral shape, which we term spatio-spectral Poincar\'e beams. By invoking all DOFs of light in the powerful description of higher-order Poincar\'e spheres, our work can pave the way for a deeper understanding and beneficial application of structured light as a powerful tool in optics.
翻訳日:2024-06-12 20:15:44 公開日:2024-06-10
# 複雑度を考慮したロバストリスク探索政策勾配による深部シンボリック回帰

Complexity-Aware Deep Symbolic Regression with Robust Risk-Seeking Policy Gradients ( http://arxiv.org/abs/2406.06751v1 )

ライセンス: Link先を確認
Zachary Bastiani, Robert M. Kirby, Jacob Hochhalter, Shandian Zhe, (参考訳) 本稿では,データ駆動型数式発見の堅牢性と解釈可能性を高めるための,新しい記号回帰手法を提案する。 DSRは最先端の手法であるDSRの成功にもかかわらず、リカレントニューラルネットワーク上に構築されており、純粋にデータ適合性によってガイドされている。 これらの制限を克服するために、我々は、学習性能を改善するために、幅優先探索と共にトランスフォーマーを使用します。 報酬関数としてベイズ情報量規準(BIC)を用いて,表現複雑性を明確に説明し,解釈可能性とデータ適合性のトレードオフを最適化する。 我々は、勾配の不均一性を保証するだけでなく、テールバリアを除去し、トップパフォーマーからの効果的な更新を確実にするリスク探索策を提案する。 一連のベンチマークと系統的な実験を通じて、我々はアプローチの利点を実証した。

This paper proposes a novel deep symbolic regression approach to enhance the robustness and interpretability of data-driven mathematical expression discovery. Despite the success of the state-of-the-art method, DSR, it is built on recurrent neural networks, purely guided by data fitness, and potentially meet tail barriers, which can zero out the policy gradient and cause inefficient model updates. To overcome these limitations, we use transformers in conjunction with breadth-first-search to improve the learning performance. We use Bayesian information criterion (BIC) as the reward function to explicitly account for the expression complexity and optimize the trade-off between interpretability and data fitness. We propose a modified risk-seeking policy that not only ensures the unbiasness of the gradient, but also removes the tail barriers, thus ensuring effective updates from top performers. Through a series of benchmarks and systematic experiments, we demonstrate the advantages of our approach.
翻訳日:2024-06-12 20:15:44 公開日:2024-06-10
# 不均一分散微分プライバシー制約を用いた非パラメトリック回帰のための最適フェデレーション学習

Optimal Federated Learning for Nonparametric Regression with Heterogeneous Distributed Differential Privacy Constraints ( http://arxiv.org/abs/2406.06755v1 )

ライセンス: Link先を確認
T. Tony Cai, Abhinav Chakraborty, Lasse Vuursteen, (参考訳) 本稿では,異なるサーバ間の分散サンプルのコンテキストにおける非パラメトリック回帰のためのフェデレーション学習について検討する。 私たちが考える設定は異種であり、異なるサンプルサイズとサーバ間の差分プライバシーの制約の両方を包含する。 この枠組み内では、大域的および点的推定の両方が考慮され、ベソフ空間上の収束の最適速度が確立される。 分散プライバシ保存推定器を提案し,そのリスク特性について検討した。 対数係数までの最小値下限のマッチングは、大域的および点的推定の両方のために確立される。 これらの発見は、統計精度とプライバシー保護のトレードオフを浮き彫りにした。 特に、プライバシ予算だけでなく、プライバシフレームワーク全体にデータを分散することで生じる損失についても、妥協を特徴付ける。 この洞察は、より大規模なサンプルでのプライバシー保持が容易であるという民間の知恵を捉え、分散プライバシ制約の下でのポイントワイドとグローバルな推定の違いを探求する。

This paper studies federated learning for nonparametric regression in the context of distributed samples across different servers, each adhering to distinct differential privacy constraints. The setting we consider is heterogeneous, encompassing both varying sample sizes and differential privacy constraints across servers. Within this framework, both global and pointwise estimation are considered, and optimal rates of convergence over the Besov spaces are established. Distributed privacy-preserving estimators are proposed and their risk properties are investigated. Matching minimax lower bounds, up to a logarithmic factor, are established for both global and pointwise estimation. Together, these findings shed light on the tradeoff between statistical accuracy and privacy preservation. In particular, we characterize the compromise not only in terms of the privacy budget but also concerning the loss incurred by distributing data within the privacy framework as a whole. This insight captures the folklore wisdom that it is easier to retain privacy in larger samples, and explores the differences between pointwise and global estimation under distributed privacy constraints.
翻訳日:2024-06-12 20:15:44 公開日:2024-06-10
# 有限基底集合近似における真空偏極とウィッチマン・クロール補正

Vacuum polarization and Wichmann-Kroll correction in the finite basis set approximation ( http://arxiv.org/abs/2406.06758v1 )

ライセンス: Link先を確認
V. K. Ivanov, S. S. Baturin, D. A. Glazov, A. V. Volotka, (参考訳) 有限基底セット法は、有界電子自己エネルギーなどのQED寄与を含む原子スペクトルを計算するために一般的に用いられる。 それでも問題であり、真空分極計算には不十分である。 このギャップを、水素のようなイオン中の電子結合エネルギーに対する真空偏極電荷密度とウィッチマン・クロール補正の計算に応用するために、このアプローチを試みて埋める。 基本集合の型や大きさの異なる手法の収束について検討する。 We cross-check our results for the Wichmann-Kroll correct by direct integration of the Green's function。 関連する例として、重水素様イオンをいくつか検討し、真空偏光補正を$S$と$P$電子軌道で評価する。

The finite basis set method is commonly used to calculate atomic spectra, including QED contributions such as bound-electron self-energy. Still, it remains problematic and underexplored for vacuum-polarization calculations. We fill this gap by trying this approach in its application to the calculation of the vacuum-polarization charge density and the Wichmann-Kroll correction to the electron binding energy in a hydrogen-like ion. We study the convergence of the method with different types and sizes of basis sets. We cross-check our results for the Wichmann-Kroll correction by direct integration of the Green's function. As a relevant example, we consider several heavy hydrogen-like ions and evaluate the vacuum polarization correction for $S$ and $P$ electron orbitals.
翻訳日:2024-06-12 20:15:44 公開日:2024-06-10
# ミキサーネットの分散信頼性評価

Decentralized Reliability Estimation for Mixnets ( http://arxiv.org/abs/2406.06760v1 )

ライセンス: Link先を確認
Claudia Diaz, Harry Halpin, Aggelos Kiayias, (参考訳) 連続的な復号化ミックスネットは、データパケットをエンドツーエンドのレイテンシで匿名でルーティングすることができる。 しかしながら、これらのミキサネットはパケットの正しい処理と配信を保証するための検証可能な信頼性特性を欠いているが、既存の検証可能性メカニズムは、数分から数時間で計測されるオーバーヘッドを補うため、スケーラブルな低レイテンシの連続時間ミキサネットと互換性がない。 この研究は、リンクとノードの信頼性スコアを推定し、何らかの形で認証情報がクライアントにトラフィックを送信することを許可する、連続時間ミキシングネットを形成するスキームを提案することで、このギャップに対処する。 スコアは、すべての参加者が、最終的に露呈され、トラフィックのランダムなサンプルとして機能する一連の測定パケットから、クライアントパケットのミックスネット送信遅延に影響を与えることなく、公に計算することができる。 提案手法は,Mixnetのルーティングポリシに従属するクライアントパケットと,無作為な計測パケットをランダムに生成することを保証する新しいプリミティブであるVRFベースのルーティングに依存する。 本研究は, 信頼性の低い, 逆条件の両面において, その実現可能性について実験的に検証した。

Continuous-time decryption mixnets can anonymously route data packets with end to end latency that can be as low as a second, making them usable for a variety of applications. Such mixnets however lack verifiable reliability properties that ensure the correct processing and delivery of packets, while existing verifiability mechanisms are incompatible with scalable low latency continuous-time mixnets due to imposing overheads measuring in minutes to hours. This work addresses this gap by proposing a scheme that can estimate reliability scores for links and nodes forming a continuous-time mixnet where some form of credentials authorize clients to send traffic. The scores can be computed publicly by all participants from a set of measurement packets that are eventually revealed and act as a random sample of the traffic, without affecting mixnet transmission latency for client packets. Our scheme relies on VRF-based routing, a novel primitive that ensures that legitimate client packets follow the routing policy of the mixnet, as well as randomly generating unforgeable measurement packets. We experimentally validate our construction both in unreliable and adversarial settings, demonstrating its feasibility.
翻訳日:2024-06-12 20:15:44 公開日:2024-06-10
# Wallyを使ったスケーラブルなプライベート検索

Scalable Private Search with Wally ( http://arxiv.org/abs/2406.06761v1 )

ライセンス: Link先を確認
Hilal Asi, Fabian Boemer, Nicholas Genise, Muhammad Haris Mughees, Tabitha Ogilvie, Rehan Rishi, Guy N. Rothblum, Kunal Talwar, Karl Tarbe, Ruiyu Zhu, Marco Zuliani, (参考訳) 本稿では,大規模データベースに対する効率的なセマンティック検索およびキーワード検索クエリをサポートする,プライベート検索システムであるWallyを提案する。 十分なクライアントがクエリを作成すれば、Wallyのパフォーマンスは以前のシステムよりも大幅に向上します。 従来のプライベート検索システムでは、各クライアントクエリに対して、サーバはデータベースのエントリごとに少なくとも1つの高価な暗号処理を実行する必要がある。 その結果、データベース内のエントリ数に比例して性能が低下した。 Wallyでは、この制限を取り除きます。 具体的には、クエリ毎に、サーバはいくつかのデータベースエントリに対してのみ暗号化操作を実行する。 我々は,各クライアントにいくつかの偽のクエリを追加することを要求し,無名ネットワークを介して各クエリを独立に選択されたランダムな瞬間にサーバに送信することで,これらの結果を達成する。 さらに、各クライアントは、クエリが本物であるか偽なのかを隠すために、何らかの同型暗号化(SHE)も使用しています。 各クライアントが行う偽クエリの数は、クエリを作成するクライアントの数に依存する。 そのため、クライアント数が増えるにつれてフェイククエリのオーバーヘッドがなくなり、数百万のクエリや大規模データベースにスケーラビリティが実現される。 具体的には、Wallyは毎秒3000クエリのレートで8Mのリクエストを処理できる。 これは最先端の計画の約60倍高い。

This paper presents Wally, a private search system that supports efficient semantic and keyword search queries against large databases. When sufficient clients are making the queries, Wally performance is significantly better than previous systems. In previous private search systems, for each client query, the server must perform at least one expensive cryptographic operation per database entry. As a result, performance degraded proportionally with the number of entries in the database. In Wally we get rid of this limitation. Specifically, for each query the server performs cryptographic operations only against a few database entries. We achieve these results by requiring each client to add a few fake queries, and sends each query via an anonymous network to the server at independently chosen random instants. Additionally, each client also uses somewhat homomorphic encryption (SHE) to hide whether a query is real or fake, Wally provides $(\epsilon, \delta)$-differential privacy guarantee, which is an accepted standard for strong privacy. The number of fake queries each client makes depends inversely on the number of clients making queries. Therefore, the fake queries' overhead vanishes as the number of clients increases, enabling scalability to millions of queries and large databases. Concretely, Wally can serve $8$M requests at a rate of 3,000 queries per second. That is around 60x higher than the state-of-the-art scheme.
翻訳日:2024-06-12 20:15:44 公開日:2024-06-10
# 古典的量子プログラミングのギャップを埋めるための翻訳フレームワークを目指す$Classi|Q\rangle$

$Classi|Q\rangle$ Towards a Translation Framework To Bridge The Classical-Quantum Programming Gap ( http://arxiv.org/abs/2406.06764v1 )

ライセンス: Link先を確認
Matteo Esposito, Maryam Tavassoli Sabzevari, Boshuai Ye, Davide Falessi, Arif Ali Khan, Davide Taibi, (参考訳) 量子コンピューティングは、ハードウェアとして、あるいはクラウド上でエミュレートできるが、複雑なプログラミングパラダイムや学習曲線に関しては、一般的には利用できない。 このビジョンペーパーでは、Classi|Q\rangle$という、古典的および量子コンピューティングを橋渡しするための翻訳フレームワークを紹介します。 私たちのアイデアペーパーは、量子ソフトウェア工学における継続的な取り組みの青写真として役立ち、研究者や実践者の多様なニーズを満たすために、さらなる$Classi|Q\rangle$開発のためのロードマップを提供する。 $Classi|Q\rangle$は、従来の量子経験のない研究者や実践者がハイブリッド量子計算の可能性を活用するために設計された。 また、将来の$Classi|Q\rangle$の強化、追加の量子言語のサポート、最適化戦略の改善、新しい量子コンピューティングプラットフォームとの統合などについても論じる。

Quantum computing, albeit readily available as hardware or emulated on the cloud, is still far from being available in general regarding complex programming paradigms and learning curves. This vision paper introduces $Classi|Q\rangle$, a translation framework idea to bridge Classical and Quantum Computing by translating high-level programming languages, e.g., Python or C++, into a low-level language, e.g., Quantum Assembly. Our idea paper serves as a blueprint for ongoing efforts in quantum software engineering, offering a roadmap for further $Classi|Q\rangle$ development to meet the diverse needs of researchers and practitioners. $Classi|Q\rangle$ is designed to empower researchers and practitioners with no prior quantum experience to harness the potential of hybrid quantum computation. We also discuss future enhancements to $Classi|Q\rangle$, including support for additional quantum languages, improved optimization strategies, and integration with emerging quantum computing platforms.
翻訳日:2024-06-12 20:15:44 公開日:2024-06-10
# データ駆動のスイッチバック実験:理論的トレードオフと経験的ベイズ設計

Data-Driven Switchback Experiments: Theoretical Tradeoffs and Empirical Bayes Designs ( http://arxiv.org/abs/2406.06768v1 )

ライセンス: Link先を確認
Ruoxuan Xiong, Alex Chin, Sean J. Taylor, (参考訳) 本研究では, 1つの集合ユニット上で行ったスイッチバック実験の設計と解析について検討する。 設計上の問題は、処理効果の推定誤差を最小限に抑えるために、連続時間空間を間隔に分割し、処理を間隔に切り替えることである。 推定誤差は, 搬送効果, 周期性, 連続的に相関した結果, 同時実験の影響の4因子に依存することを示す。 厳密なバイアス分散分解を導出し、これらの要因から推定誤差のトレードオフを示す。 第一に、処理間隔と制御間隔の周期性のバランスは分散を減少させ、第二に、切り替えは、相関結果からのばらつきを増大させながら、輸送効果からのバイアスを減少させ、第二に、ランダム化間隔の開始点と終了点が同時実験からのバイアスと分散を減少させる。 これらの知見を組み合わせることで、新しい経験的ベイズ設計手法を提案する。 このアプローチは、将来の実験を設計するために、事前のデータと実験を使用する。 我々は、この手法を、ライドシェアリングプラットフォームからの実データを用いて説明し、MSEを33%削減する設計を、プラットフォームで使用されているステータスクオデザインと比較する。

We study the design and analysis of switchback experiments conducted on a single aggregate unit. The design problem is to partition the continuous time space into intervals and switch treatments between intervals, in order to minimize the estimation error of the treatment effect. We show that the estimation error depends on four factors: carryover effects, periodicity, serially correlated outcomes, and impacts from simultaneous experiments. We derive a rigorous bias-variance decomposition and show the tradeoffs of the estimation error from these factors. The decomposition provides three new insights in choosing a design: First, balancing the periodicity between treated and control intervals reduces the variance; second, switching less frequently reduces the bias from carryover effects while increasing the variance from correlated outcomes, and vice versa; third, randomizing interval start and end points reduces both bias and variance from simultaneous experiments. Combining these insights, we propose a new empirical Bayes design approach. This approach uses prior data and experiments for designing future experiments. We illustrate this approach using real data from a ride-sharing platform, yielding a design that reduces MSE by 33% compared to the status quo design used on the platform.
翻訳日:2024-06-12 20:15:44 公開日:2024-06-10
# DiscoVERYWORLD: 自動科学発見エージェントの開発と評価のための仮想環境

DISCOVERYWORLD: A Virtual Environment for Developing and Evaluating Automated Scientific Discovery Agents ( http://arxiv.org/abs/2406.06769v1 )

ライセンス: Link先を確認
Peter Jansen, Marc-Alexandre Côté, Tushar Khot, Erin Bransom, Bhavana Dalvi Mishra, Bodhisattwa Prasad Majumder, Oyvind Tafjord, Peter Clark, (参考訳) 科学的発見の自動化は、科学分野の進歩を促進することを約束する。 しかし、エンドツーエンドの科学的推論のためのAIエージェントの能力の開発と評価は、実世界の実験を行うことが違法に高価または不可能であるため、難しい。 本研究では,新しい科学的発見のサイクルを完遂するエージェントの能力を開発し,ベンチマークする最初の仮想環境であるdiscoVERYWORLDを紹介する。 DISCOVERYWORLDには様々な課題があり、放射性同位体年代測定、ロケット科学、プロテオミクスのようなトピックをカバーし、タスク固有のソリューションよりも一般的な発見スキルの開発を奨励している。 DISCOVERYWORLD自体は安価でシミュレートされたテキストベースの環境(オプションの2Dビジュアルオーバーレイ)である。 120の異なる課題タスクを含み、それぞれ8つのトピックにまたがり、3レベルの難易度といくつかのパラメトリックなバリエーションがある。 各タスクには、仮説を作成し、実験を設計し、実行し、結果を分析し、結論に作用するエージェントが必要である。 DISCOVERYWORLDはさらに、パフォーマンス評価のための3つの自動メトリクスを提供する。 (a)タスク完了 (b)タスク関連行動及び (c)発見された説明的知識。 その結果,DiscoVERYWORLDは発見の新たな課題のいくつかを捉えており,DiscoVERYWORLDはエージェントの短期的な開発と科学的発見能力の評価に有効である可能性が示唆された。 code available at www.github.com/allenai/discoveryworld

Automated scientific discovery promises to accelerate progress across scientific domains. However, developing and evaluating an AI agent's capacity for end-to-end scientific reasoning is challenging as running real-world experiments is often prohibitively expensive or infeasible. In this work we introduce DISCOVERYWORLD, the first virtual environment for developing and benchmarking an agent's ability to perform complete cycles of novel scientific discovery. DISCOVERYWORLD contains a variety of different challenges, covering topics as diverse as radioisotope dating, rocket science, and proteomics, to encourage development of general discovery skills rather than task-specific solutions. DISCOVERYWORLD itself is an inexpensive, simulated, text-based environment (with optional 2D visual overlay). It includes 120 different challenge tasks, spanning eight topics each with three levels of difficulty and several parametric variations. Each task requires an agent to form hypotheses, design and run experiments, analyze results, and act on conclusions. DISCOVERYWORLD further provides three automatic metrics for evaluating performance, based on (a) task completion, (b) task-relevant actions taken, and (c) the discovered explanatory knowledge. We find that strong baseline agents, that perform well in prior published environments, struggle on most DISCOVERYWORLD tasks, suggesting that DISCOVERYWORLD captures some of the novel challenges of discovery, and thus that DISCOVERYWORLD may help accelerate near-term development and assessment of scientific discovery competency in agents. Code available at: www.github.com/allenai/discoveryworld
翻訳日:2024-06-12 20:15:44 公開日:2024-06-10
# ゼロショット長コンテキストLLM圧縮の評価

Evaluating Zero-Shot Long-Context LLM Compression ( http://arxiv.org/abs/2406.06773v1 )

ライセンス: Link先を確認
Chenyu Wang, Yihan Wang, (参考訳) 本研究では,長期文脈下での大規模言語モデル(LLM)に対するゼロショット圧縮手法の有効性を評価する。 特定の圧縮手法を用いる場合,長いコンテキストで計算誤差が増大する傾向を同定する。 本研究では,LLM圧縮手法の様々な挙動を説明する仮説を提案し,長期環境下で観察される性能低下を緩和するための改善策を提案する。 This report for COS 598D Machine Learning and Systems by Prof. Kai Li at Princeton University。 計算資源が限られているため,LLaMA-2-7B-32Kでのみ実験を行った。

This study evaluates the effectiveness of zero-shot compression techniques on large language models (LLMs) under long-context. We identify the tendency for computational errors to increase under long-context when employing certain compression methods. We propose a hypothesis to explain the varied behavior of different LLM compression techniques and explore remedies to mitigate the performance decline observed in some techniques under long-context. This is a course report for COS 598D Machine Learning and Systems by Prof. Kai Li at Princeton University. Due to limited computational resources, our experiments were conducted only on LLaMA-2-7B-32K.
翻訳日:2024-06-12 20:15:44 公開日:2024-06-10
# トラップイオン実験による光アドレッシングクロストークの物理的コヒーレントキャンセル

Physical coherent cancellation of optical addressing crosstalk in a trapped-ion experiment ( http://arxiv.org/abs/2406.06775v1 )

ライセンス: Link先を確認
Jeremy Flannery, Roland Matt, Luca Huber, Kaizhao Wang, Christopher Axline, Robin Oswald, Jonathan P. Home, (参考訳) 線形イオン鎖低温量子レジスタに供給される光のコヒーレントなクロストークキャンセル法について実験的に検討する。 イオンを結晶軸に直交する集束レーザビームを用いて個別に処理し、多芯フォトニック結晶導波路アレイの各出力を単一イオンに撮像して生成する。 5$\mu$mで空間化されたイオンに対して、この装置の最も近くにあるネイティブクロストーク強度は、$\sim 10^{-2}$である。 この強度クロストークを導波路結合と光回折効果から10^3$の係数で抑制できることを示す。 我々は、オブザーバ量子ビット上の$\epsilon_{x} \sim 10^{-5}$の順序でゲート当たりの回転誤差を測定し、$>10^2$の係数によるクロストーク誤差の抑制を示す。 クロストークキャンセリングにおける複合パルス法の性能を比較し,光変調器の脈動による問題を含む,これらの異なる光路間の位相ドリフトを緩和するための適切な校正法と手順について述べる。

We present an experimental investigation of coherent crosstalk cancellation methods for light delivered to a linear ion chain cryogenic quantum register. The ions are individually addressed using focused laser beams oriented perpendicular to the crystal axis, which are created by imaging each output of a multi-core photonic-crystal fibre waveguide array onto a single ion. The measured nearest-neighbor native crosstalk intensity of this device for ions spaced by 5 $\mu$m is found to be $\sim 10^{-2}$. We show that we can suppress this intensity crosstalk from waveguide channel coupling and optical diffraction effects by a factor $>10^3$ using cancellation light supplied to neighboring channels which destructively interferes with the crosstalk. We measure a rotation error per gate on the order of $\epsilon_{x} \sim 10^{-5}$ on spectator qubits, demonstrating a suppression of crosstalk error by a factor of $> 10^2$. We compare the performance to composite pulse methods for crosstalk cancellation, and describe the appropriate calibration methods and procedures to mitigate phase drifts between these different optical paths, including accounting for problems arising due to pulsing of optical modulators.
翻訳日:2024-06-12 20:15:44 公開日:2024-06-10
# SeeFar:地球空間基盤モデルのための衛星非依存型マルチリゾリューションデータセット

SeeFar: Satellite Agnostic Multi-Resolution Dataset for Geospatial Foundation Models ( http://arxiv.org/abs/2406.06776v1 )

ライセンス: Link先を確認
James Lowman, Kelly Liu Zheng, Roydon Fraser, Jesse Van Griensven The, Mojtaba Valipour, (参考訳) SeeFar(シーファー)は、公共の衛星と商用衛星の多解像度衛星画像集である。 衛星タイプに拘束されない地空間基盤モデルのトレーニングのために,このデータセットを特別にキュレートした。 近年、技術の進歩により衛星画像がこれまで以上にアクセスしやすくなっている。 過去5年間で、過去50年より多くの地球観測衛星が打ち上げられた。 現代の商用衛星は現在、公共アクセス衛星の100倍の空間解像度を提供している。 しかし、商用衛星画像の高コストかつ歴史的利用が制限されることは、基礎モデルの訓練の障壁となり、推論時にどの画像が使用できるかに影響を与える。 SeeFarデータセットは、多解像度の商用およびパブリックアクセス事前処理されたイメージを組み合わせることで、衛星に依存しないモデルをトレーニングするためのステップである。 これによりユーザーは、高解像度で高価な衛星画像とともに歴史的なデータを利用でき、推論時により柔軟な画像を提供することができる。 これを実現するために、多様な衛星からのデータを標準化し、異なるデータフォーマットを標準化し、相互運用性を高めるためにスペクトル帯域を整列するプロセスについて述べる。 SeeFarデータセットには、384x384ピクセルの解像度の画像が含まれており、4つのスペクトル帯(青、緑、赤、近赤外線)にまたがり、空間解像度(30, 10, 1.5, 1.0 m)をクラウド最適化されたGeoTIFFフォーマットで拡張している。 また、データの透明性と信頼性を高めるために、一貫性のある包括的なメタデータを提供する。 複数のソースからのデータを集約することで、SeeFarは、研究者から政策立案者まで幅広いユーザーに対して、処理された一貫した衛星データをアクセスできるようにする。 データセットは \url{coastalcarbon.ai/seefar} で公開されている。

SeeFar is an evolving collection of multi-resolution satellite images from public and commercial satellites. We specifically curated this dataset for training geospatial foundation models, unconstrained by satellite type. In recent years, advances in technology have made satellite imagery more accessible than ever. More earth-observing satellites have been launched in the last five years than in the previous fifty. Modern commercial satellites now offer up to 100 times the spatial resolution of public access satellites. However, the high cost and limited historical availability of commercial satellite imagery is a barrier to the training of foundational models, impacting what images can be used during inference. The SeeFar dataset represents a step towards training models that are satellite-agnostic by combining multi-resolution commercial and public access pre-processed images. This will enable users to utilize historical data alongside higher-resolution, more expensive satellite imagery, offering greater flexibility during inference. To achieve this, we describe a process for standardizing data from diverse satellite sources, normalizing different data formats, and aligning spectral bands to enhance interoperability. The SeeFar dataset includes images at a resolution of 384x384 pixels, spanning four spectral bands (Blue, Green, Red, and Near-Infrared) and expanding spatial resolutions (starting with 30, 10, 1.5, and 1.0 meters), all in cloud-optimized GeoTIFF format. It also provides consistent and comprehensive metadata to enhance data transparency and reliability. By aggregating data from multiple sources, SeeFar makes processed and consistent satellite data accessible to a wider range of users - from researchers to policymakers - fostering competition and innovation in satellite imagery analysis. The dataset is available at \url{coastalcarbon.ai/seefar}.
翻訳日:2024-06-12 20:15:44 公開日:2024-06-10
# MolX: マルチモーダル拡張による分子学習のための大規模言語モデルの実現

MolX: Enhancing Large Language Models for Molecular Learning with A Multi-Modal Extension ( http://arxiv.org/abs/2406.06777v1 )

ライセンス: Link先を確認
Khiem Le, Zhichun Guo, Kaiwen Dong, Xiaobao Huang, Bozhao Nan, Roshni Iyer, Xiangliang Zhang, Olaf Wiest, Wei Wang, Nitesh V. Chawla, (参考訳) 近年,タスクハンドリング能力の強いLarge Language Models (LLMs) は,自然言語理解を超えて,様々な分野において顕著な進歩を見せている。 しかしながら、化学領域におけるそれらの能力は、特にプロの分子関連タスクの解決において制限されている。 この課題は、共通テキスト表現(SMILES文字列)のみを使用する分子の解釈における固有の制限に起因する。 本研究では, 分子の理解能力を高めるために, 分子を多モード外部モジュール, MolX で設計し, 実装することを目的としている。 特に,分子の表現にSMILES文字列を直接使用する代わりに,特定のエンコーダを用いてSMILES文字列と2次元分子グラフ表現の両方から微細な特徴を抽出し,LLMに入力する。 さらに、その埋め込みドメイン知識を活用するために、ヒト定義分子指紋が組み込まれている。 次に、LLMが凍結されたモールXとLLMのテキスト入力空間のアライメントを確立するために、多種多様なタスクを含む多目的戦略を用いて、LLM全体を事前訓練する。 提案手法は,LLMを微調整することなく,分子間翻訳から逆合成まで,様々な下流分子関連タスクのベースラインを上回りながら,少数のトレーニング可能なパラメータしか導入しないことを示す。

Recently, Large Language Models (LLMs) with their strong task-handling capabilities have shown remarkable advancements across a spectrum of fields, moving beyond natural language understanding. However, their proficiency within the chemistry domain remains restricted, especially in solving professional molecule-related tasks. This challenge is attributed to their inherent limitations in comprehending molecules using only common textual representations, i.e., SMILES strings. In this study, we seek to enhance the ability of LLMs to comprehend molecules by designing and equipping them with a multi-modal external module, namely MolX. In particular, instead of directly using a SMILES string to represent a molecule, we utilize specific encoders to extract fine-grained features from both SMILES string and 2D molecular graph representations for feeding into an LLM. Moreover, a human-defined molecular fingerprint is incorporated to leverage its embedded domain knowledge. Then, to establish an alignment between MolX and the LLM's textual input space, the whole model in which the LLM is frozen, is pre-trained with a versatile strategy including a diverse set of tasks. Extensive experimental evaluations demonstrate that our proposed method only introduces a small number of trainable parameters while outperforming baselines on various downstream molecule-related tasks ranging from molecule-to-text translation to retrosynthesis, with and without fine-tuning the LLM.
翻訳日:2024-06-12 20:15:44 公開日:2024-06-10
# 中心波トモグラフィーにおける絡み合った確率分布

Entangled Probability Distributions for Center-of-Mass Tomography ( http://arxiv.org/abs/2406.06778v1 )

ライセンス: Link先を確認
Ivan V. Dudinets, Margarita A. Man'ko, Vladimir I. Man'ko, (参考訳) 我々は、確率分布関数の観点から量子状態を記述することができる中心質量トモグラムの定式化についてレビューする。 本稿では,中心質量トモグラフィーにおける分離および絡み合った確率分布の概念を紹介する。 逆発振器の絡み合った状態の中心-質量トモグラフィーの時間発展を求める。

We review the formalism of center-of-mass tomograms that allows us to describe quantum states in terms of probability distribution functions. We introduce the concept of separable and entangled probability distributions for the center-of-mass tomography. We obtain the time evolution of center-of-mass tomograms of entangled states of the inverted oscillator.
翻訳日:2024-06-12 20:15:44 公開日:2024-06-10
# BTS:メタデータを用いた呼吸音分類のためのブリッジテキストと音響モーダリティ

BTS: Bridging Text and Sound Modalities for Metadata-Aided Respiratory Sound Classification ( http://arxiv.org/abs/2406.06786v1 )

ライセンス: Link先を確認
June-Woo Kim, Miika Toikkanen, Yera Choi, Seoung-Eun Moon, Ho-Young Jung, (参考訳) 呼吸音分類 (RSC) は, 主に患者の人口動態や記録環境の影響を受け, 様々な音響的特徴により困難である。 この問題に対処するために,呼吸音のメタデータを利用したテキスト・オーディオ・マルチモーダルモデルを導入し,RCCに有用な補完情報を提供する。 具体的には、患者の性別や年齢、記録装置の種類、患者の身体上の記録位置などを含む音声サンプルのメタデータから得られる自由テキスト記述を用いて、事前訓練されたテキスト・オーディオ・マルチモーダルモデルを微調整する。 提案手法は,ICBHIデータセットの最先端性能を達成し,先行した最良値の1.17%を突破した。 その結果,RCC性能向上におけるメタデータと呼吸音の有効利用の有効性が検証された。 さらに,メタデータが部分的に利用できない場合のモデル性能について検討した。

Respiratory sound classification (RSC) is challenging due to varied acoustic signatures, primarily influenced by patient demographics and recording environments. To address this issue, we introduce a text-audio multimodal model that utilizes metadata of respiratory sounds, which provides useful complementary information for RSC. Specifically, we fine-tune a pretrained text-audio multimodal model using free-text descriptions derived from the sound samples' metadata which includes the gender and age of patients, type of recording devices, and recording location on the patient's body. Our method achieves state-of-the-art performance on the ICBHI dataset, surpassing the previous best result by a notable margin of 1.17%. This result validates the effectiveness of leveraging metadata and respiratory sound samples in enhancing RSC performance. Additionally, we investigate the model performance in the case where metadata is partially unavailable, which may occur in real-world clinical setting.
翻訳日:2024-06-12 20:15:44 公開日:2024-06-10
# 可逆的対向ロバスト性のための強化圧縮型ニューラルアーキテクチャ探索

Reinforced Compressive Neural Architecture Search for Versatile Adversarial Robustness ( http://arxiv.org/abs/2406.06792v1 )

ライセンス: Link先を確認
Dingrong Wang, Hitesh Sapkota, Zhiqiang Tao, Qi Yu, (参考訳) 敵対的堅牢性研究のための以前のニューラルアーキテクチャサーチ(NAS)は、軽量で逆向きに堅牢なニューラルネットワークアーキテクチャが非ロバストな大規模教師ネットワークに存在し、一般に統計分析とニューラルアーキテクチャサーチを通じてヒューリスティックなルールによって開示され、一般的にはニューラルアーキテクチャサーチからのヒューリスティックなルールによって開示されていることを発見している。 しかし、ヒューリスティック手法は、異なる敵攻撃や「教師」ネットワーク容量を均一に扱えない。 この課題を解決するために, 可逆的対数ロバストネスのための強化圧縮型ニューラルネットワーク探索(RC-NAS)を提案する。 具体的には、データセット、敵攻撃、教師ネットワーク情報を構成するタスク設定を定義する。 多様なタスクが与えられた場合、我々は、RLエージェントを多様な攻撃シナリオ(メタトレーニング)に効果的に露出させるために、メタトレーニングと微調整フェーズからなる新しいデュアルレベルトレーニングパラダイムを実行し、未確認シナリオのサブネットワーク(微調整)を見つけるために迅速に適応させる。 実験により、我々のフレームワークは、異なる初期教師ネットワーク、データセット、および敵攻撃に対して適応的な圧縮を達成できることが示され、その結果、より軽量で対向的に堅牢なアーキテクチャが得られる。

Prior neural architecture search (NAS) for adversarial robustness works have discovered that a lightweight and adversarially robust neural network architecture could exist in a non-robust large teacher network, generally disclosed by heuristic rules through statistical analysis and neural architecture search, generally disclosed by heuristic rules from neural architecture search. However, heuristic methods cannot uniformly handle different adversarial attacks and "teacher" network capacity. To solve this challenge, we propose a Reinforced Compressive Neural Architecture Search (RC-NAS) for Versatile Adversarial Robustness. Specifically, we define task settings that compose datasets, adversarial attacks, and teacher network information. Given diverse tasks, we conduct a novel dual-level training paradigm that consists of a meta-training and a fine-tuning phase to effectively expose the RL agent to diverse attack scenarios (in meta-training), and making it adapt quickly to locate a sub-network (in fine-tuning) for any previously unseen scenarios. Experiments show that our framework could achieve adaptive compression towards different initial teacher networks, datasets, and adversarial attacks, resulting in more lightweight and adversarially robust architectures.
翻訳日:2024-06-12 20:05:58 公開日:2024-06-10
# PlanDQ: D-ConductorとQ-Performerによる階層的プランオーケストレーション

PlanDQ: Hierarchical Plan Orchestration via D-Conductor and Q-Performer ( http://arxiv.org/abs/2406.06793v1 )

ライセンス: Link先を確認
Chang Chen, Junyeob Baek, Fei Deng, Kenji Kawaguchi, Caglar Gulcehre, Sungjin Ahn, (参考訳) オフラインRLの最近の進歩にもかかわらず、広範囲のタスクで優れたパフォーマンスを達成できる統一アルゴリズムは存在しない。 オフライン \textit{value function learning} は、特に、タスクの地平線が大きくなるにつれて蓄積する信用割り当てや外挿エラーの解決が困難であるため、スパース・リワード、ロングホライゾンなタスクに苦しむ。 一方、ロングホライズンタスクでうまく機能するモデルは、特にゴール条件付きタスクのために設計されており、短期ホライズンで密度の高いリワードシナリオにおける値関数学習手法よりも一般的には劣る。 このギャップを埋めるため、PlanDQと呼ばれるオフラインRL用に設計された階層型プランナを提案する。 PlanDQはD-Conductorという名前の拡散型プランナーを高レベルに組み込んでおり、サブゴールを通じて低レベル政策を導く。 低レベルでは、これらのサブゴールを達成するためにQ-Performerと呼ばれるQ-ラーニングベースのアプローチを使用しました。 実験結果から,PlanDQはD4RL連続制御ベンチマークタスク,AntMaze,Kitchen,Calvinの長軸タスクにおいて,より優れた,あるいは競争的な性能を達成できることが示唆された。

Despite the recent advancements in offline RL, no unified algorithm could achieve superior performance across a broad range of tasks. Offline \textit{value function learning}, in particular, struggles with sparse-reward, long-horizon tasks due to the difficulty of solving credit assignment and extrapolation errors that accumulates as the horizon of the task grows.~On the other hand, models that can perform well in long-horizon tasks are designed specifically for goal-conditioned tasks, which commonly perform worse than value function learning methods on short-horizon, dense-reward scenarios. To bridge this gap, we propose a hierarchical planner designed for offline RL called PlanDQ. PlanDQ incorporates a diffusion-based planner at the high level, named D-Conductor, which guides the low-level policy through sub-goals. At the low level, we used a Q-learning based approach called the Q-Performer to accomplish these sub-goals. Our experimental results suggest that PlanDQ can achieve superior or competitive performance on D4RL continuous control benchmark tasks as well as AntMaze, Kitchen, and Calvin as long-horizon tasks.
翻訳日:2024-06-12 20:05:58 公開日:2024-06-10
# スーパーキック効果による高エネルギー渦状態の曖昧な検出

Unambiguous detection of high energy vortex states via the superkick effect ( http://arxiv.org/abs/2406.06795v1 )

ライセンス: Link先を確認
Zhengjiang Li, Shiyu Liu, Bei Liu, Liangliang Ji, Igor P. Ivanov, (参考訳) 光子、電子、その他の粒子の渦状態は、相渦の軸周りを旋回するヘリコダル波面を持つ波状パケットを自由に伝播させる。 渦状態に生成された粒子は伝播方向の非ゼロ軌道角運動量射影を持ち、これは実験粒子や核物理学で利用されたことのない量子数である。 低エネルギーの渦光子、電子、中性子、ヘリウム原子が実験で実証され、多くの応用が発見され、高エネルギーに加速する提案がある。 しかし、高エネルギー粒子が実際に渦状態にあることの検証は、高エネルギー粒子に対して低エネルギー技術が非実用的になるため、大きな課題となる。 本稿では,位相渦の存在を明瞭に検出できる,いわゆるスーパーキック効果に基づく新しい診断法を提案する。 渦電子による原理実証実験は、既存の技術で行うことができ、同時に、スーパーキック効果の最初の観測となる。

Vortex states of photons, electrons, and other particles are freely propagating wave packets with helicoidal wave fronts winding around the axis of a phase vortex. A particle prepared in a vortex state possesses a non-zero orbital angular momentum projection on the propagation direction, a quantum number that has never been exploited in experimental particle and nuclear physics. Low-energy vortex photons, electrons, neutrons, and helium atoms have been demonstrated in experiment and found numerous applications, and there exist proposals of boosting them to higher energies. However, the verification that a high energy particle is indeed in a vortex state will be a major challenge, since the low energy techniques become impractical for highly energetic particles. Here, we propose a new diagnostic method based of the so-called superkick effect, which can unambiguously detect the presence of a phase vortex. A proof-of-principle experiment with vortex electrons can be done with the existing technology and will, at the same time, constitute the first observation of the superkick effect.
翻訳日:2024-06-12 20:05:58 公開日:2024-06-10
# FlexLoc:分散マルチモーダルセンサを用いた物体位置定位におけるゼロショットセンサパースペクティブ不変性のための条件ニューラルネットワーク

FlexLoc: Conditional Neural Networks for Zero-Shot Sensor Perspective Invariance in Object Localization with Distributed Multimodal Sensors ( http://arxiv.org/abs/2406.06796v1 )

ライセンス: Link先を確認
Jason Wu, Ziqi Wang, Xiaomin Ouyang, Ho Lyun Jeong, Colin Samplawski, Lance Kaplan, Benjamin Marlin, Mani Srivastava, (参考訳) ローカライゼーションは、ナビゲーションや監視から生活支援まで、さまざまなアプリケーションにとって重要な技術である。 ローカライゼーションシステムは、通常、異なる視点からシーンを観察するセンサーからの情報を融合し、ターゲット位置を推定すると同時に、堅牢性と精度を高めるために複数のモダリティを使用する。 近年、このようなシステムは、大規模データセット上で訓練されたエンドツーエンドのディープ・ニューラル・モデルを採用している。 しかしながら、そのようなニューラルモデルは、特定のセンサーのポーズ(位置と向き)から収集されたデータに基づいてしばしば訓練される。 現実世界の展開では、これらのセンサーからのわずかなずれが極端な不正確な結果をもたらす可能性がある。 この課題に対処するため、我々は条件付きニューラルネットワークを用いてノード視点情報を注入し、ローカライゼーションパイプラインに適応するFlexLocを紹介した。 具体的には、モデルの重みの小さなサブセットは、実行時にノードのポーズから導かれる。 マルチモーダル・マルチビュー屋内追跡データセットの評価では、FlexLocは、ゼロショットケース(キャリブレーションデータがない)において、ベースラインと比較して、ほぼ50%の精度でローカライズ精度を向上することを示した。 FlexLocのソースコードはhttps://github.com/nesl/FlexLocで入手できる。

Localization is a critical technology for various applications ranging from navigation and surveillance to assisted living. Localization systems typically fuse information from sensors viewing the scene from different perspectives to estimate the target location while also employing multiple modalities for enhanced robustness and accuracy. Recently, such systems have employed end-to-end deep neural models trained on large datasets due to their superior performance and ability to handle data from diverse sensor modalities. However, such neural models are often trained on data collected from a particular set of sensor poses (i.e., locations and orientations). During real-world deployments, slight deviations from these sensor poses can result in extreme inaccuracies. To address this challenge, we introduce FlexLoc, which employs conditional neural networks to inject node perspective information to adapt the localization pipeline. Specifically, a small subset of model weights are derived from node poses at run time, enabling accurate generalization to unseen perspectives with minimal additional overhead. Our evaluations on a multimodal, multiview indoor tracking dataset showcase that FlexLoc improves the localization accuracy by almost 50% in the zero-shot case (no calibration data available) compared to the baselines. The source code of FlexLoc is available at https://github.com/nesl/FlexLoc.
翻訳日:2024-06-12 20:05:58 公開日:2024-06-10
# LLM-dCache: GPT駆動のローカライズデータキャッシュによるツール拡張LDMの改善

LLM-dCache: Improving Tool-Augmented LLMs with GPT-Driven Localized Data Caching ( http://arxiv.org/abs/2406.06799v1 )

ライセンス: Link先を確認
Simranjit Singh, Michael Fore, Andreas Karatzas, Chaehong Lee, Yanan Jian, Longfei Shangguan, Fuxun Yu, Iraklis Anagnostopoulos, Dimitrios Stamoulis, (参考訳) 大規模言語モデル(LLM)が数千のAPIコールを管理する能力を拡大するにつれ、基盤となるシステムに重大なオーバーヘッドを伴って、巨大なデータセットにわたる複雑なデータ操作に直面している。 本研究では,ツール拡張エージェントが公開する呼び出し可能なAPI関数としてキャッシュ操作を扱い,データアクセスを最適化するLLM-dCacheを提案する。 LLMには、既存の関数呼び出し機構とシームレスに統合することで、キャッシュ決定を管理する自律性を提供します。 数百のGPTエンドポイントとテラバイトのイメージにまたがる,産業規模の大規模並列プラットフォーム上でテストされた本手法は,さまざまなLSMに対して平均1.24倍のCopilot時間を短縮し,高速化する。

As Large Language Models (LLMs) broaden their capabilities to manage thousands of API calls, they are confronted with complex data operations across vast datasets with significant overhead to the underlying system. In this work, we introduce LLM-dCache to optimize data accesses by treating cache operations as callable API functions exposed to the tool-augmented agent. We grant LLMs the autonomy to manage cache decisions via prompting, seamlessly integrating with existing function-calling mechanisms. Tested on an industry-scale massively parallel platform that spans hundreds of GPT endpoints and terabytes of imagery, our method improves Copilot times by an average of 1.24x across various LLMs and prompting techniques.
翻訳日:2024-06-12 20:05:58 公開日:2024-06-10
# 帯域最適化における満足度探索

Satisficing Exploration in Bandit Optimization ( http://arxiv.org/abs/2406.06802v1 )

ライセンス: Link先を確認
Qing Feng, Tianyi Ma, Ruihao Zhu, (参考訳) 意思決定における満足度の概念に触発され,帯域最適化における満足度探索の問題を考える。 この設定では、学習者は、満足度の高いアーム(一定の閾値を超える平均報酬を持つアーム)をできるだけ頻繁に選択することを目的とする。 この性能は、選択した腕の平均報酬の累積損失である後悔を満足させることによって測定される。 本稿では,SELECTを提案する。SELECTは,低信頼境界試験による探索を満足させる汎用的なアルゴリズムテンプレートであり,実現可能な場合(つまり,満足度アームが存在する)において,幅広い帯域最適化問題に対して常に満足のいく後悔を実現する。 具体的には、一連の帯域最適化問題と、サブ線形(標準)後悔の上界を持つ学習オラクルが与えられた場合、SELECTは、そのオラクルを反復的に使用して、後悔の少ない潜在的な満足する腕を特定する。 そして、この腕からデータサンプルを収集し、識別された腕の平均報酬のLCBをしきい値と比較し、それが満足のいく腕かどうかを判定する。 補体として、SELECTは非実現可能な場合のオラクルと同じ(標準的な)後悔の保証も享受する。 最後に,SELECTの性能評価のための数値実験を行った。

Motivated by the concept of satisficing in decision-making, we consider the problem of satisficing exploration in bandit optimization. In this setting, the learner aims at selecting satisficing arms (arms with mean reward exceeding a certain threshold value) as frequently as possible. The performance is measured by satisficing regret, which is the cumulative deficit of the chosen arm's mean reward compared to the threshold. We propose SELECT, a general algorithmic template for Satisficing Exploration via LowEr Confidence bound Testing, that attains constant satisficing regret for a wide variety of bandit optimization problems in the realizable case (i.e., a satisficing arm exists). Specifically, given a class of bandit optimization problems and a corresponding learning oracle with sub-linear (standard) regret upper bound, SELECT iteratively makes use of the oracle to identify a potential satisficing arm with low regret. Then, it collects data samples from this arm, and continuously compares the LCB of the identified arm's mean reward against the threshold value to determine if it is a satisficing arm. As a complement, SELECT also enjoys the same (standard) regret guarantee as the oracle in the non-realizable case. Finally, we conduct numerical experiments to validate the performance of SELECT for several popular bandit optimization settings.
翻訳日:2024-06-12 20:05:58 公開日:2024-06-10
# 量子アルゴリズムにおけるモジュラー値の活用:Deutsch-Jozsa

Leveraging modular values in quantum algorithms: the Deutsch-Jozsa ( http://arxiv.org/abs/2406.06803v1 )

ライセンス: Link先を確認
Lorena Ballesteros Ferraz, Timoteo Carletti, Yves Caudano, (参考訳) 量子アルゴリズムに対する新しいアプローチとして、モジュラー値、すなわち、特定のポストセレクトされた測定シナリオから得られる複素量と非有界量を利用する。 我々の焦点は、与えられた関数がバイナリ値の集合に作用する(すべての 0 またはすべての 1) の出力を均一に出力する)か、バランス(出力の半分が 0 であり、残りの半分が 1) であるかどうかを確認することである。 このような問題は、Deutsch-Jozsaアルゴリズムを頼りにすることで解決できる。 提案手法はモジュラー値の利用に依存するが,Deutsch-Jozsa法から着想を得た新しいアルゴリズムを最適化する自由度は高い。 特に,前州と後州の選択を慎重に検討する。 最終的に、量子コンピューティングプラットフォーム上で、新しい理論アルゴリズムをテストする。 結果は現在、従来のアプローチと同等ではないが、しかしながら、将来の改善の可能性、特に最適化の少ないアルゴリズムに光を当てている。 したがって、提案された概念実証は、量子アルゴリズムとモジュラー値の研究分野をブリッジする上で、その妥当性を証明できると確信する。

We present a novel approach to quantum algorithms, by taking advantage of modular values, i.e., complex and unbounded quantities resulting from specific post-selected measurement scenarios. Our focus is on the problem of ascertaining whether a given function acting on a set of binary values is constant (uniformly yielding outputs of either all 0 or all 1), or balanced (a situation wherein half of the outputs are 0 and the other half are 1). Such problem can be solved by relying on the Deutsch-Jozsa algorithm. The proposed method, relying on the use of modular values, provides a high number of degrees of freedom for optimizing the new algorithm inspired from the Deutsch-Jozsa one. In particular, we explore meticulously the choices of the pre- and post-selected states. We eventually test the novel theoretical algorithm on a quantum computing platform. While the outcomes are currently not on par with the conventional approach, they nevertheless shed light on potential for future improvements, especially with less-optimized algorithms. We are thus confidend that the proposed proof of concept could prove its validity in bridging quantum algorithms and modular values research fields.
翻訳日:2024-06-12 20:05:58 公開日:2024-06-10
# 中性Ca中における423nm遷移の同位体シフト測定

Isotope shift measurement of the 423-nm transition in neutral Ca ( http://arxiv.org/abs/2406.06806v1 )

ライセンス: Link先を確認
David Röser, Lukas Möller, Hans Keßler, Simon Stellmer, (参考訳) 4s^2) ^{1}S_0\rightarrow(4s4p) ^{1}P_1$遷移の飽和吸収分光測定について報告する。 超低膨張キャビティに閉じ込められたレーザーを参照し、系統的な誤差を慎重に調べることで、同位体シフトは100kHz未満の精度で決定され、これまで報告された値を約5倍改善する。 Caイオン中の729nm遷移の文献値を用いたキングプロット解析は、優れた線形性を示す。 フィールドと質量シフトパラメータは他の遷移を持つキングプロットから決定される。

We report on saturated absorption spectroscopy measurements of the $(4s^2) ^{1}S_0\rightarrow(4s4p) ^{1}P_1$ transition for the four most abundant even-mass isotopes in calcium. By referencing the laser locked to an ultralow expansion cavity and carefully investigating systematic errors, isotope shifts are determined with a precision below 100 kHz, improving previously reported values by a factor of about five. A King plot analysis employing literature values of the 729-nm transition in Ca ions shows excellent linearity. The field and mass shift parameters are determined from King plots with other transitions.
翻訳日:2024-06-12 20:05:58 公開日:2024-06-10
# ランダムなOracleのない高速なWhite-Box対応ストリーミング

Fast White-Box Adversarial Streaming Without a Random Oracle ( http://arxiv.org/abs/2406.06808v1 )

ライセンス: Link先を確認
Ying Feng, Aayush Jain, David P. Woodruff, (参考訳) 近年,ストリームアルゴリズムのランダム性に依存してストリームを許す,逆向きに頑健なストリーミングの問題が注目されている。 本研究では,従来のランダムコインのすべてとストリーミングアルゴリズムが使用するパラメータにアクセス可能な,強力なホワイトボックス逆数モデル(Ajtai et al PODS 2022)について考察する。 我々はスパースリカバリ問題に焦点をあて、要素推定や行列やテンソルの低ランク近似といったタスクに結果を拡張した。 従来の研究の主な欠点は、ストリーミングアルゴリズムの空間的複雑さでランダム性がカウントされるため、ストリーミングモデルにおいて特に問題となるランダムオラクルを必要とすることである。 また、以前の作業は大きな更新時間に悩まされている。 ホワイトボックス逆数ストリームにおけるスパースリカバリ問題に対する準最適解を構築し, 誤りを仮定した学習に基づく。 重要なことは、我々のソリューションはランダムなオラクルを必要とせず、アイテム処理時間当たりの多対数性を持っている。 また、関連するホワイトボックスの頑健な分散モデルにも結果を与えます。 我々の構成は、現在知られているほとんどのスキームで満たされている非常に穏やかな構造特性を満たす同型暗号スキームに基づいている。

Recently, the question of adversarially robust streaming, where the stream is allowed to depend on the randomness of the streaming algorithm, has gained a lot of attention. In this work, we consider a strong white-box adversarial model (Ajtai et al. PODS 2022), in which the adversary has access to all past random coins and the parameters used by the streaming algorithm. We focus on the sparse recovery problem and extend our result to other tasks such as distinct element estimation and low-rank approximation of matrices and tensors. The main drawback of previous work is that it requires a random oracle, which is especially problematic in the streaming model since the amount of randomness is counted in the space complexity of a streaming algorithm. Also, the previous work suffers from large update time. We construct a near-optimal solution for the sparse recovery problem in white-box adversarial streams, based on the subexponentially secure Learning with Errors assumption. Importantly, our solution does not require a random oracle and has a polylogarithmic per item processing time. We also give results in a related white-box adversarially robust distributed model. Our constructions are based on homomorphic encryption schemes satisfying very mild structural properties that are currently satisfied by most known schemes.
翻訳日:2024-06-12 20:05:58 公開日:2024-06-10
# AGB-DE:ドイツの消費者契約における訴訟自動評価コーパス

AGB-DE: A Corpus for the Automated Legal Assessment of Clauses in German Consumer Contracts ( http://arxiv.org/abs/2406.06809v1 )

ライセンス: Link先を確認
Daniel Braun, Florian Matthes, (参考訳) 法的タスクとデータセットは、しばしば言語モデルの能力のベンチマークとして使用される。 しかし、公開されている注釈付きデータセットはまれである。 本稿では,ドイツの消費者契約の3,764節のコーパスであるAGB-DEを紹介する。 これらのデータと合わせて,SVMベースラインの性能を3つの細調整されたオープン言語モデルとGPT-3.5の性能と比較し,潜在的に無効な節を検出するタスクのための第1のベースラインを提案する。 その結果,F1スコア0.54を超えるアプローチは行わず,課題の難易度を示した。 細調整されたモデルでは精度が良くなったが、GPT-3.5はリコールに関して他の手法よりも優れていた。 誤りの分析は、何が許容可能で何がそうでないかという決定境界よりも、複雑な節の正しい解釈が主な課題の1つであることを示している。

Legal tasks and datasets are often used as benchmarks for the capabilities of language models. However, openly available annotated datasets are rare. In this paper, we introduce AGB-DE, a corpus of 3,764 clauses from German consumer contracts that have been annotated and legally assessed by legal experts. Together with the data, we present a first baseline for the task of detecting potentially void clauses, comparing the performance of an SVM baseline with three fine-tuned open language models and the performance of GPT-3.5. Our results show the challenging nature of the task, with no approach exceeding an F1-score of 0.54. While the fine-tuned models often performed better with regard to precision, GPT-3.5 outperformed the other approaches with regard to recall. An analysis of the errors indicates that one of the main challenges could be the correct interpretation of complex clauses, rather than the decision boundaries of what is permissible and what is not.
翻訳日:2024-06-12 20:05:58 公開日:2024-06-10
# フォトニックシステムを用いた量子状態重なり推定手法の実験的ベンチマーク

Experimental benchmarking of quantum state overlap estimation strategies with photonic systems ( http://arxiv.org/abs/2406.06810v1 )

ライセンス: Link先を確認
Hao Zhan, Ben Wang, Minghao Mi, Jie Xie, Liang Xu, Aonan Zhang, Lijian Zhan, (参考訳) 量子状態間の重なりを正確に推定することは、量子情報処理の基本的な課題である。 異なる量子測度を用いた様々な戦略が重複推定のために提案されているが、異なる状況における推定精度制限戦略選択に関する実験的なベンチマークが欠如している。 ここでは, トモグラフィー, トモグラフィー, トモグラフィー投影, シュール集団計測, 光学スワップテストなど, オーバーラップ推定のための4つの実用的戦略の比較を行った。 フォトニックシステムでは、各戦略の重なり依存的な推定精度は、一様サンプリング状態に対する平均推定ばらつきの観点から定量化され、異なる戦略の異なる性能を浮き彫りにする。 さらに、フルレンジ重畳推定において、最適化された精度で適応的な戦略を提案する。 その結果、量子システムから興味のパラメータを抽出することに新たな光を当て、効率的な量子プロトコルの設計を促した。

Accurately estimating the overlap between quantum states is a fundamental task in quantum information processing. While various strategies using distinct quantum measurements have been proposed for overlap estimation, the lack of experimental benchmarks on estimation precision limits strategy selection in different situations. Here we compare the performance of four practical strategies for overlap estimation, including tomography-tomography, tomography-projection, Schur collective measurement and optical swap test. With a photonic system, the overlap-dependent estimation precision for each strategy is quantified in terms of the average estimation variance over uniformly sampled states, which highlight the different performance of different strategies. We further propose an adaptive strategy with optimized precision in full-range overlap estimation. Our results shed new light on extracting the parameter of interest from quantum systems, prompting the design of efficient quantum protocols.
翻訳日:2024-06-12 20:05:58 公開日:2024-06-10
# スペクトル正規化による連続的な学習

Learning Continually by Spectral Regularization ( http://arxiv.org/abs/2406.06811v1 )

ライセンス: Link先を確認
Alex Lewandowski, Saurabh Kumar, Dale Schuurmans, András György, Marlos C. Machado, (参考訳) 可塑性の喪失は、ニューラルネットワークが学習中にトレーニングが困難になる現象である。 連続学習アルゴリズムは、ネットワークのトレーニング性を維持しながら、予測性能を良好に保ちながら、この効果を軽減しようとしている。 まず,初期化が学習の初期段階におけるトレーニング容易性をいかに保証するかを再考することにより,継続的な学習を改善するための新しい技術を開発した。 この観点から、トレーニングを通して有意義な初期化特性がより良く維持されるように、継続学習のための新たな正規化戦略を導出する。 特に,連続学習のための2つの新しい正規化手法について検討する。 一 初期重量分布に対するワッサーシュタイン正則化であって、初期重量に対する正則化より制約が小さいもの (II)重み行列特異値の正則化は、トレーニングを通して勾配の多様性を直接保証する。 本稿では,これらの代替正則化手法を用いて,教師付き学習タスクやモデルアーキテクチャの連続学習性能を向上できることを示す実験的検討を行う。 代替の正規化器は、ハイパーパラメータに敏感でなく、個々のタスクにおけるより良いトレーニングを示し、新しいタスクが到着するにつれてトレーニング可能性を維持し、より優れた一般化性能を達成する。

Loss of plasticity is a phenomenon where neural networks become more difficult to train during the course of learning. Continual learning algorithms seek to mitigate this effect by sustaining good predictive performance while maintaining network trainability. We develop new techniques for improving continual learning by first reconsidering how initialization can ensure trainability during early phases of learning. From this perspective, we derive new regularization strategies for continual learning that ensure beneficial initialization properties are better maintained throughout training. In particular, we investigate two new regularization techniques for continual learning: (i) Wasserstein regularization toward the initial weight distribution, which is less restrictive than regularizing toward initial weights; and (ii) regularizing weight matrix singular values, which directly ensures gradient diversity is maintained throughout training. We present an experimental analysis that shows these alternative regularizers can improve continual learning performance across a range of supervised learning tasks and model architectures. The alternative regularizers prove to be less sensitive to hyperparameters while demonstrating better training in individual tasks, sustaining trainability as new tasks arrive, and achieving better generalization performance.
翻訳日:2024-06-12 20:05:58 公開日:2024-06-10
# 学ぶべきこと:力学の不均一な観察とそれら間の(因果関係の確立について

On Learning what to Learn: heterogeneous observations of dynamics and establishing (possibly causal) relations among them ( http://arxiv.org/abs/2406.06812v1 )

ライセンス: Link先を確認
David W. Sroczynski, Felix Dietrich, Eleni D. Koronaki, Ronen Talmon, Ronald R. Coifman, Erik Bollt, Ioannis G. Kevrekidis, (参考訳) 物理過程の2つの(集合の)観測可能点の間の関数を学習しようとする前に、まず入力と所望の関数の出力が何であるかを決定する必要がある。 ここでは、そのような関数を通して関係する「正しい量」を最初に決定し、それを学習する2つの異なるデータ駆動の方法を示す。 これは、物理系の観測から複数の同時ヘテロジニアスデータストリーム(時系列のアンサンブル)を処理することで達成される。 ですから私たちは (a)観測対象のサブセットが観測プロセス間で共通であること(従って、関数を通して相対的に観測可能であること) b) 共通の観測対象とは無関係であり,従って各観測プロセスに特有であり,所望の機能に寄与しない情報 データ駆動関数近似技術は、k-アネレスト隣人や幾何高調波からガウス過程やニューラルネットワークまで、入力-出力関係を学習するために使われる。 このアプローチの2つの「ツイスト」について論じる。 1つ目は、測定値から特定の量の興味を識別できることである。 現在、1つのプロセスの1つの観測セットから、この1つのプロセスのすべてのレベルの測定セットへのマッピングを構築している。 第2の試みは、我々の枠組みを因果関係の形式に関連付けようとするものである: 観察過程の1つが 'now' を、第2の観察プロセスが '`in the future'' を測ると、観察プロセス間で共通する機能の間で学習される関数は、システムの進化の力学モデルを構成する。

Before we attempt to learn a function between two (sets of) observables of a physical process, we must first decide what the inputs and what the outputs of the desired function are going to be. Here we demonstrate two distinct, data-driven ways of initially deciding ``the right quantities'' to relate through such a function, and then proceed to learn it. This is accomplished by processing multiple simultaneous heterogeneous data streams (ensembles of time series) from observations of a physical system: multiple observation processes of the system. We thus determine (a) what subsets of observables are common between the observation processes (and therefore observable from each other, relatable through a function); and (b) what information is unrelated to these common observables, and therefore particular to each observation process, and not contributing to the desired function. Any data-driven function approximation technique can subsequently be used to learn the input-output relation, from k-nearest neighbors and Geometric Harmonics to Gaussian Processes and Neural Networks. Two particular ``twists'' of the approach are discussed. The first has to do with the identifiability of particular quantities of interest from the measurements. We now construct mappings from a single set of observations of one process to entire level sets of measurements of the process, consistent with this single set. The second attempts to relate our framework to a form of causality: if one of the observation processes measures ``now'', while the second observation process measures ``in the future'', the function to be learned among what is common across observation processes constitutes a dynamical model for the system evolution.
翻訳日:2024-06-12 20:05:58 公開日:2024-06-10
# ソースレスドメイン適応セグメンテーションのための安定な隣りのDenoising

Stable Neighbor Denoising for Source-free Domain Adaptive Segmentation ( http://arxiv.org/abs/2406.06813v1 )

ライセンス: Link先を確認
Dong Zhao, Shuang Wang, Qi Zang, Licheng Jiao, Nicu Sebe, Zhun Zhong, (参考訳) 本研究では、ソースデータにアクセスすることなく、ソース学習されたモデルを対象領域に適応させることを目的としたセグメンテーションのための、ソースフリーな教師なしドメイン適応(SFUDA)について検討する。 この課題に対処する多くの研究が提案されており、不確実性に基づく自己学習が主流となっている。 しかし、包括的な分類機構がなければ、異なるドメインと確認バイアスを扱う際には、大半が偏りのある推定値に陥る。 本稿では,主に不安定なサンプルに擬似ラベルノイズが含まれていることを観察する。 そこで本研究では,不安定なサンプルを安定なサンプルで識別する新しいメカニズムを提案する。 具体的には,2レベル学習による不安定なサンプルの信頼性の高い最適化を誘導し,近接探索により高相関な安定なサンプルと不安定なサンプルを効果的に発見する,SND (Stable Neighbor Denoising) 手法を提案する。 さらに、オブジェクトレベルのオブジェクトペーストによる安定セットの補償を行い、学習の少ないクラスによるバイアスをさらに解消する。 私たちのSNDには2つの利点があります。 まず、SNDはその普遍性を持つ特定のセグメント構造を必要としない。 第2に、SNDは適応中のクラス、ドメイン、確認バイアスの問題を同時に解決し、その有効性を保証する。 拡張実験により、SNDは様々なSFUDAセマンティックセグメンテーション設定において、最先端の手法よりも一貫して優れていることが示された。 さらに、SNDは他のアプローチと簡単に統合でき、さらなる改善が得られます。

We study source-free unsupervised domain adaptation (SFUDA) for semantic segmentation, which aims to adapt a source-trained model to the target domain without accessing the source data. Many works have been proposed to address this challenging problem, among which uncertainty-based self-training is a predominant approach. However, without comprehensive denoising mechanisms, they still largely fall into biased estimates when dealing with different domains and confirmation bias. In this paper, we observe that pseudo-label noise is mainly contained in unstable samples in which the predictions of most pixels undergo significant variations during self-training. Inspired by this, we propose a novel mechanism to denoise unstable samples with stable ones. Specifically, we introduce the Stable Neighbor Denoising (SND) approach, which effectively discovers highly correlated stable and unstable samples by nearest neighbor retrieval and guides the reliable optimization of unstable samples by bi-level learning. Moreover, we compensate for the stable set by object-level object paste, which can further eliminate the bias caused by less learned classes. Our SND enjoys two advantages. First, SND does not require a specific segmentor structure, endowing its universality. Second, SND simultaneously addresses the issues of class, domain, and confirmation biases during adaptation, ensuring its effectiveness. Extensive experiments show that SND consistently outperforms state-of-the-art methods in various SFUDA semantic segmentation settings. In addition, SND can be easily integrated with other approaches, obtaining further improvements.
翻訳日:2024-06-12 20:05:58 公開日:2024-06-10
# 識別の少ないアルゴリズムを探索する法的な義務

The Legal Duty to Search for Less Discriminatory Algorithms ( http://arxiv.org/abs/2406.06817v1 )

ライセンス: Link先を確認
Emily Black, Logan Koepke, Pauline Kim, Solon Barocas, Mingwei Hsu, (参考訳) 計算機科学の研究は、従来の知恵とは対照的に、与えられた予測問題に対して、ほぼ常に同等のパフォーマンスを持つ複数のモデルが存在することを証明している。 批判的に、同等のパフォーマンスの異なるモデルは、同一個人に対して異なる予測を生成でき、まとめると、人口集団全体で異なるレベルの影響を示す。 したがって、アルゴリズムシステムが異なる影響を示す場合、モデル多重性は、開発者は同等に機能するが差別的な影響が少ない代替モデルを見つけることができることを示唆する。 実際、モデル乗法性の約束は、ほぼ常に同じくらい正確だが差別的でないアルゴリズム(LDA)が存在することである。 しかし、専用の調査がなければ、開発者は潜在的なLDAを発見する可能性は低い。 モデル乗法とLDAの可用性は、差別的アルゴリズムに対する法的な応答、特に異なる影響のドクトリンに対して大きな影響を与えている。 何十年にもわたって、法当局の緊密な読影により、この法律は、差別的でない代替手段の存在が、異なる影響分析の第2段階における被告の正当化の負担に関係していると認識されていることが判明した。 実際、異なるインパクト・ドクトリンの下では、雇用主、債権者、または住宅業者が使用する特定のアルゴリズムシステムが「必要」であるとは言い切れない。 その結果、この法律は、カバーされた公民権領域における予測モデルの開発と展開を行うエンティティに対して、適切なLDAの探索の義務を負うべきであると論じる。

Work in computer science has established that, contrary to conventional wisdom, for a given prediction problem there are almost always multiple possible models with equivalent performance--a phenomenon often termed model multiplicity. Critically, different models of equivalent performance can produce different predictions for the same individual, and, in aggregate, exhibit different levels of impacts across demographic groups. Thus, when an algorithmic system displays a disparate impact, model multiplicity suggests that developers could discover an alternative model that performs equally well, but has less discriminatory impact. Indeed, the promise of model multiplicity is that an equally accurate, but less discriminatory algorithm (LDA) almost always exists. But without dedicated exploration, it is unlikely developers will discover potential LDAs. Model multiplicity and the availability of LDAs have significant ramifications for the legal response to discriminatory algorithms, in particular for disparate impact doctrine, which has long taken into account the availability of alternatives with less disparate effect when assessing liability. A close reading of legal authorities over the decades reveals that the law has on numerous occasions recognized that the existence of a less discriminatory alternative is sometimes relevant to a defendant's burden of justification at the second step of disparate impact analysis. Indeed, under disparate impact doctrine, it makes little sense to say that a given algorithmic system used by an employer, creditor, or housing provider is "necessary" if an equally accurate model that exhibits less disparate effect is available and possible to discover with reasonable effort. As a result, we argue that the law should place a duty of a reasonable search for LDAs on entities that develop and deploy predictive models in covered civil rights domains.
翻訳日:2024-06-12 20:05:58 公開日:2024-06-10
# Augmented Label Rank Calibration によるクラスワイド被覆の等角予測

Conformal Prediction for Class-wise Coverage via Augmented Label Rank Calibration ( http://arxiv.org/abs/2406.06818v1 )

ライセンス: Link先を確認
Yuanjie Shi, Subhankar Ghosh, Taha Belkhouja, Janardhan Rao Doppa, Yan Yan, (参考訳) コンフォーマル予測(CP)は新たな不確実性定量化フレームワークであり、真ラベルをカバーするための予測セットを予め特定された限界あるいは条件付き確率で構築することができる。 分類問題に対して有効なカバレッジ保証は広く研究されているが、CPは実際は役に立たない大きな予測セットを生成することが多い。 この問題は、不均衡な分類タスクのクラス条件カバレッジの設定により悪化する。 本稿では,各クラスに対して有効なカバレッジを持つクラス条件付きカバレッジを実現するために,予測セットサイズを削減するために,ランクキャリブレーション型クラス条件付きCP(RC3P)アルゴリズムを提案する。 クラスごとのクラスワイド適合度スコアを均一に閾値付けする標準クラス条件CP(CCP)法とは対照的に、拡張ラベルランクキャリブレーションステップでは、クラスワイドトップkエラーが小さいクラスのサブルーチンに対してのみ、RC3Pがこのクラスワイド閾値サブルーチンを選択的に反復することができる。 分類器やデータ分布に依存しないRC3Pは,クラスワイドのカバレッジを実現する。 また,RC3PはCCP法と比較して予測セットのサイズを小さくすることを示した。 複数の実世界のデータセットに関する総合的な実験により、RC3Pは平均的な予測セットサイズを26.25%削減した。

Conformal prediction (CP) is an emerging uncertainty quantification framework that allows us to construct a prediction set to cover the true label with a pre-specified marginal or conditional probability. Although the valid coverage guarantee has been extensively studied for classification problems, CP often produces large prediction sets which may not be practically useful. This issue is exacerbated for the setting of class-conditional coverage on imbalanced classification tasks. This paper proposes the Rank Calibrated Class-conditional CP (RC3P) algorithm to reduce the prediction set sizes to achieve class-conditional coverage, where the valid coverage holds for each class. In contrast to the standard class-conditional CP (CCP) method that uniformly thresholds the class-wise conformity score for each class, the augmented label rank calibration step allows RC3P to selectively iterate this class-wise thresholding subroutine only for a subset of classes whose class-wise top-k error is small. We prove that agnostic to the classifier and data distribution, RC3P achieves class-wise coverage. We also show that RC3P reduces the size of prediction sets compared to the CCP method. Comprehensive experiments on multiple real-world datasets demonstrate that RC3P achieves class-wise coverage and 26.25% reduction in prediction set sizes on average.
翻訳日:2024-06-12 19:56:14 公開日:2024-06-10
# Adapters Strike Back

Adapters Strike Back ( http://arxiv.org/abs/2406.06820v1 )

ライセンス: Link先を確認
Jan-Martin O. Steitz, Stefan Roth, (参考訳) アダプタは、トレーニングされたトランスフォーマーモデルをさまざまなタスクに適応するための、効率的で軽量なメカニズムを提供する。 しかし、これらは低ランク適応を含む他の適応機構よりも優れていることがしばしば見出されている。 本稿では,アダプタとその内部構造,実装選択について詳細に検討する。 アダプタを使用する際の落とし穴を明らかにし、Adapter+と呼ばれる具体的な改良されたアダプタアーキテクチャを提案する。 それにもかかわらず、我々の提案するアダプタは非常に堅牢であり、新しいシナリオに取り組む際には、以前の作業とは異なり、手動による介入はほとんど必要としない。 Adapter+は、タスクごとのハイパーパラメータ最適化がなくても、VTABベンチマークで最先端の平均精度に達する。

Adapters provide an efficient and lightweight mechanism for adapting trained transformer models to a variety of different tasks. However, they have often been found to be outperformed by other adaptation mechanisms, including low-rank adaptation. In this paper, we provide an in-depth study of adapters, their internal structure, as well as various implementation choices. We uncover pitfalls for using adapters and suggest a concrete, improved adapter architecture, called Adapter+, that not only outperforms previous adapter implementations but surpasses a number of other, more complex adaptation mechanisms in several challenging settings. Despite this, our suggested adapter is highly robust and, unlike previous work, requires little to no manual intervention when addressing a novel scenario. Adapter+ reaches state-of-the-art average accuracy on the VTAB benchmark, even without a per-task hyperparameter optimization.
翻訳日:2024-06-12 19:56:14 公開日:2024-06-10
# コード補完モデルにおけるLLM支援型簡易型バックドアアタック:強検出に対する解離脆弱性の注入

An LLM-Assisted Easy-to-Trigger Backdoor Attack on Code Completion Models: Injecting Disguised Vulnerabilities against Strong Detection ( http://arxiv.org/abs/2406.06822v1 )

ライセンス: Link先を確認
Shenao Yan, Shen Wang, Yue Duan, Hanbin Hong, Kiho Lee, Doowon Kim, Yuan Hong, (参考訳) 大規模言語モデル(LLM)は、コード補完タスクを変換し、ソフトウェアエンジニアリングにおける開発者の生産性を高めるためのコンテキストベースの提案を提供する。 ユーザーは特定の用途にこれらのモデルを微調整することが多いため、中毒やバックドア攻撃はモデル出力を隠蔽的に変更することができる。 この重要なセキュリティ問題に対処するために、コード補完モデルに関するLLM支援バックドアアタックフレームワークであるCodeBreakerを紹介します。 悪意のあるペイロードを検出可能または無関係なコードセクション(例えばコメント)に埋め込む最近の攻撃とは異なり、CodeBreakerは(機能に影響を与えずに)高度なペイロード変換のためにLCM(例えば、GPT-4)を活用し、微調整と生成されたコードの両方が強力な脆弱性検出を回避する。 CodeBreakerは、脆弱性の包括的カバレッジで際立っている。 我々は,CodeBreakerの攻撃性能を様々な設定で評価し,既存のアプローチよりも優れていることを検証した。 悪意のあるペイロードを直接ソースコードに最小限の変換で組み込むことで、CodeBreakerは現在のセキュリティ対策に挑戦し、コード補完のためのより堅牢な防御の必要性を強調している。

Large Language Models (LLMs) have transformed code completion tasks, providing context-based suggestions to boost developer productivity in software engineering. As users often fine-tune these models for specific applications, poisoning and backdoor attacks can covertly alter the model outputs. To address this critical security challenge, we introduce CodeBreaker, a pioneering LLM-assisted backdoor attack framework on code completion models. Unlike recent attacks that embed malicious payloads in detectable or irrelevant sections of the code (e.g., comments), CodeBreaker leverages LLMs (e.g., GPT-4) for sophisticated payload transformation (without affecting functionalities), ensuring that both the poisoned data for fine-tuning and generated code can evade strong vulnerability detection. CodeBreaker stands out with its comprehensive coverage of vulnerabilities, making it the first to provide such an extensive set for evaluation. Our extensive experimental evaluations and user studies underline the strong attack performance of CodeBreaker across various settings, validating its superiority over existing approaches. By integrating malicious payloads directly into the source code with minimal transformation, CodeBreaker challenges current security measures, underscoring the critical need for more robust defenses for code completion.
翻訳日:2024-06-12 19:56:14 公開日:2024-06-10
# 局所的相互依存型マルチエージェントMDP:動的依存を持つ分散エージェントの理論フレームワーク

Locally Interdependent Multi-Agent MDP: Theoretical Framework for Decentralized Agents with Dynamic Dependencies ( http://arxiv.org/abs/2406.06823v1 )

ライセンス: Link先を確認
Alex DeWeese, Guannan Qu, (参考訳) 実際には、多くのマルチエージェントシステムは分散化されており、動的に依存する。 これらのシステムを理論的に分析するための文献が不足している。 本稿では,局所的相互依存型マルチエージェントMDPと呼ばれる動的に変化する依存関係を持つ分散モデルを提案し,理論的に解析する。 このモデルは、協調ナビゲーション、障害物回避、生成制御など、多くの異なる領域における問題を表現することができる。 一般に部分的に観測可能なマルチエージェントシステムの難しさにも拘わらず、理論的に最適に近い3つのクローズドフォームポリシーを提案し、計算・保存にスケーラブルである。 その結果, 部分観測可能な分散解が可視半径に関して完全に観測可能な解に指数関数的に近いという, 局所的相互依存型マルチエージェント MDP の基本的性質を明らかにした。 次に、トラクタビリティをさらに向上するために、クローズドフォームポリシーの拡張について議論する。 クローズドフォームポリシーの長い地平線挙動を調べるためのシミュレーションを提供することで、結論付ける。

Many multi-agent systems in practice are decentralized and have dynamically varying dependencies. There has been a lack of attempts in the literature to analyze these systems theoretically. In this paper, we propose and theoretically analyze a decentralized model with dynamically varying dependencies called the Locally Interdependent Multi-Agent MDP. This model can represent problems in many disparate domains such as cooperative navigation, obstacle avoidance, and formation control. Despite the intractability that general partially observable multi-agent systems suffer from, we propose three closed-form policies that are theoretically near-optimal in this setting and can be scalable to compute and store. Consequentially, we reveal a fundamental property of Locally Interdependent Multi-Agent MDP's that the partially observable decentralized solution is exponentially close to the fully observable solution with respect to the visibility radius. We then discuss extensions of our closed-form policies to further improve tractability. We conclude by providing simulations to investigate some long horizon behaviors of our closed-form policies.
翻訳日:2024-06-12 19:56:14 公開日:2024-06-10
# 局所二乗ワッサースタイン-2法による不確実性のあるモデルの効率的な再構成

A local squared Wasserstein-2 method for efficient reconstruction of models with uncertainty ( http://arxiv.org/abs/2406.06825v1 )

ライセンス: Link先を確認
Mingtao Xia, Qijing Shen, (参考訳) 本稿では,不確定な潜伏変数やパラメータを持つモデル再構成の逆問題を解決するために,局所二乗ワッサースタイン-2(W_2)法を提案する。 このアプローチの重要な利点は、下位モデルにおける潜伏変数やパラメータの分布に関する事前情報を必要としないことである。 そこで本手法は,観測データの経験的分布に基づいて,異なる入力に関連付けられた出力の分布を効率的に再構築することができる。 提案手法は,係数不確かさを伴う線形回帰,重みの不確かさを伴うニューラルネットワークのトレーニング,潜在確率変数による常微分方程式(ODE)の再構成など,いくつかの不確かさ定量化(UQ)タスクにまたがって有効性を示す。

In this paper, we propose a local squared Wasserstein-2 (W_2) method to solve the inverse problem of reconstructing models with uncertain latent variables or parameters. A key advantage of our approach is that it does not require prior information on the distribution of the latent variables or parameters in the underlying models. Instead, our method can efficiently reconstruct the distributions of the output associated with different inputs based on empirical distributions of observation data. We demonstrate the effectiveness of our proposed method across several uncertainty quantification (UQ) tasks, including linear regression with coefficient uncertainty, training neural networks with weight uncertainty, and reconstructing ordinary differential equations (ODEs) with a latent random variable.
翻訳日:2024-06-12 19:56:14 公開日:2024-06-10
# ネットワーク構造共変数を用いた個人化二項DAG学習

Personalized Binomial DAGs Learning with Network Structured Covariates ( http://arxiv.org/abs/2406.06829v1 )

ライセンス: Link先を確認
Boxin Zhao, Weishi Wang, Dingyuan Zhu, Ziqi Liu, Dong Wang, Zhiqiang Zhang, Jun Zhou, Mladen Kolar, (参考訳) データにおける因果依存性は、多くの領域で広く使われているDAG(Directed Acyclic Graphical)モデルによって特徴づけられることが多い。 因果発見は、観測データを用いてDAG構造を復元することを目的としている。 本稿では,多変量データを用いた因果発見に焦点を当てた。 実際のWeb訪問データに動機付けられ、複数のWebサイトへの個々のユーザ訪問を記録します。 因果図を構築することは、Webサイト間の遷移におけるユーザの振る舞いを理解し、運用戦略を刺激するのに役立つ。 モデリングにおける課題は、異なる背景を持つユーザーが様々な振る舞いを示すため、ユーザの不均一性である。 さらに、ソーシャルネットワークのつながりは、友人間の同様の行動を引き起こす可能性がある。 実世界のアプリケーションでよく見られる、観測間の不均一性とネットワーク依存性に対処するために、パーソナライズされたBinomial DAGモデルを導入する。 提案したDAGモデルを学習するために,ネットワーク構造を次元還元共変器に埋め込んだアルゴリズムを開発し,各ノードの近傍を学習してDAG探索空間を縮小し,分散平均関係を探索して順序を決定する。 シミュレーションにより、このアルゴリズムは異種データにおいて最先端の競合より優れていることを示す。 実世界のWeb訪問データセットに実用性を示す。

The causal dependence in data is often characterized by Directed Acyclic Graphical (DAG) models, widely used in many areas. Causal discovery aims to recover the DAG structure using observational data. This paper focuses on causal discovery with multi-variate count data. We are motivated by real-world web visit data, recording individual user visits to multiple websites. Building a causal diagram can help understand user behavior in transitioning between websites, inspiring operational strategy. A challenge in modeling is user heterogeneity, as users with different backgrounds exhibit varied behaviors. Additionally, social network connections can result in similar behaviors among friends. We introduce personalized Binomial DAG models to address heterogeneity and network dependency between observations, which are common in real-world applications. To learn the proposed DAG model, we develop an algorithm that embeds the network structure into a dimension-reduced covariate, learns each node's neighborhood to reduce the DAG search space, and explores the variance-mean relation to determine the ordering. Simulations show our algorithm outperforms state-of-the-art competitors in heterogeneous data. We demonstrate its practical usefulness on a real-world web visit dataset.
翻訳日:2024-06-12 19:56:14 公開日:2024-06-10
# ルールを生成するための大規模な言語モデル?

Large language models for generating rules, yay or nay? ( http://arxiv.org/abs/2406.06835v1 )

ライセンス: Link先を確認
Shangeetha Sivasothy, Scott Barnett, Rena Logothetis, Mohamed Abdelrazek, Zafaryab Rasool, Srikanth Thudumu, Zac Brannelly, (参考訳) 医療機器やデジタルヘルス介入システムのような工学的安全に重要なシステムは複雑であり、システムの期待される振る舞いを捉えるためには、主観的専門家(SME)との長期の関わりが必要である。 本稿では,GPT-3.5 や GPT-4 のような大規模言語モデル (LLM) を,ソフトウェアシステムのエンジニアリングを加速するための潜在的な世界モデルとして活用する,新たなアプローチを提案する。 このアプローチでは、LLMを使用してロジックルールを生成し、デプロイ前に中小企業によってレビューされ、通知される。 新型コロナウイルス感染拡大に伴う医療従事者と連携して,パンデミック介入監視システムから作成した医療ルールセットを用いたアプローチの評価を行った。 私たちの実験は 1) LLM は実装をブートストラップする世界モデルを持つ。 2)LSMは専門家に比べてルールの数が少なくなり、 3) LLM にはルールごとにしきい値を生成する能力がない。 我々の研究は、LLMがドメインのワールドモデルへのアクセスを提供することで、要件の緩和プロセスをどのように強化するかを示している。

Engineering safety-critical systems such as medical devices and digital health intervention systems is complex, where long-term engagement with subject-matter experts (SMEs) is needed to capture the systems' expected behaviour. In this paper, we present a novel approach that leverages Large Language Models (LLMs), such as GPT-3.5 and GPT-4, as a potential world model to accelerate the engineering of software systems. This approach involves using LLMs to generate logic rules, which can then be reviewed and informed by SMEs before deployment. We evaluate our approach using a medical rule set, created from the pandemic intervention monitoring system in collaboration with medical professionals during COVID-19. Our experiments show that 1) LLMs have a world model that bootstraps implementation, 2) LLMs generated less number of rules compared to experts, and 3) LLMs do not have the capacity to generate thresholds for each rule. Our work shows how LLMs augment the requirements' elicitation process by providing access to a world model for domains.
翻訳日:2024-06-12 19:56:14 公開日:2024-06-10
# 量子トランスパイラの比較研究:キスキートブラケットプロジェクタ、qBraid-SDK、ピケット拡張の性能評価

Comparative Study of Quantum Transpilers: Evaluating the Performance of qiskit-braket-provider, qBraid-SDK, and Pytket Extensions ( http://arxiv.org/abs/2406.06836v1 )

ライセンス: Link先を確認
Mohamed Messaoud Louamri, Nacer eddine Belaloui, Abdellah Tounsi, Mohamed Taha Rouabah, (参考訳) 本研究では,Kiskit-braket-provider,qBraid-SDK,pytket拡張を含むいくつかの量子トランスパイラの総合的な評価を行い,正確性,故障率,透過時間などの重要な指標に着目した。 以上の結果から,キースキット・ブラケット・プロジェクタは優れた性能を示し,破壊率0.2%と極めて低い結果となった。 Kiiskit-braket-providerは、1対1のトランスパイラと、非サポートゲートのゲート分解の組み合わせを利用して、トランスパイラの能力とスピードを向上させる。 qBraid-SDKはより一般化されたアプローチを提供し、複数のSDKにまたがるトランスパイルに適している。 ピケット拡張は高速ではあるが、1対1のトランスパイル方式のために複雑な回路を扱う際の制限を示す。 また,キスキートブラケットプロジェクタがトランスパイラの能力と速度を向上させるために採用する手法の採用を推奨する。 この研究は、量子トランスパイラベンチマークにおける知識の増大、相互運用性の促進、様々なハードウェアとソフトウェアの世界における量子コンピューティングアプリケーションの開発の指導に寄与する。

In this study, we conducted a comprehensive evaluation of several quantum transpilers, including the qiskit-braket-provider, the qBraid-SDK, and the pytket extensions, focusing on critical metrics such as correctness, failure rate, and transpilation time. Our results demonstrate that the qiskit-braket-provider exhibits superior performance achieving a remarkably low failure rate of 0.2%. the qiskit-braket-provider utilizes a combination of one-to-one transpilation and gate decomposition for unsupported gates, enhancing transpiler capabilities and speed. The qBraid-SDK offers a more generalized approach, suitable for transpilation across multiple SDKs, albeit with slower performance compared to the qiskit-braket-provider. The pytket extensions, while fast, exhibit limitations in handling complex circuits due to their one-to-one transpilation scheme. We also provide recommendations for future development, advocating for the adoption of the method employed by the qiskit-braket-provider to enhance transpiler capabilities and speed. This study contributes to the growing body of knowledge in quantum transpiler benchmarking, fostering interoperability and guiding the development of quantum computing applications in a diverse hardware and software landscape.
翻訳日:2024-06-12 19:56:14 公開日:2024-06-10
# 単変量ReLUネットワークにおける安定ミニマのオーバーフィット:大規模ステップサイズによる一般化

Stable Minima Cannot Overfit in Univariate ReLU Networks: Generalization by Large Step Sizes ( http://arxiv.org/abs/2406.06838v1 )

ライセンス: Link先を確認
Dan Qiao, Kaiqi Zhang, Esha Singh, Daniel Soudry, Yu-Xiang Wang, (参考訳) 雑音ラベル付き単変量非パラメトリック回帰問題における2層ReLUニューラルネットワークの一般化について検討する。 これは、カーネル (\emph{e g } NTK) が証明的に準最適であり、良性オーバーフィッティングが起こらないという問題である。 局所ミニマの一般化の新しい理論として、一定の学習速度で勾配降下が収束できるという理論を提案する。 1/\eta - 1/2 + \widetilde{O}(\sigma + \sqrt{\mathrm{MSE}})$ where $\sigma$ is the label noise level, $\mathrm{MSE}$ is short for mean squared error against the ground truth, $\widetilde{O}(\cdot)$ hides a logarithmic factor。 穏やかな仮定の下では、$n$のデータポイントのサポートの厳密な内部で、$\widetilde{O}(n^{-4/5})$のほぼ最適なMSE境界も証明する。 我々の理論結果は、大規模な学習率トレーニングが疎線形スプライン適合を誘導することを示す広範囲なシミュレーションによって検証される。 我々の知る限り、我々は非補間ケースにおけるミニマ安定性による一般化を初めて獲得し、正規化のないReLU NNを非パラメトリック回帰においてほぼ最適に表現する。

We study the generalization of two-layer ReLU neural networks in a univariate nonparametric regression problem with noisy labels. This is a problem where kernels (\emph{e.g.} NTK) are provably sub-optimal and benign overfitting does not happen, thus disqualifying existing theory for interpolating (0-loss, global optimal) solutions. We present a new theory of generalization for local minima that gradient descent with a constant learning rate can \emph{stably} converge to. We show that gradient descent with a fixed learning rate $\eta$ can only find local minima that represent smooth functions with a certain weighted \emph{first order total variation} bounded by $1/\eta - 1/2 + \widetilde{O}(\sigma + \sqrt{\mathrm{MSE}})$ where $\sigma$ is the label noise level, $\mathrm{MSE}$ is short for mean squared error against the ground truth, and $\widetilde{O}(\cdot)$ hides a logarithmic factor. Under mild assumptions, we also prove a nearly-optimal MSE bound of $\widetilde{O}(n^{-4/5})$ within the strict interior of the support of the $n$ data points. Our theoretical results are validated by extensive simulation that demonstrates large learning rate training induces sparse linear spline fits. To the best of our knowledge, we are the first to obtain generalization bound via minima stability in the non-interpolation case and the first to show ReLU NNs without regularization can achieve near-optimal rates in nonparametric regression.
翻訳日:2024-06-12 19:56:14 公開日:2024-06-10
# EAVE:軽量スパース層間相互作用による効率的な製品属性値抽出

EAVE: Efficient Product Attribute Value Extraction via Lightweight Sparse-layer Interaction ( http://arxiv.org/abs/2406.06839v1 )

ライセンス: Link先を確認
Li Yang, Qifan Wang, Jianfeng Chi, Jiahao Liu, Jingang Wang, Fuli Feng, Zenglin Xu, Yi Fang, Lifu Huang, Dongfang Liu, (参考訳) 製品属性値の抽出には、製品プロファイルからさまざまな属性に関連する特定の値を特定することが含まれる。 既存の手法は、抽出性能を改善する効果的なモデルの開発を優先することが多いが、抽出効率に重点が置かれている。 しかし、現実のシナリオでは、製品は通常複数の属性に関連付けられ、すべての対応する値を取得するために複数の抽出を必要とする。 本稿では,軽量なスパース層間相互作用による効率的な製品属性値抽出(EAVE)手法を提案する。 具体的には、重いエンコーダを使用して、製品コンテキストと属性を別々にエンコードします。 その結果、相互作用しないコンテキストの重い表現は、すべての属性に対してキャッシュされ、再利用される。 さらに、コンテキストと属性を共同でエンコードする光エンコーダを導入し、それら間の軽量な相互作用を容易にする。 軽量エンコーダ内での相互作用を強化するために,非干渉重み表現を軽量エンコーダに融合させるスパース層相互作用モジュールを設計する。 2つのベンチマークの包括的評価により,提案手法は,コンテキストが長く,属性数が大きい場合に,中性あるいは限界的な性能低下を伴って,大幅な効率向上を実現することが示された。 我々のコードは href{https://anonymous.4open.science/r/EAVE-EA18}{here} で利用可能です。

Product attribute value extraction involves identifying the specific values associated with various attributes from a product profile. While existing methods often prioritize the development of effective models to improve extraction performance, there has been limited emphasis on extraction efficiency. However, in real-world scenarios, products are typically associated with multiple attributes, necessitating multiple extractions to obtain all corresponding values. In this work, we propose an Efficient product Attribute Value Extraction (EAVE) approach via lightweight sparse-layer interaction. Specifically, we employ a heavy encoder to separately encode the product context and attribute. The resulting non-interacting heavy representations of the context can be cached and reused for all attributes. Additionally, we introduce a light encoder to jointly encode the context and the attribute, facilitating lightweight interactions between them. To enrich the interaction within the lightweight encoder, we design a sparse-layer interaction module to fuse the non-interacting heavy representation into the lightweight encoder. Comprehensive evaluation on two benchmarks demonstrate that our method achieves significant efficiency gains with neutral or marginal loss in performance when the context is long and number of attributes is large. Our code is available \href{https://anonymous.4open.science/r/EAVE-EA18}{here}.
翻訳日:2024-06-12 19:56:14 公開日:2024-06-10
# サイレント信号, ラウドインパクト: 符号化犬ホイッスルの単語センスの曖昧化のためのLLM

Silent Signals, Loud Impact: LLMs for Word-Sense Disambiguation of Coded Dog Whistles ( http://arxiv.org/abs/2406.06840v1 )

ライセンス: Link先を確認
Julia Kruk, Michela Marchini, Rijul Ragu, Caleb Ziems, David Muchlinski, Diyi Yang, (参考訳) 犬の笛は、特定の聴衆に二次的な意味を持ち、しばしば人種的・社会経済的差別のために武器化された符号化通信の一種である。 犬の口笛は歴史的にアメリカ合衆国の政治に由来するが、近年ではヘイトスピーチ検出システムを避け、妥当な識別性を維持する手段としてソーシャルメディアに根ざしている。 本稿では,Large Language Models (LLMs) を用いた標準音声からの犬笛の単語センスの曖昧化手法を提案し,この手法を用いて,形式的および非公式なコミュニケーションに使用される犬笛の16,550個の高信頼符号化例のデータセットを作成する。 サイレントシグナル(Silent Signals)は、ヘイトスピーチの検出、ネロジ、政治科学の応用のために作られた、あいまいな犬の口笛使用の最大のデータセットである。 データセットはhttps://huggingface.co/datasets/SALT-NLP/silent_signalsで見ることができる。

A dog whistle is a form of coded communication that carries a secondary meaning to specific audiences and is often weaponized for racial and socioeconomic discrimination. Dog whistling historically originated from United States politics, but in recent years has taken root in social media as a means of evading hate speech detection systems and maintaining plausible deniability. In this paper, we present an approach for word-sense disambiguation of dog whistles from standard speech using Large Language Models (LLMs), and leverage this technique to create a dataset of 16,550 high-confidence coded examples of dog whistles used in formal and informal communication. Silent Signals is the largest dataset of disambiguated dog whistle usage, created for applications in hate speech detection, neology, and political science. The dataset can be found at https://huggingface.co/datasets/SALT-NLP/silent_signals.
翻訳日:2024-06-12 19:56:14 公開日:2024-06-10
# Compass:推論と微調整における高精度かつ効率的な分子ドッキングツール

Compass: A Comprehensive Tool for Accurate and Efficient Molecular Docking in Inference and Fine-Tuning ( http://arxiv.org/abs/2406.06841v1 )

ライセンス: Link先を確認
Ahmet Sarigun, Vedran Franke, Altuna Akalin, (参考訳) PDBBindのような分子ドッキングデータセットのノイズレベルについては議論されているが、物理・化学的・生物活性のノイズ特性の詳細な分析はいまだ不十分である。 PoseCheckは、分子ひずみエネルギー、分子とタンパク質の衝突、相互作用を調べることでこの問題に対処する。 分子ドッキングにおけるもう1つの重要な指標であるBing Affinity Energyは、新しい経験的スコア関数であるAA-Scoreにより評価され、既存の手法よりも性能が向上した。 これらの課題に対処するため,PoseCheckおよびAA-Scoreモジュールを統合したCompASS法を提案する。 この手法は、ドッキング分子のデータセットノイズレベルと物理的・化学的・生物活動性を評価する。 COMPASSを用いたPDBBindデータセットの解析により,地中真理データに有意なノイズが認められた。 さらに,CompASSを最新の分子ドッキング法であるDiffDockを推論モードに組み込んでドッキングリガンドの効率的かつ正確な評価を行う。 最後に,分子ドッキングのモデル性能を微調整により向上させる新しいパラダイムを提案し,本手法の利点について考察する。 ソースコードはhttps://github.com/BIMSBbioinfo/Compassで公開されている。

While there has been discussion about noise levels in molecular docking datasets such as PDBBind, a thorough analysis of their physical/chemical and bioactivity noise characteristics is still lacking. PoseCheck addresses this issue by examining molecular strain energy, molecular-protein clashes, and interactions, but it is primarily created for $de$ $novo$ drug design. Another important metric in molecular docking, Binding Affinity Energy, is better assessed by the new empirical score function, AA-Score, which has demonstrated improved performance over existing methods. To tackle these challenges, we propose the COMPASS method, which integrates the PoseCheck and AA-Score modules. This approach evaluates dataset noise levels and the physical/chemical and bioactivity feasibility of docked molecules. Our analysis of the PDBBind dataset using COMPASS reveals significant noise in the ground truth data. Additionally, we incorporate COMPASS with the state-of-the-art molecular docking method, DiffDock, in inference mode to achieve efficient and accurate assessments of docked ligands. Finally, we propose a new paradigm to enhance model performance for molecular docking through fine-tuning and discuss the potential benefits of this approach. The source code is available publicly at https://github.com/BIMSBbioinfo/Compass.
翻訳日:2024-06-12 19:56:14 公開日:2024-06-10
# HO-Cap:手-手-手のインタラクションの3次元再構成と姿勢追跡のためのキャプチャシステムとデータセット

HO-Cap: A Capture System and Dataset for 3D Reconstruction and Pose Tracking of Hand-Object Interaction ( http://arxiv.org/abs/2406.06843v1 )

ライセンス: Link先を確認
Jikai Wang, Qifan Zhang, Yu-Wei Chao, Bowen Wen, Xiaohu Guo, Yu Xiang, (参考訳) データキャプチャシステムとHO-Capと呼ばれる新しいデータセットを導入し、ビデオ内の手や物体の3D再構成やポーズの追跡に使用することができる。 キャプチャシステムは複数のRGB-DカメラとHoloLensヘッドセットをデータ収集に使用し、高価な3Dスキャナーやモキャップシステムの使用を避ける。 そこで本研究では,手や物体の形状やポーズのアノテーションを得るための半自動的手法を提案し,手動ラベリングと比較して,必要なアノテーション時間を著しく短縮する。 このシステムでは、物体を使って異なるタスクをこなすためのビデオデータセットと、物体を片手で簡単にピックアップ・アンド・プレース・アンド・ハンドオーバし、AIとロボット操作の研究のための人間のデモとして使用できる。 我々のデータキャプチャのセットアップとアノテーションフレームワークは、コミュニティがオブジェクトと人間の手の3D形状を再構築し、それらのポーズをビデオで追跡するために使用することができる。

We introduce a data capture system and a new dataset named HO-Cap that can be used to study 3D reconstruction and pose tracking of hands and objects in videos. The capture system uses multiple RGB-D cameras and a HoloLens headset for data collection, avoiding the use of expensive 3D scanners or mocap systems. We propose a semi-automatic method to obtain annotations of shape and pose of hands and objects in the collected videos, which significantly reduces the required annotation time compared to manual labeling. With this system, we captured a video dataset of humans using objects to perform different tasks, as well as simple pick-and-place and handover of an object from one hand to the other, which can be used as human demonstrations for embodied AI and robot manipulation research. Our data capture setup and annotation framework can be used by the community to reconstruct 3D shapes of objects and human hands and track their poses in videos.
翻訳日:2024-06-12 19:56:14 公開日:2024-06-10
# 一般化W-Net:任意スタイルの漢字合成

Generalized W-Net: Arbitrary-style Chinese Character Synthesization ( http://arxiv.org/abs/2406.06847v1 )

ライセンス: Link先を確認
Haochuan Jiang, Guanyu Yang, Fei Cheng, Kaizhu Huang, (参考訳) 字体を一貫した文体で合成することは困難である。 既存のモデルは、限られた例で任意のスタイルの文字を生成するのに苦労する。 本稿では,この問題に対処する新しいW字型アーキテクチャのクラスであるGeneralized W-Netを提案する。 適応型インスタンス正規化とマルチコンテンツの導入により, 限られた例であっても, 所望のスタイルで漢字を合成できる。 トレーニング中の見知らぬスタイルを処理し、新しいキャラクタコンテンツを生成することができる。 実験により,本手法の有効性が示された。

Synthesizing Chinese characters with consistent style using few stylized examples is challenging. Existing models struggle to generate arbitrary style characters with limited examples. In this paper, we propose the Generalized W-Net, a novel class of W-shaped architectures that addresses this. By incorporating Adaptive Instance Normalization and introducing multi-content, our approach can synthesize Chinese characters in any desired style, even with limited examples. It handles seen and unseen styles during training and can generate new character contents. Experimental results demonstrate the effectiveness of our approach.
翻訳日:2024-06-12 19:56:14 公開日:2024-06-10
# 税は必要なものすべて--分類学的階層的関係のコントラスト的損失への統合

Taxes Are All You Need: Integration of Taxonomical Hierarchy Relationships into the Contrastive Loss ( http://arxiv.org/abs/2406.06848v1 )

ライセンス: Link先を確認
Kiran Kokilepersaud, Yavuz Yarici, Mohit Prabhushankar, Ghassan AlRegib, (参考訳) 本研究では,表現学習過程における分類学的階層情報の統合を可能にする,教師付きコントラッシブ・ロスを提案する。 教師付きコントラスト損失は、異なるクラスラベル(負のサンプル)を持つ画像よりも、同じクラスラベル(正のサンプル)を持つ画像が互いに近接していることを強制することによって機能する。 このアプローチの利点は、表現空間自体の構造を直接罰することである。 これにより、セマンティックな概念を符号化する際の柔軟性が向上する。 しかし、標準的な教師付きコントラスト損失は、ダウンストリームタスク(すなわちクラスラベル)に基づいたセマンティック構造のみを強制する。 実際には、クラスラベルは、分類学として知られる異なる意味関係の \emph{hierarchy の1つのレベルのみである。 例えば、分類ラベルは、しばしば動物の種を表わすが、異なる階級の間では、翼を持つ全ての動物が「鳥」であるなど、より上位の関係がある。 対照損失における重み付けペナルティとこれらの関係を明示的に説明することにより、監督された対照損失よりも優れることを示す。 さらに、医療や騒音に基づく環境に損失を組み込むことにより、分類学の概念の適応性を実証し、パフォーマンスを最大7%向上させる。

In this work, we propose a novel supervised contrastive loss that enables the integration of taxonomic hierarchy information during the representation learning process. A supervised contrastive loss operates by enforcing that images with the same class label (positive samples) project closer to each other than images with differing class labels (negative samples). The advantage of this approach is that it directly penalizes the structure of the representation space itself. This enables greater flexibility with respect to encoding semantic concepts. However, the standard supervised contrastive loss only enforces semantic structure based on the downstream task (i.e. the class label). In reality, the class label is only one level of a \emph{hierarchy of different semantic relationships known as a taxonomy}. For example, the class label is oftentimes the species of an animal, but between different classes there are higher order relationships such as all animals with wings being ``birds". We show that by explicitly accounting for these relationships with a weighting penalty in the contrastive loss we can out-perform the supervised contrastive loss. Additionally, we demonstrate the adaptability of the notion of a taxonomy by integrating our loss into medical and noise-based settings that show performance improvements by as much as 7%.
翻訳日:2024-06-12 19:56:14 公開日:2024-06-10
# 時空ホークプロセスのためのフレキシブルパラメトリック推論

Flexible Parametric Inference for Space-Time Hawkes Processes ( http://arxiv.org/abs/2406.06849v1 )

ライセンス: Link先を確認
Emilia Siviero, Guillaume Staerman, Stephan Clémençon, Thomas Moreau, (参考訳) 社会学、疫学、地震学などの現代の時空間データセットの多くは、適切なホークス時空過程が正確に捉えられるように、自励特性、トリガー、クラスタリングの挙動を同時に示している。 本稿では,これらのデータに基づいて,時空ホークスプロセスの強度関数に係わるカーネル関数のパラメータを高速かつ柔軟なパラメトリック推論手法を開発することを目的とする。 私たちの統計的アプローチは3つの重要な要素を組み合わせています。 1)有限支持のカーネルについて検討する。 2)時空領域は適切に識別され、 3) (近似)事前計算が使用される。 そこで提案する推論手法は, 高速かつ統計的に精度の高い$\ell_2$グラデーションベースの解法である。 アルゴリズムの側面を説明することに加えて、合成時空間データと実時空間データについて数値実験を行い、提案手法の妥当性を実証した。

Many modern spatio-temporal data sets, in sociology, epidemiology or seismology, for example, exhibit self-exciting characteristics, triggering and clustering behaviors both at the same time, that a suitable Hawkes space-time process can accurately capture. This paper aims to develop a fast and flexible parametric inference technique to recover the parameters of the kernel functions involved in the intensity function of a space-time Hawkes process based on such data. Our statistical approach combines three key ingredients: 1) kernels with finite support are considered, 2) the space-time domain is appropriately discretized, and 3) (approximate) precomputations are used. The inference technique we propose then consists of a $\ell_2$ gradient-based solver that is fast and statistically accurate. In addition to describing the algorithmic aspects, numerical experiments have been carried out on synthetic and real spatio-temporal data, providing solid empirical evidence of the relevance of the proposed methodology.
翻訳日:2024-06-12 19:46:28 公開日:2024-06-10
# 大規模言語モデルに対するバックドア攻撃と防衛に関する調査:セキュリティ対策の意義

A Survey of Backdoor Attacks and Defenses on Large Language Models: Implications for Security Measures ( http://arxiv.org/abs/2406.06852v1 )

ライセンス: Link先を確認
Shuai Zhao, Meihuizi Jia, Zhongliang Guo, Leilei Gan, Jie Fu, Yichao Feng, Fengjun Pan, Luu Anh Tuan, (参考訳) 人間の言語理解と複雑な問題解決のギャップを埋める大きな言語モデル(LLM)は、いくつかのNLPタスク、特にショットやゼロショットの設定において最先端のパフォーマンスを達成する。 LMMの実証可能な有効性にもかかわらず、計算リソースの制約のため、ユーザはオープンソースの言語モデルに関わり、トレーニングプロセス全体をサードパーティのプラットフォームにアウトソースする必要がある。 しかし、研究は言語モデルが潜在的なセキュリティ上の脆弱性、特にバックドア攻撃の影響を受けやすいことを実証している。 バックドア攻撃は、トレーニングサンプルやモデルウェイトを悪用することにより、ターゲットとする脆弱性を言語モデルに導入し、悪意のあるトリガーを通じてモデル応答を操作できるようにするように設計されている。 バックドア攻撃に関する既存の調査は包括的概要を提供するが、LDMを対象とするバックドア攻撃の詳細な調査は欠如している。 本稿では,このギャップを埋め,現場の最新動向を把握するために,微調整手法に着目して,LSMのバックドア攻撃に対する新たな視点を示す。 具体的には,バックドア攻撃を全パラメータ細調整,パラメータ効率のよい微調整,微調整のない攻撃の3つのカテゴリに分類する。 大規模なレビューから得られた知見に基づき、より詳細なチューニングを必要としない攻撃アルゴリズムの探索や、より隠蔽的な攻撃アルゴリズムの開発など、バックドア攻撃に関する今後の研究における重要な課題についても論じる。

The large language models (LLMs), which bridge the gap between human language understanding and complex problem-solving, achieve state-of-the-art performance on several NLP tasks, particularly in few-shot and zero-shot settings. Despite the demonstrable efficacy of LMMs, due to constraints on computational resources, users have to engage with open-source language models or outsource the entire training process to third-party platforms. However, research has demonstrated that language models are susceptible to potential security vulnerabilities, particularly in backdoor attacks. Backdoor attacks are designed to introduce targeted vulnerabilities into language models by poisoning training samples or model weights, allowing attackers to manipulate model responses through malicious triggers. While existing surveys on backdoor attacks provide a comprehensive overview, they lack an in-depth examination of backdoor attacks specifically targeting LLMs. To bridge this gap and grasp the latest trends in the field, this paper presents a novel perspective on backdoor attacks for LLMs by focusing on fine-tuning methods. Specifically, we systematically classify backdoor attacks into three categories: full-parameter fine-tuning, parameter-efficient fine-tuning, and attacks without fine-tuning. Based on insights from a substantial review, we also discuss crucial issues for future research on backdoor attacks, such as further exploring attack algorithms that do not require fine-tuning, or developing more covert attack algorithms.
翻訳日:2024-06-12 19:46:28 公開日:2024-06-10
# 顔の合成・分析・ファシリテーション : 顔の老化認識アルゴリズムの評価・分析・ファシリテーション

Synthetic Face Ageing: Evaluation, Analysis and Facilitation of Age-Robust Facial Recognition Algorithms ( http://arxiv.org/abs/2406.06932v1 )

ライセンス: Link先を確認
Wang Yao, Muhammad Ali Farooq, Joseph Lemley, Peter Corcoran, (参考訳) ヒトの老化要因に対する個人の顔を正確に認識する能力は、税関や治安局、パスポートオフィス、国立データベースシステムなど、様々な民間や政府機関にとって重要な意味を持つ。 したがって, 顔認識技術の信頼性と精度の維持と老化に伴う課題に対処するためには, 頑健な年齢不変顔認証システムの開発が重要である。 本研究は, より広い年齢層での認知に役立つ顔認識モデルの堅牢性を向上させるために, 合成老化データの利用の可能性を検討することを目的とする。 これを実現するために,我々はまず,最先端の合成時効法を評価するための実験セットを設計した。 次の段階では、合成年齢データと実年齢データを用いて、現在の深層学習に基づく顔認識アルゴリズムにおける年齢間隔の影響を調査し、厳密なトレーニングと検証を行う。 さらに、これらの合成年齢データは、顔認識アルゴリズムの促進に利用されてきた。 実験結果から, 年齢差40年画像を用いた場合, 合成年齢画像の認識率はベースラインモデルよりも3.33%高く, 年齢不変顔認識システムの性能を高めるために定量化されている合成年齢データの可能性が確認された。

The ability to accurately recognize an individual's face with respect to human aging factor holds significant importance for various private as well as government sectors such as customs and public security bureaus, passport office, and national database systems. Therefore, developing a robust age-invariant face recognition system is of crucial importance to address the challenges posed by ageing and maintain the reliability and accuracy of facial recognition technology. In this research work, the focus is to explore the feasibility of utilizing synthetic ageing data to improve the robustness of face recognition models that can eventually help in recognizing people at broader age intervals. To achieve this, we first design set of experiments to evaluate state-of-the-art synthetic ageing methods. In the next stage we explore the effect of age intervals on a current deep learning-based face recognition algorithm by using synthetic ageing data as well as real ageing data to perform rigorous training and validation. Moreover, these synthetic age data have been used in facilitating face recognition algorithms. Experimental results show that the recognition rate of the model trained on synthetic ageing images is 3.33% higher than the results of the baseline model when tested on images with an age gap of 40 years, which prove the potential of synthetic age data which has been quantified to enhance the performance of age-invariant face recognition systems.
翻訳日:2024-06-12 17:35:03 公開日:2024-06-10
# 量子符号のためのFold-Transversal Clifford Gates

Fold-Transversal Clifford Gates for Quantum Codes ( http://arxiv.org/abs/2202.06647v3 )

ライセンス: Link先を確認
Nikolas P. Breuckmann, Simon Burton, (参考訳) 曲面符号からCSS符号への折り畳みの概念を,その内のある双対性を考えることによって一般化する。 特に、この方法では、トランスバーサルゲートとキュービット置換のみを使用して、適切なLDPC量子コードに論理演算を実装する一般的な方法が提供される。 このアプローチを実証するために、特に[[30, 8, 3]] 双曲量子コード(Bring's code)について検討する。 さらに、Bring の符号の論理部分空間を 4 つのキュービットに制限することにより、その部分空間上の完全なクリフォード群を得ることができることを示す。

We generalize the concept of folding from surface codes to CSS codes by considering certain dualities within them. In particular, this gives a general method to implement logical operations in suitable LDPC quantum codes using transversal gates and qubit permutations only. To demonstrate our approach, we specifically consider a [[30, 8, 3]] hyperbolic quantum code called Bring's code. Further, we show that by restricting the logical subspace of Bring's code to four qubits, we can obtain the full Clifford group on that subspace.
翻訳日:2024-06-12 10:30:28 公開日:2024-06-10
# 遅発性ホモフィリーに適応した治療コミュニティにおけるピールの影響の同定

Identifying Peer Influence in Therapeutic Communities Adjusting for Latent Homophily ( http://arxiv.org/abs/2203.14223v4 )

ライセンス: Link先を確認
Shanjukta Nath, Keith Warren, Subhadeep Paul, (参考訳) 薬物乱用や犯罪行為に対する対人的役割モデルの影響について検討した。 住民間の確認書の交換記録と正確な入出日日を記録する3TCのデータを用いて、ピアネットワークを形成し、関心の因果効果を定義する。 ロール・モデル・エフェクトは、エゴの退学または卒業しない前に仲間の一人が卒業する様子を観察できる居住者(エゴ)の期待結果の差を測定する。 観測データに観測されていないホモフィリーが存在する場合のピアの影響を同定するために,潜時変動モデルを用いてネットワークをモデル化する。 観測ネットワークから観測された非観測潜伏位置を推定した場合、我々のピアインフルエンス推定器は漸近的に不偏であることを示す。 また,遅延位置の推定によるバイアスの低減を図るため,誤差補正手法を提案する。 シミュレーションにより, 有限サンプルにおいて, 提案した遅延ホモフィリ調整とバイアス補正が良好に動作することを示す。 また、この手法をプロビットモデルによるバイナリ応答の場合にも拡張する。 以上の結果から,友人の卒業が住民の卒業に与える影響は,性別,人種,役割モデルの効果の定義によって異なることが示唆された。 カウンターファクト・エクササイズは、ネットワークの伝播を通じて、被治療者の直接的および間接的に、介入の潜在的利益を定量化する。

We investigate peer role model influence on successful graduation from Therapeutic Communities (TCs) for substance abuse and criminal behavior. We use data from 3 TCs that kept records of exchanges of affirmations among residents and their precise entry and exit dates, allowing us to form peer networks and define a causal effect of interest. The role model effect measures the difference in the expected outcome of a resident (ego) who can observe one of their peers graduate before the ego's exit vs not graduating. To identify peer influence in the presence of unobserved homophily in observational data, we model the network with a latent variable model. We show that our peer influence estimator is asymptotically unbiased when the unobserved latent positions are estimated from the observed network. We additionally propose a measurement error bias correction method to further reduce bias due to estimating latent positions. Our simulations show the proposed latent homophily adjustment and bias correction perform well in finite samples. We also extend the methodology to the case of binary response with a probit model. Our results indicate a positive effect of peers' graduation on residents' graduation and that it differs based on gender, race, and the definition of the role model effect. A counterfactual exercise quantifies the potential benefits of an intervention directly on the treated resident and indirectly on their peers through network propagation.
翻訳日:2024-06-12 10:27:01 公開日:2024-06-10
# 大規模レジームにおけるResNetのスケーリング

Scaling ResNets in the Large-depth Regime ( http://arxiv.org/abs/2206.06929v2 )

ライセンス: Link先を確認
Pierre Marion, Adeline Fermanian, Gérard Biau, Jean-Philippe Vert, (参考訳) Deep ResNetは、複雑な機械学習タスクで最先端の結果を達成するために認識されている。 しかしながら、これらのアーキテクチャの顕著なパフォーマンスは、特に深度$L$が増加するにつれて、勾配の消滅や爆発を避けるために慎重に設計する必要があるトレーニング手順に依存している。 この問題を緩和する方法については合意が得られていないが、広く議論されている戦略は各レイヤの出力を$\alpha_L$でスケーリングすることである。 確率的設定では、標準 i.d.~初期化の場合、唯一の非自明な力学は$\alpha_L = \frac{1}{\sqrt{L}}$である。 このスケーリング係数は、ニューラル・確率微分方程式の連続時間限界に対応し、ディープ・レスネットがニューラル・常微分方程式の離散化であるという広い解釈に反する。 対照的に後者の場合、安定性は特定の相関した初期化と$\alpha_L = \frac{1}{L}$で得られる。 分析の結果,重みのスケーリングと正則性の間には,層指数の関数としての強い相互作用が示唆された。 最後に、一連の実験において、これらの2つのパラメータによって駆動される一連の規則を示し、トレーニング前後のパフォーマンスに共同的に影響を及ぼす。

Deep ResNets are recognized for achieving state-of-the-art results in complex machine learning tasks. However, the remarkable performance of these architectures relies on a training procedure that needs to be carefully crafted to avoid vanishing or exploding gradients, particularly as the depth $L$ increases. No consensus has been reached on how to mitigate this issue, although a widely discussed strategy consists in scaling the output of each layer by a factor $\alpha_L$. We show in a probabilistic setting that with standard i.i.d.~initializations, the only non-trivial dynamics is for $\alpha_L = \frac{1}{\sqrt{L}}$; other choices lead either to explosion or to identity mapping. This scaling factor corresponds in the continuous-time limit to a neural stochastic differential equation, contrarily to a widespread interpretation that deep ResNets are discretizations of neural ordinary differential equations. By contrast, in the latter regime, stability is obtained with specific correlated initializations and $\alpha_L = \frac{1}{L}$. Our analysis suggests a strong interplay between scaling and regularity of the weights as a function of the layer index. Finally, in a series of experiments, we exhibit a continuous range of regimes driven by these two parameters, which jointly impact performance before and after training.
翻訳日:2024-06-12 10:27:01 公開日:2024-06-10
# 二元活性化ニューラルネットワークの解釈可能性と説明可能性

Seeking Interpretability and Explainability in Binary Activated Neural Networks ( http://arxiv.org/abs/2209.03450v3 )

ライセンス: Link先を確認
Benjamin Leblanc, Pascal Germain, (参考訳) グラフデータ上の回帰タスクの文脈において、二項活性化ニューラルネットワークを解釈可能で説明可能な予測子として使用することについて検討し、より具体的には、それらの表現性に関する保証を提供し、SHAP値の効率的な計算に基づいて、特徴、隠れニューロン、さらには重みの相対的重要性を定量化するアプローチを提案する。 モデルの単純さは解釈可能性を達成するのに有効であるため、コンパクトなバイナリアクティブネットワークを構築するための欲求的アルゴリズムを提案する。 このアプローチは、ネットワークのアーキテクチャを事前に修正する必要はなく、一度に1つのレイヤを構築し、一度に1つのニューロンを構築し、あるタスクに対して不要に複雑でない予測器に繋がる。

We study the use of binary activated neural networks as interpretable and explainable predictors in the context of regression tasks on tabular data; more specifically, we provide guarantees on their expressiveness, present an approach based on the efficient computation of SHAP values for quantifying the relative importance of the features, hidden neurons and even weights. As the model's simplicity is instrumental in achieving interpretability, we propose a greedy algorithm for building compact binary activated networks. This approach doesn't need to fix an architecture for the network in advance: it is built one layer at a time, one neuron at a time, leading to predictors that aren't needlessly complex for a given task.
翻訳日:2024-06-12 10:27:01 公開日:2024-06-10
# Synchronic Web

The Synchronic Web ( http://arxiv.org/abs/2301.10733v2 )

ライセンス: Link先を確認
Thien-Nam Dinh, Nicholas Pattengale, Steven Elliott, (参考訳) Synchronic Web(シンクロニックウェブ)は、World Wide Web上のデータを保護するための分散ネットワークである。 世界中のクライアントがデジタル情報を単一の共有された歴史ビューに自由にコミットできるようにすることで、インターネット全体で分散的でスケーラブルな信頼を構築するための基礎となる真実を提供する。 その中核的な暗号能力は、相互に不信任された当事者が次の形式の声明を作成し、検証することを可能にしている:「私はこの情報にコミットする。 Synchronic Webインフラストラクチャのバックボーンは、シンプルで、小さく、セマンティックフリーなブロックチェーンで、あらゆるインターネット対応のエンティティにアクセスできます。 インフラストラクチャは、Notariesと呼ばれるよく知られたサーバの許可されたネットワークによって維持され、Leadgerと呼ばれる無許可のクライアントグループによってアクセスされる。 フレキシブルで構成可能なセマンティック仕様の進化を通じて、当事者は任意のデータに対して同期的なコミットメントを生成する。 さまざまなドメインに適応し、サイバー空間の広い範囲に拡張された既存のインフラストラクチャと統合されると、Synchronic Webは、世界のデータを離散時間とデジタル空間でユニークなポイントにロックするユビキタスなメカニズムを提供する。

The Synchronic Web is a distributed network for securing data provenance on the World Wide Web. By enabling clients around the world to freely commit digital information into a single shared view of history, it provides a foundational basis of truth on which to build decentralized and scalable trust across the Internet. Its core cryptographical capability allows mutually distrusting parties to create and verify statements of the following form: "I commit to this information--and only this information--at this moment in time." The backbone of the Synchronic Web infrastructure is a simple, small, and semantic-free blockchain that is accessible to any Internet-enabled entity. The infrastructure is maintained by a permissioned network of well-known servers, called notaries, and accessed by a permissionless group of clients, called ledgers. Through an evolving stack of flexible and composable semantic specifications, the parties cooperate to generate synchronic commitments over arbitrary data. When integrated with existing infrastructures, adapted to diverse domains, and scaled across the breadth of cyberspace, the Synchronic Web provides a ubiquitous mechanism to lock the world's data into unique points in discrete time and digital space.
翻訳日:2024-06-12 10:27:01 公開日:2024-06-10
# 非定型音声へのASRのパーソナライズのためのハイパーネット

Hypernetworks for Personalizing ASR to Atypical Speech ( http://arxiv.org/abs/2406.04240v3 )

ライセンス: Link先を確認
Max Müller-Eberstein, Dianna Yee, Karren Yang, Gautam Varma Mantena, Colin Lea, (参考訳) 自動音声認識(ASR)をパーソナライズするためのパラメータ効率のよい微調整(PEFT)は,最近,一般集団モデルを非定型音声に適用することを約束している。 しかし、これらのアプローチは、非典型的言語障害が適応されているという先駆的な知識を前提としており、その診断には、常に利用できるわけではない専門家の知識が必要である。 この知識を踏まえると、データ不足とイントラスピーカー間の高いばらつきにより、従来の微調整の有効性はさらに制限される。 これらの課題を回避するために、まずASR適応に必要なモデルパラメータの最小セットを同定する。 適応性能に対する各パラメータの影響の分析により,全重みの0.03%を適応しながらワード誤り率(WER)を半減することができる。 次に,コホート固有モデルの必要性を軽減し,多種多様な非定型音声特性に対して,高度に個別化された発話レベル適応を生成するメタ学習型ハイパーネットワークを提案する。 グローバル,コホート,個人レベルでの適応を評価することで,ハイパーネットワークは,全パラメータ予算の0.1%を用いて,WER全体の75.2%削減を維持しつつ,アウト・オブ・ディストリビューション話者よりも一般化されていることを示す。

Parameter-efficient fine-tuning (PEFT) for personalizing automatic speech recognition (ASR) has recently shown promise for adapting general population models to atypical speech. However, these approaches assume a priori knowledge of the atypical speech disorder being adapted for -- the diagnosis of which requires expert knowledge that is not always available. Even given this knowledge, data scarcity and high inter/intra-speaker variability further limit the effectiveness of traditional fine-tuning. To circumvent these challenges, we first identify the minimal set of model parameters required for ASR adaptation. Our analysis of each individual parameter's effect on adaptation performance allows us to reduce Word Error Rate (WER) by half while adapting 0.03% of all weights. Alleviating the need for cohort-specific models, we next propose the novel use of a meta-learned hypernetwork to generate highly individualized, utterance-level adaptations on-the-fly for a diverse set of atypical speech characteristics. Evaluating adaptation at the global, cohort and individual-level, we show that hypernetworks generalize better to out-of-distribution speakers, while maintaining an overall relative WER reduction of 75.2% using 0.1% of the full parameter budget.
翻訳日:2024-06-12 10:17:16 公開日:2024-06-10
# 言語モデルにとって容易な言語とは何か?確率論的正規言語学習の視点から

What Languages are Easy to Language-Model? A Perspective from Learning Probabilistic Regular Languages ( http://arxiv.org/abs/2406.04289v3 )

ライセンス: Link先を確認
Nadav Borenstein, Anej Svete, Robin Chan, Josef Valvoda, Franz Nowak, Isabelle Augenstein, Eleanor Chodroff, Ryan Cotterell, (参考訳) 大規模言語モデルは何を学ぶことができるのか? 定義上、言語モデル(LM)は文字列上の分布である。 したがって、上記の問題に直感的に対処する方法は、文字列上の分布のクラスを学習可能な問題として定式化することである。 この方向の先行研究は、理論的な限界を評価することに重点を置いているが、対照的に、経験的学習可能性を理解しようと試みている。 従来の経験的作業とは違って、フォーマルな言語の分類子としてではなく、自宅の芝刈り学習における確率的言語上でのニューラルLMを評価する。 特に、RNNとTransformer LMによる通常のLM(RLM)の学習可能性について検討する。 本研究では,RLMの様々な複雑性パラメータの関数として,RLMの学習可能性とニューラルLMの隠れ状態サイズを実証的に検証する。 その結果, RNN と Transformer の双方において, RLM のランクは条件分布のロジットに代表される線形空間の大きさに対応し, サンプル文字列の長さは強く, 有意な学習可能性の予測因子であることが判明した。 他にもいくつかの予測器が重要になるが、RNNとTransformerのパターンが異なる。

What can large language models learn? By definition, language models (LM) are distributions over strings. Therefore, an intuitive way of addressing the above question is to formalize it as a matter of learnability of classes of distributions over strings. While prior work in this direction focused on assessing the theoretical limits, in contrast, we seek to understand the empirical learnability. Unlike prior empirical work, we evaluate neural LMs on their home turf-learning probabilistic languages-rather than as classifiers of formal languages. In particular, we investigate the learnability of regular LMs (RLMs) by RNN and Transformer LMs. We empirically test the learnability of RLMs as a function of various complexity parameters of the RLM and the hidden state size of the neural LM. We find that the RLM rank, which corresponds to the size of linear space spanned by the logits of its conditional distributions, and the expected length of sampled strings are strong and significant predictors of learnability for both RNNs and Transformers. Several other predictors also reach significance, but with differing patterns between RNNs and Transformers.
翻訳日:2024-06-12 10:17:16 公開日:2024-06-10
# 無限均一導波路アレイに対するコヒーレント状態:$E(2)$のコーシーコヒーレント状態

Coherent States for infinite homogeneous waveguide arrays: Cauchy coherent states for $E(2)$ ( http://arxiv.org/abs/2112.00872v4 )

ライセンス: Link先を確認
Julio Guerrero, Francisco F. López-Ruiz, (参考訳) ユークリッドE(2)対称性を持つ等間隔無限均一導波管アレイに対するペロモフコヒーレント状態を定義し、その恒等性の新しい解を求める。 このアイデンティティーのこの新しい解決を構築するための重要なポイントは、コヒーレント状態がヘルムホルツ方程式(コヒーレント状態ラベル)を満たすという事実であり、したがって全てのコヒーレント状態は1次元のコーシー集合におけるコヒーレント状態のコーシー初期データによって一意に決定される1パラメータ族に属する。 このため、これらの初期データに対して \textit{Cauchy coherent} を呼び出します。 コーシーコヒーレント状態(英語版)の観点からの恒等性の新規で非局所的な解法は、フレーム理論を用いて提供される。 また、ユークリアン E(2) 群に対するペレロモフコヒーレント状態はこれらの導波路アレイにおいて単純で自然な物理的実現を持つことを示した。

Perelomov coherent states for equally spaced, infinite homogeneous waveguide arrays with Euclidean E(2) symmetry are defined, and a new resolution of the identity is obtained. The key point to construct this novel resolution of the identity is the fact that coherent states satisfy the Helmholtz equation (in coherent states labels), and thus every coherent state belongs to a one-parameter family uniquely determined by the Cauchy initial data of the coherent state in a one-dimensional Cauchy set. For this reason we call \textit{Cauchy coherent} states to these initial data. The novel, non-local resolution of the identity in terms of Cauchy coherent states is provided using frame theory. It is also shown that Perelomov coherent states for the Eucliean E(2) group have a simple and natural physical realization in these waveguide arrays.
翻訳日:2024-06-12 06:17:55 公開日:2024-06-10
# AMED:エッジデバイスの自動混合精度量子化

AMED: Automatic Mixed-Precision Quantization for Edge Devices ( http://arxiv.org/abs/2205.15437v2 )

ライセンス: Link先を確認
Moshe Kimhi, Tal Rozen, Avi Mendelson, Chaim Baskin, (参考訳) 量子ニューラルネットワークは、レイテンシ、消費電力、モデルサイズをパフォーマンスに大きな影響を与えずに減少させることでよく知られている。 これにより、限られたリソースと低電力容量のシステムに非常に適している。 混合精度量子化は、異なるビット幅での算術演算をサポートするカスタマイズされたハードウェアのより良い利用を提供する。 量子化法は、所望の縮小が与えられたときの圧縮損失を最小限に抑えるか、モデルの特定の特性(FLOPやモデルサイズなど)に対して依存変数を最適化する。 この仮定に従うと、最適な最小限の変化は精度が変化するので、量子化をランダムなプロセスとして見て、トレーニング手順の間、モデルを異なる精度に量子化し、マルコフ決定プロセスとしてビット割り当てを見て、特定のハードウェアアーキテクチャからの直接信号を介して特定のデバイス上の特定の振る舞いを測定するのに最適なビット幅割当を求める、異なるアプローチの基盤を置く方がよい。 これにより、損失が量子化モデルと同じような振る舞いをするという基本的な仮定を避けることができる。 エッジデバイスの自動混合精度量子化(AMED)は、ニューラルネットワークの精度とハードウェア効率のトレードオフの観点から、現在の最先端のスキームよりも優位性を示している。

Quantized neural networks are well known for reducing the latency, power consumption, and model size without significant harm to the performance. This makes them highly appropriate for systems with limited resources and low power capacity. Mixed-precision quantization offers better utilization of customized hardware that supports arithmetic operations at different bitwidths. Quantization methods either aim to minimize the compression loss given a desired reduction or optimize a dependent variable for a specified property of the model (such as FLOPs or model size); both make the performance inefficient when deployed on specific hardware, but more importantly, quantization methods assume that the loss manifold holds a global minimum for a quantized model that copes with the global minimum of the full precision counterpart. Challenging this assumption, we argue that the optimal minimum changes as the precision changes, and thus, it is better to look at quantization as a random process, placing the foundation for a different approach to quantize neural networks, which, during the training procedure, quantizes the model to a different precision, looks at the bit allocation as a Markov Decision Process, and then, finds an optimal bitwidth allocation for measuring specified behaviors on a specific device via direct signals from the particular hardware architecture. By doing so, we avoid the basic assumption that the loss behaves the same way for a quantized model. Automatic Mixed-Precision Quantization for Edge Devices (dubbed AMED) demonstrates its superiority over current state-of-the-art schemes in terms of the trade-off between neural network accuracy and hardware efficiency, backed by a comprehensive evaluation.
翻訳日:2024-06-12 06:17:55 公開日:2024-06-10
# 任意状態のためのハイゼンベルク画像における量子情報の局所性について

On Locality of Quantum Information in the Heisenberg Picture for Arbitrary States ( http://arxiv.org/abs/2209.02695v4 )

ライセンス: Link先を確認
Otto C. W. Kong, (参考訳) 量子力学の局所性問題は、量子物理学などに対する適切な理解の鍵となる問題である。 一般に量子非局所性(quantum nonlocality)として強調されているものは、量子情報のハイゼンベルク図(Heisenberg picture of quantum information)の概念を通じて、刺激的な検査を受けている。 DeutschとHaydenは量子ビット系の量子情報フローの設定において量子情報の局所的な記述を確立した。 可観測体のDeutsch-Hayden行列値のわずかに修正されたバージョンを導入し、より基本的な観点から最近導入された非可換値の並列的な概念と合わせて、一般合成系の任意の任意の任意の任意の任意の状態において局所可観測者が持つ量子情報のような値に基づくすべての局所性問題を明らかにする。 観測可能な値の「量子」値」としての量子情報は、すべての概念を透過的に表現する。 射影測定のための空間的局所性についても論じる。 押し付けられた疑問は、新しい実験的な思考でのみ対処できる局所的なプロセスを通じて、絡み合ったシステムに対するそのような情報が取り出すことができるかどうかである。

The locality issue of quantum mechanics is a key issue to a proper understanding of quantum physics and beyond. What has been commonly emphasized as quantum nonlocality has received an inspiring examination through the notion of Heisenberg picture of quantum information. Deutsch and Hayden established a local description of quantum information in a setting of quantum information flow in a system of qubits. With the introduction of a slightly modified version of what we call the Deutsch-Hayden matrix values of observables, together with our recently introduced parallel notion of the noncommutative values from a more fundamental perspective, we clarify all the locality issues based on such values as quantum information carried by local observables in any given arbitrary state of a generic composite system. Quantum information as the {\em `quantum' values} of observables gives a transparent conceptual picture of all the. Spatial locality for a projective measurement is also discussed. The pressing question is if and how such information for an entangled system can be retrieved through local processes which can only be addressed with new experimental thinking.
翻訳日:2024-06-12 06:08:09 公開日:2024-06-10
# ディープラーニングを使って次のユニコーンを見つける: 実践的な合成

Using Deep Learning to Find the Next Unicorn: A Practical Synthesis ( http://arxiv.org/abs/2210.14195v2 )

ライセンス: Link先を確認
Lele Cao, Vilhelm von Ehrenheim, Sebastian Krakowski, Xiaoxue Li, Alexandra Lutz, (参考訳) スタートアップはしばしば、破壊的なイノベーションと高いスケーラビリティに関連する、新しく確立されたビジネスモデルを表現する。 経済・社会発展の強力なエンジンとして一般に見なされている。 一方、スタートアップは資金不足や人的資源の制限など、多くの要因に強く制約されている。 したがって、スタートアップが最終的に成功するチャンスは、"野生のユニコーンを見つける"ことと同じくらい稀である。 Venture Capital(VC)は、ユニコーンスタートアップを早期に特定し、投資し、高いリターンを得ることを期待している。 人間のドメインの専門知識や直観に完全に依存することを避けるため、投資家は通常、スタートアップの成功確率を予測するためにデータ駆動アプローチを採用する。 過去20年間、業界は従来の統計的アプローチから機械学習(ML)ベースのものへと移行してきた。 特に、データ量と多様性の急速な成長は、MLのサブセットであるディープラーニング(DL)において、キャパシティと表現力の面で潜在的に優れたアプローチとして急速に浸透している。 本研究は,DLのライフサイクル全体をカバーする,DLベースのアプローチに関する文献レビューと合成を行う。 目的は イ DLを用いた起動評価の方法論の徹底的かつ徹底的な理解を得ること。 b) 実践者にとって価値ある実効性のある学習を駆除すること。 私たちの知る限りでは、私たちの仕事はこの種の最初のものです。

Startups often represent newly established business models associated with disruptive innovation and high scalability. They are commonly regarded as powerful engines for economic and social development. Meanwhile, startups are heavily constrained by many factors such as limited financial funding and human resources. Therefore, the chance for a startup to eventually succeed is as rare as "spotting a unicorn in the wild". Venture Capital (VC) strives to identify and invest in unicorn startups during their early stages, hoping to gain a high return. To avoid entirely relying on human domain expertise and intuition, investors usually employ data-driven approaches to forecast the success probability of startups. Over the past two decades, the industry has gone through a paradigm shift moving from conventional statistical approaches towards becoming machine-learning (ML) based. Notably, the rapid growth of data volume and variety is quickly ushering in deep learning (DL), a subset of ML, as a potentially superior approach in terms of capacity and expressivity. In this work, we carry out a literature review and synthesis on DL-based approaches, covering the entire DL life cycle. The objective is a) to obtain a thorough and in-depth understanding of the methodologies for startup evaluation using DL, and b) to distil valuable and actionable learning for practitioners. To the best of our knowledge, our work is the first of this kind.
翻訳日:2024-06-12 06:08:09 公開日:2024-06-10
# 皮膚疾患の鑑別診断を改善するための解釈不能な半教師付きディープラーニングフレームワーク

An interpretable imbalanced semi-supervised deep learning framework for improving differential diagnosis of skin diseases ( http://arxiv.org/abs/2211.10858v3 )

ライセンス: Link先を確認
Futian Weng, Yuanting Ma, Jinghan Sun, Shijun Shan, Qiyuan Li, Jianping Zhu, Yang Wang, Yan Xu, (参考訳) 皮膚科疾患は世界で最も一般的な疾患の一つである。 本稿では, 58,457枚の皮膚画像と10,857枚の未表示サンプルを用いて, マルチクラスインテリジェント皮膚診断フレームワーク(ISDL)の解釈可能性と非バランスな半教師あり学習について検討した。 マイノリティクラスからの擬似ラベル付きサンプルは、クラス分散自己学習の各イテレーションにおいて高い確率を持ち、その結果、クラス不均衡問題を解決するためにラベル付きサンプルの利用が促進される。 ISDLは0.979の精度,0.975の感度,0.973の特異度,0.974のマクロF1スコア,およびマルチラベル皮膚疾患分類における0.999の受信操作特性曲線(AUC)以下の領域を有望な性能で達成した。 Shapley Additive explanation (SHAP) 法はISDLと組み合わせて,ディープラーニングモデルがどのように予測を行うかを説明する。 この所見は臨床診断と一致している。 また,ISDLplusを用いて疑似ラベル付きサンプルをより効果的に選別するためのサンプリング分布最適化手法を提案した。 さらに、専門医へのプレッシャーを和らげる可能性や、農村部におけるそのような医師の不足に伴う実践的な問題も解決する可能性がある。

Dermatological diseases are among the most common disorders worldwide. This paper presents the first study of the interpretability and imbalanced semi-supervised learning of the multiclass intelligent skin diagnosis framework (ISDL) using 58,457 skin images with 10,857 unlabeled samples. Pseudo-labelled samples from minority classes have a higher probability at each iteration of class-rebalancing self-training, thereby promoting the utilization of unlabeled samples to solve the class imbalance problem. Our ISDL achieved a promising performance with an accuracy of 0.979, sensitivity of 0.975, specificity of 0.973, macro-F1 score of 0.974 and area under the receiver operating characteristic curve (AUC) of 0.999 for multi-label skin disease classification. The Shapley Additive explanation (SHAP) method is combined with our ISDL to explain how the deep learning model makes predictions. This finding is consistent with the clinical diagnosis. We also proposed a sampling distribution optimisation strategy to select pseudo-labelled samples in a more effective manner using ISDLplus. Furthermore, it has the potential to relieve the pressure placed on professional doctors, as well as help with practical issues associated with a shortage of such doctors in rural areas.
翻訳日:2024-06-12 06:08:09 公開日:2024-06-10
# PAC-Bayesian Soft Actor-Critic Learning

PAC-Bayesian Soft Actor-Critic Learning ( http://arxiv.org/abs/2301.12776v3 )

ライセンス: Link先を確認
Bahareh Tasdighi, Abdullah Akgül, Manuel Haussmann, Kenny Kazimirzak Brink, Melih Kandemir, (参考訳) アクター批判アルゴリズムは、強化学習(RL)と政策評価と2つの関数近似器による改善という2つの目標に対処する。 このアプローチの実践性は、主に批評家の近似誤差が俳優に与える破壊的な影響により、トレーニング不安定を犠牲にすることにある。 我々は,このボトルネックに,Soft Actor-Critic (SAC) アルゴリズムの批判的トレーニング目標として,既存の確率的近似(PAC)ベイズ境界を初めて採用することによって対処する。 さらに,批評家によるランダム検索により,確率的アクターが複数の未来を探索する際に,オンライン学習性能が著しく向上することを示す。 提案アルゴリズムは,サンプル効率と後悔の両方の観点から,複数の古典的制御タスクと移動タスクに対する最先端のSAC実装とを良好に比較する。

Actor-critic algorithms address the dual goals of reinforcement learning (RL), policy evaluation and improvement via two separate function approximators. The practicality of this approach comes at the expense of training instability, caused mainly by the destructive effect of the approximation errors of the critic on the actor. We tackle this bottleneck by employing an existing Probably Approximately Correct (PAC) Bayesian bound for the first time as the critic training objective of the Soft Actor-Critic (SAC) algorithm. We further demonstrate that online learning performance improves significantly when a stochastic actor explores multiple futures by critic-guided random search. We observe our resulting algorithm to compare favorably against the state-of-the-art SAC implementation on multiple classical control and locomotion tasks in terms of both sample efficiency and regret.
翻訳日:2024-06-12 05:58:24 公開日:2024-06-10
# 誘導型局所ハミルトニアン問題とヒューリスティックアンセッツェ状態生成と量子PCP導出

Guidable Local Hamiltonian Problems with Implications to Heuristic Ansätze State Preparation and the Quantum PCP Conjecture ( http://arxiv.org/abs/2302.11578v3 )

ライセンス: Link先を確認
Jordi Weggemans, Marten Folkertsma, Chris Cade, (参考訳) 我々は、最近定義されたガイド・ローカル・ハミルトン問題(英語版)の'Merlinized'バージョンについて研究し、これを'Guidable Local Hamiltonian'問題と呼ぶ。 ガイドされた問題とは違って、これらの問題は入力の一部として提供される指針状態ではなく、単に存在を約束するものである。 特に、量子回路によって効率的に準備できる状態と、古典的に評価可能な量子状態のクラスに属する状態の2つのクラスを考える。 誘導状態の両クラスに対する誘導可能な局所ハミルトン問題は、逆多項式的精度設定では$\mathsf{QCMA}$-完全であるが、誘導状態が古典的に評価可能な定数精度規則では$\mathsf{NP}$(または$\mathsf{NqP}$)内にあることを示す。 我々の完全性の結果は、複雑性理論の観点から、古典的ヒューリスティックによって選択された古典的Ans\atzeは、量子位相推定にアクセスできる限り、量子ヒューリスティックによって作成される量子Ans\atzeと同じくらい強力であることを示している。 量子PCP予想に関して、我々は i) 量子古典的確率的検証可能な証明系をキャプチャする複雑性クラスを定義し、定数証明クエリに対して$\mathsf{BQP}^{\mathsf{NP}[1]}$に含まれることを示す。 (ii) 既知の量子還元の「復号化」において、$\mathsf{QPCP}$-verification 回路を一定の公約ギャップを持つ局所ハミルトニアンに写像するノーゴー結果を与える。 (iii)特定の基底状態特性を保持する量子ギャップ増幅法の存在について、いくつかのノーゴー結果を与える。 (iv) NLTS定理のより強いバージョンと見なせる2つの予想を提案する。 最後に、我々の結果の多くは、クラス $\mathsf{MA}$ の同様の結果を得るために直接修正可能であることを示す。

We study 'Merlinized' versions of the recently defined Guided Local Hamiltonian problem, which we call 'Guidable Local Hamiltonian' problems. Unlike their guided counterparts, these problems do not have a guiding state provided as a part of the input, but merely come with the promise that one exists. We consider in particular two classes of guiding states: those that can be prepared efficiently by a quantum circuit; and those belonging to a class of quantum states we call classically evaluatable, for which it is possible to efficiently compute expectation values of local observables classically. We show that guidable local Hamiltonian problems for both classes of guiding states are $\mathsf{QCMA}$-complete in the inverse-polynomial precision setting, but lie within $\mathsf{NP}$ (or $\mathsf{NqP}$) in the constant precision regime when the guiding state is classically evaluatable. Our completeness results show that, from a complexity-theoretic perspective, classical Ans\"atze selected by classical heuristics are just as powerful as quantum Ans\"atze prepared by quantum heuristics, as long as one has access to quantum phase estimation. In relation to the quantum PCP conjecture, we (i) define a complexity class capturing quantum-classical probabilistically checkable proof systems and show that it is contained in $\mathsf{BQP}^{\mathsf{NP}[1]}$ for constant proof queries; (ii) give a no-go result on 'dequantizing' the known quantum reduction which maps a $\mathsf{QPCP}$-verification circuit to a local Hamiltonian with constant promise gap; (iii) give several no-go results for the existence of quantum gap amplification procedures that preserve certain ground state properties; and (iv) propose two conjectures that can be viewed as stronger versions of the NLTS theorem. Finally, we show that many of our results can be directly modified to obtain similar results for the class $\mathsf{MA}$.
翻訳日:2024-06-12 05:58:24 公開日:2024-06-10
# モード適応線形ユニット(MoLU)

Moderate Adaptive Linear Units (MoLU) ( http://arxiv.org/abs/2302.13696v4 )

ライセンス: Link先を確認
Hankyul Koh, Joon-hyuk Ko, Wonho Jhe, (参考訳) 深層ニューラルネットワークのための新しい高性能アクティベーション関数であるModrate Adaptive Linear Units (MoLU)を提案する。 MoLUはシンプルで美しく強力なアクティベーション関数であり、数百のアクティベーション関数の中で優れたメインアクティベーション関数となる。 MoLU は基本函数からなるので、無限微分同相(すなわち、領域全体の滑らかかつ無限に微分可能)であるだけでなく、訓練時間も減少する。

We propose a new high-performance activation function, Moderate Adaptive Linear Units (MoLU), for the deep neural network. The MoLU is a simple, beautiful and powerful activation function that can be a good main activation function among hundreds of activation functions. Because the MoLU is made up of the elementary functions, not only it is a infinite diffeomorphism (i.e. smooth and infinitely differentiable over whole domains), but also it decreases training time.
翻訳日:2024-06-12 05:58:24 公開日:2024-06-10
# QuickCent: スケールフリーネットワーク上での高調波中心性推定のための高速かつフレジャルなヒューリスティック

QuickCent: a fast and frugal heuristic for harmonic centrality estimation on scale-free networks ( http://arxiv.org/abs/2303.00927v2 )

ライセンス: Link先を確認
Francisco Plana, Andrés Abeliuk, Jorge Pérez, (参考訳) 本稿では,ネットワーク集中度指数を近似する簡易かつ迅速な手法を提案する。 私たちのアプローチはQuickCentと呼ばれ、人間の意思決定と推論のプロセスをモデル化するために最初に提案されたヒューリスティックな、いわゆる高速かつフリガルなヒューリスティックスにインスパイアされています。 我々が見積もっている中心性指数は調和中心性であり、これは最短パス距離に基づく測度であり、大網での計算が不可能である。 我々はQuickCentと、優先的なアタッチメントで生成された合成データと、いくつかの経験的ネットワークについて、既知の機械学習アルゴリズムを比較した。 我々の実験によると、QuickCentは、合成スケールフリーネットワークや経験的ネットワークでテストされた最良の代替手法と、精度で競合する推定を行うことができる。 QuickCentには、小さなトレーニングセットであっても、低いエラー分散推定を達成するという特徴がある。 さらに、QuickCentは、より複雑なメソッドによって生成されるもの(精度と時間コスト)に匹敵する効率である。 我々は,QuickCentが優先的なアタッチメントによって生成されたようなネットワークにおいて,ノードがアクセス可能なネットワーク領域のサイズのプロキシとなり,高調波中心性などのサイズに基づいて集中度指標を近似する可能性を示す。 最初の結果は、単純なヒューリスティックスと生物学的にインスパイアされた計算手法が、ネットワーク測度推定の文脈における有望な研究ラインであることを示している。

We present a simple and quick method to approximate network centrality indexes. Our approach, called QuickCent, is inspired by so-called fast and frugal heuristics, which are heuristics initially proposed to model some human decision and inference processes. The centrality index that we estimate is the harmonic centrality, which is a measure based on shortest-path distances, so infeasible to compute on large networks. We compare QuickCent with known machine learning algorithms on synthetic data generated with preferential attachment, and some empirical networks. Our experiments show that QuickCent is able to make estimates that are competitive in accuracy with the best alternative methods tested, either on synthetic scale-free networks or empirical networks. QuickCent has the feature of achieving low error variance estimates, even with a small training set. Moreover, QuickCent is comparable in efficiency -- accuracy and time cost -- to those produced by more complex methods. We discuss and provide some insight into how QuickCent exploits the fact that in some networks, such as those generated by preferential attachment, local density measures such as the in-degree, can be a proxy for the size of the network region to which a node has access, opening up the possibility of approximating centrality indices based on size such as the harmonic centrality. Our initial results show that simple heuristics and biologically inspired computational methods are a promising line of research in the context of network measure estimations.
翻訳日:2024-06-12 05:58:24 公開日:2024-06-10
# Ising Meson Spectroscopy on a Noisy Digital Quantum Simulator (特集 New Trends on a Noisy Digital Quantum Simulator)

Ising Meson Spectroscopy on a Noisy Digital Quantum Simulator ( http://arxiv.org/abs/2303.03311v4 )

ライセンス: Link先を確認
Christopher Lamb, Yicheng Tang, Robert Davis, Ananda Roy, (参考訳) 量子シミュレーションは、強相互作用量子場理論(QFT)における非摂動現象の研究に必須の手法である可能性がある。 現代の量子時代には、ノイズの中間スケール量子〜(NISQ)シミュレータが広く利用可能であり、地平線上により大きな量子マシンがあるため、どのような非摂動QFT問題は既存の量子ハードウェアで解決できるのか? 既存の雑音量子マシンは、強い相互作用を持つ1+1D QFTの大きいファミリーのエネルギースペクトルを分析するのに利用できることを示す。 後者は、通常、素粒子の高次元QFTと関連する「クォーク閉じ込め」や「偽真空崩壊」のような幅広い非摂動効果を示す。 我々は,IBM の ibmq_mumbai 量子シミュレータを用いて,縦方向場を持つ 1+1D 量子イジングモデルのエネルギースペクトルを計算する。 後者のモデルが特に興味深いのは、2次元量子色力学のt'Hooftモデルに類似したイジング領域壁の凝縮ポテンシャルから生じるメソニック境界状態の形成である。 以上の結果から,NISQ時代のディジタル量子シミュレーションは,密度行列再正規化群や,QFT解析のための切り離された共形空間法といった数値手法の代替となる可能性が示唆された。

Quantum simulation has the potential to be an indispensable technique for the investigation of non-perturbative phenomena in strongly-interacting quantum field theories (QFTs). In the modern quantum era, with Noisy Intermediate Scale Quantum~(NISQ) simulators widely available and larger-scale quantum machines on the horizon, it is natural to ask: what non-perturbative QFT problems can be solved with the existing quantum hardware? We show that existing noisy quantum machines can be used to analyze the energy spectrum of a large family of strongly-interacting 1+1D QFTs. The latter exhibit a wide-range of non-perturbative effects like `quark confinement' and `false vacuum decay' which are typically associated with higher-dimensional QFTs of elementary particles. We perform quench experiments on IBM's ibmq_mumbai quantum simulator to compute the energy spectrum of 1+1D quantum Ising model with a longitudinal field. The latter model is particularly interesting due to the formation of mesonic bound states arising from a confining potential for the Ising domain-walls, reminiscent of t'Hooft's model of two-dimensional quantum chromodynamics. Our results demonstrate that digital quantum simulation in the NISQ era has the potential to be a viable alternative to numerical techniques such as density matrix renormalization group or the truncated conformal space methods for analyzing QFTs.
翻訳日:2024-06-12 05:58:24 公開日:2024-06-10
# テストセットと分布に関するニューラルネットワーク学習のばらつきについて

On the Variance of Neural Network Training with respect to Test Sets and Distributions ( http://arxiv.org/abs/2304.01910v4 )

ライセンス: Link先を確認
Keller Jordan, (参考訳) 典型的なニューラルネットワークトレーニングは、繰り返し実行間のテストセットのパフォーマンスにかなりのばらつきがあり、ハイパーパラメータ比較とトレーニング再現性を妨げる。 本研究では, この変化を理解するために, 以下の結果を示す。 1) CIFAR-10 と ImageNet の標準トレーニングは,テストセットに有意なばらつきがあるにもかかわらず,テストセットをサンプリングする基礎となるテスト分布に対して,性能のばらつきがほとんどないことを実証した。 2)これらのトレーニングは,テストセット上でほぼ独立にエラーを発生させることを示す。 つまり、トレーニングされたネットワークが特定の例でエラーを発生させることは、同じハイパーパラメータを持つトレーニングを繰り返し実行した場合の平均レートと比較して、他の例でエラーを発生させる可能性に影響しない。 (3) テストセットにおけるニューラルネットワークトレーニングのばらつきは,Jiang et al (2021) が発見したクラス校正特性の下流結果であることを示す。 解析により,二項分類の場合のばらつきを正確に予測する簡単な式が得られた。 (4)データ増大,学習速度,微調整不安定性,分布シフトの予備的研究を,走行間のばらつきのレンズを通して行った。

Typical neural network trainings have substantial variance in test-set performance between repeated runs, impeding hyperparameter comparison and training reproducibility. In this work we present the following results towards understanding this variation. (1) Despite having significant variance on their test-sets, we demonstrate that standard CIFAR-10 and ImageNet trainings have little variance in performance on the underlying test-distributions from which their test-sets are sampled. (2) We show that these trainings make approximately independent errors on their test-sets. That is, the event that a trained network makes an error on one particular example does not affect its chances of making errors on other examples, relative to their average rates over repeated runs of training with the same hyperparameters. (3) We prove that the variance of neural network trainings on their test-sets is a downstream consequence of the class-calibration property discovered by Jiang et al. (2021). Our analysis yields a simple formula which accurately predicts variance for the binary classification case. (4) We conduct preliminary studies of data augmentation, learning rate, finetuning instability and distribution-shift through the lens of variance between runs.
翻訳日:2024-06-12 05:58:24 公開日:2024-06-10
# 教師なしコンセプトドリフト検出のための計算性能工学を目指して -- 複雑度、ベンチマーク、性能解析

Towards Computational Performance Engineering for Unsupervised Concept Drift Detection -- Complexities, Benchmarking, Performance Analysis ( http://arxiv.org/abs/2304.08319v3 )

ライセンス: Link先を確認
Elias Werner, Nishant Kumar, Matthias Lieber, Sunna Torge, Stefan Gumhold, Wolfgang E. Nagel, (参考訳) コンセプトドリフト検出は、システムの信頼性を確保するために、多くのAIシステムにとって不可欠である。 これらのシステムは多くの場合、大量のデータを扱うか、リアルタイムに反応する必要がある。 したがって、ドリフト検出器は総合的な性能評価で計算要求や制約を満たす必要がある。 しかし、今のところ、ドリフト検出器の開発は推論品質、例えば精度に重点を置いているが、実行時のような計算性能は重視していない。 従来の研究の多くは、計算性能を二次目的としてのみ考慮しており、そのような評価のためのベンチマークを持っていない。 そこで我々は,計算複雑性,ベンチマーク,性能解析を反映した,教師なしの概念ドリフト検出の性能工学を提案し,説明する。 本稿では、既存の非教師付きドリフト検出器の計算複雑性について述べ、なぜさらなる計算性能調査が必要なのかを論じる。 そこで我々は,予測品質と計算性能に基づいて,教師なしドリフト検出のためのベンチマークの側面を述べる。 さらに,2つのドリフト検出器をトレースし,その性能データを表示することにより,その性能を実証した性能解析手法を実証する。

Concept drift detection is crucial for many AI systems to ensure the system's reliability. These systems often have to deal with large amounts of data or react in real-time. Thus, drift detectors must meet computational requirements or constraints with a comprehensive performance evaluation. However, so far, the focus of developing drift detectors is on inference quality, e.g. accuracy, but not on computational performance, such as runtime. Many of the previous works consider computational performance only as a secondary objective and do not have a benchmark for such evaluation. Hence, we propose and explain performance engineering for unsupervised concept drift detection that reflects on computational complexities, benchmarking, and performance analysis. We provide the computational complexities of existing unsupervised drift detectors and discuss why further computational performance investigations are required. Hence, we state and substantiate the aspects of a benchmark for unsupervised drift detection reflecting on inference quality and computational performance. Furthermore, we demonstrate performance analysis practices that have proven their effectiveness in High-Performance Computing, by tracing two drift detectors and displaying their performance data.
翻訳日:2024-06-12 05:48:34 公開日:2024-06-10
# LLIC:学習画像圧縮のための適応重み付き大規模受容野変換符号化

LLIC: Large Receptive Field Transform Coding with Adaptive Weights for Learned Image Compression ( http://arxiv.org/abs/2304.09571v8 )

ライセンス: Link先を確認
Wei Jiang, Peirong Ning, Jiayu Yang, Yongqi Zhai, Feng Gao, Ronggang Wang, (参考訳) 有効受容場(ERF)は変換符号化において重要な役割を担い、変換中にどの程度の冗長性を取り除き、逆変換時にテクスチャを合成するのにどれだけの空間的先行性を利用することができるかを決定する。 既存の方法は、ERFが不十分なままである小さなカーネルのスタック、あるいは高解像度画像符号化の可能性を制限する重い非局所的な注意機構に依存している。 この問題に対処するために,学習画像圧縮(LLIC)のための適応重み付きLarge Receptive Field Transform Codingを提案する。 具体的には、学習した画像圧縮コミュニティではじめて、控えめな複雑さを維持しながら冗長性を高めるために、カーネルベースの奥行きに関する大規模なコンボリューションをいくつか導入する。 画像の多様性の幅が広いことから,自己条件付き重み生成による畳み込み適応性の向上機構も提案する。 大きなカーネルは非線形埋め込みとゲート機構と協力し、表現性の向上とより軽いポイントワイド相互作用を実現する。 私たちの調査は、これらの大きなカーネルの潜在能力を最大限に活用する、洗練されたトレーニング方法にまで拡張しています。 さらに、よりダイナミックなチャネル間相互作用を促進するために、自己条件でチャネル重要因子を自律的に生成する適応的なチャネルワイドビット割り当て戦略を導入する。 提案手法の有効性を示すため,エントロピーモデルを既存の変換法と比較し,LLIC-STF,LLIC-ELIC,LLIC-TCMのモデルを求める。 実験の結果,提案したLLICモデルでは,VTM-17.0イントラよりもBD-Rateが9.49%,9.47%,10.94%向上した。 我々のLLICモデルは最先端のパフォーマンスを実現し、パフォーマンスと複雑さのトレードオフを改善する。

The effective receptive field (ERF) plays an important role in transform coding, which determines how much redundancy can be removed during transform and how many spatial priors can be utilized to synthesize textures during inverse transform. Existing methods rely on stacks of small kernels, whose ERFs remain insufficiently large, or heavy non-local attention mechanisms, which limit the potential of high-resolution image coding. To tackle this issue, we propose Large Receptive Field Transform Coding with Adaptive Weights for Learned Image Compression (LLIC). Specifically, for the first time in the learned image compression community, we introduce a few large kernelbased depth-wise convolutions to reduce more redundancy while maintaining modest complexity. Due to the wide range of image diversity, we further propose a mechanism to augment convolution adaptability through the self-conditioned generation of weights. The large kernels cooperate with non-linear embedding and gate mechanisms for better expressiveness and lighter pointwise interactions. Our investigation extends to refined training methods that unlock the full potential of these large kernels. Moreover, to promote more dynamic inter-channel interactions, we introduce an adaptive channel-wise bit allocation strategy that autonomously generates channel importance factors in a self-conditioned manner. To demonstrate the effectiveness of the proposed transform coding, we align the entropy model to compare with existing transform methods and obtain models LLIC-STF, LLIC-ELIC, and LLIC-TCM. Extensive experiments demonstrate that our proposed LLIC models have significant improvements over the corresponding baselines and reduce the BD-Rate by 9.49%, 9.47%, 10.94% on Kodak over VTM-17.0 Intra, respectively. Our LLIC models achieve state-of-the-art performances and better trade-offs between performance and complexity.
翻訳日:2024-06-12 05:48:34 公開日:2024-06-10
# ランダム関数の老化

Random Function Descent ( http://arxiv.org/abs/2305.01377v2 )

ライセンス: Link先を確認
Felix Benning, Leif Döring, (参考訳) 古典的な最悪の最適化理論は、機械学習における最適化の成功を説明せず、ステップサイズの選択にも役立ちません。 ベイズ最適化(平均ケース最適化理論)と古典最適化の接続を'stochastic Taylor approximation' を用いて確立し、勾配降下を再発見する。 この再粘性は、古典的導出とは対照的にスケール不変であるRandom Function Descent (RFD)と呼ばれるステップサイズスケジュールをもたらす。 さらに, RFDステップサイズの解析は, 勾配クリッピングや漸進的学習率のウォームアップといった一般的なステップサイズヒューリスティックスの基礎となる。 最終的に、RFDステップサイズスケジュールを推定するための統計的手順を提案し、この理論をMNISTデータセットのケーススタディで検証する。

Classical worst-case optimization theory neither explains the success of optimization in machine learning, nor does it help with step size selection. We establish a connection between Bayesian Optimization (i.e. average case optimization theory) and classical optimization using a 'stochastic Taylor approximation' to rediscover gradient descent. This rediscovery yields a step size schedule we call Random Function Descent (RFD), which, in contrast to classical derivations, is scale invariant. Furthermore, our analysis of RFD step sizes yields a theoretical foundation for common step size heuristics such as gradient clipping and gradual learning rate warmup. We finally propose a statistical procedure for estimating the RFD step size schedule and validate this theory with a case study on the MNIST dataset.
翻訳日:2024-06-12 05:48:34 公開日:2024-06-10
# ジェネレーティブAIが3Dに到達 - AIGC時代のテキストから3Dへ

Generative AI meets 3D: A Survey on Text-to-3D in AIGC Era ( http://arxiv.org/abs/2305.06131v3 )

ライセンス: Link先を確認
Chenghao Li, Chaoning Zhang, Atish Waghwase, Lik-Hang Lee, Francois Rameau, Yang Yang, Sung-Ho Bae, Choong Seon Hong, (参考訳) 生成AI(AIGC、別名AI生成コンテンツ)は近年大きく進歩し、人間の指示とAIGCの相互作用を促進するため、テキスト誘導コンテンツ生成が最も実用的になっている。 テキスト・ツー・イメージ技術や3Dモデリング技術(NeRFなど)の進歩により、テキスト・トゥ・3Dは生まれながら非常に活発な研究分野として登場した。 本研究は,本研究の第1回総合的な調査を行い,この方向性に関心のある読者が急速に発展していくのを手伝うことを目的として,今後の研究の進展を追及する。 まず、ユークリッドデータと非ユークリッドデータの両方を含む3次元データ表現を導入する。 この基礎の上に様々な基礎技術を導入し、最近の研究がこれらの基礎技術を組み合わせて満足なテキスト・ツー・3D結果を実現する方法についてまとめる。 さらに,最近のテキスト・ツー・3D技術では,忠実さ,効率性,一貫性,制御性,多様性,適用性など,主流のベースラインと研究方向を提示する。 さらに,アバター生成,テクスチャ生成,形状編集,シーン生成など,各種アプリケーションにおけるテキスト・ツー・3D技術の利用状況を要約する。

Generative AI (AIGC, a.k.a. AI generated content) has made significant progress in recent years, with text-guided content generation being the most practical as it facilitates interaction between human instructions and AIGC. Due to advancements in text-to-image and 3D modeling technologies (like NeRF), text-to-3D has emerged as a nascent yet highly active research field. Our work conducts the first comprehensive survey and follows up on subsequent research progress in the overall field, aiming to help readers interested in this direction quickly catch up with its rapid development. First, we introduce 3D data representations, including both Euclidean and non-Euclidean data. Building on this foundation, we introduce various foundational technologies and summarize how recent work combines these foundational technologies to achieve satisfactory text-to-3D results. Additionally, we present mainstream baselines and research directions in recent text-to-3D technology, including fidelity, efficiency, consistency, controllability, diversity, and applicability. Furthermore, we summarize the usage of text-to-3D technology in various applications, including avatar generation, texture generation, shape editing, and scene generation.
翻訳日:2024-06-12 05:48:34 公開日:2024-06-10
# 超流体のニューラルウェーブ関数

Neural Wave Functions for Superfluids ( http://arxiv.org/abs/2305.06989v4 )

ライセンス: Link先を確認
Wan Tong Lou, Halvard Sutterud, Gino Cassella, W. M. C. Foulkes, Johannes Knolle, David Pfau, James S. Spencer, (参考訳) 超流動性を理解することは、凝縮物質物理学の主要な目標である。 本稿では,最近開発されたフェルミオン型ニューラルネットワーク (FermiNet) 波動関数 Ansatz [D. Pfau et al , Phys. Res. 2, 033429 (2020.] を用いてモンテカルロの変分計算を行う。 超流動基底状態を持つことが知られている強い短距離二体相互作用を持つ系である一元性フェルミガスについて検討するが、定量的に説明することは困難である。 我々は、フェルミガスの研究におけるフェルミネット・アンサッツの重要な限界を示し、反対称ゲミナルパワー・シングルト(AGP)波動関数のアイデアに基づく簡単な修正を提案する。 新しい AGP の FermiNet は、元の FermiNet をペアシステムで大幅に上回り、固定ノード拡散モンテカルロよりも精度が高く、実験と一致している。 反対称性化法によって元のAnsatzとしか異なる新しいAnsatzが、パラメータが少ないにもかかわらず、元のFermiNetアーキテクチャの厳密な一般化であることを数学的に証明する。 ニューラルネットワークの使用は基盤となる基底セットの必要性を排除し、ネットワークの柔軟性は、任意の基底状態期待値の偏りのない推定値へのアクセスを提供する変動量子モンテカルロフレームワーク内で極めて正確な結果をもたらす。 本手法を他の超流動体に拡張する方法について論じる。

Understanding superfluidity remains a major goal of condensed matter physics. Here we tackle this challenge utilizing the recently developed Fermionic neural network (FermiNet) wave function Ansatz [D. Pfau et al., Phys. Rev. Res. 2, 033429 (2020).] for variational Monte Carlo calculations. We study the unitary Fermi gas, a system with strong, short-range, two-body interactions known to possess a superfluid ground state but difficult to describe quantitatively. We demonstrate key limitations of the FermiNet Ansatz in studying the unitary Fermi gas and propose a simple modification based on the idea of an antisymmetric geminal power singlet (AGPs) wave function. The new AGPs FermiNet outperforms the original FermiNet significantly in paired systems, giving results which are more accurate than fixed-node diffusion Monte Carlo and are consistent with experiment. We prove mathematically that the new Ansatz, which only differs from the original Ansatz by the method of antisymmetrization, is a strict generalization of the original FermiNet architecture, despite the use of fewer parameters. Our approach shares several advantages with the original FermiNet: the use of a neural network removes the need for an underlying basis set; and the flexibility of the network yields extremely accurate results within a variational quantum Monte Carlo framework that provides access to unbiased estimates of arbitrary ground-state expectation values. We discuss how the method can be extended to study other superfluids.
翻訳日:2024-06-12 05:48:34 公開日:2024-06-10
# 超現実性を有する知識グラフの構造とダイナミクス

The Structure and Dynamics of Knowledge Graphs, with Superficiality ( http://arxiv.org/abs/2305.08116v4 )

ライセンス: Link先を確認
Loïck Lhote, Béatrice Markhoff, Arnaud Soulet, (参考訳) 大規模な知識グラフは、アカデミアや機関、企業、クラウドソーシングなど、さまざまなプロジェクトから得られた人間の知識を組み合わせている。 このようなグラフの中では、2つのノード間の関係は、これらの2つの実体を含む基本的な事実を表している。 関係性の意味論の多様性は知識グラフの豊かさを構成し、特異位相の出現に繋がる。 しかし、この複雑な特徴は、事実が独立して生成される関係の重複を制御する超現実性の概念を導入することで、単純な方法でモデル化することができる。 このモデルでは、超現実性は、誤って記述された実体の比率を決定することによって、知識のグローバルな分布のバランスを調節する。 これは知識グラフの構造と力学に関する最初のモデルである。 これは、正式な知識の獲得と組織に関する理解を深めます。

Large knowledge graphs combine human knowledge garnered from projects ranging from academia and institutions to enterprises and crowdsourcing. Within such graphs, each relationship between two nodes represents a basic fact involving these two entities. The diversity of the semantics of relationships constitutes the richness of knowledge graphs, leading to the emergence of singular topologies, sometimes chaotic in appearance. However, this complex characteristic can be modeled in a simple way by introducing the concept of superficiality, which controls the overlap between relationships whose facts are generated independently. With this model, superficiality also regulates the balance of the global distribution of knowledge by determining the proportion of misdescribed entities. This is the first model for the structure and dynamics of knowledge graphs. It leads to a better understanding of formal knowledge acquisition and organization.
翻訳日:2024-06-12 05:48:34 公開日:2024-06-10
# 医用画像解析のためのパラメータ効率の良いファインチューニング--機会の欠如

Parameter-Efficient Fine-Tuning for Medical Image Analysis: The Missed Opportunity ( http://arxiv.org/abs/2305.08252v4 )

ライセンス: Link先を確認
Raman Dutt, Linus Ericsson, Pedro Sanchez, Sotirios A. Tsaftaris, Timothy Hospedales, (参考訳) 基礎モデルでは、プリトレインファインチューンパラダイムによる医療画像解析が大幅に進歩している。 様々な微調整アルゴリズムの中で、パラメータ効率の良い微調整(PEFT)は、視覚言語やテキスト・ツー・イメージ生成を含む様々なタスクの知識伝達にますます活用されている。 しかし、PEFT法の評価のための構造化されたベンチマークが欠如していることから、医用画像解析へのその応用は比較的未解明である。 本研究は、画像分類とテキスト・ツー・画像生成タスクにおいて、画像サイズ、モダリティ、複雑さの異なる6つの医学データセットを用いて、畳み込みとトランスフォーマーに基づく17の異なるPEFTアルゴリズムを評価することにより、このギャップを埋める。 本研究は,700以上の制御された実験により,PEFTの有効性,特に医用画像に共通する低データ状態において,識別および生成タスクにおいて最大22%の性能向上を示した。 これらのレコメンデーションは、コミュニティがPEFTをワークフローに組み込むことを支援し、将来のPEFTメソッドの公正な比較を促進し、機械学習とAIの他の分野の進歩との整合性を確保する。

Foundation models have significantly advanced medical image analysis through the pre-train fine-tune paradigm. Among various fine-tuning algorithms, Parameter-Efficient Fine-Tuning (PEFT) is increasingly utilized for knowledge transfer across diverse tasks, including vision-language and text-to-image generation. However, its application in medical image analysis is relatively unexplored due to the lack of a structured benchmark for evaluating PEFT methods. This study fills this gap by evaluating 17 distinct PEFT algorithms across convolutional and transformer-based networks on image classification and text-to-image generation tasks using six medical datasets of varying size, modality, and complexity. Through a battery of over 700 controlled experiments, our findings demonstrate PEFT's effectiveness, particularly in low data regimes common in medical imaging, with performance gains of up to 22% in discriminative and generative tasks. These recommendations can assist the community in incorporating PEFT into their workflows and facilitate fair comparisons of future PEFT methods, ensuring alignment with advancements in other areas of machine learning and AI.
翻訳日:2024-06-12 05:48:34 公開日:2024-06-10
# OntoType: Ontology-Guided and Pre-Trained Language Model Assisted Fine-Grained Entity Typing

OntoType: Ontology-Guided and Pre-Trained Language Model Assisted Fine-Grained Entity Typing ( http://arxiv.org/abs/2305.12307v2 )

ライセンス: Link先を確認
Tanay Komarlu, Minhao Jiang, Xuan Wang, Jiawei Han, (参考訳) 文脈に敏感できめ細かなセマンティックタイプでテキスト中のエンティティを割り当てるFETは、構造化されていないテキストから知識を抽出するための基本的なタスクであるが重要なタスクである。 FETは自然言語処理において広く研究されており、典型的には人間の注釈付きコーパスをトレーニングに頼っている。 近年の研究では、FETのためのリッチでコンテキスト対応の弱監視を生成するための知識基盤として、事前学習言語モデル(PLM)の利用について検討している。 しかし、PLMは、粗い型ときめ細かい型、あるいはタイピングに適さないトークンをしばしば生成するため、知識ベースとして機能するために、指示とガイダンスが必要である。 本研究では、オントロジーが意味論的にリッチで階層的な構造を提供し、複数のPLMモデルとヘッドワードが生成する最良の結果の選択を支援することをビジョンする。 具体的には、アノテーションのないオントロジー誘導型FET手法OntoTypeを提案する。これは、粗いものから細いものまで型オントロジー構造に従っており、複数のPLMをアンサンブルして、型候補のセットを生成し、その型解決を自然言語推論モデルを用いてローカルコンテキスト下で改善する。 オントノート,FIGER,NYTデータセットの関連構造を用いた実験により,本手法は最先端のゼロショット・ファインダー・エンティティ・タイピング法,および典型的なLLM法であるChatGPTよりも優れた性能を示した。 エラー解析により,既存のオントロジー構造の改良により,より微細なエンティティタイピングが向上することが示された。

Fine-grained entity typing (FET), which assigns entities in text with context-sensitive, fine-grained semantic types, is a basic but important task for knowledge extraction from unstructured text. FET has been studied extensively in natural language processing and typically relies on human-annotated corpora for training, which is costly and difficult to scale. Recent studies explore the utilization of pre-trained language models (PLMs) as a knowledge base to generate rich and context-aware weak supervision for FET. However, a PLM still requires direction and guidance to serve as a knowledge base as they often generate a mixture of rough and fine-grained types, or tokens unsuitable for typing. In this study, we vision that an ontology provides a semantics-rich, hierarchical structure, which will help select the best results generated by multiple PLM models and head words. Specifically, we propose a novel annotation-free, ontology-guided FET method, OntoType, which follows a type ontological structure, from coarse to fine, ensembles multiple PLM prompting results to generate a set of type candidates, and refines its type resolution, under the local context with a natural language inference model. Our experiments on the Ontonotes, FIGER, and NYT datasets using their associated ontological structures demonstrate that our method outperforms the state-of-the-art zero-shot fine-grained entity typing methods as well as a typical LLM method, ChatGPT. Our error analysis shows that refinement of the existing ontology structures will further improve fine-grained entity typing.
翻訳日:2024-06-12 05:48:34 公開日:2024-06-10
# フェルミオン異性体:資源理論の観点からの絡み合いと量子計算

Fermionic anyons: entanglement and quantum computation from a resource-theoretic perspective ( http://arxiv.org/abs/2306.00795v2 )

ライセンス: Link先を確認
Allan Tosta, Antônio C. Lourenço, Daniel Brod, Fernando Iemini, Tiago Debarba, (参考訳) 量子計算モデルは、計算タスクを実行するのに必要なリソースのレンズを通してアプローチすることができるが、計算上の優位性は、特定の種類の量子リソースを消費することで達成される。 より一般的な準粒子統計学の設定において、同様に量子計算資源を特定できるだろうか? 本研究では,フェルミオン異性体として知られる特定の1次元準粒子の分離性を特徴付ける枠組みを開発する。 このシナリオでは、通常の部分的トレースの概念が失敗するので、分数的なヨルダン・ウィグナー変換を通じて分離性の概念を構築し、フェルミオン・アニオン状態の絡み合いが説明される。 このフェルミオンアニオン分離性の概念と、それを保存するユニタリ演算を適用し、マッチゲート回路のフリーリソースにマッピングする。 また,2つの量子ビット間のエンタングルメントが,フェルミオン異方体間のエンタングルメントの概念に対応していることを示す。

Quantum computational models can be approached via the lens of resources needed to perform computational tasks, where a computational advantage is achieved by consuming specific forms of quantum resources, or, conversely, resource-free computations are classically simulable. Can we similarly identify quantum computational resources in the setting of more general quasi-particle statistics? In this work, we develop a framework to characterize the separability of a specific type of one-dimensional quasiparticle known as a fermionic anyon. As we evince, the usual notion of partial trace fails in this scenario, so we build the notion of separability through a fractional Jordan-Wigner transformation, leading to an entanglement description of fermionic-anyon states. We apply this notion of fermionic-anyon separability, and the unitary operations that preserve it, mapping it to the free resources of matchgate circuits. We also identify how entanglement between two qubits encoded in a dual-rail manner, as standard for matchgate circuits, corresponds to the notion of entanglement between fermionic anyons.
翻訳日:2024-06-12 05:38:48 公開日:2024-06-10
# ビデオチャットGPT:大規模ビジョンと言語モデルによる詳細な映像理解を目指して

Video-ChatGPT: Towards Detailed Video Understanding via Large Vision and Language Models ( http://arxiv.org/abs/2306.05424v2 )

ライセンス: Link先を確認
Muhammad Maaz, Hanoona Rasheed, Salman Khan, Fahad Shahbaz Khan, (参考訳) LLM(Large Language Models)によって刺激される会話エージェントは、視覚データと対話する新しい方法を提供する。 画像ベースの会話モデルの初期の試みはあったが、この研究はビデオチャットGPTを導入することで、探究対象の「emph{video-based conversation}」に対処している。 ビデオ適応型ビジュアルエンコーダとLLMをマージするマルチモーダルモデルである。 得られたモデルは、ビデオに関する詳細な会話を理解し、生成することができる。 我々は,手動および半自動パイプラインを通じて取得したビデオチャットGPTのトレーニングに使用する10万のビデオ命令ペアのデータセットを導入し,ノイズのラベル付けが容易で堅牢である。 また,映像ベース対話モデルの長所と短所を客観的に分析するための,映像ベース対話モデルの定量的評価フレームワークを開発した。 コード:https://github.com/mbzuai-oryx/Video-ChatGPT。

Conversation agents fueled by Large Language Models (LLMs) are providing a new way to interact with visual data. While there have been initial attempts for image-based conversation models, this work addresses the under-explored field of \emph{video-based conversation} by introducing Video-ChatGPT. It is a multimodal model that merges a video-adapted visual encoder with an LLM. The resulting model is capable of understanding and generating detailed conversations about videos. We introduce a new dataset of 100,000 video-instruction pairs used to train Video-ChatGPT acquired via manual and semi-automated pipeline that is easily scalable and robust to label noise. We also develop a quantitative evaluation framework for video-based dialogue models to objectively analyze the strengths and weaknesses of video-based dialogue models. Code: https://github.com/mbzuai-oryx/Video-ChatGPT.
翻訳日:2024-06-12 05:38:48 公開日:2024-06-10
# フェデレーション学習の一般化エラー分析から学んだこと

Lessons from Generalization Error Analysis of Federated Learning: You May Communicate Less Often! ( http://arxiv.org/abs/2306.05862v2 )

ライセンス: Link先を確認
Milad Sefidgaran, Romain Chor, Abdellatif Zaidi, Yijun Wan, (参考訳) フェデレートラーニング(FL)における統計的学習モデルの一般化誤差について検討する。 具体的には、一般化誤差の進化と、$K$クライアントとパラメータサーバ(PS)間の通信ラウンド数$R$、すなわち、クライアントのローカルモデルがPSでどれだけ頻繁に集約されるかの一般化エラーへの影響について検討する。 私たちの設定では、クライアントがPSと通信するほど、各ラウンドでローカルトレーニングに使用するデータが少なくなります。 我々は、PAC-Bayesとレート歪み理論境界を一般化誤差に設定し、ラウンド数が$R$であることに加えて、参加デバイス数$K$と個々のデータセットサイズ$n$を明示的に考慮する。 この境界は、多くの損失関数と学習アルゴリズムに適用されるが、FL設定において、その種類の最初のものと思われる。 さらに、この境界をFL型サポートベクトルマシン(FSVM)に適用し、この場合の(より)明示的な境界を導出する。 特に、FSVMの一般化境界は$R$で増加し、PSとのより頻繁な通信が一般化パワーを低下させることを示す。 これは、人口リスクは経験的リスクよりもR$よりも速く減少することを意味する。 さらに,FSVM の一般化誤差は $\mathcal{O}(\sqrt{\log(K)/K})$ の係数で集中学習の誤差よりも早く減少することを示す。 最後に、ニューラルネットワーク(ResNet-56)を用いて得られた実験結果について、FSVMの観測結果がより一般的に保持されるだけでなく、人口リスクがR$以上の値で増加し始める可能性があることを示す。

We investigate the generalization error of statistical learning models in a Federated Learning (FL) setting. Specifically, we study the evolution of the generalization error with the number of communication rounds $R$ between $K$ clients and a parameter server (PS), i.e., the effect on the generalization error of how often the clients' local models are aggregated at PS. In our setup, the more the clients communicate with PS the less data they use for local training in each round, such that the amount of training data per client is identical for distinct values of $R$. We establish PAC-Bayes and rate-distortion theoretic bounds on the generalization error that account explicitly for the effect of the number of rounds $R$, in addition to the number of participating devices $K$ and individual datasets size $n$. The bounds, which apply to a large class of loss functions and learning algorithms, appear to be the first of their kind for the FL setting. Furthermore, we apply our bounds to FL-type Support Vector Machines (FSVM); and derive (more) explicit bounds in this case. In particular, we show that the generalization bound of FSVM increases with $R$, suggesting that more frequent communication with PS diminishes the generalization power. This implies that the population risk decreases less fast with $R$ than does the empirical risk. Moreover, our bound suggests that the generalization error of FSVM decreases faster than that of centralized learning by a factor of $\mathcal{O}(\sqrt{\log(K)/K})$. Finally, we provide experimental results obtained using neural networks (ResNet-56) which show evidence that not only may our observations for FSVM hold more generally but also that the population risk may even start to increase beyond some value of $R$.
翻訳日:2024-06-12 05:38:48 公開日:2024-06-10
# 認証が不十分な場合--行動に基づくドライバ認証システムのセキュリティについて

When Authentication Is Not Enough: On the Security of Behavioral-Based Driver Authentication Systems ( http://arxiv.org/abs/2306.05923v4 )

ライセンス: Link先を確認
Emad Efatinasab, Francesco Marchiori, Denis Donadel, Alessandro Brighente, Mauro Conti, (参考訳) 最近、多くの研究論文が車両の行動に基づく運転者認証システムに焦点をあてている。 人工知能(AI)の進歩によって推進されたこれらの研究は、ユニークなバイオメトリックな振る舞いを通じてドライバーを識別する強力なモデルを提案する。 しかしながら、これらのモデルは、AIアルゴリズムのパフォーマンスよりも、セキュリティの観点から精査されたことはない。 いくつかの制限と監視により、車両のネットワークへの安全な接続やセキュリティ警告の管理など、最先端の非現実的な実装が可能になる。 さらに、AIの広範な使用により、これらのシステムは敵の攻撃に対して脆弱である可能性がある。 しかし、このシナリオにおけるこのような攻撃の可能性と影響については、現時点では議論されていない。 研究と実用化の間に大きなギャップがあることから,本論文はこれらの2つの領域を結びつけることを目的としている。 本稿では,行動に基づくドライバ認証のための最初のセキュリティ対応システムモデルを提案する。 制約環境向けに設計されたランダムフォレストとリカレントニューラルネットワークアーキテクチャに基づく2つの軽量ドライバ認証システムを開発した。 我々は,現実の車両のネットワークを反映した現実的なシステムと脅威モデルを定式化した。 実運転データで評価すると、我々のモデルは識別と認証において最大0.999の精度で最先端のモデルより優れている。 さらに,我々は,SMARTCANとGANCANという2つの新しいエスケープアタックを開発することで,これらのシステムに対する攻撃を初めて提案する。 我々は、攻撃者が依然としてこれらのシステムを完璧に攻撃成功率(最大1,000)で活用できることを示す。 最後に,ドライバ認証システムをセキュアにデプロイするための要件について論じる。 コントリビューションを通じて、これらのシステムを安全に採用する実践者を支援し、車の盗難を軽減し、ドライバーのセキュリティを高める。

Many research papers have recently focused on behavioral-based driver authentication systems in vehicles. Pushed by Artificial Intelligence (AI) advancements, these works propose powerful models to identify drivers through their unique biometric behavior. However, these models have never been scrutinized from a security point of view, rather focusing on the performance of the AI algorithms. Several limitations and oversights make implementing the state-of-the-art impractical, such as their secure connection to the vehicle's network and the management of security alerts. Furthermore, due to the extensive use of AI, these systems may be vulnerable to adversarial attacks. However, there is currently no discussion on the feasibility and impact of such attacks in this scenario. Driven by the significant gap between research and practical application, this paper seeks to connect these two domains. We propose the first security-aware system model for behavioral-based driver authentication. We develop two lightweight driver authentication systems based on Random Forest and Recurrent Neural Network architectures designed for our constrained environments. We formalize a realistic system and threat model reflecting a real-world vehicle's network for their implementation. When evaluated on real driving data, our models outclass the state-of-the-art with an accuracy of up to 0.999 in identification and authentication. Moreover, we are the first to propose attacks against these systems by developing two novel evasion attacks, SMARTCAN and GANCAN. We show how attackers can still exploit these systems with a perfect attack success rate (up to 1.000). Finally, we discuss requirements for deploying driver authentication systems securely. Through our contributions, we aid practitioners in safely adopting these systems, help reduce car thefts, and enhance driver security.
翻訳日:2024-06-12 05:38:48 公開日:2024-06-10
# Strokes2Surface:4Dアーキテクチャ設計から曲線ネットワークを復元する

Strokes2Surface: Recovering Curve Networks From 4D Architectural Design Sketches ( http://arxiv.org/abs/2306.07220v4 )

ライセンス: Link先を確認
S. Rasoulzadeh, M. Wimmer, P. Stauss, I. Kovacic, (参考訳) Strokes2Surfaceは、不正確な4Dスケッチから、アーキテクチャ設計における概念設計とデジタルモデリングステージまで、よく接続された曲線ネットワークを復元するオフライン幾何再構成パイプラインである。 パイプラインへの入力は、3Dストロークのポリリン頂点と、そのタイムスタンプを4次元として、スケッチ全体を通して記録されたメタデータからなる。 アーキテクチャスケッチのプラクティスに触発されて、私たちのパイプラインは、その目標を達成するために、分類器と2つのクラスタリングモデルを組み合わせています。 まず、スケッチから抽出した手動特徴のセットを用いて、境界(シェープストローク)と囲まれた領域(スクリブルストローク)の間の個々のストロークの種類を認識する。 次に、2つのクラスタリングモデルは、それぞれのタイプのストロークを異なるグループにパースし、それぞれが意図されたアーキテクチャオブジェクトの個々のエッジまたは顔を表す。 曲線ネットワークは、統合された形状クラスターのトポロジー回復によって形成され、サイクル発見を導くスクリブルクラスタを用いて表面化される。 設計設計におけるStrokes2Surfaceパイプラインのユーザビリティをユーザスタディで確認し、収集したデータセットの統計解析とアブレーション研究を通じて特徴の選択を検証し、代替手法を用いて計算したさまざまな再構成と比較する。

We present Strokes2Surface, an offline geometry reconstruction pipeline that recovers well-connected curve networks from imprecise 4D sketches to bridge concept design and digital modeling stages in architectural design. The input to our pipeline consists of 3D strokes' polyline vertices and their timestamps as the 4th dimension, along with additional metadata recorded throughout sketching. Inspired by architectural sketching practices, our pipeline combines a classifier and two clustering models to achieve its goal. First, with a set of extracted hand-engineered features from the sketch, the classifier recognizes the type of individual strokes between those depicting boundaries (Shape strokes) and those depicting enclosed areas (Scribble strokes). Next, the two clustering models parse strokes of each type into distinct groups, each representing an individual edge or face of the intended architectural object. Curve networks are then formed through topology recovery of consolidated Shape clusters and surfaced using Scribble clusters guiding the cycle discovery. Our evaluation is threefold: We confirm the usability of the Strokes2Surface pipeline in architectural design use cases via a user study, we validate our choice of features via statistical analysis and ablation studies on our collected dataset, and we compare our outputs against a range of reconstructions computed using alternative methods.
翻訳日:2024-06-12 05:38:48 公開日:2024-06-10
# 科学的シンボリック推論に先立つ確率的正則木

Probabilistic Regular Tree Priors for Scientific Symbolic Reasoning ( http://arxiv.org/abs/2306.08506v2 )

ライセンス: Link先を確認
Tim Schneider, Amin Totounferoush, Wolfgang Nowak, Steffen Staab, (参考訳) シンボリック回帰(SR)は、データから科学方程式を発見できる。 可能な方程式の大きな探索空間を制限するため、任意の文字列の部分集合を特徴づける形式文法の用語で事前知識が表現されている。 しかし、構文的に正しい方程式の集合を表現するのに必要な文脈自由文法、前者の閉包特性の欠如、後者のツリー構造の間にはミスマッチがある。 私たちの貢献は (i)確率正規木表現(pRTE)によりどの方程式が予想されるかという専門家の事前の信念をコンパクトに表現し、 (II) 有限状態機械として符号化された記号的回帰に対して、そのような前提を効率的に利用できるようにベイズ推定を適用する。 本研究は土壌科学における吸着等温線の検出と超弾性材料のモデル化に有効であることを示す。

Symbolic Regression (SR) allows for the discovery of scientific equations from data. To limit the large search space of possible equations, prior knowledge has been expressed in terms of formal grammars that characterize subsets of arbitrary strings. However, there is a mismatch between context-free grammars required to express the set of syntactically correct equations, missing closure properties of the former, and a tree structure of the latter. Our contributions are to (i) compactly express experts' prior beliefs about which equations are more likely to be expected by probabilistic Regular Tree Expressions (pRTE), and (ii) adapt Bayesian inference to make such priors efficiently available for symbolic regression encoded as finite state machines. Our scientific case studies show its effectiveness in soil science to find sorption isotherms and for modeling hyper-elastic materials.
翻訳日:2024-06-12 05:38:48 公開日:2024-06-10
# コントラスト分布法によるオープンドメインテキスト評価

Open-Domain Text Evaluation via Contrastive Distribution Methods ( http://arxiv.org/abs/2306.11879v4 )

ライセンス: Link先を確認
Sidi Lu, Hongyi Liu, Asli Celikyilmaz, Tianlu Wang, Nanyun Peng, (参考訳) 大規模事前学習言語モデル(LLM)のパワーによって駆動されるオープンドメインテキスト生成の最近の進歩は、顕著な性能を示している。 しかし、これらのモデルの生成品質を評価することは依然として困難である。 本稿では,CDM(Contrastive Distribution Methods)と呼ばれるオープンドメインテキスト生成手法を提案する。 モデルパラメータの増加とLLM性能の向上の接続を活用して、CDMは2つの確率分布の_contrast_から品質指標へのマッピングを生成する。 オープンドメインテキスト生成評価のためのCDMを2つのパラダイムで検討する。 1) _Generative_CDMは、2つの言語モデルの分布のコントラストを利用して、識別器ベースのメトリクスを訓練するための合成例を生成する。 2) _Discriminative_CDMは2つの言語モデル間の分布格差を直接利用して評価を行う。 マルチターン対話におけるコヒーレンス評価と,制御可能な生成のためのコモンセンス評価に関する実験は,既存の自動評価指標よりもCDMの方が優れた相関関係を示し,我々のアプローチの強い性能と一般化性を強調した。

Recent advancements in open-domain text generation, driven by the power of large pre-trained language models (LLMs), have demonstrated remarkable performance. However, assessing these models' generation quality remains a challenge. In this paper, we introduce a novel method for evaluating open-domain text generation called Contrastive Distribution Methods (CDM). Leveraging the connection between increasing model parameters and enhanced LLM performance, CDM creates a mapping from the _contrast_ of two probabilistic distributions -- one known to be superior to the other -- to quality measures. We investigate CDM for open-domain text generation evaluation under two paradigms: 1) _Generative_ CDM, which harnesses the contrast of two language models' distributions to generate synthetic examples for training discriminator-based metrics; 2) _Discriminative_ CDM, which directly uses distribution disparities between two language models for evaluation. Our experiments on coherence evaluation for multi-turn dialogue and commonsense evaluation for controllable generation demonstrate CDM's superior correlate with human judgment than existing automatic evaluation metrics, highlighting the strong performance and generalizability of our approach.
翻訳日:2024-06-12 05:29:05 公開日:2024-06-10
# 完全量子作業統計量に対する一般化線形応答理論

Generalised linear response theory for the full quantum work statistics ( http://arxiv.org/abs/2307.01885v2 )

ライセンス: Link先を確認
Giacomo Guarnieri, Jens Eisert, Harry J. D. Miller, (参考訳) 我々は、小さなハミルトン摂動を通して平衡から引き出された量子系を考える。 線形応答論 (LRT) のパラダイム的枠組みを基礎として, 散逸した作業の完全生成関数の表現を導出する。 顕著なことに、分布に関するすべての情報は、LRTの標準緩和関数である単一量でエンコード可能であることが分かり、複雑な量子系の非平衡変動を研究するために現象論的モデルを使用する新しい方法が開かれた。 この結果は、摂動的だが任意に高速なプロトコルの規則に適用される作業統計に多くの洗練された量子熱力学の制約を課し、遅い駆動や弱い結合のような仮定に依存しない。 最後に、我々の手法は、基礎となるゼロポイントエネルギーのゆらぎから生じる仕事統計において、明らかに量子的シグネチャを明らかにする。 このことは、量子熱力学における非古典的な効果を見極めるために探究できる特徴である短期運転時の確率分布の分散を増大させる。

We consider a quantum system driven out of equilibrium via a small Hamiltonian perturbation. Building on the paradigmatic framework of linear response theory (LRT), we derive an expression for the full generating function of the dissipated work. Remarkably, we find that all information about the distribution can be encoded in a single quantity, the standard relaxation function in LRT, thus opening up new ways to use phenomenological models to study non-equilibrium fluctuations in complex quantum systems. Our results establish a number of refined quantum thermodynamic constraints on the work statistics that apply to regimes of perturbative but arbitrarily fast protocols, and do not rely on assumptions such as slow driving or weak coupling. Finally, our approach uncovers a distinctly quantum signature in the work statistics that originates from underlying zero-point energy fluctuations. This causes an increased dispersion of the probability distribution at short driving times, a feature that can be probed in efforts to witness non-classical effects in quantum thermodynamics.
翻訳日:2024-06-12 05:29:05 公開日:2024-06-10
# ValiText - 社会構成の計算テキストに基づく測定のための統合検証フレームワーク

ValiText -- a unified validation framework for computational text-based measures of social constructs ( http://arxiv.org/abs/2307.02863v6 )

ライセンス: Link先を確認
Lukas Birkenmaier, Claudia Wagner, Clemens Lechner, (参考訳) 社会構造に関する計算テキストに基づく尺度の検証方法に関するガイダンスが断片化されている。 研究者は一般的に、テキストベースの尺度を検証することの重要性を認めているが、共有語彙とそれを行うための統一された枠組みが欠如していることが多い。 本稿では,テキストデータ中の社会構造を有効に測定する上で,研究者を支援するための新たな検証フレームワークであるValiTextを紹介する。 この枠組みは、社会科学における妥当性の概念的基盤の上に構築され、社会科学における検証実践の実証的なレビューと専門家との相談によって強化されている。 結局のところ、ValiTextは研究者に、実体的証拠(測定の理論的基盤を概説する)、構造的証拠(テキストモデルの性質と出力を調べる)、外部的証拠(測定が独立情報にどのように関係しているかをテストする)の3つの種類の検証証拠を提示するよう要求している。 このフレームワークは、検証手順のチェックリストによってさらに補完され、検証プロセスの研究者をガイドするドキュメントシートの形で実践的なガイダンスを提供する。

Guidance on how to validate computational text-based measures of social constructs is fragmented. While researchers generally acknowledge the importance of validating text-based measures, they often lack a shared vocabulary and a unified framework to do so. This paper introduces ValiText, a new validation framework designed to assist scholars in validly measuring social constructs in textual data. The framework is built on a conceptual foundation of validity in the social sciences, strengthened by an empirical review of validation practices in the social sciences and consultations with experts. Ultimately, ValiText prescribes researchers to demonstrate three types of validation evidence: substantive evidence (outlining the theoretical underpinning of the measure), structural evidence (examining the properties of the text model and its output) and external evidence (testing for how the measure relates to independent information). The framework is further supplemented by a checklist of validation steps, offering practical guidance in the form of documentation sheets that guide researchers in the validation process.
翻訳日:2024-06-12 05:29:05 公開日:2024-06-10
# 多変量正規分布間のフィッシャー・ラオ距離とプルバックSPDコーン距離

Fisher-Rao distance and pullback SPD cone distances between multivariate normal distributions ( http://arxiv.org/abs/2307.10644v3 )

ライセンス: Link先を確認
Frank Nielsen, (参考訳) 多変量正規分布のデータセットは、拡散テンソルイメージング、構造テンソルコンピュータビジョン、レーダー信号処理、機械学習など、多くの科学領域にまたがっている。 フィルタリングや分類、クラスタリングといった下流タスクのための通常のデータセットを処理するためには、通常のものとパスの相違点を適切に定義する必要がある。 フィッシャー情報計量によって誘導されるリーマン測地線距離として定義されるフィッシャー・ラオ距離は、そのような原理化された距離であり、いくつかの特定の場合を除いて閉形式では知られていない。 本研究では,多変量正規分布間のフィッシャー・ラオ距離を任意に近似する高速でロバストな手法を最初に報告する。 第二に、正規多様体の微分同相埋め込みに基づく距離のクラスを、中心となる正規分布の多様体に対応する高次元対称正定円錐の部分多様体に導入する。 円錐上の射影ヒルベルト距離は、埋め込まれた正規部分多様体上の計量となり、その円錐距離を対応する直線ヒルベルト錐測地線と引き戻し、正規分布間の距離と滑らかな経路を得ることを示す。 フィッシャー・ラオ距離近似と比較して、プルバックヒルベルトコーン距離は行列の極端最小値と最大固有値のみを計算する必要があるため、計算的に軽量である。 最後に、これらの距離をクラスタリングタスクでどのように使うかを示す。

Data sets of multivariate normal distributions abound in many scientific areas like diffusion tensor imaging, structure tensor computer vision, radar signal processing, machine learning, just to name a few. In order to process those normal data sets for downstream tasks like filtering, classification or clustering, one needs to define proper notions of dissimilarities between normals and paths joining them. The Fisher-Rao distance defined as the Riemannian geodesic distance induced by the Fisher information metric is such a principled metric distance which however is not known in closed-form excepts for a few particular cases. In this work, we first report a fast and robust method to approximate arbitrarily finely the Fisher-Rao distance between multivariate normal distributions. Second, we introduce a class of distances based on diffeomorphic embeddings of the normal manifold into a submanifold of the higher-dimensional symmetric positive-definite cone corresponding to the manifold of centered normal distributions. We show that the projective Hilbert distance on the cone yields a metric on the embedded normal submanifold and we pullback that cone distance with its associated straight line Hilbert cone geodesics to obtain a distance and smooth paths between normal distributions. Compared to the Fisher-Rao distance approximation, the pullback Hilbert cone distance is computationally light since it requires to compute only the extreme minimal and maximal eigenvalues of matrices. Finally, we show how to use those distances in clustering tasks.
翻訳日:2024-06-12 05:29:05 公開日:2024-06-10
# 非相対論的QEDにおける固有状態のポイントワイド境界

Pointwise bounds on eigenstates in non-relativistic QED ( http://arxiv.org/abs/2307.14986v2 )

ライセンス: Link先を確認
M. Griesemer, V. Kußmaul, (参考訳) 本稿では,加藤分布の不等式をベクトル値関数や演算子値ベクトルポテンシャルに一般化する。 この結果は非相対論的量子電磁力学(英語版)(QED)において、パウリ・フィエルツ・ハミルトニアンの固有状態が解の見積もりを満たすことを示し、したがってリプシッツ函数の項における任意の$L^2$-指数境界は対応する点の指数境界を意味する。 同様の点境界は、固有状態ではない状態の1粒子密度にも成立する。

In the present paper, Kato's distributional inequality with magnetic field is generalized to vector-valued functions and operator-valued vector potentials. This result is then used in non-relativistic quantum electrodynamics (QED) to show that eigenstates of the Pauli-Fierz Hamiltonian satisfy a subsolution estimate, and hence that any $L^2$-exponential bound in terms of a Lipschitz function implies the corresponding pointwise exponential bound. Similar pointwise bounds are also established for the one-particle density of states that are not eigenstates.
翻訳日:2024-06-12 05:29:05 公開日:2024-06-10
# 熱力学的線形代数

Thermodynamic Linear Algebra ( http://arxiv.org/abs/2308.05660v2 )

ライセンス: Link先を確認
Maxwell Aifer, Kaelan Donatella, Max Hunter Gordon, Samuel Duffield, Thomas Ahle, Daniel Simpson, Gavin E. Crooks, Patrick J. Coles, (参考訳) 線形代数的プリミティブは、工学、科学、機械学習における多くの現代的なアルゴリズムの中核にある。 したがって、これらのプリミティブを新しいコンピューティングハードウェアで加速することは、非常に経済的に影響を及ぼすことになる。 この目的のために量子コンピューティングが提案されているが、リソースの要求は現在の技術能力を超えており、このアプローチは時間スケールで長期にわたって継続されている。 ここでは、古典的熱力学に基づく別の物理に基づく計算パラダイムを検討し、線形代数の加速に対する短期的アプローチを提供する。 一見すると、熱力学と線型代数は無関係な場であるように見える。 本研究では、線形代数問題の解法と結合調和振動子の系の熱力学平衡分布からのサンプリングを結合する。 本稿では,(1)方程式の線形系の解法,(2)行列逆数,(3)行列行列行列式,(4)リアプノフ方程式の解法に関する簡単な熱力学アルゴリズムを提案する。 合理的な仮定の下では、行列次元で線形にスケールするデジタル手法と比較して、アルゴリズムの漸近的スピードアップを厳格に確立する。 我々のアルゴリズムはエルゴディディティ、エントロピー、平衡といった熱力学の原理を利用し、これら2つの異なる分野間の深い関係を強調し、熱力学計算ハードウェアの代数的応用を開放する。

Linear algebraic primitives are at the core of many modern algorithms in engineering, science, and machine learning. Hence, accelerating these primitives with novel computing hardware would have tremendous economic impact. Quantum computing has been proposed for this purpose, although the resource requirements are far beyond current technological capabilities, so this approach remains long-term in timescale. Here we consider an alternative physics-based computing paradigm based on classical thermodynamics, to provide a near-term approach to accelerating linear algebra. At first sight, thermodynamics and linear algebra seem to be unrelated fields. In this work, we connect solving linear algebra problems to sampling from the thermodynamic equilibrium distribution of a system of coupled harmonic oscillators. We present simple thermodynamic algorithms for (1) solving linear systems of equations, (2) computing matrix inverses, (3) computing matrix determinants, and (4) solving Lyapunov equations. Under reasonable assumptions, we rigorously establish asymptotic speedups for our algorithms, relative to digital methods, that scale linearly in matrix dimension. Our algorithms exploit thermodynamic principles like ergodicity, entropy, and equilibration, highlighting the deep connection between these two seemingly distinct fields, and opening up algebraic applications for thermodynamic computing hardware.
翻訳日:2024-06-12 05:29:05 公開日:2024-06-10
# Sパラメータパターン処理による酸化インジウム電極の欠陥検出と根原因解析に関する実証的研究

An Empirical Study on Fault Detection and Root Cause Analysis of Indium Tin Oxide Electrodes by Processing S-parameter Patterns ( http://arxiv.org/abs/2308.11639v2 )

ライセンス: Link先を確認
Tae Yeob Kang, Haebom Lee, Sungho Suh, (参考訳) 光エレクトロニクスの分野では、インジウム酸化スズ(ITO)電極はディスプレイ、センサー、太陽電池などの様々な用途において重要な役割を果たしている。 ITO電極の効果的な故障診断と根本原因解析は、デバイスの性能と信頼性を確保するために不可欠である。 しかし、従来の視覚検査は透明なITO電極では困難であり、既存の断層診断法では欠陥の根本原因の決定に限界があり、しばしば破壊的評価と二次材料評価技術を必要とする。 本研究では, 散乱パラメータ(Sパラメータ)パターンを用いて根本原因解析による故障診断手法を提案し, 早期検出, 高い診断精度, ノイズロバスト性について検討した。 ITO電極の様々な欠陥状態に応じて総合的なSパラメータパターンデータベースを得る。 次に、多層パーセプトロン(MLP)、畳み込みニューラルネットワーク(CNN)、トランスフォーマーなどのディープラーニング(DL)アプローチを使用して、欠陥の原因と重症度を同時に分析する。 特に,Sパラメータの異なるチャネルを学習アルゴリズムの入力として組み合わせることで,付加雑音レベルの診断性能を著しく向上できることが,t分散確率的隣接埋め込み(t-SNE)によるSパラメータパターンの次元低減可視化を通じて確認された。

In the field of optoelectronics, indium tin oxide (ITO) electrodes play a crucial role in various applications, such as displays, sensors, and solar cells. Effective fault diagnosis and root cause analysis of the ITO electrodes are essential to ensure the performance and reliability of the devices. However, traditional visual inspection is challenging with transparent ITO electrodes, and existing fault diagnosis methods have limitations in determining the root causes of the defects, often requiring destructive evaluations and secondary material characterization techniques. In this study, a fault diagnosis method with root cause analysis is proposed using scattering parameter (S-parameter) patterns, offering early detection, high diagnostic accuracy, and noise robustness. A comprehensive S-parameter pattern database is obtained according to various defect states of the ITO electrodes. Deep learning (DL) approaches, including multilayer perceptron (MLP), convolutional neural network (CNN), and transformer, are then used to simultaneously analyze the cause and severity of defects. Notably, it is demonstrated that the diagnostic performance under additive noise levels can be significantly enhanced by combining different channels of the S-parameters as input to the learning algorithms, as confirmed through the t-distributed stochastic neighbor embedding (t-SNE) dimension reduction visualization of the S-parameter patterns.
翻訳日:2024-06-12 05:19:21 公開日:2024-06-10
# 階層的選好設計による深層強化学習

Deep Reinforcement Learning from Hierarchical Preference Design ( http://arxiv.org/abs/2309.02632v3 )

ライセンス: Link先を確認
Alexander Bukharin, Yixiao Li, Pengcheng He, Tuo Zhao, (参考訳) リワードデザインは、強化学習(RL)の基本的な、しかし難しい側面である。 研究者は通常、環境からのフィードバック信号を使って報酬関数を手作りするが、このプロセスは、フィードバック信号の様々なスケールと複雑な依存関係のため、必ずしも効果的ではない。 本稿では,特定の構造を利用することにより,報酬設計プロセスの容易性を示す。 具体的には,階層的な報酬モデリングフレームワークであるHERONをシナリオとして提案する。 (I) フィードバック信号は自然に階層構造を呈し, (II) 報酬は希少であるが,政策学習を支援するための補助的フィードバックは少ない。 どちらのシナリオも、フィードバック信号の重要ランク付けによって誘導される階層的な決定木を設計し、RL軌道と比較することができる。 このような嗜好データを用いて、政策学習のための報酬モデルをトレーニングすることができる。 我々はHERONをいくつかのRLアプリケーションに適用し、我々のフレームワークは、様々な困難なタスクでハイパフォーマンスエージェントを訓練できるだけでなく、サンプル効率の改善やロバストネスなどの付加的なメリットも提供できることを発見した。 私たちのコードは \url{https://github.com/abukharin3/HERON} で利用可能です。

Reward design is a fundamental, yet challenging aspect of reinforcement learning (RL). Researchers typically utilize feedback signals from the environment to handcraft a reward function, but this process is not always effective due to the varying scale and intricate dependencies of the feedback signals. This paper shows by exploiting certain structures, one can ease the reward design process. Specifically, we propose a hierarchical reward modeling framework -- HERON for scenarios: (I) The feedback signals naturally present hierarchy; (II) The reward is sparse, but with less important surrogate feedback to help policy learning. Both scenarios allow us to design a hierarchical decision tree induced by the importance ranking of the feedback signals to compare RL trajectories. With such preference data, we can then train a reward model for policy learning. We apply HERON to several RL applications, and we find that our framework can not only train high performing agents on a variety of difficult tasks, but also provide additional benefits such as improved sample efficiency and robustness. Our code is available at \url{https://github.com/abukharin3/HERON}.
翻訳日:2024-06-12 05:19:21 公開日:2024-06-10
# アルツハイマー病に対する自己説明可能なグラフニューラルネットワークと認知症リスク予測

Self-explainable Graph Neural Network for Alzheimer's Disease And Related Dementias Risk Prediction ( http://arxiv.org/abs/2309.06584v4 )

ライセンス: Link先を確認
Xinyue Hu, Zenan Sun, Yi Nian, Yichen Wang, Yifang Dang, Fang Li, Jingna Feng, Evan Yu, Cui Tao, (参考訳) 背景:アルツハイマー病と関連する認知症(ADRD)は、ADRDの正確なリスク予測の重要性を浮き彫りにして、米国で6番目に大きな死因となっている。 近年のADRDリスク予測の進歩は画像解析に大きく依存しているが,ADRD診断に先立ってすべての患者が画像診断を受けているわけではない。 機械学習とクレームデータを組み合わせることで、追加のリスク要因を明らかにし、さまざまな医療コード間の相互接続を明らかにすることができる。 目的:ADRDリスク予測のためのクレームデータとグラフニューラルネットワーク(GNN)の利用を目標とする。 これらの予測の背景にある人間解釈的理由の欠如に対処し、関係の重要性とそのADRDリスク予測への影響を評価する革新的な手法を導入し、包括的な解釈を確実にする。 方法:ADRD確率を推定するために変分正規化エンコーダデコーダグラフニューラルネットワーク(VGNN)を用いた。 我々はRandom ForestとLight Gradient Boost Machineをベースラインとして、モデルの効率を評価するための3つのシナリオを作成しました。 我々はさらに,ADRDリスク予測の鍵となる関係を明らかにするために,関係重要度法を適用した。 結果:VGNNは受信機動作特性下において,他のベースラインモデルより10%超えた。 GNNモデルの統合と関係性の重要性の解釈は、ADRDの進行に寄与または遅延する可能性のある要因についての貴重な洞察を提供する上で、重要な役割を果たす可能性がある。 結論: クレームデータによるGNNアプローチの採用はADRDリスク予測を強化し、相互接続された医療コード関係の影響に関する洞察を提供する。 この手法はADRDリスクモデリングを可能にするだけでなく、クレームデータを用いた他の画像解析予測の可能性を示す。

Background: Alzheimer's disease and related dementias (ADRD) ranks as the sixth leading cause of death in the US, underlining the importance of accurate ADRD risk prediction. While recent advancement in ADRD risk prediction have primarily relied on imaging analysis, yet not all patients undergo medical imaging before an ADRD diagnosis. Merging machine learning with claims data can reveal additional risk factors and uncover interconnections among diverse medical codes. Objective: Our goal is to utilize Graph Neural Networks (GNNs) with claims data for ADRD risk prediction. Addressing the lack of human-interpretable reasons behind these predictions, we introduce an innovative method to evaluate relationship importance and its influence on ADRD risk prediction, ensuring comprehensive interpretation. Methods: We employed Variationally Regularized Encoder-decoder Graph Neural Network (VGNN) for estimating ADRD likelihood. We created three scenarios to assess the model's efficiency, using Random Forest and Light Gradient Boost Machine as baselines. We further used our relation importance method to clarify the key relationships for ADRD risk prediction. Results: VGNN surpassed other baseline models by 10% in the area under the receiver operating characteristic. The integration of the GNN model and relation importance interpretation could potentially play an essential role in providing valuable insight into factors that may contribute to or delay ADRD progression. Conclusions: Employing a GNN approach with claims data enhances ADRD risk prediction and provides insights into the impact of interconnected medical code relationships. This methodology not only enables ADRD risk modeling but also shows potential for other image analysis predictions using claims data.
翻訳日:2024-06-12 05:19:21 公開日:2024-06-10
# モバイルシリアスゲームにおけるヒューマノイド・エンボディード・会話エージェント : ユーザビリティアセスメント

Spoken Humanoid Embodied Conversational Agents in Mobile Serious Games: A Usability Assessment ( http://arxiv.org/abs/2309.07773v3 )

ライセンス: Link先を確認
Danai Korre, Judy Robertson, (参考訳) 本稿では,Humanoid Embodied Conversational Agents (HECAs) がモバイルゲーム (MSG) のユーザビリティ向上に寄与するかを実証的に検討する。 この研究の目的は、複数のエージェントの影響と人間の錯覚が相互作用の質に与える影響を評価することである。 実験では, ハイヒューマン・ライクネス(HECA)エージェントと低ヒューマン・ライクネス(テキスト)エージェントの2種類のエージェント提示方法を検討した。 この実験の目的は、高い人間類似性のエージェントが人間の錯覚を誘発し、ユーザビリティにどのように影響するかを評価することである。 高い人間的なエージェントはECA開発のためのガイドラインであるECA設計モデルに従って設計されている。 90人の被験者による実験の結果,ユーザがHECAと対話する傾向が示された。 この2つのバージョンの違いは統計的に有意であり、大きな効果サイズ(d=1.01)であり、多くの参加者はHECAの人間的な特性がより魅力的であるとして、彼らの選択を正当化した。 本研究は、HECAが真剣なゲームにもたらす影響について重要な情報を提供し、将来のモバイル真剣なゲームの設計についての洞察を提供する。

This paper presents an empirical investigation of the extent to which spoken Humanoid Embodied Conversational Agents (HECAs) can foster usability in mobile serious game (MSG) applications. The aim of the research is to assess the impact of multiple agents and illusion of humanness on the quality of the interaction. The experiment investigates two styles of agent presentation: an agent of high human-likeness (HECA) and an agent of low human-likeness (text). The purpose of the experiment is to assess whether and how agents of high humanlikeness can evoke the illusion of humanness and affect usability. Agents of high human-likeness were designed by following the ECA design model that is a proposed guide for ECA development. The results of the experiment with 90 participants show that users prefer to interact with the HECAs. The difference between the two versions is statistically significant with a large effect size (d=1.01), with many of the participants justifying their choice by saying that the human-like characteristics of the HECA made the version more appealing. This research provides key information on the potential effect of HECAs on serious games, which can provide insight into the design of future mobile serious games.
翻訳日:2024-06-12 05:19:21 公開日:2024-06-10
# UniHead: 検出ヘッドのためのマルチパーセプションの統合

UniHead: Unifying Multi-Perception for Detection Heads ( http://arxiv.org/abs/2309.13242v2 )

ライセンス: Link先を確認
Hantao Zhou, Rui Yang, Yachao Zhang, Haoran Duan, Yawen Huang, Runze Hu, Xiu Li, Yefeng Zheng, (参考訳) 検出ヘッドは、分類機能とローカライゼーション機能の両方を実行することを任務とする、オブジェクト検出器内の重要なコンポーネントを構成する。 一般的に使用される並列ヘッドは、変形知覚、大域的知覚、クロスタスク知覚などの全能を欠いていることが多い。 これらの能力を一つの側面から拡張しようとする多くの手法にもかかわらず、包括的で統一されたソリューションを達成することは大きな課題である。 この課題に対応するために、我々は3つの知覚能力を同時に統合するUniHeadと呼ばれる革新的な検出ヘッドを開発する。 より正確には,本手法は変形知覚を導入し,モデルがオブジェクトの特徴を適応的にサンプリングすることを可能にし,(2)長距離依存を包括的にモデル化し,大域的知覚を実現するためにDAT(Dual-axial Aggregation Transformer)を提案し,(3)分類と局所化の相互作用を容易にするクロスタスクインタラクショントランスフォーマー(CIT)を考案する。 プラグアンドプレイ法として、提案したUniHeadは既存の検出器と便利な統合が可能である。 COCOデータセットに関する大規模な実験は、UniHeadが多くの検出器に大幅な改善をもたらすことを実証している。 例えば、UniHeadはRetinaNetで+2.7APゲイン、FreeAnchorで+2.9APゲイン、GFLで+2.1APゲインを得ることができる。 コードはhttps://github.com/zht8506/UniHeadで入手できる。

The detection head constitutes a pivotal component within object detectors, tasked with executing both classification and localization functions. Regrettably, the commonly used parallel head often lacks omni perceptual capabilities, such as deformation perception, global perception and cross-task perception. Despite numerous methods attempting to enhance these abilities from a single aspect, achieving a comprehensive and unified solution remains a significant challenge. In response to this challenge, we develop an innovative detection head, termed UniHead, to unify three perceptual abilities simultaneously. More precisely, our approach (1) introduces deformation perception, enabling the model to adaptively sample object features; (2) proposes a Dual-axial Aggregation Transformer (DAT) to adeptly model long-range dependencies, thereby achieving global perception; and (3) devises a Cross-task Interaction Transformer (CIT) that facilitates interaction between the classification and localization branches, thus aligning the two tasks. As a plug-and-play method, the proposed UniHead can be conveniently integrated with existing detectors. Extensive experiments on the COCO dataset demonstrate that our UniHead can bring significant improvements to many detectors. For instance, the UniHead can obtain +2.7 AP gains in RetinaNet, +2.9 AP gains in FreeAnchor, and +2.1 AP gains in GFL. The code is available at https://github.com/zht8506/UniHead.
翻訳日:2024-06-12 05:19:21 公開日:2024-06-10
# 集合メンバシップによる制御ダイナミクスの不確実性集合の学習:非漸近解析

Learning the Uncertainty Sets for Control Dynamics via Set Membership: A Non-Asymptotic Analysis ( http://arxiv.org/abs/2309.14648v2 )

ライセンス: Link先を確認
Yingying Li, Jing Yu, Lauren Conger, Taylan Kargin, Adam Wierman, (参考訳) 本稿では,未知の線形系の不確実性集合推定について検討する。 不確実性セットは、制御設計の保守性に直接影響を与えるため、ロバスト制御の品質に不可欠である。 本稿では,最小二乗推定の信頼性領域解析とは別に,セットメンバシップ推定(SME)に焦点を当てる。 制御文学において、優れた数値性能は中小企業の応用を惹きつけてきたが、線形系に対する中小企業の漸近収束速度は未解決のままである。 本稿では、中小企業の収束率境界を初めて提示し、緩和された仮定の下での中小企業の変動について論じる。 また,中小企業の実用性を示す数値的な結果も提供する。

This paper studies uncertainty set estimation for unknown linear systems. Uncertainty sets are crucial for the quality of robust control since they directly influence the conservativeness of the control design. Departing from the confidence region analysis of least squares estimation, this paper focuses on set membership estimation (SME). Though good numerical performances have attracted applications of SME in the control literature, the non-asymptotic convergence rate of SME for linear systems remains an open question. This paper provides the first convergence rate bounds for SME and discusses variations of SME under relaxed assumptions. We also provide numerical results demonstrating SME's practical promise.
翻訳日:2024-06-12 05:07:26 公開日:2024-06-10
# 赤外線人体検出における身体的対人パッチ攻撃の予防

Defending Against Physical Adversarial Patch Attacks on Infrared Human Detection ( http://arxiv.org/abs/2309.15519v3 )

ライセンス: Link先を確認
Lukas Strack, Futa Waseda, Huy H. Nguyen, Yinqiang Zheng, Isao Echizen, (参考訳) 赤外線検出は、その顕著な対干渉能力により、安全クリティカルなタスクの新興技術である。 しかし、近年の研究により、物理的に実現可能な敵パッチに弱いことが判明し、現実世界の応用にリスクが生じることが判明した。 この問題に対処するため,我々は,赤外線検出,特にヒト検出に対する敵パッチ攻撃に対する防衛戦略を最初に検討した。 本稿では,サンプルをランダムなパッチで効率的に拡張し,その後に検出する,単純な防御戦略であるパッチベースオクルージョン認識検出(POD)を提案する。 PODは、人を堅牢に検出するだけでなく、敵のパッチ位置も特定する。 驚くべきことに、極端に計算効率が良いにもかかわらず、PODは訓練中に見つからない最先端の敵パッチ攻撃に容易に一般化できる。 さらに、PODは、データ増強効果によるクリーンな(すなわち無攻撃)状況においても、検出精度を向上させる。 評価の結果,PODは様々な形状や大きさの敵パッチに対して堅牢であることが示された。 我々のベースラインアプローチの有効性は、現実世界の赤外線検知システムにおいて有効な防御機構であることが示され、今後の研究方向を探究するための道が開けられた。

Infrared detection is an emerging technique for safety-critical tasks owing to its remarkable anti-interference capability. However, recent studies have revealed that it is vulnerable to physically-realizable adversarial patches, posing risks in its real-world applications. To address this problem, we are the first to investigate defense strategies against adversarial patch attacks on infrared detection, especially human detection. We propose a straightforward defense strategy, patch-based occlusion-aware detection (POD), which efficiently augments training samples with random patches and subsequently detects them. POD not only robustly detects people but also identifies adversarial patch locations. Surprisingly, while being extremely computationally efficient, POD easily generalizes to state-of-the-art adversarial patch attacks that are unseen during training. Furthermore, POD improves detection precision even in a clean (i.e., no-attack) situation due to the data augmentation effect. Our evaluation demonstrates that POD is robust to adversarial patches of various shapes and sizes. The effectiveness of our baseline approach is shown to be a viable defense mechanism for real-world infrared human detection systems, paving the way for exploring future research directions.
翻訳日:2024-06-12 05:07:26 公開日:2024-06-10
# 「弁解したい」:大規模言語モデルにおける弁証的推論

"I'd Like to Have an Argument, Please": Argumentative Reasoning in Large Language Models ( http://arxiv.org/abs/2309.16938v2 )

ライセンス: Link先を確認
Adrian de Wynter, Tangming Yuan, (参考訳) 議論的推論を行う2つの大規模言語モデル(LLM)の性能を評価する。 本研究では,より抽象的な入力および出力(I/O)表現(例えば,任意のラベル集合,グラフなど)下でのLLMの引数認識能力を評価する。 プロンプト句のよく知られた評価とは異なり、抽象的評価はプロンプトのフレーズを保ちながら推論能力をテストする。 AM や APE では LLM が SOTA と一致するか,あるいは上回っていることが分かり,特定の I/O 抽象化の下では LLM がうまく機能し,チェーン・オブ・シンセサイティング(英語版)を破っても,これを記号的プロンプトと呼ぶ。 しかし、LLMの統計的解析は、小さいが、まだ可読である場合、I/O表現の変更(例えば、行数ではなく、BIOタグを要求する)は、モデルが推論を実行していないことを示している。 これは、LCMがデータラベリングや紙のレビューといったタスクへの応用を慎重に行う必要があることを示唆している。

We evaluate two large language models (LLMs) ability to perform argumentative reasoning. We experiment with argument mining (AM) and argument pair extraction (APE), and evaluate the LLMs' ability to recognize arguments under progressively more abstract input and output (I/O) representations (e.g., arbitrary label sets, graphs, etc.). Unlike the well-known evaluation of prompt phrasings, abstraction evaluation retains the prompt's phrasing but tests reasoning capabilities. We find that scoring-wise the LLMs match or surpass the SOTA in AM and APE, and under certain I/O abstractions LLMs perform well, even beating chain-of-thought--we call this symbolic prompting. However, statistical analysis on the LLMs outputs when subject to small, yet still human-readable, alterations in the I/O representations (e.g., asking for BIO tags as opposed to line numbers) showed that the models are not performing reasoning. This suggests that LLM applications to some tasks, such as data labelling and paper reviewing, must be done with care.
翻訳日:2024-06-12 05:07:26 公開日:2024-06-10
# 協力, 競争, 悪意: LLM-Stakeholders Interactive Negotiation

Cooperation, Competition, and Maliciousness: LLM-Stakeholders Interactive Negotiation ( http://arxiv.org/abs/2309.17234v2 )

ライセンス: Link先を確認
Sahar Abdelnabi, Amr Gomaa, Sarath Sivaprasad, Lea Schönherr, Mario Fritz, (参考訳) マルチエージェントシステムにおいて,効果的なコラボレーションや複雑な状況の評価を必要とする対話型実世界のタスクに取り組むために,LLM(Large Language Models)の使用に対する関心が高まっている。 しかし,マルチエージェント環境におけるLLMのコミュニケーションと意思決定能力については,まだ限定的な理解が得られていない。 交渉の基本的な課題は、協力、競争、操作の可能性など、コミュニケーションの多くの重要な特徴にまたがる。 そこで本稿では,LLMの評価にスコーラブルネゴシエーションを用いた手法を提案する。 複雑なマルチエージェント、マルチイシュー、セマンティックにリッチなネゴシエーションゲームのテストベッドを作成します。 合意に達するには、エージェントは強力な算術、推論、探索、計画能力を持ちながら、それらを動的かつマルチターンのセットアップに統合する必要がある。 エージェントのパフォーマンスと、割り当てられた役割との整合性を厳格に定量化するために、複数のメトリクスを提案する。 我々は、新しいゲームを作成し、進化するベンチマークを持つことの難しさを増大させる手順を提供する。 重要なことは、グリーディと敵プレイヤーに影響されたエージェント間の相互作用のダイナミクスなど、重要な安全性の側面を評価することである。 GPT-4 と SoTA の大規模モデル (例えば Llama-3 70b ) は依然として性能が劣っている。

There is an growing interest in using Large Language Models (LLMs) in multi-agent systems to tackle interactive real-world tasks that require effective collaboration and assessing complex situations. Yet, we still have a limited understanding of LLMs' communication and decision-making abilities in multi-agent setups. The fundamental task of negotiation spans many key features of communication, such as cooperation, competition, and manipulation potentials. Thus, we propose using scorable negotiation to evaluate LLMs. We create a testbed of complex multi-agent, multi-issue, and semantically rich negotiation games. To reach an agreement, agents must have strong arithmetic, inference, exploration, and planning capabilities while integrating them in a dynamic and multi-turn setup. We propose multiple metrics to rigorously quantify agents' performance and alignment with the assigned role. We provide procedures to create new games and increase games' difficulty to have an evolving benchmark. Importantly, we evaluate critical safety aspects such as the interaction dynamics between agents influenced by greedy and adversarial players. Our benchmark is highly challenging; GPT-3.5 and small models mostly fail, and GPT-4 and SoTA large models (e.g., Llama-3 70b) still underperform.
翻訳日:2024-06-12 05:07:26 公開日:2024-06-10
# 拡散モデルにおける再現性と一般化可能性の創発

The Emergence of Reproducibility and Generalizability in Diffusion Models ( http://arxiv.org/abs/2310.05264v4 )

ライセンス: Link先を確認
Huijie Zhang, Jinfan Zhou, Yifu Lu, Minzhe Guo, Peng Wang, Liyue Shen, Qing Qu, (参考訳) 本研究では,拡散モデルが「一貫性のあるモデル再現性」と呼ばれる興味深い現象を考察する:同じ開始音入力と決定論的サンプリング器が与えられた場合,拡散モデルが異なる場合,非常によく似た出力が得られる。 この現象を包括的実験により確認し、拡散モデルフレームワーク、モデルアーキテクチャ、トレーニング手順にかかわらず、異なる拡散モデルが同一のデータ分布とスコアリング関数に一貫して到達することを示唆する。 より顕著な研究は、拡散モデルがトレーニングデータサイズの影響を受けやすい分布を学習していることを示唆している。 これは、モデル再現性が2つの異なる訓練体制に現れるという事実に支えられている。 一 拡散モデルが訓練データ配信に適合する「記憶体制」及び (2)モデルが基礎となるデータ分布を学習する「一般化体制」。 また, この性質は, 条件付き使用, 逆問題解決, モデル微調整など, 拡散モデルの多くの変種に一般化されることが示唆された。 最後に,本研究は今後の研究に多くの興味深い理論的疑問を提起し,トレーニング効率,モデルのプライバシ,制御された拡散モデルの生成に関する実践的意味を強調した。

In this work, we investigate an intriguing and prevalent phenomenon of diffusion models which we term as "consistent model reproducibility": given the same starting noise input and a deterministic sampler, different diffusion models often yield remarkably similar outputs. We confirm this phenomenon through comprehensive experiments, implying that different diffusion models consistently reach the same data distribution and scoring function regardless of diffusion model frameworks, model architectures, or training procedures. More strikingly, our further investigation implies that diffusion models are learning distinct distributions affected by the training data size. This is supported by the fact that the model reproducibility manifests in two distinct training regimes: (i) "memorization regime", where the diffusion model overfits to the training data distribution, and (ii) "generalization regime", where the model learns the underlying data distribution. Our study also finds that this valuable property generalizes to many variants of diffusion models, including those for conditional use, solving inverse problems, and model fine-tuning. Finally, our work raises numerous intriguing theoretical questions for future investigation and highlights practical implications regarding training efficiency, model privacy, and the controlled generation of diffusion models.
翻訳日:2024-06-12 04:57:43 公開日:2024-06-10
# 局所情報時間進化による大規模多体量子ダイナミクスの効率化

Efficient Large-Scale Many-Body Quantum Dynamics via Local-Information Time Evolution ( http://arxiv.org/abs/2310.06036v4 )

ライセンス: Link先を確認
Claudia Artiaco, Christoph Fleckenstein, David Aceituno Chávez, Thomas Klein Kvorning, Jens H. Bardarson, (参考訳) 多体系の絡み合いの時間的進化は急速に増加し、シミュレーションの精度は小さなシステムや小さな時間スケールに制限される。 しかし、量子情報は局所的なスケールに戻ることなく大きなスケールに向かって流れる傾向にあり、その詳細な大規模構造は局所的な観測物に直接影響を与えない。 これにより、局所的に観測可能なものをすべて保存し、大規模で大規模な量子力学へのアクセスを可能にする方法で、大規模な量子情報の除去が可能になる。 この目的のために、最近導入された情報格子を用いて、異なるスケールに量子情報を整理し、制御された方法で長距離量子相関を体系的に破棄するために使用する局所情報と情報電流を定義する。 我々のアプローチは、システムを最大スケールまでサブシステムに分解し、ノイマン方程式を並列に解くことでサブシステム密度行列を進化させることに依存している。 重要なことは、大規模な情報を捨てる際には、情報の流れを保存する必要がある。 情報電流の微視的詳細を仮定することなく、最大規模の状態を用いて情報の流れを正確に把握しながら、情報を破棄する第2尺度を導入する。 得られたアルゴリズムは、局所情報時間進化(LITE)と呼ばれ、様々な流体力学挙動を持つ閉量子系と開量子系の多体量子力学の研究に非常に適している。 混合場イジングモデルにおけるエネルギー輸送結果と、拡散係数を正確に決定するオープンXXスピンチェーンにおける磁化輸送結果について述べる。 ここで用いられる情報格子フレームワークは、多体システムにおける絡み合いの空間的および時間的挙動に関する洞察力のある結果を提供することを約束する。

During time evolution of many-body systems entanglement grows rapidly, limiting exact simulations to small-scale systems or small timescales. Quantum information tends however to flow towards larger scales without returning to local scales, such that its detailed large-scale structure does not directly affect local observables. This allows for the removal of large-scale quantum information in a way that preserves all local observables and gives access to large-scale and large-time quantum dynamics. To this end, we use the recently introduced information lattice to organize quantum information into different scales, allowing us to define local information and information currents which we employ to systematically discard long-range quantum correlations in a controlled way. Our approach relies on decomposing the system into subsystems up to a maximum scale and time evolving the subsystem density matrices by solving the subsystem von Neumann equations in parallel. Importantly, the information flow needs to be preserved during the discarding of large-scale information. To achieve this without the need to make assumptions about the microscopic details of the information current, we introduce a second scale at which information is discarded while using the state at the maximum scale to accurately obtain the information flow. The resulting algorithm, which we call local information time evolution (LITE), is highly versatile and suitable for investigating many-body quantum dynamics in both closed and open quantum systems with diverse hydrodynamic behaviors. We present results for energy transport in the mixed-field Ising model and magnetization transport in an open XX spin chain where we accurately determine the diffusion coefficients. The information lattice framework employed here promises to offer insightful results about the spatial and temporal behavior of entanglement in many-body systems.
翻訳日:2024-06-12 04:57:42 公開日:2024-06-10
# 3次元物理理解のための大規模視覚モデル探索のための一般プロトコル

A General Protocol to Probe Large Vision Models for 3D Physical Understanding ( http://arxiv.org/abs/2310.06836v3 )

ライセンス: Link先を確認
Guanqi Zhan, Chuanxia Zheng, Weidi Xie, Andrew Zisserman, (参考訳) 本研究の目的は、画像に描かれた3次元シーンの物理特性の「理解」の度合いを決定するために、大きな視覚モデルを探索することである。 この目的のために、以下の貢献をしている。 そこで,本研究では,3Dシーンの物理的「プロパティ」を符号化したオフザシェルフ大型視覚モデルの特徴を評価するための,汎用的で軽量なプロトコルを提案する。 プローブはプロパティのアノテーションを備えた実際のイメージのデータセットに適用される。 (II)このプロトコルを,CLIP,DINOv1,DINOv2,VQGAN,Stable Diffusionなどの大規模ビジョンモデル,シーン幾何学,シーン素材,サポート関係,照明,ビュー依存尺度などをカバーする特性に適用する。 (3)DINOv1,CLIP,VQGANは,シーン幾何学,サポート関係,シャドウ,奥行きなど,様々な特性の識別学習に適しているが,咬合や素材の性能は低く,全ての特性に対して優れていた。 (4)DINO/CLIP/VQGANの異なる変圧器層と同様に、安定拡散特性の異なる時間ステップが、異なる特性に優れており、3次元物理理解の潜在的な応用を解き放つことが観察された。

Our objective in this paper is to probe large vision models to determine to what extent they 'understand' different physical properties of the 3D scene depicted in an image. To this end, we make the following contributions: (i) We introduce a general and lightweight protocol to evaluate whether features of an off-the-shelf large vision model encode a number of physical 'properties' of the 3D scene, by training discriminative classifiers on the features for these properties. The probes are applied on datasets of real images with annotations for the property. (ii) We apply this protocol to properties covering scene geometry, scene material, support relations, lighting, and view-dependent measures, and large vision models including CLIP, DINOv1, DINOv2, VQGAN, Stable Diffusion. (iii) We find that features from Stable Diffusion and DINOv2 are good for discriminative learning of a number of properties, including scene geometry, support relations, shadows and depth, but less performant for occlusion and material, while outperforming DINOv1, CLIP and VQGAN for all properties. (iv) It is observed that different time steps of Stable Diffusion features, as well as different transformer layers of DINO/CLIP/VQGAN, are good at different properties, unlocking potential applications of 3D physical understanding.
翻訳日:2024-06-12 04:57:42 公開日:2024-06-10
# オンライン投機的デコード

Online Speculative Decoding ( http://arxiv.org/abs/2310.07177v4 )

ライセンス: Link先を確認
Xiaoxuan Liu, Lanxiang Hu, Peter Bailis, Alvin Cheung, Zhijie Deng, Ion Stoica, Hao Zhang, (参考訳) 投機的復号化(英: Speculative decoding)は、より小さなドラフトモデルを用いてターゲットモデルの出力を予測することにより、大規模言語モデル(LLM)の推論を高速化する重要な手法である。 しかし、その有効性は、ドラフトモデルの予測精度が低いこと、特に多様なテキスト入力に直面した場合、ドラフトモデルとターゲットモデルの間に有意な能力差があるため、制限される可能性がある。 この課題に対処するために、オンライン投機的復号化を導入する。 主なアイデアは、観測されたユーザクエリデータに対する(複数)ドラフトモデルを継続的に更新することである。 クエリ分布への適応は、ドラフトモデルのトレーニング分布とクエリ分布とのシフトを緩和し、ドラフトモデルがターゲットモデルの出力をより正確に予測できるようにする。 本稿では,知識蒸留に基づくオンライン投機的デコーディングのプロトタイプを開発し,合成データと実データの両方を用いて評価する。 その結果、トークンの受け入れ率は0.1から0.65に大幅に増加し、レイテンシが1.42倍から2.17倍に低下した。 私たちのコードはhttps://github.com/LiuXiaoxuanPKU/OSD.comで公開されています。

Speculative decoding is a pivotal technique to accelerate the inference of large language models (LLMs) by employing a smaller draft model to predict the target model's outputs. However, its efficacy can be limited due to the low predictive accuracy of the draft model, particularly when faced with diverse text inputs and a significant capability gap between the draft and target models. We introduce online speculative decoding to address this challenge. The main idea is to continuously update the (multiple) draft model(s) on observed user query data. Adapting to query distribution mitigates the shifts between the training distribution of the draft model and the query distribution, enabling the draft model to more accurately predict the target model's outputs. We develop a prototype of online speculative decoding based on knowledge distillation and evaluate it using both synthetic and real query data. The results show a substantial increase in the token acceptance rate by 0.1 to 0.65, bringing 1.42x to 2.17x latency reduction. Our code is available at https://github.com/LiuXiaoxuanPKU/OSD.
翻訳日:2024-06-12 04:57:42 公開日:2024-06-10
# ユーザ優先のアプライアンススケジューリングのためのリワード関数の学習

Learning a Reward Function for User-Preferred Appliance Scheduling ( http://arxiv.org/abs/2310.07389v2 )

ライセンス: Link先を確認
Nikolina Čović, Jochen L. Cremer, Hrvoje Pandžić, (参考訳) 電力部門における炭素排出削減には,住宅部門による需要対応サービス提供の促進が不可欠である。 インフラストラクチャの進歩とともに、エンドユーザの参加を促すことが重要です。 エンドユーザは、プライバシとコントロールを高く評価し、毎日のアプライアンス運用スケジュールを作成する際に、サービス設計と意思決定プロセスに含めたいと思っています。 さらに、財政的にも環境的にも動機的にもない限り、電力システムのバランスをとるための快適さを犠牲にしてはならないのが一般的である。 本稿では,エンドユーザーの日次アプライアンススケジュール作成を支援する逆強化学習モデルを提案する。 過去の消費データを利用することで、エンド消費者はこれらの決定の作成に暗黙的に参加し、需要対応サービスの提供に引き続き参加する動機となる。

Accelerated development of demand response service provision by the residential sector is crucial for reducing carbon-emissions in the power sector. Along with the infrastructure advancement, encouraging the end users to participate is crucial. End users highly value their privacy and control, and want to be included in the service design and decision-making process when creating the daily appliance operation schedules. Furthermore, unless they are financially or environmentally motivated, they are generally not prepared to sacrifice their comfort to help balance the power system. In this paper, we present an inverse-reinforcement-learning-based model that helps create the end users' daily appliance schedules without asking them to explicitly state their needs and wishes. By using their past consumption data, the end consumers will implicitly participate in the creation of those decisions and will thus be motivated to continue participating in the provision of demand response services.
翻訳日:2024-06-12 04:57:42 公開日:2024-06-10
# ReLUニューラルネットワークのトポロジカル表現性

Topological Expressivity of ReLU Neural Networks ( http://arxiv.org/abs/2310.11130v2 )

ライセンス: Link先を確認
Ekin Ergen, Moritz Grillo, (参考訳) 本稿では,2値分類問題の設定におけるReLUニューラルネットワークの表現性について,トポロジ的観点から検討する。 最近、実験的な研究により、ニューラルネットワークはトポロジを変化させ、トポロジ的に複雑なデータセットをトポロジ的に単純なものへと変換し、層を通過することによって機能することを示した。 この位相的単純化は、位相空間の代数的不変量であるベッチ数によって測定されている。 我々は同じ尺度を用いて、ReLUニューラルネットワークが与えられたアーキテクチャで達成できるトポロジカル単純化に関する下限と上限を確立する。 そこで我々は,ReLUニューラルネットワークの2値分類問題の文脈における表現性について,その基礎となるトポロジ的構造を捉える能力に光を当てることにより,より深く理解することに貢献した。 特に、深部ReLUニューラルネットワークは、トポロジカル単純化の観点から、浅部よりも指数関数的に強力であることを示す。 このことは、より深いネットワークが複雑でトポロジ的にリッチなデータセットを扱うのに適している理由を数学的に厳密な説明を提供する。

We study the expressivity of ReLU neural networks in the setting of a binary classification problem from a topological perspective. Recently, empirical studies showed that neural networks operate by changing topology, transforming a topologically complicated data set into a topologically simpler one as it passes through the layers. This topological simplification has been measured by Betti numbers, which are algebraic invariants of a topological space. We use the same measure to establish lower and upper bounds on the topological simplification a ReLU neural network can achieve with a given architecture. We therefore contribute to a better understanding of the expressivity of ReLU neural networks in the context of binary classification problems by shedding light on their ability to capture the underlying topological structure of the data. In particular the results show that deep ReLU neural networks are exponentially more powerful than shallow ones in terms of topological simplification. This provides a mathematically rigorous explanation why deeper networks are better equipped to handle complex and topologically rich data sets.
翻訳日:2024-06-12 04:57:42 公開日:2024-06-10
# エージェント特異的効果:マルチエージェントMDPにおける因果効果伝搬解析

Agent-Specific Effects: A Causal Effect Propagation Analysis in Multi-Agent MDPs ( http://arxiv.org/abs/2310.11334v3 )

ライセンス: Link先を確認
Stelios Triantafyllou, Aleksa Sukovic, Debmalya Mandal, Goran Radanovic, (参考訳) 行動と成果の因果関係を確立することは、説明責任のあるマルチエージェントの意思決定に不可欠である。 しかし、そのような関係に対するエージェントの貢献の解釈と定量化は大きな課題となる。 これらの課題は、エージェントのアクションが結果に与える因果効果が、他のエージェントがそのアクションにどのように反応するかに依存する、マルチエージェントのシーケンシャルな意思決定の文脈において特に顕著である。 本稿では,エージェントの行動が他のエージェントに与える影響に因果的影響をもたらすための体系的アプローチを提案する。 マルチエージェントマルコフ決定過程に着目し,エージェント特異的効果(ASE)を導入する。 そこで我々は, ASE (cf-ASE) の逆ファクトに目を向け, cf-ASE の同定に十分な条件セットを提供し, その推定のための実用的なサンプリングベースアルゴリズムを提案する。 最後に,敗血症管理環境を含むシミュレーションベースのテストベッドを用いて,cf-ASEの有用性を実験的に評価した。

Establishing causal relationships between actions and outcomes is fundamental for accountable multi-agent decision-making. However, interpreting and quantifying agents' contributions to such relationships pose significant challenges. These challenges are particularly prominent in the context of multi-agent sequential decision-making, where the causal effect of an agent's action on the outcome depends on how other agents respond to that action. In this paper, our objective is to present a systematic approach for attributing the causal effects of agents' actions to the influence they exert on other agents. Focusing on multi-agent Markov decision processes, we introduce agent-specific effects (ASE), a novel causal quantity that measures the effect of an agent's action on the outcome that propagates through other agents. We then turn to the counterfactual counterpart of ASE (cf-ASE), provide a sufficient set of conditions for identifying cf-ASE, and propose a practical sampling-based algorithm for estimating it. Finally, we experimentally evaluate the utility of cf-ASE through a simulation-based testbed, which includes a sepsis management environment.
翻訳日:2024-06-12 04:57:42 公開日:2024-06-10
# AlexnetからTransformersへ:アフィン最適輸送を用いたディープニューラルネットワークの非線形性の測定

From Alexnet to Transformers: Measuring the Non-linearity of Deep Neural Networks with Affine Optimal Transport ( http://arxiv.org/abs/2310.11439v2 )

ライセンス: Link先を確認
Quentin Bouniot, Ievgen Redko, Anton Mallasto, Charlotte Laclau, Karol Arndt, Oliver Struckmeier, Markus Heinonen, Ville Kyrki, Samuel Kaski, (参考訳) 過去10年間で、さまざまなタスクにまたがる継続的なパフォーマンスを示す、いくつかの新しいディープニューラルネットワーク(DNN)アーキテクチャが導入されたのを目撃しました。 しかし、そのパフォーマンスの上昇傾向を説明することは、同じデータセットでトレーニングされた場合でも、同等の深さと幅の異なるDNNアーキテクチャ(表現力に関連する一般的な要因)が大幅に異なるパフォーマンスを示すため、依然として困難である。 本稿では,DNNの非線形性シグネチャの概念を紹介する。 クローズドフォームの最適トランスポートマッピングから得られるスコアに基づいて構築されたこのシグネチャは、コンピュータビジョンタスクに特に重点を置いて、幅広いDNNアーキテクチャと学習パラダイムの内部動作をよりよく理解する。 提案した非線形署名の実用的有用性と長期的影響の可能性を明らかにするための広範な実験結果を提供する。 私たちの作業のコードはhttps://github.com/qbouniot/AffScoreDeepで公開されています。

In the last decade, we have witnessed the introduction of several novel deep neural network (DNN) architectures exhibiting ever-increasing performance across diverse tasks. Explaining the upward trend of their performance, however, remains difficult as different DNN architectures of comparable depth and width -- common factors associated with their expressive power -- may exhibit a drastically different performance even when trained on the same dataset. In this paper, we introduce the concept of the non-linearity signature of DNN, the first theoretically sound solution for approximately measuring the non-linearity of deep neural networks. Built upon a score derived from closed-form optimal transport mappings, this signature provides a better understanding of the inner workings of a wide range of DNN architectures and learning paradigms, with a particular emphasis on the computer vision task. We provide extensive experimental results that highlight the practical usefulness of the proposed non-linearity signature and its potential for long-reaching implications. The code for our work is available at https://github.com/qbouniot/AffScoreDeep
翻訳日:2024-06-12 04:57:42 公開日:2024-06-10
# AlpaCare:医学応用のための指導訓練型大規模言語モデル

AlpaCare:Instruction-tuned Large Language Models for Medical Application ( http://arxiv.org/abs/2310.14558v4 )

ライセンス: Link先を確認
Xinlu Zhang, Chenxin Tian, Xianjun Yang, Lichang Chen, Zekun Li, Linda Ruth Petzold, (参考訳) インストラクションファインタニング(IFT)は,大規模言語モデル(LLM)と多様な人的ニーズの整合に不可欠であり,医学的応用に大きな可能性を示している。 しかし、従来の研究は主に、ベンチマークやタスク範囲の狭い生物医学的データセットを微調整し、その結果、医学的な指導・追跡能力と一般化性に対する効果を著しく制限した。 このギャップを埋めるため,GPT-4 と ChatGPT を用いた多種多様な医学 IFT データセット MedInstruct-52k の作成を提案する。 次に、データセット上のLLaMA系列モデルを微調整してAlpaCareを開発する。 AlpaCareは、以前の医療用LLMよりも小さなドメイン固有のデータセットを使用しているが、医療応用において優れたパフォーマンスを示すだけでなく、医療用フリーフォームの命令評価において、最高基準よりも38.1%の絶対的なゲインを持つだけでなく、複数の一般的なドメインベンチマークで平均6.7%の絶対的なゲインを達成する。 人間の評価はさらに、AlpaCareは正確性と有用性の両方の観点から、最高のベースラインを一貫して上回っていることを示している。 データ、モデル、コードベースへの公開アクセスはhttps://github.com/XZhang97666/AlpaCare.comで提供しています。

Instruction-finetuning (IFT) has become crucial in aligning Large Language Models (LLMs) with diverse human needs and has shown great potential in medical applications. However, previous studies mainly fine-tune LLMs on biomedical datasets with limited diversity, which often rely on benchmarks or narrow task scopes, and hence significantly limit the effectiveness on their medical instruction-following ability and generalizability. To bridge this gap, we propose creating a diverse, machine-generated medical IFT dataset, MedInstruct-52k, using GPT-4 and ChatGPT with a high-quality expert-curated seed set. We then fine-tune LLaMA-series models on the dataset to develop AlpaCare. Despite using a smaller domain-specific dataset than previous medical LLMs, AlpaCare not only demonstrates superior performance on medical applications, with up to 38.1% absolute gain over best baselines in medical free-form instruction evaluations, but also achieves 6.7% absolute gains averaged over multiple general domain benchmarks. Human evaluation further shows that AlpaCare consistently outperforms best baselines in terms of both correctness and helpfulness. We offer public access to our data, model, and codebase in https://github.com/XZhang97666/AlpaCare.
翻訳日:2024-06-12 04:47:59 公開日:2024-06-10
# ニュアンスパラメータの存在下でのベイズ能動的学習

Bayesian Active Learning in the Presence of Nuisance Parameters ( http://arxiv.org/abs/2310.14968v3 )

ライセンス: Link先を確認
Sabina J. Sloman, Ayush Bharti, Julien Martinelli, Samuel Kaski, (参考訳) 科学的推論,最適化,伝達学習など,多くの設定において,学習者は目標パラメータの推定として扱うことができ,データ生成プロセス全体を特徴付けることに本質的な関心を持たない,明確に定義された目的を持っている。 通常、学習者は不確実性や変数の新たな情報源と、ニュアンスパラメータを競合しなければならない。 ベイズ的アクティブラーニング(Bayesian active learning, 逐次的最適実験設計)は、ニュアンスパラメータの存在に容易に適応でき、そのような問題に対する自然なアクティブラーニングフレームワークである。 しかし、ニュアンスパラメータの導入は、ベイズ学習者の目標パラメータの推定に偏りをもたらす可能性がある。 我々は、負の干渉の脅威と、ベイズアクティブ学習者のタスクの性質を根本的に変える方法について特徴づける。 負の干渉の程度は極端に大きいことを示し、ニュアンスパラメータの正確な推定がそれを減らすために重要であることを示す。 ベイズ活発な学習者はジレンマに直面しており、ターゲットの推定に有限の取得予算を費やすか、あるいはニュアンスパラメータを追求するかである。 本研究はベイズ移動学習を特例とし,学習環境間の負の伝達現象を考察した。

In many settings, such as scientific inference, optimization, and transfer learning, the learner has a well-defined objective, which can be treated as estimation of a target parameter, and no intrinsic interest in characterizing the entire data-generating process. Usually, the learner must also contend with additional sources of uncertainty or variables -- with nuisance parameters. Bayesian active learning, or sequential optimal experimental design, can straightforwardly accommodate the presence of nuisance parameters, and so is a natural active learning framework for such problems. However, the introduction of nuisance parameters can lead to bias in the Bayesian learner's estimate of the target parameters, a phenomenon we refer to as negative interference. We characterize the threat of negative interference and how it fundamentally changes the nature of the Bayesian active learner's task. We show that the extent of negative interference can be extremely large, and that accurate estimation of the nuisance parameters is critical to reducing it. The Bayesian active learner is confronted with a dilemma: whether to spend a finite acquisition budget in pursuit of estimation of the target or of the nuisance parameters. Our setting encompasses Bayesian transfer learning as a special case, and our results shed light on the phenomenon of negative transfer between learning environments.
翻訳日:2024-06-12 04:47:59 公開日:2024-06-10
# デモストレーション規則化RL

Demonstration-Regularized RL ( http://arxiv.org/abs/2310.17303v2 )

ライセンス: Link先を確認
Daniil Tiapkin, Denis Belomestny, Daniele Calandriello, Eric Moulines, Alexey Naumov, Pierre Perrault, Michal Valko, Pierre Menard, (参考訳) 専門家による実証実験を取り入れることで、強化学習(RL)のサンプル効率が向上した。 本稿では、この余分な情報がRLのサンプルの複雑さをどの程度減少させるかを理論的に定量化する。 特に,KL-regularizationによる専門家による実演を活用した実演正規化強化学習について,行動クローニングによって学習した政策について検討した。 我々の発見は、$N^{\mathrm{E}}$のエキスパートデモを使用することで、次数$\widetilde{O}(\mathrm{Poly}(S,A,H)/(\varepsilon^2 N^{\mathrm{E}}))$の有限および$\widetilde{O}(\mathrm{Poly}(d,H)/(\varepsilon^2 N^{\mathrm{E}})$のサンプル複雑性における最適ポリシーの特定が可能になることを示している。 副産物として、政策クラスに関する一般的な仮定の下での行動クローニング手順に対して、厳密な収束保証を提供する。 さらに,人間のフィードバック(RLHF)からの強化学習において,実演規則化手法が有効であることを示す。 本稿では,RLHF に対する KL-正則化の利点を表わす理論的証拠を提供する。 興味深いことに、我々は報酬推定の不確実性に対処するために計算可能な正則化を用いることで悲観的注入を避ける。

Incorporating expert demonstrations has empirically helped to improve the sample efficiency of reinforcement learning (RL). This paper quantifies theoretically to what extent this extra information reduces RL's sample complexity. In particular, we study the demonstration-regularized reinforcement learning that leverages the expert demonstrations by KL-regularization for a policy learned by behavior cloning. Our findings reveal that using $N^{\mathrm{E}}$ expert demonstrations enables the identification of an optimal policy at a sample complexity of order $\widetilde{O}(\mathrm{Poly}(S,A,H)/(\varepsilon^2 N^{\mathrm{E}}))$ in finite and $\widetilde{O}(\mathrm{Poly}(d,H)/(\varepsilon^2 N^{\mathrm{E}}))$ in linear Markov decision processes, where $\varepsilon$ is the target precision, $H$ the horizon, $A$ the number of action, $S$ the number of states in the finite case and $d$ the dimension of the feature space in the linear case. As a by-product, we provide tight convergence guarantees for the behaviour cloning procedure under general assumptions on the policy classes. Additionally, we establish that demonstration-regularized methods are provably efficient for reinforcement learning from human feedback (RLHF). In this respect, we provide theoretical evidence showing the benefits of KL-regularization for RLHF in tabular and linear MDPs. Interestingly, we avoid pessimism injection by employing computationally feasible regularization to handle reward estimation uncertainty, thus setting our approach apart from the prior works.
翻訳日:2024-06-12 04:47:59 公開日:2024-06-10
# 深層学習におけるエネルギー効率の解放:エッジデバイス間の計測・予測・スコーリング

Unveiling Energy Efficiency in Deep Learning: Measurement, Prediction, and Scoring across Edge Devices ( http://arxiv.org/abs/2310.18329v2 )

ライセンス: Link先を確認
Xiaolong Tu, Anik Mallik, Dawei Chen, Kyungtae Han, Onur Altintas, Haoxin Wang, Jiang Xie, (参考訳) 今日、ディープラーニングの最適化は主に、高い推論精度とレイテンシの低減に焦点をあてた研究によって進められている。 しかし、エネルギー効率の側面はしばしば見過ごされ、おそらくは、この分野における持続可能性マインドセットの欠如と、総合的なエネルギーデータセットの欠如が原因である。 本稿では,様々なエッジデバイスを用いた深層学習におけるエネルギー・エネルギー消費の透明性向上を目的として,エネルギー測定,予測,効率評価を含む3つの研究を行った。 まず,デバイス上での深層学習のエネルギー消費特性を明らかにするための,第1報の詳細な測定結果を示す。 この研究により、エッジデバイス用の3つの広範なエネルギーデータセットが作成され、幅広いカーネル、最先端のDNNモデル、一般的なAIアプリケーションをカバーする。 第2に、カーネルレベルのエネルギーデータセットに基づいて、エッジデバイスのための最初のカーネルレベルのエネルギー予測器を設計、実装する。 評価結果は,予測器が未知のDNNモデルに対して一貫した正確なエネルギー推定を行う能力を示す。 最後に、エッジデバイスの複雑な電力・エネルギー消費データをエッジデバイスのエンドユーザーにとって分かりやすい方法に変換するために開発された2つの評価指標であるPCSとIECSを紹介する。 私たちの研究は、エンドユーザと研究コミュニティの両方の考え方を、エッジコンピューティングの持続可能性へとシフトさせたいと思っています。 データ、コード、さらに最新の情報はhttps://amai-gsu.github.io/DeepEn2023にある。

Today, deep learning optimization is primarily driven by research focused on achieving high inference accuracy and reducing latency. However, the energy efficiency aspect is often overlooked, possibly due to a lack of sustainability mindset in the field and the absence of a holistic energy dataset. In this paper, we conduct a threefold study, including energy measurement, prediction, and efficiency scoring, with an objective to foster transparency in power and energy consumption within deep learning across various edge devices. Firstly, we present a detailed, first-of-its-kind measurement study that uncovers the energy consumption characteristics of on-device deep learning. This study results in the creation of three extensive energy datasets for edge devices, covering a wide range of kernels, state-of-the-art DNN models, and popular AI applications. Secondly, we design and implement the first kernel-level energy predictors for edge devices based on our kernel-level energy dataset. Evaluation results demonstrate the ability of our predictors to provide consistent and accurate energy estimations on unseen DNN models. Lastly, we introduce two scoring metrics, PCS and IECS, developed to convert complex power and energy consumption data of an edge device into an easily understandable manner for edge device end-users. We hope our work can help shift the mindset of both end-users and the research community towards sustainability in edge computing, a principle that drives our research. Find data, code, and more up-to-date information at https://amai-gsu.github.io/DeepEn2023.
翻訳日:2024-06-12 04:47:59 公開日:2024-06-10
# フェデレーション・アンラーニングに関する調査 : 課題,方法,今後の方向性

A Survey on Federated Unlearning: Challenges, Methods, and Future Directions ( http://arxiv.org/abs/2310.20448v3 )

ライセンス: Link先を確認
Ziyao Liu, Yu Jiang, Jiyuan Shen, Minyi Peng, Kwok-Yan Lam, Xingliang Yuan, Xiaoning Liu, (参考訳) 近年,「忘れられる権利」(RTBF)の概念はデータのプライバシーの重要な側面となり,個人の要求に応じて個人データの削除を支援するメカニズムの提供が求められている。 その結果、データ集約型機械学習(ML)アルゴリズムが広く採用され、個人データプライバシ保護に対する懸念が高まり、機械学習(MU)の概念が注目されている。 MUはMLモデルに、識別可能な情報を選択的に排除する権限を与える。 MUの基本原理から発展し、フェデレーションド・アンラーニング(FU)は、フェデレーションド・ラーニング(FL)設定におけるデータ消去の課題に直面している。 これにより、FLモデルがFLクライアントまたはクライアントに関連する識別可能な情報を解放する権限が与えられる。 しかし、従来のMUとは異なり、連合学習の特徴はFU技術に固有の課題をもたらす。 これらの課題は、FUアルゴリズムを開発する際に適切な設計を必要とする。 この分野では、様々な概念や多くの非学習スキームが存在するが、統一ワークフローとFUのカスタマイズ設計はまだ十分に理解されていない。 したがって、この総合的な調査は、フェデレーション・アンラーニングの技法、方法論、そして最近の進歩を掘り下げるものである。 基本的な概念と原則の概要を提供し、既存のフェデレートされた未学習アルゴリズムを評価し、フェデレートされた学習に適した最適化をレビューする。 さらに、実用的応用について検討し、その限界を評価する。 最後に、将来の研究への有望な方向性を概説する。

In recent years, the notion of ``the right to be forgotten" (RTBF) has become a crucial aspect of data privacy, requiring the provision of mechanisms that support the removal of personal data of individuals upon their requests. Consequently, given the extensive adoption of data-intensive machine learning (ML) algorithms and increasing concerns for personal data privacy protection, the concept of machine unlearning (MU) has gained considerable attention. MU empowers an ML model to selectively eliminate identifiable information. Evolving from the foundational principles of MU, federated unlearning (FU) has emerged to confront the challenge of data erasure within federated learning (FL) settings. This empowers the FL model to unlearn an FL client or identifiable information pertaining to the client. Nevertheless, unlike traditional MU, the distinctive attributes of federated learning introduce specific challenges for FU techniques. These challenges necessitate a tailored design when developing FU algorithms. While various concepts and numerous federated unlearning schemes exist in this field, the unified workflow and tailored design of FU are not yet well understood. Therefore, this comprehensive survey delves into the techniques, methodologies, and recent advancements in federated unlearning. It provides an overview of fundamental concepts and principles, evaluates existing federated unlearning algorithms, and reviews optimizations tailored to federated learning. Additionally, it discusses practical applications and assesses their limitations. Finally, it outlines promising directions for future research.
翻訳日:2024-06-12 04:47:59 公開日:2024-06-10
# 2量子モード非対称量子ラビモデルの暗方解と対称性

Dark-state solution and symmetries of the two-qubit multimode asymmetric quantum Rabi model ( http://arxiv.org/abs/2311.00174v2 )

ライセンス: Link先を確認
Ze-Feng Lei, Junlong Tian, Jie Peng, (参考訳) 2量子非対称量子ラビモデル(AQRM)について検討し,そのダークステート解を求める。 このような解は結合系全体において少なくとも1つの光子と定数のアイジネギーを持ち、スペクトルの準位交差を引き起こすが、エネルギー以外の明確な保存量はない。 固有値とすべての退化をラベル付けする固有基底の作用素を見つけ、バイアスパラメータ $\epsilon$ が共振器周波数 $\omega$ の倍数であるときに存在するよく知られた隠れ対称性と比較する。 多モードの場合により、保存されたボゾン数演算子に関連する対称性が見つかる。 これは一般化されたラビ模型の対称性の研究の視点を与える。

We study the two-qubit asymmetric quantum Rabi model (AQRM) and find its dark-state solution. Such solutions have at most one photon and constant eigenenergy in the whole coupling regime, causing level crossings in the spectrum, although there is no explicit conserved quantity except energy. We find an operator in the eigenenergy basis to label all the degeneracies with its eigenvalues, and compare it with the well-known hidden symmetry which exists when bias parameter $\epsilon$ is a multiple of half of the resonator frequency $\omega$. Extended to the multimode case, we find symmetries related with conserved bosonic number operators, which also cause level crossings. This provides a perspective for symmetry studies on generalized Rabi models.
翻訳日:2024-06-12 04:47:59 公開日:2024-06-10
# POS:テキスト・ビデオ・ジェネレーションのためのPrompts Optimization Suite

POS: A Prompts Optimization Suite for Augmenting Text-to-Video Generation ( http://arxiv.org/abs/2311.00949v3 )

ライセンス: Link先を確認
Shijie Ma, Huayi Xu, Mengjian Li, Weidong Geng, Yaxiong Wang, Meng Wang, (参考訳) 本論文は,ノイズとテキストを含む2つの入力プロンプトを改善して,拡散に基づくテキスト・ビデオ生成を向上させることを目的とする。 この目標を達成し,テキスト・ツー・ビデオモデルの強化を目的としたトレーニング不要な Prompt Optimization Suite であるPOS を提案する。 POSは2つの観測によって動機付けられている:(1)映像生成は雑音の点で不安定である。 同じテキストが与えられたとき、異なるノイズがフレーム品質と時間的一貫性の両方で大きく異なるビデオに繋がる。 この観測結果から,各テキスト入力に一致した最適雑音が存在することが示唆された。 特に、最適なノイズ近似器は、まずテキストプロンプトと密接に関連したビデオを検索し、次にノイズ空間に反転してテキスト入力のための改良されたノイズプロンプトとして機能する。 2) LLMによるテキストプロンプトの改善は, 意味的ずれを引き起こすことが多い。 既存のテキスト・ツー・ビジョンの多くの著作は、ジェネレーション・エンハンスメントのためのテキスト・プロンプトを改善するためにLLMを利用している。 しかし、既存の手法は、元のテキストと書き直されたテキスト間の意味的アライメントを無視することが多い。 この問題に対応するために,意味的一貫性を維持するために,文の書き直しと発音の両方に反則を課すセマンティック保存リライターを設計する。 人気のあるベンチマークに関する大規模な実験は、POSがテキスト・ビデオ・モデルを改善することができることを示している。 コードはオープンソース化される。

This paper targets to enhance the diffusion-based text-to-video generation by improving the two input prompts, including the noise and the text. Accommodated with this goal, we propose POS, a training-free Prompt Optimization Suite to boost text-to-video models. POS is motivated by two observations: (1) Video generation shows instability in terms of noise. Given the same text, different noises lead to videos that differ significantly in terms of both frame quality and temporal consistency. This observation implies that there exists an optimal noise matched to each textual input; To capture the potential noise, we propose an optimal noise approximator to approach the potential optimal noise. Particularly, the optimal noise approximator initially searches a video that closely relates to the text prompt and then inverts it into the noise space to serve as an improved noise prompt for the textual input. (2) Improving the text prompt via LLMs often causes semantic deviation. Many existing text-to-vision works have utilized LLMs to improve the text prompts for generation enhancement. However, existing methods often neglect the semantic alignment between the original text and the rewritten one. In response to this issue, we design a semantic-preserving rewriter to impose contraints in both rewritng and denoising phrases to preserve the semantic consistency. Extensive experiments on popular benchmarks show that our POS can improve the text-to-video models with a clear margin. The code will be open-sourced.
翻訳日:2024-06-12 04:47:59 公開日:2024-06-10
# ボゾン量子LDPC符号のアナログ情報復号

Analog information decoding of bosonic quantum LDPC codes ( http://arxiv.org/abs/2311.01328v2 )

ライセンス: Link先を確認
Lucas Berent, Timo Hillmann, Jens Eisert, Robert Wille, Joschka Roffe, (参考訳) 量子誤り訂正はスケーラブルな量子情報処理アプリケーションに不可欠である。 論理情報をエンコードするために複数の2レベルシステムを使用する従来の離散変数量子符号は、ハードウェア集約的である。 別のアプローチは、調和振動子の無限次元ヒルベルト空間を使って量子情報を符号化するボソニック符号によって提供される。 ボソニック符号の2つの有望な特徴は、シンドロームの測定がネイティブに類似しており、離散変数符号と結合可能であることである。 本研究では,結合アーキテクチャにおけるボソニック・キュービット・リードアウトから得られるアナログシンドローム情報を明示的に活用する新しい復号法を提案する。 我々の手法は汎用的であり、一般に量子低密度パリティチェック(QLDPC)コードと連結したボソニックコードに適用できる。 さらに,現象雑音下での復号に要する繰り返し症候群の測定回数を大幅に削減する手法として,準単発プロトコルの概念を導入する。 このプロトコルを実現するために、一般的なQLDPC符号の重なり合うウィンドウメソッドを用いた時間領域復号法と、新しいアナログシングルショット復号法を提案する。 本研究は,アナログ情報を用いた一般復号アルゴリズムの基礎を築き,結合型ボソニック-QLDPC符号を用いたフォールトトレラント量子計算の方向性を示すものである。

Quantum error correction is crucial for scalable quantum information processing applications. Traditional discrete-variable quantum codes that use multiple two-level systems to encode logical information can be hardware-intensive. An alternative approach is provided by bosonic codes, which use the infinite-dimensional Hilbert space of harmonic oscillators to encode quantum information. Two promising features of bosonic codes are that syndrome measurements are natively analog and that they can be concatenated with discrete-variable codes. In this work, we propose novel decoding methods that explicitly exploit the analog syndrome information obtained from the bosonic qubit readout in a concatenated architecture. Our methods are versatile and can be generally applied to any bosonic code concatenated with a quantum low-density parity-check (QLDPC) code. Furthermore, we introduce the concept of quasi-single-shot protocols as a novel approach that significantly reduces the number of repeated syndrome measurements required when decoding under phenomenological noise. To realize the protocol, we present a first implementation of time-domain decoding with the overlapping window method for general QLDPC codes, and a novel analog single-shot decoding method. Our results lay the foundation for general decoding algorithms using analog information and demonstrate promising results in the direction of fault-tolerant quantum computation with concatenated bosonic-QLDPC codes.
翻訳日:2024-06-12 04:47:59 公開日:2024-06-10
# トランスダクティブ学習のための情報理論一般化境界とその応用

Information-Theoretic Generalization Bounds for Transductive Learning and its Applications ( http://arxiv.org/abs/2311.04561v2 )

ライセンス: Link先を確認
Huayi Tang, Yong Liu, (参考訳) 我々は,情報理論とPAC-ベイズ理論の文脈における帰納的学習アルゴリズムの一般化境界を開発し,ランダムサンプリング設定とランダムスプリッティング設定の両方をカバーした。 本研究では,学習ラベルの選択と仮説の相互情報により,帰納的一般化のギャップを埋めることができることを示す。 トランスダクティブ・スーパーサンプルの概念を導入することで,インダクティブ・ラーニング・セッティングからトランスダクティブ・ラーニング・セッティングへ,様々な情報尺度で表される結果を変換する。 さらに、損失関数とトレーニングおよびテストデータ点数に関する仮定が弱いPAC-Bayesian境界を確立する。 最後に、適応最適化アルゴリズムの上限を示し、半教師付き学習とグラフ学習のシナリオにおける結果の適用例を示す。 我々の理論結果は、合成データセットと実世界のデータセットの両方で検証される。

We develop generalization bounds for transductive learning algorithms in the context of information theory and PAC-Bayesian theory, covering both the random sampling setting and the random splitting setting. We show that the transductive generalization gap can be bounded by the mutual information between training labels selection and the hypothesis. By introducing the concept of transductive supersamples, we translate results depicted by various information measures from the inductive learning setting to the transductive learning setting. We further establish PAC-Bayesian bounds with weaker assumptions on the loss function and numbers of training and test data points. Finally, we present the upper bounds for adaptive optimization algorithms and demonstrate the applications of results on semi-supervised learning and graph learning scenarios. Our theoretic results are validated on both synthetic and real-world datasets.
翻訳日:2024-06-12 04:47:59 公開日:2024-06-10
# ドメイン固有の質問応答におけるLLMの知識的選好アライメント

Knowledgeable Preference Alignment for LLMs in Domain-specific Question Answering ( http://arxiv.org/abs/2311.06503v3 )

ライセンス: Link先を確認
Yichi Zhang, Zhuo Chen, Yin Fang, Yanxi Lu, Fangming Li, Wen Zhang, Huajun Chen, (参考訳) 大規模言語モデル(LLM)をドメイン固有の質問応答(QA)の実際のシナリオにデプロイすることは、LLMアプリケーションにとって重要な推進力であり、特に応答がユーザ要求に適合し、ドメイン固有の知識ベースを適切に活用することを保証する上で、多くの課題を引き起こす。 バニラファインチューニングはアドレス処理に不足するため、LLMアプリケーションには2つの大きな困難がある。 これらの要件を組み合わせることで、モデルを人間と調和させるためのモデル優先の要件とみなす。 そこで我々は,この2つの問題に対処するための2種類の選好セットを構築するKnowPAT(KnowPAT)を提案する。 さらに,実世界のドメイン固有のQA設定におけるLLM性能を最適化することを目的として,LLM選好を異なる人間の選好と均一に整合させる新たなアライメント目的を設計する。 実験と15のベースライン手法との総合的な比較は、我々のKnowPATが実シナリオドメイン固有のQAとLLMの優れたパイプラインであることを示している。

Deploying large language models (LLMs) to real scenarios for domain-specific question answering (QA) is a key thrust for LLM applications, which poses numerous challenges, especially in ensuring that responses are both accommodating to user requirements and appropriately leveraging domain-specific knowledge bases. They are the two major difficulties for LLM application as vanilla fine-tuning falls short of addressing. Combining these requirements, we conceive of them as the requirement for the model's preference to be harmoniously aligned with humans'. Thus, we introduce Knowledgeable Preference AlignmenT (KnowPAT), which constructs two kinds of preference sets to tackle the two issues. Besides, we design a new alignment objective to align the LLM preference with different human preferences uniformly, aiming to optimize LLM performance in real-world, domain-specific QA settings. Adequate experiments and comprehensive comparisons with 15 baseline methods illustrate that our KnowPAT is a superior pipeline for real-scenario domain-specific QA with LLMs.
翻訳日:2024-06-12 04:47:59 公開日:2024-06-10
# マルチモーダルリモートセンシング画像分類のための変圧器を用いた不均一なグラフ表現の学習

Learning transformer-based heterogeneously salient graph representation for multimodal remote sensing image classification ( http://arxiv.org/abs/2311.10320v2 )

ライセンス: Link先を確認
Jiaqi Yang, Bo Du, Liangpei Zhang, (参考訳) 様々なモダリティによって収集されたデータは、高スペクトル画像(HSI)による豊富なスペクトル空間特性の提供、地球表面の構造情報の提供のための合成開口レーダー(SAR)、地表面の高度情報をカバーするための光検出と測度(LiDAR)など、多くの補完的な情報を提供することができる。 したがって、自然な考え方は、洗練され正確な土地被覆解釈のためのマルチモーダル画像を組み合わせることである。 マルチソースリモートセンシング画像分類の実現に多くの取り組みが試みられているが、以下の3つの課題がある。 1) 様相の不均一性を十分に考慮しない不特定特徴表現 2)長距離依存関係のモデリングに関連する豊富な特徴と複雑な計算 3) わずかにラベル付けされた試料による過度な適合現象がみられた。 以上の障壁を克服するために,変圧器を用いたヘテロジニアサリエントグラフ表現(THSGR)手法を提案する。 まず、多モード不均一グラフエンコーダを用いて、非ユークリッド構造の特徴を異種データから符号化する。 そして, 自己アテンションフリーなマルチ畳み込み変調器を, 効果的かつ効率的な長期依存性モデリングのために設計する。 最後に、過度な適合を避けるために、平均的な前進が行なわれる。 上記の構造に基づいて,本モデルでは,少数のトレーニングサンプルであっても,差分グラフ表現を競合時間で得られるように,モーダルギャップを突破することができる。 様々なSOTA(State-of-the-art)手法を用いた3つのベンチマークデータセットの実験と解析により,提案手法の有効性が示された。

Data collected by different modalities can provide a wealth of complementary information, such as hyperspectral image (HSI) to offer rich spectral-spatial properties, synthetic aperture radar (SAR) to provide structural information about the Earth's surface, and light detection and ranging (LiDAR) to cover altitude information about ground elevation. Therefore, a natural idea is to combine multimodal images for refined and accurate land-cover interpretation. Although many efforts have been attempted to achieve multi-source remote sensing image classification, there are still three issues as follows: 1) indiscriminate feature representation without sufficiently considering modal heterogeneity, 2) abundant features and complex computations associated with modeling long-range dependencies, and 3) overfitting phenomenon caused by sparsely labeled samples. To overcome the above barriers, a transformer-based heterogeneously salient graph representation (THSGR) approach is proposed in this paper. First, a multimodal heterogeneous graph encoder is presented to encode distinctively non-Euclidean structural features from heterogeneous data. Then, a self-attention-free multi-convolutional modulator is designed for effective and efficient long-term dependency modeling. Finally, a mean forward is put forward in order to avoid overfitting. Based on the above structures, the proposed model is able to break through modal gaps to obtain differentiated graph representation with competitive time cost, even for a small fraction of training samples. Experiments and analyses on three benchmark datasets with various state-of-the-art (SOTA) methods show the performance of the proposed approach.
翻訳日:2024-06-12 04:38:15 公開日:2024-06-10
# 異常検出のためのセット機能

Set Features for Anomaly Detection ( http://arxiv.org/abs/2311.14773v3 )

ライセンス: Link先を確認
Niv Cohen, Issar Tzachor, Yedid Hoshen, (参考訳) 本稿では,通常成分の異常な組み合わせからなる試料の異常検出にセット特徴を用いることを提案する。 多くの先導的手法がサンプルの異常な部分を検出して異常を発見する。 例えば、最先端セグメンテーションベースのアプローチでは、まずサンプルの各要素(例:イメージパッチ)を正規または異常に分類し、次に異常な要素を含む場合、サンプル全体を異常に分類する。 しかし、そのようなアプローチは、異常が通常の要素の異常な組み合わせによって表現されるシナリオにうまく及ばない。 本稿では,この制限を,各サンプルを要素分布によってモデル化する集合特徴を提案することによって克服する。 固定特徴量を用いた簡易密度推定法を用いて各試料の異常スコアを算出する。 本手法は,画像レベルの論理異常検出とシーケンスレベルの時系列異常検出において,従来の最先端技術よりも優れていた。

This paper proposes to use set features for detecting anomalies in samples that consist of unusual combinations of normal elements. Many leading methods discover anomalies by detecting an unusual part of a sample. For example, state-of-the-art segmentation-based approaches, first classify each element of the sample (e.g., image patch) as normal or anomalous and then classify the entire sample as anomalous if it contains anomalous elements. However, such approaches do not extend well to scenarios where the anomalies are expressed by an unusual combination of normal elements. In this paper, we overcome this limitation by proposing set features that model each sample by the distribution of its elements. We compute the anomaly score of each sample using a simple density estimation method, using fixed features. Our approach outperforms the previous state-of-the-art in image-level logical anomaly detection and sequence-level time series anomaly detection.
翻訳日:2024-06-12 04:38:15 公開日:2024-06-10
# どの量子回路変異体を使うか? : 量子回路変異の実証評価

Which Quantum Circuit Mutants Shall Be Used? An Empirical Evaluation of Quantum Circuit Mutations ( http://arxiv.org/abs/2311.16913v3 )

ライセンス: Link先を確認
Eñaut Mendiluze Usandizaga, Tao Yue, Paolo Arcaini, Shaukat Ali, (参考訳) 新しい研究領域として、量子ソフトウェアテストには、テストテクニックの有効性を評価するための体系的なテストベンチマークが欠けている。 最近、いくつかのオープンソースベンチマークと突然変異解析ツールが登場した。 しかし、様々な量子回路特性(例えば、回路深度、量子ゲート数)、アルゴリズム(例えば、量子近似最適化アルゴリズム)、突然変異特性(例えば、突然変異演算子)が量子回路の突然変異体の検出にどのように影響するかの証拠は不十分である。 このような関係を研究することは、様々な特性(例えば、シードされた欠陥を検出するのが難しい)を持つ欠陥ベンチマークを体系的に設計し、量子ソフトウェアテスト技術の費用対効果を効率的に評価する上で重要である。 そこで本研究では,実世界の382個の量子回路を変異させることにより,700K以上の故障ベンチマーク(量子回路)を用いて大規模な実験評価を行う。 この結果に基づいて、量子突然変異解析手法を体系的に定義する上で、研究者にとって貴重な知見を提供する。 また、選択した特徴(例えば、量子アルゴリズムタイプ)と変異体検出の難しさに基づいて、ユーザに対してミュータントを推薦するツールも提供する。 最後に、量子ソフトウェアテスト技術のコスト効率を評価するために既に使用可能な、欠陥のあるベンチマークも提供します。

As a new research area, quantum software testing lacks systematic testing benchmarks to assess testing techniques' effectiveness. Recently, some open-source benchmarks and mutation analysis tools have emerged. However, there is insufficient evidence on how various quantum circuit characteristics (e.g., circuit depth, number of quantum gates), algorithms (e.g., Quantum Approximate Optimization Algorithm), and mutation characteristics (e.g., mutation operators) affect the detection of mutants in quantum circuits. Studying such relations is important to systematically design faulty benchmarks with varied attributes (e.g., the difficulty in detecting a seeded fault) to facilitate assessing the cost-effectiveness of quantum software testing techniques efficiently. To this end, we present a large-scale empirical evaluation with more than 700K faulty benchmarks (quantum circuits) generated by mutating 382 real-world quantum circuits. Based on the results, we provide valuable insights for researchers to define systematic quantum mutation analysis techniques. We also provide a tool to recommend mutants to users based on chosen characteristics (e.g., a quantum algorithm type) and the required difficulty of detecting mutants. Finally, we also provide faulty benchmarks that can already be used to assess the cost-effectiveness of quantum software testing techniques.
翻訳日:2024-06-12 04:38:15 公開日:2024-06-10
# Segment Anything によるレーザー添加物製造における高速欠陥セグメント化への教師なしアプローチ

An unsupervised approach towards promptable defect segmentation in laser-based additive manufacturing by Segment Anything ( http://arxiv.org/abs/2312.04063v2 )

ライセンス: Link先を確認
Israt Zarin Era, Imtiaz Ahmed, Zhichao Liu, Srinjoy Das, (参考訳) ファンデーションモデルは、現在、生物学、天文学、ロボット工学など様々な分野におけるコンピュータビジョンタスクのパラダイムシフトを推進しており、ユーザー生成プロンプトを活用してパフォーマンスを向上させる。 製造領域では、製品の品質を確保し、リアルタイムなプロセス制御を容易にするために、正確な画像ベースの欠陥セグメント化が不可欠である。 しかしながら、ラベルの欠如や低レイテンシ推論の要件など、複数の課題が特徴的であることが多い。 これらの問題に対処するために, 最先端のビジョントランスフォーマー(ViT)ベースのファンデーションモデル(セグメンション・アロシング・モデル)を用いて, 教師なしクラスタリングを用いた新しいマルチポイントプロンプト生成方式を用いて, 画像セグメンテーションのためのフレームワークを構築した。 本フレームワークを用いて,レーザーを用いた粉体層融合(L-PBF)のケーススタディにおいて多孔性セグメンテーションを行い,ラベル付きデータを使わずに高精度に測定し,迅速なチューニングプロセスを導出する。 軽質な基礎モデル推論と教師なしの即時生成を併用することにより、現在のレーザー添加物製造プロセスに革命をもたらすようなリアルタイムな異常検出パイプラインの構築を構想し、産業4.0への移行を容易にし、運転効率とともに欠陥のない生産を促進する。

Foundation models are currently driving a paradigm shift in computer vision tasks for various fields including biology, astronomy, and robotics among others, leveraging user-generated prompts to enhance their performance. In the manufacturing domain, accurate image-based defect segmentation is imperative to ensure product quality and facilitate real-time process control. However, such tasks are often characterized by multiple challenges including the absence of labels and the requirement for low latency inference among others. To address these issues, we construct a framework for image segmentation using a state-of-the-art Vision Transformer (ViT) based Foundation model (Segment Anything Model) with a novel multi-point prompt generation scheme using unsupervised clustering. Utilizing our framework we perform porosity segmentation in a case study of laser-based powder bed fusion (L-PBF) and obtain high accuracy without using any labeled data to guide the prompt tuning process. By capitalizing on lightweight foundation model inference combined with unsupervised prompt generation, we envision constructing a real-time anomaly detection pipeline that could revolutionize current laser additive manufacturing processes, thereby facilitating the shift towards Industry 4.0 and promoting defect-free production along with operational efficiency.
翻訳日:2024-06-12 04:28:28 公開日:2024-06-10
# uSF:不確かさでニューラルネットワークを学習する

uSF: Learning Neural Semantic Field with Uncertainty ( http://arxiv.org/abs/2312.08012v2 )

ライセンス: Link先を確認
Vsevolod Skorokhodov, Darya Drozdova, Dmitry Yudin, (参考訳) 近年,3次元シーンの識別可能な表現を再構成するNeRF手法への関心が高まっている。 このような手法の主な限界の1つは、予測においてモデルの信頼性を評価することができないことである。 本稿では,各点の色と意味のラベルだけでなく,それに対応する不確かさの値も推定できる,拡張ベクトル表現(uSF)の生成のための新しいニューラルネットワークモデルを提案する。 トレーニング用画像の少ない場合、不確実性を定量化するモデルは、そのような機能を持たないモデルよりも優れていることを示す。 uSFアプローチのコードはhttps://github.com/sevashasla/usf/.comで公開されている。

Recently, there has been an increased interest in NeRF methods which reconstruct differentiable representation of three-dimensional scenes. One of the main limitations of such methods is their inability to assess the confidence of the model in its predictions. In this paper, we propose a new neural network model for the formation of extended vector representations, called uSF, which allows the model to predict not only color and semantic label of each point, but also estimate the corresponding values of uncertainty. We show that with a small number of images available for training, a model quantifying uncertainty performs better than a model without such functionality. Code of the uSF approach is publicly available at https://github.com/sevashasla/usf/.
翻訳日:2024-06-12 04:28:28 公開日:2024-06-10
# マルチステージフレームワークと階層型マルチデコーダアーキテクチャによる拡散モデルの効率化

Improving Efficiency of Diffusion Models via Multi-Stage Framework and Tailored Multi-Decoder Architectures ( http://arxiv.org/abs/2312.09181v2 )

ライセンス: Link先を確認
Huijie Zhang, Yifu Lu, Ismail Alkhouri, Saiprasad Ravishankar, Dogyoon Song, Qing Qu, (参考訳) 拡散モデルは強力な深層生成ツールとして登場し、様々な応用に優れている。 トレーニングサンプルにノイズを導入し、ランダムノイズを新しいサンプル(例:画像)に変換するモデルを使用する。 しかし、その顕著な生成性能は、遅いトレーニングとサンプリングによって妨げられている。 これは、広範囲の前方および逆拡散軌跡を追跡する必要があり、複数の時間ステップ(ノイズレベル)にまたがる多数のパラメータを持つ大きなモデルを使用する必要があるためである。 これらの課題に対処するために、経験的発見にインスパイアされた多段階のフレームワークを提案する。 これらの観察は、全ての時間ステップで共有される普遍的なパラメータを保持しながら、各時間ステップに合わせた異なるパラメータを使用する利点を示している。 このアプローチでは、時間依存モデルと普遍的に共有されるエンコーダをブレンドするカスタムマルチデコーダU-netアーキテクチャを用いて、時間間隔を複数のステージに分割する。 本フレームワークは,計算資源の効率的な分配を可能にし,段階間干渉を緩和し,トレーニング効率を大幅に向上させる。 大規模な潜伏拡散モデルを含む3つの最先端拡散モデルに対して,本フレームワークの有効性を実証し,大幅なトレーニングとサンプリング効率の向上を図った。 さらに、当社のアブレーション調査では、フレームワークにおける2つの重要なコンポーネントの影響が示されています。 (i)ステージ分割のための新しいタイムステップクラスタリングアルゴリズム (II) ユニバーサルおよびカスタマイズされたハイパーパラメータをシームレスに統合した,革新的なマルチデコーダU-netアーキテクチャ。

Diffusion models, emerging as powerful deep generative tools, excel in various applications. They operate through a two-steps process: introducing noise into training samples and then employing a model to convert random noise into new samples (e.g., images). However, their remarkable generative performance is hindered by slow training and sampling. This is due to the necessity of tracking extensive forward and reverse diffusion trajectories, and employing a large model with numerous parameters across multiple timesteps (i.e., noise levels). To tackle these challenges, we present a multi-stage framework inspired by our empirical findings. These observations indicate the advantages of employing distinct parameters tailored to each timestep while retaining universal parameters shared across all time steps. Our approach involves segmenting the time interval into multiple stages where we employ custom multi-decoder U-net architecture that blends time-dependent models with a universally shared encoder. Our framework enables the efficient distribution of computational resources and mitigates inter-stage interference, which substantially improves training efficiency. Extensive numerical experiments affirm the effectiveness of our framework, showcasing significant training and sampling efficiency enhancements on three state-of-the-art diffusion models, including large-scale latent diffusion models. Furthermore, our ablation studies illustrate the impact of two important components in our framework: (i) a novel timestep clustering algorithm for stage division, and (ii) an innovative multi-decoder U-net architecture, seamlessly integrating universal and customized hyperparameters.
翻訳日:2024-06-12 04:28:28 公開日:2024-06-10
# 物理的世界における移動可能な3次元敵攻撃に向けて

Towards Transferable Targeted 3D Adversarial Attack in the Physical World ( http://arxiv.org/abs/2312.09558v3 )

ライセンス: Link先を確認
Yao Huang, Yinpeng Dong, Shouwei Ruan, Xiao Yang, Hang Su, Xingxing Wei, (参考訳) トランスファー可能な非標的攻撃と比較して、トランスファー可能な標的敵攻撃は、敵のサンプルの誤分類カテゴリを特定でき、セキュリティクリティカルなタスクに対する脅威が大きい。 一方、多視点ロバスト性の可能性から、既存のディープラーニングシステムの弱点をより包括的に識別することができ、アプリケーションの価値が高い。 しかし、移動可能な3次元敵攻撃の分野はいまだ空白である。 本研究の目的は、移動可能な3次元対向体を生成できるより効率的な技術を開発することであり、この分野のギャップを埋めることである。 この目的を達成するために,少数のマルチビュー画像からTransferable Targeted 3D テクスチャメッシュに迅速に再構成可能な TT3D という新しいフレームワークを設計した。 既存のメッシュベースのテクスチャ最適化手法では、高次元メッシュ空間の勾配を計算し、局所最適に陥りやすいため、不満足な転送性や歪みが生じるが、TT3Dは、グリッドベースのNeRF空間における特徴格子と多層パーセプトロン(MLP)パラメータの両方に対して、革新的に双対最適化を行い、自然さを享受しながらブラックボックスの転送性を大幅に向上する。 実験結果から,TT3Dは優れたクロスモデル転送性を示すだけでなく,異なるレンダリングやビジョンタスクにも適応性を維持することが示唆された。 さらに,実世界における3Dプリンティング技術を用いた3次元対向的な実例を作成し,その頑健な性能を様々なシナリオで検証する。

Compared with transferable untargeted attacks, transferable targeted adversarial attacks could specify the misclassification categories of adversarial samples, posing a greater threat to security-critical tasks. In the meanwhile, 3D adversarial samples, due to their potential of multi-view robustness, can more comprehensively identify weaknesses in existing deep learning systems, possessing great application value. However, the field of transferable targeted 3D adversarial attacks remains vacant. The goal of this work is to develop a more effective technique that could generate transferable targeted 3D adversarial examples, filling the gap in this field. To achieve this goal, we design a novel framework named TT3D that could rapidly reconstruct from few multi-view images into Transferable Targeted 3D textured meshes. While existing mesh-based texture optimization methods compute gradients in the high-dimensional mesh space and easily fall into local optima, leading to unsatisfactory transferability and distinct distortions, TT3D innovatively performs dual optimization towards both feature grid and Multi-layer Perceptron (MLP) parameters in the grid-based NeRF space, which significantly enhances black-box transferability while enjoying naturalness. Experimental results show that TT3D not only exhibits superior cross-model transferability but also maintains considerable adaptability across different renders and vision tasks. More importantly, we produce 3D adversarial examples with 3D printing techniques in the real world and verify their robust performance under various scenarios.
翻訳日:2024-06-12 04:28:28 公開日:2024-06-10
# VNN:頑丈なロバスト性保証を備えた検証フレンドリなニューラルネットワーク

VNN: Verification-Friendly Neural Networks with Hard Robustness Guarantees ( http://arxiv.org/abs/2312.09748v2 )

ライセンス: Link先を確認
Anahita Baninajjar, Ahmed Rezine, Amir Aminifar, (参考訳) 機械学習技術は、しばしば正式な正当性保証を欠いている。 この正式な保証の欠如は、ディープニューラルネットワーク(DNN)の検証を目的としたいくつかの研究成果をもたらし、特に安全クリティカルなアプリケーションに焦点を当てた。 しかし、正式な検証技術は依然として大きなスケーラビリティと精度の課題に直面している。 スケーラビリティの問題に取り組むための公式な検証プロセスの間に導入された過度な近似は、しばしば決定的な分析をもたらす。 この課題に対処するために、検証フレンドリニューラルネットワーク(VNN)を生成するための新しいフレームワークを提案する。 本稿では,予測性能と検証親和性とのバランスをとるための学習後最適化フレームワークを提案する。 提案手法は,予測性能の点で元のDNNに匹敵するが,形式的検証手法には適している。 これにより、時間効率のよい方法で、DNNよりも多くのVNNに対して堅牢性を確立することができます。

Machine learning techniques often lack formal correctness guarantees, evidenced by the widespread adversarial examples that plague most deep-learning applications. This lack of formal guarantees resulted in several research efforts that aim at verifying Deep Neural Networks (DNNs), with a particular focus on safety-critical applications. However, formal verification techniques still face major scalability and precision challenges. The over-approximation introduced during the formal verification process to tackle the scalability challenge often results in inconclusive analysis. To address this challenge, we propose a novel framework to generate Verification-Friendly Neural Networks (VNNs). We present a post-training optimization framework to achieve a balance between preserving prediction performance and verification-friendliness. Our proposed framework results in VNNs that are comparable to the original DNNs in terms of prediction performance, while amenable to formal verification techniques. This essentially enables us to establish robustness for more VNNs than their DNN counterparts, in a time-efficient manner.
翻訳日:2024-06-12 04:28:28 公開日:2024-06-10
# 運動原始拡散:変形可能な物体のジェントルロボット操作を学習する

Movement Primitive Diffusion: Learning Gentle Robotic Manipulation of Deformable Objects ( http://arxiv.org/abs/2312.10008v2 )

ライセンス: Link先を確認
Paul Maria Scheikl, Nicolas Schreiber, Christoph Haas, Niklas Freymuth, Gerhard Neumann, Rudolf Lioutikov, Franziska Mathis-Ullrich, (参考訳) ロボット支援手術(RAS)における政策学習は、巧妙な外科的介入のために望ましい運動品質を示すデータ効率と汎用性を欠いている。 そこで本研究では, 変形可能な物体の温和な操作に焦点をあてたRASにおける模倣学習(IL)の新たな手法である運動原始拡散(MPD)を紹介する。 この手法は拡散に基づく模倣学習(DIL)の汎用性と確率的動特性プリミティブ(ProDMP)の高品質な運動生成能力を組み合わせたものである。 この組み合わせにより、MPDは、デモデータが不足しているRASアプリケーションにとって重要なデータ効率を維持しながら、変形可能なオブジェクトの穏やかな操作を実現することができる。 実世界および実世界の様々なロボット作業におけるMPDの評価を,状態観察と画像観察の両方で行う。 MPDは、成功率、運動品質、データ効率において最先端のDIL手法より優れています。 プロジェクトページ: https://scheiklp.github.io/movement-primitive-diffusion/

Policy learning in robot-assisted surgery (RAS) lacks data efficient and versatile methods that exhibit the desired motion quality for delicate surgical interventions. To this end, we introduce Movement Primitive Diffusion (MPD), a novel method for imitation learning (IL) in RAS that focuses on gentle manipulation of deformable objects. The approach combines the versatility of diffusion-based imitation learning (DIL) with the high-quality motion generation capabilities of Probabilistic Dynamic Movement Primitives (ProDMPs). This combination enables MPD to achieve gentle manipulation of deformable objects, while maintaining data efficiency critical for RAS applications where demonstration data is scarce. We evaluate MPD across various simulated and real world robotic tasks on both state and image observations. MPD outperforms state-of-the-art DIL methods in success rate, motion quality, and data efficiency. Project page: https://scheiklp.github.io/movement-primitive-diffusion/
翻訳日:2024-06-12 04:28:28 公開日:2024-06-10
# Pose2Gaze:全眼球からの視線予測のための視線調整

Pose2Gaze: Eye-body Coordination during Daily Activities for Gaze Prediction from Full-body Poses ( http://arxiv.org/abs/2312.12042v3 )

ライセンス: Link先を確認
Zhiming Hu, Jiahui Xu, Syn Schmitt, Andreas Bulling, (参考訳) 人間の目視は多くのバーチャルおよび拡張現実(VR/AR)アプリケーションにおいて重要な役割を果たす。 しかし、視線分析と予測に関する先行研究は、視線調整のみを探求し、人間と物体の相互作用に限られていた。 まず、実世界(MoGaze)、VR(ADT)、AR(GIMO)およびEgoBody(EgoBody)環境において収集された4つの公開データセットに基づいて、様々な人・物・人間・対話活動における眼球運動の総合的コーディネーション分析を行った。 人・物・物・物・物・物・物・物・物・物・物・物・物・物・物・物・物・物・物・物・物・物・物・物・物・物・物・物・物・物・物・物・物・物・物・物・物・物・物・物・物・物・物・物・物・物・物・物・物・物・物・物・物・物・物・物・物・物・物・物・物・物・物・物・物・物・物・物・物・物・物・物・物・物・物・物・物・物・物・物・物・物・物・物・物・物・物・物・物・物・物・物・物・物・物・物・物・物・物・関係との関連を考察した。 これらの分析から得られたPose2Gazeは、畳み込みニューラルネットワークと時空間グラフ畳み込みニューラルネットワークを用いて、それぞれ頭部と全身のポーズから特徴を抽出し、畳み込みニューラルネットワークを用いて視線を予測する新しいアイボディコーディネートモデルである。 本手法を頭の動きのみから視線を推定する最先端手法と比較し,Pose2GazeがMoGaze平均24.0%,ADT平均10.1%,GIMO平均21.3%,EgoBody平均28.6%でこれらのベースラインを上回ったことを示す。 また,本手法は,視線に基づく活動認識の下流課題において,従来の手法よりも有意に優れていた。 これらの結果は、日常活動中に眼球運動調整に利用可能な重要な情報内容を明らかにし、視線予測のための新しい方向を開く。

Human eye gaze plays a significant role in many virtual and augmented reality (VR/AR) applications, such as gaze-contingent rendering, gaze-based interaction, or eye-based activity recognition. However, prior works on gaze analysis and prediction have only explored eye-head coordination and were limited to human-object interactions. We first report a comprehensive analysis of eye-body coordination in various human-object and human-human interaction activities based on four public datasets collected in real-world (MoGaze), VR (ADT), as well as AR (GIMO and EgoBody) environments. We show that in human-object interactions, e.g. pick and place, eye gaze exhibits strong correlations with full-body motion while in human-human interactions, e.g. chat and teach, a person's gaze direction is correlated with the body orientation towards the interaction partner. Informed by these analyses we then present Pose2Gaze, a novel eye-body coordination model that uses a convolutional neural network and a spatio-temporal graph convolutional neural network to extract features from head direction and full-body poses, respectively, and then uses a convolutional neural network to predict eye gaze. We compare our method with state-of-the-art methods that predict eye gaze only from head movements and show that Pose2Gaze outperforms these baselines with an average improvement of 24.0% on MoGaze, 10.1% on ADT, 21.3% on GIMO, and 28.6% on EgoBody in mean angular error, respectively. We also show that our method significantly outperforms prior methods in the sample downstream task of eye-based activity recognition. These results underline the significant information content available in eye-body coordination during daily activities and open up a new direction for gaze prediction.
翻訳日:2024-06-12 04:18:44 公開日:2024-06-10
# XLand-MiniGrid:JAXにおけるスケーラブルなメタ強化学習環境

XLand-MiniGrid: Scalable Meta-Reinforcement Learning Environments in JAX ( http://arxiv.org/abs/2312.12044v3 )

ライセンス: Link先を確認
Alexander Nikulin, Vladislav Kurenkov, Ilya Zisman, Artem Agarkov, Viacheslav Sinii, Sergey Kolesnikov, (参考訳) XLandの多様性と深さ、MiniGridのシンプルさとミニマリズムに触発され、メタ強化学習研究のためのツールとグリッドワールド環境のスイートであるXLand-MiniGridを紹介した。 JAXで書かれたXLand-MiniGridは高度にスケーラブルな設計で、GPUやTPUアクセラレータ上で実行でき、限られたリソースで大規模な実験を民主化することができる。 環境とともに、XLand-MiniGridは、ユーザが適応エージェントのトレーニングを素早く始められるような、難易度と使い易いベースラインの、何百万ものユニークなタスクで、事前サンプリングされたベンチマークを提供する。 さらに,スケーリングと一般化の予備的な分析を行い,トレーニング中にベースラインが毎秒数百万ステップに達することを示し,提案したベンチマークが困難であることを検証した。

Inspired by the diversity and depth of XLand and the simplicity and minimalism of MiniGrid, we present XLand-MiniGrid, a suite of tools and grid-world environments for meta-reinforcement learning research. Written in JAX, XLand-MiniGrid is designed to be highly scalable and can potentially run on GPU or TPU accelerators, democratizing large-scale experimentation with limited resources. Along with the environments, XLand-MiniGrid provides pre-sampled benchmarks with millions of unique tasks of varying difficulty and easy-to-use baselines that allow users to quickly start training adaptive agents. In addition, we have conducted a preliminary analysis of scaling and generalization, showing that our baselines are capable of reaching millions of steps per second during training and validating that the proposed benchmarks are challenging.
翻訳日:2024-06-12 04:18:44 公開日:2024-06-10
# 正確な可解格子モデルにおける絡み合い膜

The entanglement membrane in exactly solvable lattice models ( http://arxiv.org/abs/2312.12509v2 )

ライセンス: Link先を確認
Michael A. Rampp, Suhail A. Rather, Pieter W. Claeys, (参考訳) 絡み合い膜理論は、カオス量子多体系における絡み合い力学と作用素成長の効果的な粗い記述である。 膜を特徴づける基本的な量は絡み合い線張力である。 しかし、顕微鏡モデルにおける絡み線張力の決定は、一般的に指数関数的に困難である。 最近導入された、正確に解けるがカオス的なユニタリ回路、いわゆる一般化双対ユニタリ回路のクラスにおいて、絡み合い線張力を計算することで、$v_E<v_B$で速度スケールの階層を生じる非自明な形式を得る。 階層の最低レベルである$\bar{\mathcal{L}}_{2}$回路では、絡み合い線張力が完全に計算でき、より高いレベルでは、可解性は時空のある領域に還元される。 この部分可解性により、エンタングルメント速度に境界を置くことができる。 我々は、$\bar{\mathcal{L}}_{2}$回路が、ホログラフィックモデルでも飽和している絡み合い成長の一定の境界を飽和させることを発見した。 さらに, 絡み線張力と時間的絡みと相関関数を関連づける。 また, 複素アダマール行列をベースとした構成や, 局所次元に特有の挙動を示す構成を含む, 一般化された二重単位ゲートの構築方法も開発している。 その結果, マイクロフローケット格子モデルにおけるエンタングルメント膜理論に光を当て, 精度および数値計算による予測の有効性の非自明な検証が可能となった。 さらに、一般化された二重ユニタリ回路は二重ユニタリ回路よりもより汎用的な情報力学を示すことを示した。

Entanglement membrane theory is an effective coarse-grained description of entanglement dynamics and operator growth in chaotic quantum many-body systems. The fundamental quantity characterizing the membrane is the entanglement line tension. However, determining the entanglement line tension for microscopic models is in general exponentially difficult. We compute the entanglement line tension in a recently introduced class of exactly solvable yet chaotic unitary circuits, so-called generalized dual-unitary circuits, obtaining a non-trivial form that gives rise to a hierarchy of velocity scales with $v_E<v_B$. For the lowest level of the hierarchy, $\bar{\mathcal{L}}_{2}$ circuits, the entanglement line tension can be computed entirely, while for the higher levels the solvability is reduced to certain regions in spacetime. This partial solvability enables us to place bounds on the entanglement velocity. We find that $\bar{\mathcal{L}}_{2}$ circuits saturate certain bounds on entanglement growth that are also saturated in holographic models. Furthermore, we relate the entanglement line tension to temporal entanglement and correlation functions. We also develop new methods of constructing generalized dual-unitary gates, including constructions based on complex Hadamard matrices that exhibit additional solvability properties and constructions that display behavior unique to local dimension greater than or equal to three. Our results shed light on entanglement membrane theory in microscopic Floquet lattice models and enable us to perform non-trivial checks on the validity of its predictions by comparison to exact and numerical calculations. Moreover, they demonstrate that generalized dual-unitary circuits display a more generic form of information dynamics than dual-unitary circuits.
翻訳日:2024-06-12 04:18:44 公開日:2024-06-10
# BloomVQA:階層型マルチモーダル理解の評価

BloomVQA: Assessing Hierarchical Multi-modal Comprehension ( http://arxiv.org/abs/2312.12716v3 )

ライセンス: Link先を確認
Yunye Gong, Robik Shrestha, Jared Claypoole, Michael Cogswell, Arijit Ray, Christopher Kanan, Ajay Divakaran, (参考訳) 本稿では,理解タスクにおける大規模視覚言語モデルの包括的評価を容易にするために,新しいVQAデータセットであるBloomVQAを提案する。 理論的な根拠のない事実に基づく暗記や単純な推論タスクにしばしば焦点をあてる現在のベンチマークとは異なり、ブルームの分類学(Taxonomy)は教育研究で広く採用されている学習評価のための古典的な枠組みである。 モデル一貫性を特徴付ける新しい尺度と自動データ拡張を可能にする新しい階層グラフ表現にマッピングする。 近年のマルチモーダルモデルにおける評価と信頼性の評価を行う。 低レベルタスクと比較して、VQAの精度を最大38.0\%低下させながら、高度な理解と認知スキルを必要とするタスクにおけるパフォーマンスの低下を観察した。 従来のモデルと比較して、GPT-4Vは全ての理解レベルよりも精度が向上し、特に高次タスクでは視覚入力をバイパスする傾向を示す。 現在のモデルは、様々なシナリオにおいて人間の理解と一致しない一貫性パターンを示し、理論的な基準に基づいて改善の必要性を示す。

We propose a novel VQA dataset, BloomVQA, to facilitate comprehensive evaluation of large vision-language models on comprehension tasks. Unlike current benchmarks that often focus on fact-based memorization and simple reasoning tasks without theoretical grounding, we collect multiple-choice samples based on picture stories that reflect different levels of comprehension, as laid out in Bloom's Taxonomy, a classic framework for learning assessment widely adopted in education research. Our data maps to a novel hierarchical graph representation which enables automatic data augmentation and novel measures characterizing model consistency. We perform graded evaluation and reliability analysis on recent multi-modal models. In comparison to low-level tasks, we observe decreased performance on tasks requiring advanced comprehension and cognitive skills with up to 38.0\% drop in VQA accuracy. In comparison to earlier models, GPT-4V demonstrates improved accuracy over all comprehension levels and shows a tendency of bypassing visual inputs especially for higher-level tasks. Current models also show consistency patterns misaligned with human comprehension in various scenarios, demonstrating the need for improvement based on theoretically-grounded criteria.
翻訳日:2024-06-12 04:18:44 公開日:2024-06-10
# Rényi Pufferfishのプライバシー: 一般的な付加的なノイズメカニズムと反復によるプライバシー増幅

Rényi Pufferfish Privacy: General Additive Noise Mechanisms and Privacy Amplification by Iteration ( http://arxiv.org/abs/2312.13985v2 )

ライセンス: Link先を確認
Clément Pierquin, Aurélien Bellet, Marc Tommasi, Matthieu Boussard, (参考訳) Pufferfishのプライバシは、任意の秘密とデータに関する敵の事前知識をモデル化できる、フレキシブルな微分プライバシの一般化である。 残念ながら、実用性を損なわない汎用的でトラクタブルなPufferfishメカニズムの設計は難しい。 さらに、このフレームワークは反復機械学習アルゴリズムで直接使用するために必要な構成保証を提供していない。 これらの問題を緩和するために、R\'enyi 発散に基づく Pufferfish の変種を導入し、それが Pufferfish フレームワークの適用性の拡張を可能にすることを示す。 まず、ワイドノイズ分布をカバーするためにワッサースタイン機構を一般化し、その実用性を改善するためのいくつかの方法を導入する。 我々はまた、アウト・オブ・ディストリビューションの敵に対してより強力な保証を得る。 最後に、構成の代替として、契約的なノイズ反復に対するプライバシーの増幅結果を証明し、プライベート凸最適化におけるPufferfishの最初の使用例を示す。 以上の結果から, シフトリダクション・レムマの使用と拡張が示唆された。

Pufferfish privacy is a flexible generalization of differential privacy that allows to model arbitrary secrets and adversary's prior knowledge about the data. Unfortunately, designing general and tractable Pufferfish mechanisms that do not compromise utility is challenging. Furthermore, this framework does not provide the composition guarantees needed for a direct use in iterative machine learning algorithms. To mitigate these issues, we introduce a R\'enyi divergence-based variant of Pufferfish and show that it allows us to extend the applicability of the Pufferfish framework. We first generalize the Wasserstein mechanism to cover a wide range of noise distributions and introduce several ways to improve its utility. We also derive stronger guarantees against out-of-distribution adversaries. Finally, as an alternative to composition, we prove privacy amplification results for contractive noisy iterations and showcase the first use of Pufferfish in private convex optimization. A common ingredient underlying our results is the use and extension of shift reduction lemmas.
翻訳日:2024-06-12 04:18:44 公開日:2024-06-10
# ジョセフソン接合における散逸性量子相転移の欠如:理論

Absence of a dissipative quantum phase transition in Josephson junctions: Theory ( http://arxiv.org/abs/2312.14754v3 )

ライセンス: Link先を確認
Carles Altimiras, Daniel Esteve, Çağlar Girit, Hélène le Sueur, Philippe Joyez, (参考訳) 強誘電体ジョセフソン接合(RSJ)について,ファインマン・ヴァーノン関数に基づく正確なスキームである確率的リウヴィル方程式法を用いて検討する。 我々が使用する定式化は、シュミドの超伝導-絶縁量子相転移がRSJで長い間起こっていると信じられていたことは、すでに定性的レベルで禁止されていることを明らかにしている。 これは理論的には、2020年にMuraniらによって行われた実験結果に基づく同様の結論である。 これらのシステムでは、紫外線遮断が予期せぬ重要な役割を担い、絶縁状態の誤予測は、それを想定していないことが示される。

We investigate the resistively shunted Josephson junction (RSJ), using the stochastic Liouville equation method in imaginary time - an exact scheme based on the Feynman-Vernon influence functional. The formulation we use makes it clear that Schmid's superconducting - insulating quantum phase transition long believed to occur in the RSJ is forbidden already at the qualitative level. This confirms theoretically a similar conclusion based on experimental observations drawn in 2020 by Murani et al. For all parameters investigated, we find that shunting a junction makes it more superconducting. We reveal that the UV cutoff of the resistor plays an unforeseen key role in these systems, and show that the erroneous prediction of an insulating state resulted from ill-assuming it would not.
翻訳日:2024-06-12 04:18:44 公開日:2024-06-10
# Fréchet Wavelet Distance:画像生成のためのドメインに依存しないメトリクス

Fréchet Wavelet Distance: A Domain-Agnostic Metric for Image Generation ( http://arxiv.org/abs/2312.15289v2 )

ライセンス: Link先を確認
Lokesh Veeramacheneni, Moritz Wolter, Hildegard Kuehne, Juergen Gall, (参考訳) Fr\'echet Inception Distance (FID)のような生成学習のための現代的なメトリクスは、素晴らしいパフォーマンスを示している。 しかし、特定のジェネレータやデータセットに対するバイアスなど、さまざまな欠点に悩まされている。 この問題に対処するために、Fr\'echet Wavelet Distance (FWD) をWavelet Packet Transform(W_p$)に基づくドメインに依存しない計量として提案する。 FWDは高解像度の画像の広い周波数帯を視認し、空間的側面とテクスチャ的側面の両方を保存する。 具体的には、Wpを用いて生成された画像とデータセットをパケット係数空間に投影する。 さらに、Fr'echet距離を結果係数で計算し、ジェネレータの品質を評価する。 このメトリクスは、周波数帯域透過性のために解釈可能でありながら、事前訓練されたネットワークに依存しないため、汎用的でデータセットドメインに依存しない。 提案したFWDは、他の指標と比較して、ドメインシフトやさまざまな汚職に対する堅牢性を一般化し、改善できるという、さまざまなデータセットにわたる多様なジェネレータの広範な評価で結論付けている。

Modern metrics for generative learning like Fr\'echet Inception Distance (FID) demonstrate impressive performance. However, they suffer from various shortcomings, like a bias towards specific generators and datasets. To address this problem, we propose the Fr\'echet Wavelet Distance (FWD) as a domain-agnostic metric based on Wavelet Packet Transform ($W_p$). FWD provides a sight across a broad spectrum of frequencies in images with a high resolution, along with preserving both spatial and textural aspects. Specifically, we use Wp to project generated and dataset images to packet coefficient space. Further, we compute Fr\'echet distance with the resultant coefficients to evaluate the quality of a generator. This metric is general-purpose and dataset-domain agnostic, as it does not rely on any pre-trained network while being more interpretable because of frequency band transparency. We conclude with an extensive evaluation of a wide variety of generators across various datasets that the proposed FWD is able to generalize and improve robustness to domain shift and various corruptions compared to other metrics.
翻訳日:2024-06-12 04:18:44 公開日:2024-06-10
# ドローンファームウェアの課題と対策

Challenges in Drone Firmware Analyses of Drone Firmware and Its Solutions ( http://arxiv.org/abs/2312.16818v4 )

ライセンス: Link先を確認
Yejun Kim, Kwangsoo Cho, Seungjoo Kim, (参考訳) モノのインターネット(IoT)技術の進歩により、その応用は公共、工業、民間、軍事など様々な分野にまたがる。 特に、ドローン部門は商業目的と軍事目的の両方において大きな注目を集めている。 その結果、ドローンの脆弱性分析に焦点を当てた研究が急増した。 しかし、IoTデバイスに対する脅威を軽減するセキュリティ研究のほとんどは、主にネットワーク、ファームウェア、モバイルアプリケーションに焦点を当てている。 これらのうち、ファームウェアのセキュリティを解析するためにファジリングを使用するには、ファームウェアのエミュレーションが必要である。 しかし、ドローンファームウェアに関しては、エミュレーションや自動ファジィングツールが欠けている。 これは、入力インターフェースの制限、ファームウェアの暗号化、署名といった問題によることが多い。 既存のエミュレータやIoTデバイスの自動アナライザがドローンに適用できると仮定する傾向にあるが、実際的な応用が証明されている。 本稿では,ドローンファームウェアを動的に解析することの課題について論じ,潜在的な解決策を提案する。 さらに,最大市場シェアのDJIドローンに適用することで,提案手法の有効性を実証する。

With the advancement of Internet of Things (IoT) technology, its applications span various sectors such as public, industrial, private and military. In particular, the drone sector has gained significant attention for both commercial and military purposes. As a result, there has been a surge in research focused on vulnerability analysis of drones. However, most security research to mitigate threats to IoT devices has focused primarily on networks, firmware and mobile applications. Of these, the use of fuzzing to analyze the security of firmware requires emulation of the firmware. However, when it comes to drone firmware, the industry lacks emulation and automated fuzzing tools. This is largely due to challenges such as limited input interfaces, firmware encryption and signatures. While it may be tempting to assume that existing emulators and automated analyzers for IoT devices can be applied to drones, practical applications have proven otherwise. In this paper, we discuss the challenges of dynamically analyzing drone firmware and propose potential solutions. In addition, we demonstrate the effectiveness of our methodology by applying it to DJI drones, which have the largest market share.
翻訳日:2024-06-12 04:08:57 公開日:2024-06-10
# DreamGaussian4D: 4Dガウシアン・スプラッティング

DreamGaussian4D: Generative 4D Gaussian Splatting ( http://arxiv.org/abs/2312.17142v3 )

ライセンス: Link先を確認
Jiawei Ren, Liang Pan, Jiaxiang Tang, Chi Zhang, Ang Cao, Gang Zeng, Ziwei Liu, (参考訳) 4Dコンテンツ生成は、最近目覚ましい進歩を遂げた。 しかし、既存の手法は、長い最適化時間、動作制御性の欠如、細部の品質の低下に悩まされている。 本稿では,Gaussian Splatting (GS) に基づく効率的な4D生成フレームワークであるDreamGaussian4D(DG4D)を紹介する。 我々の重要な洞察は、空間変換の明示的なモデリングと静的GSを組み合わせることで、4次元生成の効率的で強力な表現ができるということである。 さらに、ビデオ生成手法は、高画質の4D生成を向上し、価値ある時空間前兆を提供する可能性がある。 具体的には、2つの主要なモジュールを持つ統合フレームワークを提案する。 1)画像から4D GS - 最初はDreamGaussianHDで静的GSを生成し、続いてHexPlaneをベースとしたガウス変形による動的生成を行う。 2)ビデオ間テクスチャリファインメント - 生成されたUV空間のテクスチャマップを改良するとともに,事前学習した画像間拡散モデルを用いて時間的一貫性を向上させる。 特に、DG4Dは最適化時間を数時間から数分に短縮し、生成された3Dモーションを視覚的に制御し、3Dエンジンでリアルにレンダリングできるアニメーションメッシュを生成する。

4D content generation has achieved remarkable progress recently. However, existing methods suffer from long optimization times, a lack of motion controllability, and a low quality of details. In this paper, we introduce DreamGaussian4D (DG4D), an efficient 4D generation framework that builds on Gaussian Splatting (GS). Our key insight is that combining explicit modeling of spatial transformations with static GS makes an efficient and powerful representation for 4D generation. Moreover, video generation methods have the potential to offer valuable spatial-temporal priors, enhancing the high-quality 4D generation. Specifically, we propose an integral framework with two major modules: 1) Image-to-4D GS - we initially generate static GS with DreamGaussianHD, followed by HexPlane-based dynamic generation with Gaussian deformation; and 2) Video-to-Video Texture Refinement - we refine the generated UV-space texture maps and meanwhile enhance their temporal consistency by utilizing a pre-trained image-to-video diffusion model. Notably, DG4D reduces the optimization time from several hours to just a few minutes, allows the generated 3D motion to be visually controlled, and produces animated meshes that can be realistically rendered in 3D engines.
翻訳日:2024-06-12 04:08:57 公開日:2024-06-10
# DiffDA:気象スケールデータ同化のための拡散モデル

DiffDA: a Diffusion Model for Weather-scale Data Assimilation ( http://arxiv.org/abs/2401.05932v3 )

ライセンス: Link先を確認
Langwen Huang, Lukas Gianinazzi, Yuejiang Yu, Peter D. Dueben, Torsten Hoefler, (参考訳) 気象予報や気候モデリングには,正確なデータ同化による初期条件の生成が不可欠である。 本研究では,予測状態とスパース観測を用いて大気変数を同化可能な拡散モデルとしてDiffDAを提案する。 気象予報モデルと気象専用拡散モデルとの類似性を認識し, 事前学習したGraphCastニューラルネットワークを拡散モデルのバックボーンとして適用する。 ERA5リアナリシスデータセットからのシミュレーション観測に基づく実験により,地球規模の0.25 deg (~30 km) の観測と一致した同化大域大気データを生成することができる。 これはMLデータ同化モデルによって達成された最高解像度である。 また,ERA5の最先端データ同化による初期条件と比較して,リードタイムが24時間以上失われる予測モデルでは,スパース観測(格子状データの0.96%未満)と48時間予測に同調した初期条件が適用可能であることを示した。 これにより、自己回帰データ同化を伴う再分析データセットを作成するなど、実際のアプリケーションにこの手法を適用することができる。

The generation of initial conditions via accurate data assimilation is crucial for weather forecasting and climate modeling. We propose DiffDA as a denoising diffusion model capable of assimilating atmospheric variables using predicted states and sparse observations. Acknowledging the similarity between a weather forecast model and a denoising diffusion model dedicated to weather applications, we adapt the pretrained GraphCast neural network as the backbone of the diffusion model. Through experiments based on simulated observations from the ERA5 reanalysis dataset, our method can produce assimilated global atmospheric data consistent with observations at 0.25 deg (~30km) resolution globally. This marks the highest resolution achieved by ML data assimilation models. The experiments also show that the initial conditions assimilated from sparse observations (less than 0.96% of gridded data) and 48-hour forecast can be used for forecast models with a loss of lead time of at most 24 hours compared to initial conditions from state-of-the-art data assimilation in ERA5. This enables the application of the method to real-world applications, such as creating reanalysis datasets with autoregressive data assimilation.
翻訳日:2024-06-12 04:08:57 公開日:2024-06-10
# メトリクス迷路をナビゲートする - スコアマグニチュードとアキュラシーを再調整する

Navigating the Metrics Maze: Reconciling Score Magnitudes and Accuracies ( http://arxiv.org/abs/2401.06760v2 )

ライセンス: Link先を確認
Tom Kocmi, Vilém Zouhar, Christian Federmann, Matt Post, (参考訳) 10年前、単一のメトリクスBLEUが機械翻訳研究の進歩を支配した。 良くも悪くも、今日ではそのようなコンセンサスがないため、初期の研究と展開の決定を導いたメートル法デルタに関するヒューリスティックな直観を、研究者が開発し維持することは困難である。 本稿では,測定値の内外差の意味を包括的に理解するために,多数の現代指標の「ダイナミックレンジ」について検討する。つまり,測定値Yにおける点差Xが,人間の注意を喚起する2つのシステム間でどのような点差Xが必要とされるのかを問う。 我々は、新しい大規模データセットであるToShip23を用いて評価を行い、測定値が人間にとって意味のあるシステムレベルの差を達成できるデルタを発見する。 さらに、このデルタ精度の確立方法は、テストセットサイズに関する統計的なp値の標準使用よりも安定であることを示す。 データサイズが許される場所では、翻訳方向、ドメイン、システム近接性といったよりきめ細かい特徴に対して、メートル差と精度の影響についても検討する。

Ten years ago a single metric, BLEU, governed progress in machine translation research. For better or worse, there is no such consensus today, and consequently it is difficult for researchers to develop and retain the kinds of heuristic intuitions about metric deltas that drove earlier research and deployment decisions. This paper investigates the "dynamic range" of a number of modern metrics in an effort to provide a collective understanding of the meaning of differences in scores both within and among metrics; in other words, we ask what point difference X in metric Y is required between two systems for humans to notice? We conduct our evaluation on a new large dataset, ToShip23, using it to discover deltas at which metrics achieve system-level differences that are meaningful to humans, which we measure by pairwise system accuracy. We additionally show that this method of establishing delta-accuracy is more stable than the standard use of statistical p-values in regards to testset size. Where data size permits, we also explore the effect of metric deltas and accuracy across finer-grained features such as translation direction, domain, and system closeness.
翻訳日:2024-06-12 04:08:57 公開日:2024-06-10
# スケールでのモデル編集は、経時的および破滅的な予測に繋がる

Model Editing at Scale leads to Gradual and Catastrophic Forgetting ( http://arxiv.org/abs/2401.07453v4 )

ライセンス: Link先を確認
Akshat Gupta, Anurag Rao, Gopala Anumanchipalli, (参考訳) 大きな言語モデルで知識を編集することは、事前トレーニング中に誤った学習事実を修正できるという魅力的な能力であり、新たな事実のリストでモデルを更新することもできます。 既存のモデル編集技術は将来性を示しているが、信頼性、特異性、一ないし少数の編集に対する一般化の指標を用いて評価されるのが一般的である。 モデル編集が実用性を持つためには、同じモデルに複数の編集を行なわなければならない、と我々は主張する。 このことを念頭に、我々は現在のモデル編集手法を大規模に評価し、ROMEとMEMITの2つの最先端手法に焦点を当てた。 モデルが複数の事実と逐次的に編集されるにつれて、以前編集された事実と下流タスクの実行能力を常に忘れていることがわかった。 この忘れは、2つのフェーズ - 最初の段階的な段階的だが、進行的な段階的な段階的段階的段階的段階的段階的段階的段階的段階的段階的段階的段階的段階的段階的段階的段階的段階的段階的あるいは破滅的な段階的段階的段階的段階的段階的段階的段階的段階的段階的段階的段階的段階的段階的段階的段階的段階的・破滅的段階的段階的段階的段階的段階的段階的段階的段階的段階的段階的段階的段階的段階的段階的・破滅的段階的段階的段階的段階的段階的段階的段階的段階的段階的段階的段階的段階的段階的および破滅的段階的段階的段階的段階的段階的段階的段階的段階的段階的段階的および破滅的段階的段階的段階的段階的段階的段階的段階的段階的段階的段階的段階的段階的段階的段階的段階的段階的段階的段階的段階的段階的段階的段階的段階的段階的段階的段階的段階的段階的段階的段階的段階的段階的段階的段階的段階的段階 我々の分析は、ROMとMEMITの大規模化における他の重要な制限も強調している。 本研究では,スケーラビリティを念頭に置いたモデル編集手法の開発と評価を推し進める。

Editing knowledge in large language models is an attractive capability to have which allows us to correct incorrectly learnt facts during pre-training, as well as update the model with an ever-growing list of new facts. While existing model editing techniques have shown promise, they are usually evaluated using metrics for reliability, specificity and generalization over one or few edits. We argue that for model editing to have practical utility, we must be able to make multiple edits to the same model. With this in mind, we evaluate the current model editing methods at scale, focusing on two state of the art methods: ROME and MEMIT. We find that as the model is edited sequentially with multiple facts, it continually forgets previously edited facts and the ability to perform downstream tasks. This forgetting happens in two phases -- an initial gradual but progressive forgetting phase followed by abrupt or catastrophic forgetting phase. Both gradual and catastrophic forgetting limit the usefulness of model editing methods at scale -- the former making model editing less effective as multiple edits are made to the model while the latter caps the scalability of such model editing methods. Our analysis also highlights other key limitations of ROME and MEMIT at scale. With our work, we push for the development and evaluation of model editing methods keeping scalability in mind.
翻訳日:2024-06-12 04:08:57 公開日:2024-06-10
# Prewrite: 強化学習によるプロンプト書き換え

PRewrite: Prompt Rewriting with Reinforcement Learning ( http://arxiv.org/abs/2401.08189v4 )

ライセンス: Link先を確認
Weize Kong, Spurthi Amba Hombaiah, Mingyang Zhang, Qiaozhu Mei, Michael Bendersky, (参考訳) プロンプトエンジニアリングはLLMベースのアプリケーションの開発に不可欠である。 しかし、通常は手動で「試行錯誤」のやり方で行われ、それは時間を費やし、非効率で、準最適である。 うまく機能しているように見えるプロンプトであっても、常につまらない疑問があります。 これらの問題に対処するために,本稿では,自動プロンプトエンジニアリングについて検討する。 具体的には、最適化されていないプロンプトをより効果的なプロンプトに書き換える自動化手法であるPRewriteを提案する。 LLMを用いてプロンプトリライタをインスタンス化する。 リライターLLMは、所定の下流タスクのパフォーマンスを最適化するために強化学習を用いて訓練される。 我々は、PRewriteの有効性を示す様々なベンチマークデータセットの実験を行う。

Prompt engineering is critical for the development of LLM-based applications. However, it is usually done manually in a "trial and error" fashion that can be time consuming, ineffective, and sub-optimal. Even for the prompts which seemingly work well, there is always a lingering question: can the prompts be made better with further modifications? To address these problems, we investigate automated prompt engineering in this paper. Specifically, we propose PRewrite, an automated method to rewrite an under-optimized prompt to a more effective prompt. We instantiate the prompt rewriter using a LLM. The rewriter LLM is trained using reinforcement learning to optimize the performance on a given downstream task. We conduct experiments on diverse benchmark datasets, which demonstrates the effectiveness of PRewrite.
翻訳日:2024-06-12 04:08:57 公開日:2024-06-10
# Coverage Axis++: 3次元形状骨格化のための効率的な内点選択

Coverage Axis++: Efficient Inner Point Selection for 3D Shape Skeletonization ( http://arxiv.org/abs/2401.12946v7 )

ライセンス: Link先を確認
Zimeng Wang, Zhiyang Dou, Rui Xu, Cheng Lin, Yuan Liu, Xiaoxiao Long, Shiqing Xin, Taku Komura, Xiaoming Yuan, Wenping Wang, (参考訳) ここでは3次元形状スケルトン化の新しい,効率的なアプローチであるCoverage Axis++を紹介する。 このタスクの現在の最先端のアプローチは、しばしば入力の防水性に依存するか、あるいはかなりの計算コストに悩まされるため、実用性が制限される。 この課題に対処するため、Coverage Axis++は、様々な形状表現の計算強度を著しく軽減しつつ、Medial Axis Transform (MAT)の高精度な近似を提供する、骨格点を選択するヒューリスティックアルゴリズムを提案する。 骨格点を導出するために, 形状被覆, 均一性, 中央性を考慮した簡易かつ効果的な戦略を導入する。 選択手順は、支配的な中間球を選好しながら形状構造との整合性を強制し、MATの観点からは、コンパクトな基底形状表現を導入する。 その結果、Coverage Axis++は、様々な形状表現(例えば、水密メッシュ、三角形のスープ、点雲)のスケルトン化、骨格点の数の指定、ハイパーパラメータの少ない、再構築精度の向上による高効率な計算を可能にした。 広範囲な3D形状にわたる大規模な実験は、Coverage Axis++の有効性と有効性を検証する。 私たちのコードはhttps://github.com/Frank-ZY-Dou/Coverage_Axis.comで公開されています。

We introduce Coverage Axis++, a novel and efficient approach to 3D shape skeletonization. The current state-of-the-art approaches for this task often rely on the watertightness of the input or suffer from substantial computational costs, thereby limiting their practicality. To address this challenge, Coverage Axis++ proposes a heuristic algorithm to select skeletal points, offering a high-accuracy approximation of the Medial Axis Transform (MAT) while significantly mitigating computational intensity for various shape representations. We introduce a simple yet effective strategy that considers shape coverage, uniformity, and centrality to derive skeletal points. The selection procedure enforces consistency with the shape structure while favoring the dominant medial balls, which thus introduces a compact underlying shape representation in terms of MAT. As a result, Coverage Axis++ allows for skeletonization for various shape representations (e.g., water-tight meshes, triangle soups, point clouds), specification of the number of skeletal points, few hyperparameters, and highly efficient computation with improved reconstruction accuracy. Extensive experiments across a wide range of 3D shapes validate the efficiency and effectiveness of Coverage Axis++. Our codes are available at https://github.com/Frank-ZY-Dou/Coverage_Axis.
翻訳日:2024-06-12 03:59:13 公開日:2024-06-10
# 知識グラフ補完のためのマスケ生成特徴法に基づく進行蒸留

Progressive Distillation Based on Masked Generation Feature Method for Knowledge Graph Completion ( http://arxiv.org/abs/2401.12997v2 )

ライセンス: Link先を確認
Cunhang Fan, Yujie Chen, Jun Xue, Yonghui Kong, Jianhua Tao, Zhao Lv, (参考訳) 近年,事前学習言語モデル(PLM)に基づく知識グラフ補完(KGC)モデルが有望な結果を示している。 しかしながら、PLMモデルの大量のパラメータと高い計算コストは、下流タスクにおけるそれらの応用に課題をもたらす。 そこで本研究では,KGCタスクのマスク生成機能に基づくプログレッシブ蒸留法を提案し,事前学習モデルの複雑さを著しく低減することを目的とした。 具体的には、PLMの予蒸留を行い、高品質の教師モデルを取得し、PLMネットワークを圧縮し、マルチグレードの学生モデルを得る。 しかし、伝統的な特徴蒸留は教師モデルにおける情報の単一の表現の制限に悩まされている。 この問題を解決するために,よりリッチな表現情報を含む教師学生特徴のマスク生成を提案する。 さらに,教師と生徒の表現能力には大きなギャップがある。 そこで我々は,各学年レベルで生徒モデルを蒸留する段階的蒸留法を設計し,教師から生徒への効率的な知識伝達を可能にした。 実験により, 予蒸留段階のモデルが, 既存の最先端手法を超越していることが実証された。 さらに, プログレッシブ蒸留段階では, 一定の性能を維持しながら, モデルパラメータを著しく低減する。 特に、下級学生モデルのモデルパラメータは、ベースラインと比較して56.7\%削減される。

In recent years, knowledge graph completion (KGC) models based on pre-trained language model (PLM) have shown promising results. However, the large number of parameters and high computational cost of PLM models pose challenges for their application in downstream tasks. This paper proposes a progressive distillation method based on masked generation features for KGC task, aiming to significantly reduce the complexity of pre-trained models. Specifically, we perform pre-distillation on PLM to obtain high-quality teacher models, and compress the PLM network to obtain multi-grade student models. However, traditional feature distillation suffers from the limitation of having a single representation of information in teacher models. To solve this problem, we propose masked generation of teacher-student features, which contain richer representation information. Furthermore, there is a significant gap in representation ability between teacher and student. Therefore, we design a progressive distillation method to distill student models at each grade level, enabling efficient knowledge transfer from teachers to students. The experimental results demonstrate that the model in the pre-distillation stage surpasses the existing state-of-the-art methods. Furthermore, in the progressive distillation stage, the model significantly reduces the model parameters while maintaining a certain level of performance. Specifically, the model parameters of the lower-grade student model are reduced by 56.7\% compared to the baseline.
翻訳日:2024-06-12 03:59:13 公開日:2024-06-10
# MLLMReID:マルチモーダル大言語モデルに基づく人物再識別

MLLMReID: Multimodal Large Language Model-based Person Re-identification ( http://arxiv.org/abs/2401.13201v3 )

ライセンス: Link先を確認
Shan Yang, Yongfei Zhang, (参考訳) MLLM(Multimodal large language model)は多くのタスクにおいて満足な結果を得た。 しかし、ReID(ReID)タスクにおけるそれらのパフォーマンスは、現在まで調査されていない。 本稿では,ReIDの課題に適合させる方法について検討する。 直感的なアイデアは、ReIDイメージテキストデータセットでMLLMを微調整し、それらのビジュアルエンコーダをReIDのバックボーンとして使用することである。 しかし、(1) ReID の命令の設計、MLLM は特定の命令に過度に適合する可能性があること、そして、様々な命令を設計することがコストの上昇につながること、の2つの明らかな問題がまだ残っている。 2) MLLMのビジュアルエンコーダを微調整する場合は、ReIDタスクと同期的にトレーニングされない。 その結果、視覚エンコーダの微調整の有効性は、直接ReIDタスクの性能に反映できない。 本稿では,MLLMReID: Multimodal Large Language Model-based ReIDを提案する。 まず,LLMの本質的能力を活用するシンプルな手法であるCommon Instructionを提案し,複雑で多様な命令設計を避ける。 次に,MLLMの視覚エンコーダがReIDタスクと同期的にトレーニングされることを保証するために,マルチタスク学習ベースの同期モジュールを提案する。 実験により,本手法の優位性を実証した。

Multimodal large language models (MLLM) have achieved satisfactory results in many tasks. However, their performance in the task of ReID (ReID) has not been explored to date. This paper will investigate how to adapt them for the task of ReID. An intuitive idea is to fine-tune MLLM with ReID image-text datasets, and then use their visual encoder as a backbone for ReID. However, there still exist two apparent issues: (1) Designing instructions for ReID, MLLMs may overfit specific instructions, and designing a variety of instructions will lead to higher costs. (2) When fine-tuning the visual encoder of a MLLM, it is not trained synchronously with the ReID task. As a result, the effectiveness of the visual encoder fine-tuning cannot be directly reflected in the performance of the ReID task. To address these problems, this paper proposes MLLMReID: Multimodal Large Language Model-based ReID. Firstly, we proposed Common Instruction, a simple approach that leverages the essence ability of LLMs to continue writing, avoiding complex and diverse instruction design. Secondly, we propose a multi-task learning-based synchronization module to ensure that the visual encoder of the MLLM is trained synchronously with the ReID task. The experimental results demonstrate the superiority of our method.
翻訳日:2024-06-12 03:59:13 公開日:2024-06-10
# 密度ベースメカニカルメタマテリアルの高速逆設計のためのガイド拡散

Guided Diffusion for Fast Inverse Design of Density-based Mechanical Metamaterials ( http://arxiv.org/abs/2401.13570v2 )

ライセンス: Link先を確認
Yanyan Yang, Lili Wang, Xiaoya Zhai, Kai Chen, Wenming Wu, Yunkai Zhao, Ligang Liu, Xiao-Ming Fu, (参考訳) メカニカルメタマテリアル(Mechanical Meta Materials)は、内部構造を慎重に設計することで、異常な弾性、剛性、安定性などの異常な物理的特性を持つ合成材料である。 メタマテリアルに独特の機械的特性を持つ微妙な局所構造を含むようにするためには、高解像度のボクセルを通してそれらを表現できる可能性がある。 しかし、これはかなりの計算負荷をもたらす。 そこで本研究では,ボクセルをベースとしたメカニカルメタマテリアルを生成するための,高度な深層生成AIアルゴリズムである高速逆設計手法を提案する。 具体的には, 128^3$の分解能を持つマイクロ構造を生成できる自己条件拡散モデルを用いて, 指定された均質テンソル行列に3秒でアプローチする。 したがって、この高速逆設計ツールは、極端なメタマテリアルの探索、メタマテリアルのシーケンス補間、マルチスケール設計のための多様なマイクロ構造の生成を容易にする。 この柔軟で適応的な生成ツールは、構造工学や他の機械システムにおいて大きな価値があり、さらなる研究を刺激することができる。

Mechanical metamaterial is a synthetic material that can possess extraordinary physical characteristics, such as abnormal elasticity, stiffness, and stability, by carefully designing its internal structure. To make metamaterials contain delicate local structures with unique mechanical properties, it is a potential method to represent them through high-resolution voxels. However, it brings a substantial computational burden. To this end, this paper proposes a fast inverse design method, whose core is an advanced deep generative AI algorithm, to generate voxel-based mechanical metamaterials. Specifically, we use the self-conditioned diffusion model, capable of generating a microstructure with a resolution of $128^3$ to approach the specified homogenized tensor matrix in just 3 seconds. Accordingly, this rapid reverse design tool facilitates the exploration of extreme metamaterials, the sequence interpolation in metamaterials, and the generation of diverse microstructures for multi-scale design. This flexible and adaptive generative tool is of great value in structural engineering or other mechanical systems and can stimulate more subsequent research.
翻訳日:2024-06-12 03:59:13 公開日:2024-06-10
# 人間の意思決定を改善するコンフォーマル予測セット

Conformal Prediction Sets Improve Human Decision Making ( http://arxiv.org/abs/2401.13744v3 )

ライセンス: Link先を確認
Jesse C. Cresswell, Yi Sui, Bhargava Kumar, Noël Vouitsis, (参考訳) 日常的なクエリに応答して、人間は明確に不確実性を信号し、不確実であるときに代替の回答を提供する。 共形予測を通じて校正された予測セットを出力する機械学習モデルは、この人間の振る舞いを模倣する。 本研究では,共形予測セットを用いて事前登録したランダム化制御試験を行うことにより,人間による意思決定を支援する上での共形予測セットの有用性について検討する。 統計的に有意な点から、人間に共形予測を与えると、その精度は、同じカバレッジ保証を持つ固定サイズ予測セットよりも向上することがわかった。 その結果,共形予測によるモデルの不確かさの定量化は,ループ内意思決定やAIチームにとって有用であることが示唆された。

In response to everyday queries, humans explicitly signal uncertainty and offer alternative answers when they are unsure. Machine learning models that output calibrated prediction sets through conformal prediction mimic this human behaviour; larger sets signal greater uncertainty while providing alternatives. In this work, we study the usefulness of conformal prediction sets as an aid for human decision making by conducting a pre-registered randomized controlled trial with conformal prediction sets provided to human subjects. With statistical significance, we find that when humans are given conformal prediction sets their accuracy on tasks improves compared to fixed-size prediction sets with the same coverage guarantee. The results show that quantifying model uncertainty with conformal prediction is helpful for human-in-the-loop decision making and human-AI teams.
翻訳日:2024-06-12 03:59:13 公開日:2024-06-10
# 時間依存力学学習におけるリッチフロー誘導オートエンコーダ

Ricci flow-guided autoencoders in learning time-dependent dynamics ( http://arxiv.org/abs/2401.14591v7 )

ライセンス: Link先を確認
Andrew Gracyk, (参考訳) 本稿では,時間内力学,特に偏微分方程式(PDE)を学習するための多様体ベースのオートエンコーダ法を提案する。 これは、物理学的インフォームドな設定でリッチフローをシミュレートすることで実現でき、また、リッチフローが経験的に達成されるように、多様体の量と一致させることができる。 この方法では、多様体はトレーニング手順によって識別されるが、リッチフローによる潜伏進化は静的な方法よりもより共役な表現を誘導する。 本稿では,周期性やランダム性などの望ましい特徴を含むPDEデータからなる実験について述べる。 動的多様体潜在空間は、アウト・オブ・ディストリビューションデータの学習やロバストネスなどの品質を促進する。 これらの特徴を実証して示す。

We present a manifold-based autoencoder method for learning dynamics in time, notably partial differential equations (PDEs), in which the manifold latent space evolves according to Ricci flow. This can be accomplished by simulating Ricci flow in a physics-informed setting, and manifold quantities can be matched so that Ricci flow is empirically achieved. With our method, the manifold is discerned through the training procedure, while the latent evolution due to Ricci flow induces a more accommodating representation over static methods. We present our method on a range of experiments consisting of PDE data that encompasses desirable characteristics such as periodicity and randomness. The dynamical manifold latent space facilitates qualities such as learning for out-of-distribution data, and robustness. We showcase our method by demonstrating these features.
翻訳日:2024-06-12 03:59:13 公開日:2024-06-10
# 構造認識型E(3)不変分子コンバータ集約ネットワーク

Structure-Aware E(3)-Invariant Molecular Conformer Aggregation Networks ( http://arxiv.org/abs/2402.01975v2 )

ライセンス: Link先を確認
Duy M. H. Nguyen, Nina Lukashina, Tai Nguyen, An T. Le, TrungTin Nguyen, Nhat Ho, Jan Peters, Daniel Sonntag, Viktor Zaverkin, Mathias Niepert, (参考訳) 分子の2D表現は、その原子、その特性、および分子の共有結合からなる。 分子の3D(幾何学的)表現はコンバータと呼ばれ、その原子型とカルテシアン座標からなる。 すべての共役体はポテンシャルエネルギーを持ち、このエネルギーが低いほど自然界で起こる可能性が高くなる。 分子特性予測のための既存の機械学習手法の多くは、2次元分子グラフまたは3次元コンフォメータ構造表現を独立に考慮している。 2次元グラフ表現とともにコンホメータのアンサンブルを用いた最近の研究に触発され、$\mathrm{E}$(3)-invariant molecular conformer aggregate networkを提案する。 この方法は分子の2D表現と複数のコンフォメータの表現を統合する。 従来の研究とは対照的に, \emph{Fused Gromov-Wasserstein Barycenter} 問題に対する微分可能解法に基づく新しい2D-3Dアグリゲーション機構と, 距離幾何学に基づく効率的なコンホメータ生成手法を提案する。 提案するアグリゲーション機構は$\mathrm{E}$(3)不変であり,効率的なGPU実装を提案する。 さらに, このアグリゲーション機構は, 確立したデータセット上での最先端分子特性予測手法を著しく上回ることを示す。

A molecule's 2D representation consists of its atoms, their attributes, and the molecule's covalent bonds. A 3D (geometric) representation of a molecule is called a conformer and consists of its atom types and Cartesian coordinates. Every conformer has a potential energy, and the lower this energy, the more likely it occurs in nature. Most existing machine learning methods for molecular property prediction consider either 2D molecular graphs or 3D conformer structure representations in isolation. Inspired by recent work on using ensembles of conformers in conjunction with 2D graph representations, we propose $\mathrm{E}$(3)-invariant molecular conformer aggregation networks. The method integrates a molecule's 2D representation with that of multiple of its conformers. Contrary to prior work, we propose a novel 2D-3D aggregation mechanism based on a differentiable solver for the \emph{Fused Gromov-Wasserstein Barycenter} problem and the use of an efficient conformer generation method based on distance geometry. We show that the proposed aggregation mechanism is $\mathrm{E}$(3) invariant and propose an efficient GPU implementation. Moreover, we demonstrate that the aggregation mechanism helps to significantly outperform state-of-the-art molecule property prediction methods on established datasets.
翻訳日:2024-06-12 03:49:29 公開日:2024-06-10
# BRAIn: フィードバックによる自然言語生成のためのベイジアン・リワード条件の償却推論

BRAIn: Bayesian Reward-conditioned Amortized Inference for natural language generation from feedback ( http://arxiv.org/abs/2402.02479v2 )

ライセンス: Link先を確認
Gaurav Pandey, Yatin Nandwani, Tahira Naseem, Mayank Mishra, Guangxuan Xu, Dinesh Raghu, Sachindra Joshi, Asim Munawar, Ramón Fernandez Astudillo, (参考訳) GDC(Generation with Distributional Control)やDPG(Distributal Policy Gradient)といった言語モデルアライメントのための分散マッチング手法は,RLHF(Regress Learning from Human feedback)において,SLiC(Sequence Likelihood Calibration)やDPO(Direct Preference Optimization)などの対照的な手法と同等のレベルの注意を払っていない。 本研究では,これらの手法の成功の欠如の主な原因として勾配推定値の高分散を同定し,分散を低減するための自己正規化ベースラインを提案する。 さらにベイズの法則を用いて, DPG, GDC, DPOの目標分布を一般化し, 報酬条件後部を定義する。 BRAIn - Bayesian Reward-conditioned Amortized Inference と呼ばれるこの手法は、分布マッチング法とDPOの間のブリッジとして機能し、要約やアントロピー的HHタスクにおいて、先行技術よりも大幅に優れている。

Distribution matching methods for language model alignment such as Generation with Distributional Control (GDC) and Distributional Policy Gradient (DPG) have not received the same level of attention in reinforcement learning from human feedback (RLHF) as contrastive methods such as Sequence Likelihood Calibration (SLiC), Direct Preference Optimization (DPO) and its variants. We identify high variance of the gradient estimate as the primary reason for the lack of success of these methods and propose a self-normalized baseline to reduce the variance. We further generalize the target distribution in DPG, GDC and DPO by using Bayes' rule to define the reward-conditioned posterior. The resulting approach, referred to as BRAIn - Bayesian Reward-conditioned Amortized Inference acts as a bridge between distribution matching methods and DPO and significantly outperforms prior art in summarization and Antropic HH tasks.
翻訳日:2024-06-12 03:49:29 公開日:2024-06-10
# 検証回路の再利用による言語モデルの信頼度向上

Increasing Trust in Language Models through the Reuse of Verified Circuits ( http://arxiv.org/abs/2402.02619v6 )

ライセンス: Link先を確認
Philip Quirke, Clement Neo, Fazl Barez, (参考訳) 言語モデル(LM)は、幅広い予測タスクにますます使われていますが、それらのトレーニングは稀なエッジケースを無視し、信頼性を低下させます。 ここでは、タスクアルゴリズムと回路実装を検証し、エッジケースを考慮し、既知の障害モードを含まない、厳格な信頼性基準を定義する。 数学的および論理的に規定されたフレームワークを使用して構築すれば,トランスフォーマーモデルをこの標準を満たすように訓練できることが示される。 本稿では,n桁整数加算モデルを完全に検証する。 検証されたモジュールの再利用性を示すため、トレーニングされた整数加算モデルをトレーニングされていないモデルに挿入し、組み合わせたモデルで加算と減算の両方を行うように訓練する。 両タスクの加算回路を広範囲に再利用し,より複雑な減算器モデルの検証を容易にする。 本稿では,検証済みのタスクモジュールをLMに挿入することで,モデルの再利用を有効活用し,それらを用いた言語モデルの妥当性と信頼性を向上させる方法について論じる。 検証回路の再利用により、言語モデルの安全性に向けた重要なステップであると考えられる、より複雑な複合モデルを検証する労力が削減される。

Language Models (LMs) are increasingly used for a wide range of prediction tasks, but their training can often neglect rare edge cases, reducing their reliability. Here, we define a stringent standard of trustworthiness whereby the task algorithm and circuit implementation must be verified, accounting for edge cases, with no known failure modes. We show that a transformer model can be trained to meet this standard if built using mathematically and logically specified frameworks. In this paper, we fully verify a model for n-digit integer addition. To exhibit the reusability of verified modules, we insert the trained integer addition model into an untrained model and train the combined model to perform both addition and subtraction. We find extensive reuse of the addition circuits for both tasks, easing verification of the more complex subtractor model. We discuss how inserting verified task modules into LMs can leverage model reuse to improve verifiability and trustworthiness of language models built using them. The reuse of verified circuits reduces the effort to verify more complex composite models which we believe to be a significant step towards safety of language models.
翻訳日:2024-06-12 03:49:29 公開日:2024-06-10
# 強ラベルを超えて:非造影CTにおける楕円様血管構造の分別のためのガウス的擬似ラベルに基づく弱教師付き学習

Beyond Strong labels: Weakly-supervised Learning Based on Gaussian Pseudo Labels for The Segmentation of Ellipse-like Vascular Structures in Non-contrast CTs ( http://arxiv.org/abs/2402.03492v2 )

ライセンス: Link先を確認
Qixiang Ma, Antoine Łucas, Huazhong Shu, Adrien Kaladji, Pascal Haigron, (参考訳) 術前CTスキャンにおける深層学習に基づく血管構造の自動分割は、血管疾患のコンピュータ支援診断と介入に寄与する。 CTアンギオグラフィー(CTA)は一般的な標準であるが、造影剤による合併症を回避し、コントラストリスクのない代替手段として非コントラストCTが重要である。 しかし, 血管境界の曖昧さによる労働集約的なラベル付けと高いラベル付けの難しさは, 非造影CTにおける従来の強ラベルベースの完全教師あり学習を妨げている。 本稿では, 楕円位相をスライスを含むスライスに用いた弱教師付きフレームワークを提案する。 1)事前定義された基準に基づく効率的なアノテーションプロセス 2【楕円適合処理】 3)擬似ラベルとして機能する2次元ガウス熱マップの生成 4) 擬似ラベルによるボクセル再建損失と分布損失の併用による訓練プロセス。 腹部大動脈に焦点をあてた非コントラストCTによる1つの局所的および2つの公開データセットに対する提案手法の有効性について検討した。 ローカルデータセットにおいて、擬似ラベルに基づく弱教師付き学習アプローチは、強いラベルに基づく完全教師付き学習(平均Diceスコアの1.54\%)より優れ、ラベル付け時間を約82.0\%削減する。 擬似ラベルの生成効率は、ラベルに依存しない外部データをトレーニングセットに含めることを可能にし、パフォーマンス(平均でDiceスコアの2.74\%)が向上し、66.3\%のラベリング時間が短縮され、ラベリング時間が強いラベルよりも大幅に短縮される。 公開データセットでは、擬似ラベルは2DモデルでDiceスコアの1.95\%を総合的に改善し、3Dモデルでハウスドルフ距離で11.65ボクセル間隔を縮める。

Deep-learning-based automated segmentation of vascular structures in preoperative CT scans contributes to computer-assisted diagnosis and intervention procedure in vascular diseases. While CT angiography (CTA) is the common standard, non-contrast CT imaging is significant as a contrast-risk-free alternative, avoiding complications associated with contrast agents. However, the challenges of labor-intensive labeling and high labeling variability due to the ambiguity of vascular boundaries hinder conventional strong-label-based, fully-supervised learning in non-contrast CTs. This paper introduces a weakly-supervised framework using ellipses' topology in slices, including 1) an efficient annotation process based on predefined standards, 2) ellipse-fitting processing, 3) the generation of 2D Gaussian heatmaps serving as pseudo labels, 4) a training process through a combination of voxel reconstruction loss and distribution loss with the pseudo labels. We assess the effectiveness of the proposed method on one local and two public datasets comprising non-contrast CT scans, particularly focusing on the abdominal aorta. On the local dataset, our weakly-supervised learning approach based on pseudo labels outperforms strong-label-based fully-supervised learning (1.54\% of Dice score on average), reducing labeling time by around 82.0\%. The efficiency in generating pseudo labels allows the inclusion of label-agnostic external data in the training set, leading to an additional improvement in performance (2.74\% of Dice score on average) with a reduction of 66.3\% labeling time, where the labeling time remains considerably less than that of strong labels. On the public dataset, the pseudo labels achieve an overall improvement of 1.95\% in Dice score for 2D models while a reduction of 11.65 voxel spacing in Hausdorff distance for 3D model.
翻訳日:2024-06-12 03:39:46 公開日:2024-06-10
# MolTC:言語モデルにおける分子関係モデリングを目指して

MolTC: Towards Molecular Relational Modeling In Language Models ( http://arxiv.org/abs/2402.03781v6 )

ライセンス: Link先を確認
Junfeng Fang, Shuai Zhang, Chang Wu, Zhengyi Yang, Zhiyuan Liu, Sihang Li, Kun Wang, Wenjie Du, Xiang Wang, (参考訳) 分子間の相互作用を理解することを目的とした分子関係学習(MRL)は、生化学研究の進展において重要な役割を担っている。 近年,膨大な知識リポジトリと高度な論理推論能力で知られる大規模言語モデル (LLM) の採用が,MRLの効率的かつ効果的な方法として注目されている。 それらの可能性にもかかわらず、これらの手法は主としてテキストデータに依存しており、分子グラフに固有の構造情報の豊富さを十分に活用していない。 さらに、統合されたフレームワークが存在しないことで、さまざまなデータセット間で学習されたインタラクションメカニズムの共有が妨げられるため、情報活用の難しさが増す。 これらの課題に対処するため、本研究では、2つの分子のグラフィカルな情報をペアで効果的に統合するMolt(英語版)と呼ばれるCoT(Chain-of-Thought)理論に従って、分子間相互作用予測のための新しいLLMベースのマルチモーダルフレームワークを提案する。 MolTCを効果的に訓練するために,多階層CoTの概念を導入し,その訓練パラダイムを洗練させ,MRLを含む生化学LLMを開発するための包括的分子インタラクティブインストラクションデータセットを構築した。 我々の実験は4000,000以上の分子対を含む様々なデータセットで実施され、現在のGNNおよびLLMベースラインよりも優れていることを示した。 コードはhttps://github.com/MangoKiller/MolTCで入手できる。

Molecular Relational Learning (MRL), aiming to understand interactions between molecular pairs, plays a pivotal role in advancing biochemical research. Recently, the adoption of large language models (LLMs), known for their vast knowledge repositories and advanced logical inference capabilities, has emerged as a promising way for efficient and effective MRL. Despite their potential, these methods predominantly rely on the textual data, thus not fully harnessing the wealth of structural information inherent in molecular graphs. Moreover, the absence of a unified framework exacerbates the issue of information underutilization, as it hinders the sharing of interaction mechanism learned across diverse datasets. To address these challenges, this work proposes a novel LLM-based multi-modal framework for Molecular inTeraction prediction following Chain-of-Thought (CoT) theory, termed MolTC, which effectively integrate graphical information of two molecules in pair. To train MolTC efficiently, we introduce a Multi-hierarchical CoT concept to refine its training paradigm, and conduct a comprehensive Molecular Interactive Instructions dataset for the development of biochemical LLMs involving MRL. Our experiments, conducted across various datasets involving over 4,000,000 molecular pairs, exhibit the superiority of our method over current GNN and LLM-based baselines. Code is available at https://github.com/MangoKiller/MolTC.
翻訳日:2024-06-12 03:39:46 公開日:2024-06-10
# 量子化された約直交リカレントニューラルネットワーク

Quantized Approximately Orthogonal Recurrent Neural Networks ( http://arxiv.org/abs/2402.04012v2 )

ライセンス: Link先を確認
Armand Foucault, Franck Mamalet, François Malgouyres, (参考訳) 近年,コピータスクや線形複雑度など,長期的な依存関係に関わるタスクを管理する能力によって,オルソゴンリカレントニューラルネットワーク(ORNN)が人気を集めている。 しかし,既存のORNNでは,完全精度の重み付けとアクティベーションが利用されており,コンパクトデバイスへの展開を妨げているため,ORNNにおける重み付け行列の量子化が検討され,量子化されたほぼ直交RNN(QORNN)が実現される。 このようなネットワークの構築は未解決の問題であり、その固有の不安定さが認識された。 量子化対応学習(QAT)と直交投影を組み合わせた2つのQORNN学習手法を提案する。 また、リカレントループの純粋整数計算のためのアクティベーションのトレーニング後の量子化についても検討した。 最も効率的なモデルは、4ビットの量子化であっても、様々な標準ベンチマークで最先端のフル精度ORNN、LSTM、FastRNNと同様の結果が得られる。

In recent years, Orthogonal Recurrent Neural Networks (ORNNs) have gained popularity due to their ability to manage tasks involving long-term dependencies, such as the copy-task, and their linear complexity. However, existing ORNNs utilize full precision weights and activations, which prevents their deployment on compact devices.In this paper, we explore the quantization of the weight matrices in ORNNs, leading to Quantized approximately Orthogonal RNNs (QORNNs). The construction of such networks remained an open problem, acknowledged for its inherent instability. We propose and investigate two strategies to learn QORNN by combining quantization-aware training (QAT) and orthogonal projections. We also study post-training quantization of the activations for pure integer computation of the recurrent loop. The most efficient models achieve results similar to state-of-the-art full-precision ORNN, LSTM and FastRNN on a variety of standard benchmarks, even with 4-bits quantization.
翻訳日:2024-06-12 03:39:46 公開日:2024-06-10
# トリプルト相互作用によるグラフ変換器の改良:トリプルトグラフ変換器を用いた正確な分子グラフ学習

Triplet Interaction Improves Graph Transformers: Accurate Molecular Graph Learning with Triplet Graph Transformers ( http://arxiv.org/abs/2402.04538v2 )

ライセンス: Link先を確認
Md Shamim Hussain, Mohammed J. Zaki, Dharmashankar Subramanian, (参考訳) グラフ変換器は一般的に3階の相互作用を欠き、分子幾何学予測のようなタスクに不可欠な幾何学的理解を制限する。 本稿では, トリプルトグラフ変換器(TGT)を提案し, 新たなトリプルトアテンションとアグリゲーション機構により, ノードの3タプル内におけるペア間の直接通信を実現する。 TGTは、まず2次元グラフから原子間距離を予測し、これらの距離を下流タスクに使用することにより、分子特性予測に適用する。 新たな3段階トレーニング手順と確率推論により、トレーニング効率とモデル性能がさらに向上する。 本モデルでは,PCQM4Mv2 と OC20 IS2RE のオープンチャレンジベンチマークを用いて,SOTA(State-of-the-art)の新たな結果を得る。 また、転送学習により、QM9、MOLPCBA、LIT-PCBA分子特性予測ベンチマークのSOTA結果を得る。 また、旅行セールスマン問題(TSP)において、SOTAによるTGTの一般性を示す。

Graph transformers typically lack third-order interactions, limiting their geometric understanding which is crucial for tasks like molecular geometry prediction. We propose the Triplet Graph Transformer (TGT) that enables direct communication between pairs within a 3-tuple of nodes via novel triplet attention and aggregation mechanisms. TGT is applied to molecular property prediction by first predicting interatomic distances from 2D graphs and then using these distances for downstream tasks. A novel three-stage training procedure and stochastic inference further improve training efficiency and model performance. Our model achieves new state-of-the-art (SOTA) results on open challenge benchmarks PCQM4Mv2 and OC20 IS2RE. We also obtain SOTA results on QM9, MOLPCBA, and LIT-PCBA molecular property prediction benchmarks via transfer learning. We also demonstrate the generality of TGT with SOTA results on the traveling salesman problem (TSP).
翻訳日:2024-06-12 03:39:46 公開日:2024-06-10
# ニオブ酸リチウムナノフォトニクスの2$\textμ$mにおける超短パルス双光子源

Ultra-Short Pulse Biphoton Source in Lithium Niobate Nanophotonics at 2$\textμ$m ( http://arxiv.org/abs/2402.05163v2 )

ライセンス: Link先を確認
James Williams, Rajveer Nehra, Elina Sendonaris, Luis Ledezma, Robert M. Gray, Ryoto Sekine, Alireza Marandi, (参考訳) フォトニクスは、室温演算、ナノフォトニクスのスケーラビリティ、超広帯域帯域へのアクセス、その結果超高速演算などの量子情報処理(QIP)にユニークな機能を提供する。 ナノフォトニクスにおける量子状態の超短パルス源は、スケーラブルな超高速QIPを実現するための重要な構成要素である。 ここでは, 分散法で周期的に偏極したニオブ酸リチウムナノフォトニクスにおいて, フェムト秒二光子源を示す。 光源の帯域幅は,光サイクル数回に対応し,輝度は8.8GHz/mWである。 超高速ナノフォトニックQIPの実現に向けた新たな道を開く。

Photonics offers unique capabilities for quantum information processing (QIP) such as room-temperature operation, the scalability of nanophotonics, and access to ultrabroad bandwidths and consequently ultrafast operation. Ultrashort-pulse sources of quantum states in nanophotonics are an important building block for achieving scalable ultrafast QIP, however, their demonstrations so far have been sparse. Here, we demonstrate a femtosecond biphoton source in dispersion-engineered periodically poled lithium niobate nanophotonics. We measure 17 THz of bandwidth for the source centered at 2.09 \textmu m, corresponding to a few optical cycles, with a brightness of 8.8 GHz/mW. Our results open new paths towards realization of ultrafast nanophotonic QIP.
翻訳日:2024-06-12 03:39:46 公開日:2024-06-10
# AttnLRP: 変圧器のアテンション対応層幅関係伝播

AttnLRP: Attention-Aware Layer-Wise Relevance Propagation for Transformers ( http://arxiv.org/abs/2402.05602v2 )

ライセンス: Link先を確認
Reduan Achtibat, Sayed Mohammad Vakilzadeh Hatefi, Maximilian Dreyer, Aakriti Jain, Thomas Wiegand, Sebastian Lapuschkin, Wojciech Samek, (参考訳) 大規模言語モデルはバイアスのある予測や幻覚に傾向があり、モデルと内部の推論プロセスを理解することの最も重要な重要性を浮き彫りにしている。 しかし、ブラックボックストランスモデルの完全性に対する忠実な帰属と計算効率の維持は未解決の課題である。 注意層を扱うために、レイヤワイズ・レバレンス・プロパゲーション・アトリビューション・メソッドを拡張することで、これらの課題を効果的に解決する。 部分解は存在するが,本手法は入力だけでなく,1つの後方パスに類似した計算効率を持つ変圧器モデルの潜在表現を忠実に,かつ公平に評価する最初の方法である。 LLaMa 2, Mixtral 8x7b, Flan-T5, ヴィジュアルトランスフォーマーアーキテクチャの既存手法に対する広範な評価を通じて, 提案手法は忠実性の観点から代替手法を超越し, 潜在表現の理解を可能にし, 概念に基づく説明の扉を開くことを実証した。 https://github.com/rachtibat/LRP-eXplains-Transformers.orgでLRPライブラリを提供しています。

Large Language Models are prone to biased predictions and hallucinations, underlining the paramount importance of understanding their model-internal reasoning process. However, achieving faithful attributions for the entirety of a black-box transformer model and maintaining computational efficiency is an unsolved challenge. By extending the Layer-wise Relevance Propagation attribution method to handle attention layers, we address these challenges effectively. While partial solutions exist, our method is the first to faithfully and holistically attribute not only input but also latent representations of transformer models with the computational efficiency similar to a single backward pass. Through extensive evaluations against existing methods on LLaMa 2, Mixtral 8x7b, Flan-T5 and vision transformer architectures, we demonstrate that our proposed approach surpasses alternative methods in terms of faithfulness and enables the understanding of latent representations, opening up the door for concept-based explanations. We provide an LRP library at https://github.com/rachtibat/LRP-eXplains-Transformers.
翻訳日:2024-06-12 03:39:46 公開日:2024-06-10
# 逆行訓練のための高次元統計モデル:幾何と貿易オフ

A High Dimensional Statistical Model for Adversarial Training: Geometry and Trade-Offs ( http://arxiv.org/abs/2402.05674v2 )

ライセンス: Link先を確認
Kasimir Tanner, Matteo Vilucchio, Bruno Loureiro, Florent Krzakala, (参考訳) 本研究は、次元$d$とデータポイント数$n$が固定比$\alpha = n / d$で発散する高次元状態におけるマージンベースの線形分類器の文脈における逆トレーニングについて検討する。 本研究では, 対向的ロバスト性文学において観測される中核現象を捉えるとともに, データと対向的アタッカージオメトリーの相互作用を研究することのできる, トラクタブルな数学的モデルを提案する。 我々の主要な理論的貢献は、一般的な凸と非増加損失の下で、敵の経験的リスク最小化のための十分な統計量の正確な漸近的記述である。 その結果、ロバストネスと有用度測定値によって定義されるように、データのどの方向が高次一般化/ロバストネストレードオフと関連しているかを正確に特徴づけることができた。 特に、精度を損なうことなく防御できる方向の存在を明らかにする。 最後に、トレーニング中に非破壊的特徴を防御する利点を示し、一様保護を本質的に効果的な防御機構として同定する。

This work investigates adversarial training in the context of margin-based linear classifiers in the high-dimensional regime where the dimension $d$ and the number of data points $n$ diverge with a fixed ratio $\alpha = n / d$. We introduce a tractable mathematical model where the interplay between the data and adversarial attacker geometries can be studied, while capturing the core phenomenology observed in the adversarial robustness literature. Our main theoretical contribution is an exact asymptotic description of the sufficient statistics for the adversarial empirical risk minimiser, under generic convex and non-increasing losses. Our result allow us to precisely characterise which directions in the data are associated with a higher generalisation/robustness trade-off, as defined by a robustness and a usefulness metric. In particular, we unveil the existence of directions which can be defended without penalising accuracy. Finally, we show the advantage of defending non-robust features during training, identifying a uniform protection as an inherently effective defence mechanism.
翻訳日:2024-06-12 03:39:46 公開日:2024-06-10
# Point-VOS: ビデオオブジェクトセグメンテーションのポイントアップ

Point-VOS: Pointing Up Video Object Segmentation ( http://arxiv.org/abs/2402.05917v2 )

ライセンス: Link先を確認
Idil Esen Zulfikar, Sabarinath Mahadevan, Paul Voigtlaender, Bastian Leibe, (参考訳) 現在の最先端のビデオオブジェクトセグメンテーション(VOS)メソッドは、トレーニングとテストの両方において、オブジェクトごとの密集したマスクアノテーションに依存している。 これは時間とコストのかかるビデオアノテーション機構を必要とする。 本稿では,時空間的にスパースなポイントワイドアノテーション方式により,アノテーションの労力を大幅に削減する新しいPoint-VOSタスクを提案する。 我々は,テキスト記述を伴う2つの大規模ビデオデータセットにアノテーションスキームを適用し,32Kビデオの133Kオブジェクトに対して19万点以上の注釈を付ける。 アノテーションをベースとした新しいPoint-VOSベンチマークとそれに対応するポイントベーストレーニング機構を提案する。 既存の VOS メソッドはトレーニング中のポイントアノテーションに容易に適用でき、これらのポイントから生成された擬似マスクでトレーニングした場合に、完全に教師されたパフォーマンスに近い結果が得られることを示す。 さらに,ビデオナラティブグラウンド(VNG)タスクで評価することで,視覚と言語を接続するモデルを改善するために,我々のデータを利用することができることを示す。 コードとアノテーションはhttps://pointvos.github.io.comで公開します。

Current state-of-the-art Video Object Segmentation (VOS) methods rely on dense per-object mask annotations both during training and testing. This requires time-consuming and costly video annotation mechanisms. We propose a novel Point-VOS task with a spatio-temporally sparse point-wise annotation scheme that substantially reduces the annotation effort. We apply our annotation scheme to two large-scale video datasets with text descriptions and annotate over 19M points across 133K objects in 32K videos. Based on our annotations, we propose a new Point-VOS benchmark, and a corresponding point-based training mechanism, which we use to establish strong baseline results. We show that existing VOS methods can easily be adapted to leverage our point annotations during training, and can achieve results close to the fully-supervised performance when trained on pseudo-masks generated from these points. In addition, we show that our data can be used to improve models that connect vision and language, by evaluating it on the Video Narrative Grounding (VNG) task. We will make our code and annotations available at https://pointvos.github.io.
翻訳日:2024-06-12 03:39:46 公開日:2024-06-10
# Copycats:公開の医療画像データセットの寿命

Copycats: the many lives of a publicly available medical imaging dataset ( http://arxiv.org/abs/2402.06353v2 )

ライセンス: Link先を確認
Amelia Jiménez-Sánchez, Natalia-Rozalia Avlona, Dovile Juodelyte, Théo Sourget, Caroline Vang-Larsen, Anna Rogers, Hubert Dariusz Zając, Veronika Cheplygina, (参考訳) 医療画像(MI)データセットは、医療における人工知能の基本である。 診断アルゴリズムの正確性、堅牢性、公正性は、モデルのトレーニングと評価に使用されるデータ(とその品質)に依存する。 MIデータセットは以前はプロプライエタリだったが、KaggleやHuggingFaceといったコミュニティに分散したプラットフォーム(CCP)など、徐々に一般向けに利用されるようになった。 オープンデータは、データの公開価値の再分配を促進するために重要であるが、現在のCCPガバナンスモデルは、データセットの共有、文書化、評価に必要な品質と推奨のプラクティスを維持できない。 本稿では、CCP上で公開されている機械学習データセットの分析を行い、データセットのコンテキストについて議論し、現在のCCPランドスケープにおける制限とギャップを特定する。 MIとコンピュータビジョンのデータセットの違い、特に推奨データセット管理プラクティスの採用不足による潜在的に有害な下流効果について強調する。 データ共有、データドキュメンテーション、メンテナンスなど、さまざまな領域で分析されたデータセットを比較します。 曖昧なライセンス、永続的な識別子とストレージの欠如、重複、および欠落したメタデータが、プラットフォームによって異なる。 我々の研究は、医療のためのデータキュレーションとAIアルゴリズムの責任を負う努力に貢献する。

Medical Imaging (MI) datasets are fundamental to artificial intelligence in healthcare. The accuracy, robustness, and fairness of diagnostic algorithms depend on the data (and its quality) used to train and evaluate the models. MI datasets used to be proprietary, but have become increasingly available to the public, including on community-contributed platforms (CCPs) like Kaggle or HuggingFace. While open data is important to enhance the redistribution of data's public value, we find that the current CCP governance model fails to uphold the quality needed and recommended practices for sharing, documenting, and evaluating datasets. In this paper, we conduct an analysis of publicly available machine learning datasets on CCPs, discussing datasets' context, and identifying limitations and gaps in the current CCP landscape. We highlight differences between MI and computer vision datasets, particularly in the potentially harmful downstream effects from poor adoption of recommended dataset management practices. We compare the analyzed datasets across several dimensions, including data sharing, data documentation, and maintenance. We find vague licenses, lack of persistent identifiers and storage, duplicates, and missing metadata, with differences between the platforms. Our research contributes to efforts in responsible data curation and AI algorithms for healthcare.
翻訳日:2024-06-12 01:43:22 公開日:2024-06-10
# Bandit Convexの最適化

Bandit Convex Optimisation ( http://arxiv.org/abs/2402.06535v2 )

ライセンス: Link先を確認
Tor Lattimore, (参考訳) 帯域凸最適化(Bandit convex optimisation)は、ゼロ階凸最適化を研究するための基本的なフレームワークである。 これらのメモは、平面法、内部点法、連続指数重み付け、勾配降下、オンラインニュートンステップなど、この問題に使用される多くのツールをカバーしている。 多くの仮定と設定のニュアンスを説明する。 ここでは、真に新しいものはあまりないが、いくつかの既存のツールは、新しいアルゴリズムを得るために、新しい方法で適用されている。 いくつかの境界は小さな方法で改善されている。

Bandit convex optimisation is a fundamental framework for studying zeroth-order convex optimisation. These notes cover the many tools used for this problem, including cutting plane methods, interior point methods, continuous exponential weights, gradient descent and online Newton step. The nuances between the many assumptions and setups are explained. Although there is not much truly new here, some existing tools are applied in novel ways to obtain new algorithms. A few bounds are improved in minor ways.
翻訳日:2024-06-12 01:43:22 公開日:2024-06-10
# 生成モデル学習のための自己補正自己消費ループ

Self-Correcting Self-Consuming Loops for Generative Model Training ( http://arxiv.org/abs/2402.07087v3 )

ライセンス: Link先を確認
Nate Gillman, Michael Freeman, Daksh Aggarwal, Chia-Hong Hsu, Calvin Luo, Yonglong Tian, Chen Sun, (参考訳) 合成データがより高品質になり、インターネット上で増殖するにつれて、機械学習モデルは、人間と機械が生成したデータの混合に基づいて、ますます訓練されている。 表現学習に合成データを使うことが成功したにもかかわらず、生成モデルトレーニングに合成データを使用することで、一定の条件が満たさない限り、トレーニングの不安定性や崩壊につながる可能性のある「自己消費ループ」が生成される。 本稿は,自己消費型生成モデルトレーニングの安定化を目的とする。 我々の理論的結果は、データ点を真のデータ分布下でより高い確率でマッピングする理想化された補正関数を導入することにより、自己消費ループを指数関数的に安定させることができることを示している。 次に、専門家の知識(シミュレータでプログラムされた物理の法則など)に依存した自己補正関数を提案し、理想化された修正器を自動かつ大規模に近似することを目指す。 本研究では,人間の動作合成作業における自己修正自己消費ループの有効性を実証的に検証し,実データに対する合成データの比率が100%である場合でも,モデル崩壊の回避に成功していることを示す。

As synthetic data becomes higher quality and proliferates on the internet, machine learning models are increasingly trained on a mix of human- and machine-generated data. Despite the successful stories of using synthetic data for representation learning, using synthetic data for generative model training creates "self-consuming loops" which may lead to training instability or even collapse, unless certain conditions are met. Our paper aims to stabilize self-consuming generative model training. Our theoretical results demonstrate that by introducing an idealized correction function, which maps a data point to be more likely under the true data distribution, self-consuming loops can be made exponentially more stable. We then propose self-correction functions, which rely on expert knowledge (e.g. the laws of physics programmed in a simulator), and aim to approximate the idealized corrector automatically and at scale. We empirically validate the effectiveness of self-correcting self-consuming loops on the challenging human motion synthesis task, and observe that it successfully avoids model collapse, even when the ratio of synthetic data to real data is as high as 100%.
翻訳日:2024-06-12 01:43:22 公開日:2024-06-10
# 試験リスクの確率勾配流れのダイナミクスとその弱特性に対する厳密解

Stochastic Gradient Flow Dynamics of Test Risk and its Exact Solution for Weak Features ( http://arxiv.org/abs/2402.07626v2 )

ライセンス: Link先を確認
Rodrigo Veiga, Anastasia Remizova, Nicolas Macris, (参考訳) 学習理論における連続時間確率勾配流力学のテストリスクについて検討する。 経路積分の定式化を用いて, 学習率の低い状況下では, 純勾配と確率勾配の試験リスク曲線の差を計算するための一般式を提供する。 この理論を、二重降下現象を呈する弱い特徴の単純なモデルに適用し、時間とモデルパラメータの関数として、動的に加えた確率項による補正を明示的に計算する。 解析結果は離散時間確率勾配降下のシミュレーションと比較し,良好な一致を示した。

We investigate the test risk of continuous-time stochastic gradient flow dynamics in learning theory. Using a path integral formulation we provide, in the regime of a small learning rate, a general formula for computing the difference between test risk curves of pure gradient and stochastic gradient flows. We apply the general theory to a simple model of weak features, which displays the double descent phenomenon, and explicitly compute the corrections brought about by the added stochastic term in the dynamics, as a function of time and model parameters. The analytical results are compared to simulations of discrete-time stochastic gradient descent and show good agreement.
翻訳日:2024-06-12 01:43:22 公開日:2024-06-10
# グラフニューラルネットワークの準同型数:その基礎について

Homomorphism Counts for Graph Neural Networks: All About That Basis ( http://arxiv.org/abs/2402.08595v5 )

ライセンス: Link先を確認
Emily Jin, Michael Bronstein, İsmail İlkan Ceylan, Matthias Lanzinger, (参考訳) 多くの研究がグラフニューラルネットワークの特性を調査し、特に表現力に関するいくつかの制限を特定している。 グラフ内の特定のパターン(例えばサイクル)を数えることのできないことは、そのような制限の中心にある。 2つの顕著なパラダイムは、グラフの特徴を部分グラフや準同型パターン数で豊かにすることで、この制限に対処することを目指している。 この研究において、これらのアプローチはいずれもある意味で準最適であることを示し、ターゲットパターンの ``basis'' 内の全ての構造の準同型数を含むよりきめ細かなアプローチについて議論する。 これにより、既存のアプローチと比較して計算複雑性の面で追加のオーバーヘッドを発生させずに、より表現力のあるアーキテクチャが得られる。 ノードレベルおよびグラフレベルのモチーフパラメータに関する一連の理論的結果を証明し、それらを標準ベンチマークデータセット上で実証的に検証する。

A large body of work has investigated the properties of graph neural networks and identified several limitations, particularly pertaining to their expressive power. Their inability to count certain patterns (e.g., cycles) in a graph lies at the heart of such limitations, since many functions to be learned rely on the ability of counting such patterns. Two prominent paradigms aim to address this limitation by enriching the graph features with subgraph or homomorphism pattern counts. In this work, we show that both of these approaches are sub-optimal in a certain sense and argue for a more fine-grained approach, which incorporates the homomorphism counts of all structures in the ``basis'' of the target pattern. This yields strictly more expressive architectures without incurring any additional overhead in terms of computational complexity compared to existing approaches. We prove a series of theoretical results on node-level and graph-level motif parameters and empirically validate them on standard benchmark datasets.
翻訳日:2024-06-12 01:43:22 公開日:2024-06-10
# Arrange, Inpaint, Refine:コンテンツベースの制御による聴取・編集の安定性

Arrange, Inpaint, and Refine: Steerable Long-term Music Audio Generation and Editing via Content-based Controls ( http://arxiv.org/abs/2402.09508v2 )

ライセンス: Link先を確認
Liwei Lin, Gus Xia, Yixiao Zhang, Junyan Jiang, (参考訳) コントロール可能な音楽生成は、人間-AI音楽の共同創造において重要な役割を担っている。 LLM(Large Language Models)は高品質な音楽を生成する上で有望であるが、自動回帰生成に重点を置いているため、音楽編集作業における有用性を制限している。 このギャップに対処するために,パラメータ効率のよいヘテロジニアスアダプタとマスキングトレーニングスキームを組み合わせた新しいアプローチを提案する。 このアプローチにより、自動回帰言語モデルは、音楽のインペイントタスクにシームレスに対処できる。 さらに,本手法では,フレームレベルのコンテントベース制御を統合し,トラックコンディショニングとスコアコンディショニングによる音楽アレンジメントを容易にする。 本研究では,この手法を自己回帰音楽生成モデルであるMusicGenの微調整に適用する。 実験では、複数の音楽編集タスクにまたがる有望な結果を実証し、将来のAI駆動の音楽編集ツールをより柔軟なコントロールを提供する。 ソースコードと私たちの仕事を示すデモページはhttps://kikyo-16.github.io/AIR.orgで公開されている。

Controllable music generation plays a vital role in human-AI music co-creation. While Large Language Models (LLMs) have shown promise in generating high-quality music, their focus on autoregressive generation limits their utility in music editing tasks. To address this gap, we propose a novel approach leveraging a parameter-efficient heterogeneous adapter combined with a masking training scheme. This approach enables autoregressive language models to seamlessly address music inpainting tasks. Additionally, our method integrates frame-level content-based controls, facilitating track-conditioned music refinement and score-conditioned music arrangement. We apply this method to fine-tune MusicGen, a leading autoregressive music generation model. Our experiments demonstrate promising results across multiple music editing tasks, offering more flexible controls for future AI-driven music editing tools. The source codes and a demo page showcasing our work are available at https://kikyo-16.github.io/AIR.
翻訳日:2024-06-12 01:43:22 公開日:2024-06-10
# Loopy-SLAM:ループクロージャ付き高密度ニューラルネットワークSLAM

Loopy-SLAM: Dense Neural SLAM with Loop Closures ( http://arxiv.org/abs/2402.09944v2 )

ライセンス: Link先を確認
Lorenzo Liso, Erik Sandström, Vladimir Yugay, Luc Van Gool, Martin R. Oswald, (参考訳) ニューラルRGBD SLAM技術は、密集した局所化とマッピング(SLAM)において有望であることを示しているが、カメラ追跡中にエラーの蓄積などの課題に直面して、地図が歪む結果となった。 これに対し,ポーズをグローバルに最適化するLoopy-SLAMと高密度3Dモデルを導入する。 我々は,データ駆動のポイントベースサブマップ生成手法を用いてフレーム・ツー・モデル追跡を行い,グローバルな位置認識を行うことで,オンラインのループ・クロージャをトリガーする。 ロバストポーズグラフ最適化は局所部分写像を厳密に整列するために用いられる。 我々の表現はポイントベースであるため、グリッドベースのマッピング構造を用いる手法で通常必要とされるように、マッピングに使用される入力フレームの全履歴を保存することなく、効率的にマップ補正を行うことができる。 合成Replicaおよび実世界のTUM-RGBDおよびScanNetデータセットの評価は、既存の高密度ニューラルネットワークRGBD SLAM法と比較して、追跡、マッピング、レンダリングの精度の競争力または優れた性能を示す。 プロジェクトページ: notchla.github.io/Loopy-SLAM

Neural RGBD SLAM techniques have shown promise in dense Simultaneous Localization And Mapping (SLAM), yet face challenges such as error accumulation during camera tracking resulting in distorted maps. In response, we introduce Loopy-SLAM that globally optimizes poses and the dense 3D model. We use frame-to-model tracking using a data-driven point-based submap generation method and trigger loop closures online by performing global place recognition. Robust pose graph optimization is used to rigidly align the local submaps. As our representation is point based, map corrections can be performed efficiently without the need to store the entire history of input frames used for mapping as typically required by methods employing a grid based mapping structure. Evaluation on the synthetic Replica and real-world TUM-RGBD and ScanNet datasets demonstrate competitive or superior performance in tracking, mapping, and rendering accuracy when compared to existing dense neural RGBD SLAM methods. Project page: notchla.github.io/Loopy-SLAM.
翻訳日:2024-06-12 01:43:22 公開日:2024-06-10
# GTBench:ゲーム理論によるLSMの戦略推論限界の解明

GTBench: Uncovering the Strategic Reasoning Limitations of LLMs via Game-Theoretic Evaluations ( http://arxiv.org/abs/2402.12348v2 )

ライセンス: Link先を確認
Jinhao Duan, Renming Zhang, James Diffenderfer, Bhavya Kailkhura, Lichao Sun, Elias Stengel-Eskin, Mohit Bansal, Tianlong Chen, Kaidi Xu, (参考訳) 大規模言語モデル(LLM)は、重要な現実世界のアプリケーションに統合されるため、その戦略的および論理的推論能力はますます重要になっている。 本稿では,ゲーム理論的なタスク,例えばボードゲームやカードゲームなど,競争環境におけるLSMの推論能力を評価する。 まず GTBench を提案する。GTBench は10のタスクを広く認識し,完全対不完全情報,動的対静的,確率対決定論的シナリオを包括的に構成する言語駆動型環境である。 次に,(1) LLMのゲーム理論的推論を特徴付け,(2) LLM-vsを実行する。 -理性評価としてのLLM競技。 その結果, (1) LLMは, 完全かつ決定論的ゲームでは失敗するが, 確率的ゲームでは競合する, (2) CodeLlama-34b-Instruct や Llama-2-70b-chat といったオープンソース LLM は, 複雑なゲームでは商用 LLM, eg , GPT-4 よりも競争力が低い, しかし最近リリースされた Llama-3-70b-Instruct は,この欠点を補っている。 加えて、コード事前訓練は戦略的推論に大きく貢献するが、Chain-of-Thought(CoT)やTree-of-Thought(ToT)といった高度な推論手法は必ずしも役に立たない。 繰り返しゲームにおける平衡やパレート効率などの LLM のゲーム理論的性質をさらに特徴付ける。 LLMの振る舞いをより深く理解するために、詳細なエラープロファイルが提供されている。 我々の研究が標準化されたプロトコルを提供し、LSMの戦略的理由付けのさらなる探索を促進する基盤となることを願っている。

As Large Language Models (LLMs) are integrated into critical real-world applications, their strategic and logical reasoning abilities are increasingly crucial. This paper evaluates LLMs' reasoning abilities in competitive environments through game-theoretic tasks, e.g., board and card games that require pure logic and strategic reasoning to compete with opponents. We first propose GTBench, a language-driven environment composing 10 widely recognized tasks, across a comprehensive game taxonomy: complete versus incomplete information, dynamic versus static, and probabilistic versus deterministic scenarios. Then, we (1) Characterize the game-theoretic reasoning of LLMs; and (2) Perform LLM-vs.-LLM competitions as reasoning evaluation. We observe that (1) LLMs have distinct behaviors regarding various gaming scenarios; for example, LLMs fail in complete and deterministic games yet they are competitive in probabilistic gaming scenarios; (2) Most open-source LLMs, e.g., CodeLlama-34b-Instruct and Llama-2-70b-chat, are less competitive than commercial LLMs, e.g., GPT-4, in complex games, yet the recently released Llama-3-70b-Instruct makes up for this shortcoming. In addition, code-pretraining greatly benefits strategic reasoning, while advanced reasoning methods such as Chain-of-Thought (CoT) and Tree-of-Thought (ToT) do not always help. We further characterize the game-theoretic properties of LLMs, such as equilibrium and Pareto Efficiency in repeated games. Detailed error profiles are provided for a better understanding of LLMs' behavior. We hope our research provides standardized protocols and serves as a foundation to spur further explorations in the strategic reasoning of LLMs.
翻訳日:2024-06-12 01:23:27 公開日:2024-06-10
# シンプソンのパラドックスと翻訳における精度・周波数トレードオフ

Simpson's Paradox and the Accuracy-Fluency Tradeoff in Translation ( http://arxiv.org/abs/2402.12690v2 )

ライセンス: Link先を確認
Zheng Wei Lim, Ekaterina Vylomova, Trevor Cohn, Charles Kemp, (参考訳) 優れた翻訳はソースに忠実であり、ターゲット言語の規範を尊重すべきである。 これらの目的間の関係に関する理論的パズルに対処する。 一方、直観といくつかの先行研究は、正確さと流布度は互いにトレードオフすべきであり、ソースのすべての詳細を捉えることは、流布コストでしか達成できないことを示唆している。 一方, 品質評価研究者は, 精度と流布度は高い相関関係にあり, 識別が難しいことをしばしば示唆している(Callison-Burch et al , 2007)。 これらの見方の緊張はシンプソンのパラドックスの例であり、精度と流布度はコーパスのレベルで正の相関を示すが、個々のソースセグメントのレベルでは引き離されることを示す。 さらに,精度と流布度の関係をセグメント(文)レベルで最もよく評価することが示唆され,これらの次元間のトレードオフは翻訳品質の評価と改良されたMTシステムの開発の両方に影響を及ぼす。

A good translation should be faithful to the source and should respect the norms of the target language. We address a theoretical puzzle about the relationship between these objectives. On one hand, intuition and some prior work suggest that accuracy and fluency should trade off against each other, and that capturing every detail of the source can only be achieved at the cost of fluency. On the other hand, quality assessment researchers often suggest that accuracy and fluency are highly correlated and difficult for human raters to distinguish (Callison-Burch et al., 2007). We show that the tension between these views is an instance of Simpson's paradox, and that accuracy and fluency are positively correlated at the level of the corpus but trade off at the level of individual source segments. We further suggest that the relationship between accuracy and fluency is best evaluated at the segment (or sentence) level, and that the trade off between these dimensions has implications both for assessing translation quality and developing improved MT systems.
翻訳日:2024-06-12 01:23:27 公開日:2024-06-10
# Byzantine-Robust Federated Learning: クライアントサブサンプリングとローカルアップデートの影響

Byzantine-Robust Federated Learning: Impact of Client Subsampling and Local Updates ( http://arxiv.org/abs/2402.12780v2 )

ライセンス: Link先を確認
Youssef Allouah, Sadegh Farhadkhani, Rachid GuerraouI, Nirupam Gupta, Rafael Pinot, Geovani Rizk, Sasha Voitovych, (参考訳) 敵対的(すなわちビザンティン)なクライアントの可能性は、連邦学習(FL)を任意に操作する傾向がある。 FLを敵クライアントに対して堅牢化するための自然なアプローチは、標準的な$\mathsf{FedAvg}$アルゴリズムでサーバにおける単純な平均演算を \emph{robust averaging rule} で置き換えることである。 フェデレーションされた {\em robust averaging} (これは$\mathsf{FedRo}$と表記する)の収束の研究に多大な研究が費やされているが、以前の研究は2つの基本的なFL特性である {\em client subsampling} と {\em local steps} の影響をほとんど無視してきた。 クライアントサブサンプリングはビザンツのクライアントの有効割合を増加させる一方、ローカルステップは、正直な(非ビザンツの)クライアントによって計算されるローカル更新の間のドリフトを増加させる。 その結果、$\mathsf{FedRo}$の不注意なデプロイはパフォーマンスを低下させる可能性がある。 我々は、クライアントサブサンプリングとローカルステップの影響を厳密に分析し、$\mathsf{FedRo}$の詳細な分析を行うことで、この観察を検証した。 具体的には、クライアントサブサンプリングにおいて$\mathsf{FedRo}$(滑らかな非凸損失に対して)のほぼ最適収束に対する十分条件を示す。 また, サンプルサイズが閾値を超えると, クライアント数に対する学習精度の向上率が低下することを示す。 興味深いことに、ステップサイズを慎重に選択することで、ビザンティンのクライアントによる学習エラーが局所的なステップ数で減少する。 FEMNIST と CIFAR-$10$ の画像分類タスクの実験により,我々の理論を検証した。

The possibility of adversarial (a.k.a., {\em Byzantine}) clients makes federated learning (FL) prone to arbitrary manipulation. The natural approach to robustify FL against adversarial clients is to replace the simple averaging operation at the server in the standard $\mathsf{FedAvg}$ algorithm by a \emph{robust averaging rule}. While a significant amount of work has been devoted to studying the convergence of federated {\em robust averaging} (which we denote by $\mathsf{FedRo}$), prior work has largely ignored the impact of {\em client subsampling} and {\em local steps}, two fundamental FL characteristics. While client subsampling increases the effective fraction of Byzantine clients, local steps increase the drift between the local updates computed by honest (i.e., non-Byzantine) clients. Consequently, a careless deployment of $\mathsf{FedRo}$ could yield poor performance. We validate this observation by presenting an in-depth analysis of $\mathsf{FedRo}$ tightly analyzing the impact of client subsampling and local steps. Specifically, we present a sufficient condition on client subsampling for nearly-optimal convergence of $\mathsf{FedRo}$ (for smooth non-convex loss). Also, we show that the rate of improvement in learning accuracy {\em diminishes} with respect to the number of clients subsampled, as soon as the sample size exceeds a threshold value. Interestingly, we also observe that under a careful choice of step-sizes, the learning error due to Byzantine clients decreases with the number of local steps. We validate our theory by experiments on the FEMNIST and CIFAR-$10$ image classification tasks.
翻訳日:2024-06-12 01:23:27 公開日:2024-06-10
# トランスフォーマー言語アダプタの隠れ空間

The Hidden Space of Transformer Language Adapters ( http://arxiv.org/abs/2402.13137v2 )

ライセンス: Link先を確認
Jesujoba O. Alabi, Marius Mosbach, Matan Eyal, Dietrich Klakow, Mor Geva, (参考訳) 凍結した言語モデル上で訓練された小さなモジュールであるトランスフォーマー言語アダプタの動作を分析し,その予測を新しいターゲット言語に適応させる。 適応された予測は、モデルがトレーニングしたソース言語で主に進化し、ターゲット言語はモデルの最後の層でのみ発音される。 さらに、適応処理は段階的であり、層に分散しており、適応性能を低下させることなく、アダプタの小さなグループをスキップすることができる。 最後に、アダプタは「分離された」部分空間ではなく、その構造を保ちながら、モデルの凍結表現空間上で動作していることを示す。 本研究は,新しい言語への言語モデルの適応過程についてより深く考察し,基礎となるモデルに課される制約を明らかにし,その効率を高めるための実践的意味を紹介する。

We analyze the operation of transformer language adapters, which are small modules trained on top of a frozen language model to adapt its predictions to new target languages. We show that adapted predictions mostly evolve in the source language the model was trained on, while the target language becomes pronounced only in the very last layers of the model. Moreover, the adaptation process is gradual and distributed across layers, where it is possible to skip small groups of adapters without decreasing adaptation performance. Last, we show that adapters operate on top of the model's frozen representation space while largely preserving its structure, rather than on an 'isolated' subspace. Our findings provide a deeper view into the adaptation process of language models to new languages, showcasing the constraints imposed on it by the underlying model and introduces practical implications to enhance its efficiency.
翻訳日:2024-06-12 01:23:27 公開日:2024-06-10
# CounterCurate: 物理・セマンティックなヴィシオ言語構成推論の強化

CounterCurate: Enhancing Physical and Semantic Visio-Linguistic Compositional Reasoning via Counterfactual Examples ( http://arxiv.org/abs/2402.13254v3 )

ライセンス: Link先を確認
Jianrui Zhang, Mu Cai, Tengyang Xie, Yong Jae Lee, (参考訳) 比較的および生成的マルチモーダルモデルの両方に対して、視覚言語合成推論能力を包括的に改善するフレームワークであるCounterCurateを提案する。 特に, 物理的根拠に基づく推論(計数と位置理解)の無視と, セマンティック・カウンティファクチュアル・ファインタニングに高機能なテキストと画像生成モデルを用いる可能性という2つの重要な未探索問題を特定する。 私たちの仕事は、これらのギャップに対処するアプローチの先駆者です。 私たちはまず,CLIPやLLaVAといったマルチモーダルモデルの物理基底合成推論における近距離性能に注目した。 次に、グラウンドド画像生成モデルGLIGENを用いて、微調整データを生成する単純なデータ拡張を行い、新たにキュレーションしたFlickr30k-Positionsベンチマークにおいて、CLIPとLLaVAの+33%と+37%の大幅なパフォーマンス改善を実現した。 さらに,高パフォーマンステキスト生成および画像生成モデル(特にGPT-4VとDALLE-3)の能力を利用して,難解なセマンティックカウンターファクトをキュレートし,SugarCrepeなどのベンチマークにおけるコンポジション推論能力をさらに向上させる。 将来の研究を促進するため、私たちはhttps://countercurate.github.io.comでコード、データセット、ベンチマーク、チェックポイントをリリースしました。

We propose CounterCurate, a framework to comprehensively improve the visio-linguistic compositional reasoning capability for both contrastive and generative multimodal models. In particular, we identify two critical under-explored problems: the neglect of the physically grounded reasoning (counting and position understanding) and the potential of using highly capable text and image generation models for semantic counterfactual fine-tuning. Our work pioneers an approach that addresses these gaps. We first spotlight the near-chance performance of multimodal models like CLIP and LLaVA in physically grounded compositional reasoning. We then apply simple data augmentation using grounded image generation model GLIGEN to generate fine-tuning data, resulting in significant performance improvements: +33% and +37% for CLIP and LLaVA, respectively, on our newly curated Flickr30k-Positions benchmark. Moreover, we exploit the capabilities of high-performing text generation and image generation models, specifically GPT-4V and DALLE-3, to curate challenging semantic counterfactuals, thereby further enhancing compositional reasoning capabilities on benchmarks such as SugarCrepe, where CounterCurate outperforms GPT-4V. To facilitate future research, we release our code, dataset, benchmark, and checkpoints at https://countercurate.github.io.
翻訳日:2024-06-12 01:23:27 公開日:2024-06-10
# 深層構造(ランドム)特徴による学習の漸近

Asymptotics of Learning with Deep Structured (Random) Features ( http://arxiv.org/abs/2402.13999v2 )

ライセンス: Link先を確認
Dominik Schröder, Daniil Dmitriev, Hugo Cui, Bruno Loureiro, (参考訳) 多数の特徴写像に対して、入力次元、隠蔽層幅、トレーニングサンプル数が比例的に大きい高次元極限において、読み出し層を学習する際のテストエラーの厳密な漸近的特徴付けを提供する。 この特徴は、特徴の集団的共分散の観点から定式化されている。 我々の研究は、ガウスのレインボーニューラルネットワーク(すなわち、ランダムだが構造化された重みを持つ深い非線形完全連結ネットワーク)で学習する問題によって部分的に動機付けられており、行方向の共分散は、以前の階層の重みに依存することがより許される。 そのようなネットワークに対しては、重み行列の観点から特徴共分散の閉形式公式も導出する。 さらに、いくつかのケースでは、勾配降下下で訓練された深い有限幅ニューラルネットワークによって学習された特徴マップをキャプチャできる。

For a large class of feature maps we provide a tight asymptotic characterisation of the test error associated with learning the readout layer, in the high-dimensional limit where the input dimension, hidden layer widths, and number of training samples are proportionally large. This characterization is formulated in terms of the population covariance of the features. Our work is partially motivated by the problem of learning with Gaussian rainbow neural networks, namely deep non-linear fully-connected networks with random but structured weights, whose row-wise covariances are further allowed to depend on the weights of previous layers. For such networks we also derive a closed-form formula for the feature covariance in terms of the weight matrices. We further find that in some cases our results can capture feature maps learned by deep, finite-width neural networks trained under gradient descent.
翻訳日:2024-06-12 01:23:27 公開日:2024-06-10
# 接地真理のない大規模言語モデルのランク付け

Ranking Large Language Models without Ground Truth ( http://arxiv.org/abs/2402.14860v4 )

ライセンス: Link先を確認
Amit Dhurandhar, Rahul Nair, Moninder Singh, Elizabeth Daly, Karthikeyan Natesan Ramamurthy, (参考訳) 大規模言語モデル(LLM)の評価とランキングは,これらのモデルの普及とその影響において重要な問題となっている。 評価手法は、取得に費用がかかる人間の反応を必要とするか、信頼性の低いLLMを互いに評価するために使用するかのいずれかである。 本稿では,質問文や指示文など)のデータセットとLLMのセットを与えられた場合,根拠となる真実や参照応答にアクセスできることなく,それらをランク付けする,新しい視点を提供する。 専門家と知識のある人の両方が初心者を識別できる現実の生活に触発された私たちの主要なアイデアは、モデルの三つ子を考えることであり、それぞれが他の2つを評価し、三つ子の中で最悪のモデルを高い確率で正しく識別する。 また、私たちの考えを分析し、成功するための十分な条件を提供します。 この考え方を繰り返し適用し、LLMをランク付けする2つの方法を提案する。 異なる生成タスク(要約、複数選択、ダイアログ)の実験では、参照データなしで真のランキングに近い位置を確実に回復する。 これは、実用のために実行可能な低リソースメカニズムを示している。

Evaluation and ranking of large language models (LLMs) has become an important problem with the proliferation of these models and their impact. Evaluation methods either require human responses which are expensive to acquire or use pairs of LLMs to evaluate each other which can be unreliable. In this paper, we provide a novel perspective where, given a dataset of prompts (viz. questions, instructions, etc.) and a set of LLMs, we rank them without access to any ground truth or reference responses. Inspired by real life where both an expert and a knowledgeable person can identify a novice our main idea is to consider triplets of models, where each one of them evaluates the other two, correctly identifying the worst model in the triplet with high probability. We also analyze our idea and provide sufficient conditions for it to succeed. Applying this idea repeatedly, we propose two methods to rank LLMs. In experiments on different generative tasks (summarization, multiple-choice, and dialog), our methods reliably recover close to true rankings without reference data. This points to a viable low-resource mechanism for practical use.
翻訳日:2024-06-12 01:23:27 公開日:2024-06-10
# 負の客観性を持つ不確かさのアンサンブルによる外乱検出

Outlier detection by ensembling uncertainty with negative objectness ( http://arxiv.org/abs/2402.15374v2 )

ライセンス: Link先を確認
Anja Delić, Matej Grcić, Siniša Šegvić, (参考訳) 外乱検出は、教師付き視覚認識の安全クリティカルな応用に欠かせない能力である。 既存の手法のほとんどは、標準クローズドセットモデルを奨励し、負のトレーニングデータに低信頼の予測を生成することで、最良の結果をもたらす。 しかし、この手法は予測の不確かさと負のクラス認識を混同する。 したがって、K の基底クラスと 1 の外れ値クラスに対応する K+1 の対数を直接予測する。 この設定により、非分布不確実性のアンサンブルとして新しい異常スコアを定式化し、負の客観性(英語版)と称する外れ値クラスの後部を定式化することができる。 現在、アウトリーチは独立して検出できる 一 高い予測の不確実性又は 二 陰性データとの類似性 K+2クラスにマスクレベルの認識を組み込んだ高密度予測アーキテクチャに本手法を組み込む。 トレーニング手順は、新しいK+2クラスがペーストされた負のインスタンスで負のオブジェクト性を学ぶことを奨励する。 我々のモデルは、実際の負のデータをトレーニングすることなく、画像全体および画素レベルのアウトレーラ検出のための標準ベンチマークの最先端技術より優れています。

Outlier detection is an essential capability in safety-critical applications of supervised visual recognition. Most of the existing methods deliver best results by encouraging standard closed-set models to produce low-confidence predictions in negative training data. However, that approach conflates prediction uncertainty with recognition of the negative class. We therefore reconsider direct prediction of K+1 logits that correspond to K groundtruth classes and one outlier class. This setup allows us to formulate a novel anomaly score as an ensemble of in-distribution uncertainty and the posterior of the outlier class which we term negative objectness. Now outliers can be independently detected due to i) high prediction uncertainty or ii) similarity with negative data. We embed our method into a dense prediction architecture with mask-level recognition over K+2 classes. The training procedure encourages the novel K+2-th class to learn negative objectness at pasted negative instances. Our models outperform the current state-of-the art on standard benchmarks for image-wide and pixel-level outlier detection with and without training on real negative data.
翻訳日:2024-06-12 01:23:27 公開日:2024-06-10
# ハニカム格子と三角形格子上の平行場におけるトーリック符号の量子ロバスト性

Quantum robustness of the toric code in a parallel field on the honeycomb and triangular lattice ( http://arxiv.org/abs/2402.15389v3 )

ライセンス: Link先を確認
V. Kott, M. Mühlhauser, J. A. Koziol, K. P. Schmidt, (参考訳) 本研究では,一様平行場の存在下でのハニカム格子上のトーリック符号における位相秩序の量子ロバスト性について検討する。 z$-direction の体に対して、低エネルギー物理学はフラックスフリーセクターにあり、ハニカム格子上の横フィールドイジングモデルに写像することができる。 場の両方の符号に対する3D Ising$^\star$普遍性クラスにおいて、2階量子相転移が見つかる。 電荷のないセクターにおけるアナログ写像が三角格子上の強磁性横場イジングモデルを生み出し、相転移がまだ 3D Ising$^\star$ であるような$x$-direction の体に対しても同様である。 対照的に、負の$x$-体の場合、電荷自由セクターは、3D XY$^\star$普遍性クラスにおいて量子相転移をホストすることが知られている三角形格子上の非常にフラストレーションの強い反強磁性逆場イジングモデルにマッピングされる。 さらに、電荷フリーセクターは負の$x$-フィールドに対する低エネルギー物理学を常に含んでおらず、電荷フルセクターにおける偏極相への1次位相遷移はより大きな負のフィールド値で起こる。 我々は、量子モンテカルロシミュレーションと高磁場級数展開を比較して、この遷移の位置を定量化する。 x$-および$z$-場の存在下での位相位相の完全拡張は、フルグラフ分解を用いた摂動的連結クラスタ展開によって決定される。 電荷の高次級数とフラックスギャップを外挿することで、ギャップ閉じの臨界指数を推定することができる。 この分析は、3D Ising$^\star$ と 3D XY$^\star$ の臨界線によって位相的順序が破られることを示している。 ハニカム格子上のトーリック符号のすべての発見は、三角形格子上のトーリック符号に正確に転送することができる。

We investigate the quantum robustness of the topological order in the toric code on the honeycomb lattice in the presence of a uniform parallel field. For a field in $z$-direction, the low-energy physics is in the flux-free sector and can be mapped to the transverse-field Ising model on the honeycomb lattice. One finds a second-order quantum phase transition in the 3D Ising$^\star$ universality class for both signs of the field. The same is true for a postive field in $x$-direction where an analogue mapping in the charge-free sector yields a ferromagnetic transverse-field Ising model on the triangular lattice and the phase transition is still 3D Ising$^\star$. In contrast, for negative $x$-field, the charge-free sector is mapped to the highly frustrated antiferromagnetic transverse-field Ising model on the triangular lattice which is known to host a quantum phase transition in the 3D XY$^\star$ universality class. Further, the charge-free sector does not always contain the low-energy physics for negative $x$-fields and a first-order phase transition to the polarized phase in the charge-full sector takes place at larger negative field values. We quantify the location of this transition by comparing quantum Monte Carlo simulations and high-field series expansions. The full extension of the topological phase in the presence of $x$- and $z$-fields is determined by perturbative linked-cluster expansions using a full graph decomposition. Extrapolating the high-order series of the charge and the flux gap allows to estimate critical exponents of the gap closing. This analysis indicates that the topological order breaks down by critical lines of 3D Ising$^\star$ and 3D XY$^\star$ type with interesting potential multi-critical crossing points. All findings for the toric code on the honeycomb lattice can be transferred exactly to the toric code on the triangular lattice.
翻訳日:2024-06-12 01:13:35 公開日:2024-06-10
# ロジスティック損失に対する大きなステップサイズのグラディエントDescent:損失の非単調性は最適化効率を向上する

Large Stepsize Gradient Descent for Logistic Loss: Non-Monotonicity of the Loss Improves Optimization Efficiency ( http://arxiv.org/abs/2402.15926v2 )

ライセンス: Link先を確認
Jingfeng Wu, Peter L. Bartlett, Matus Telgarsky, Bin Yu, (参考訳) 線形分離可能なデータを用いたロジスティック回帰に一定段差の勾配降下(GD)を考えると、定数段差$\eta$が大きすぎるので、損失が最初に振動する。 GD はこの初期振動位相を急速に終了し、$\mathcal{O}(\eta)$ step となり、その後$\tilde{\mathcal{O}}(1 / (\eta t) )$ convergence rate を得る。 我々の結果は、T$の予算が与えられた場合、GDはアクティベートされた$\eta:= \Theta(T)$で$\tilde{\mathcal{O}}(1/T^2)$の損失を、運動量や可変ステップ化スケジューラを使わずに達成できることを示している。 我々の証明手法は汎用的であり、一般的な分類損失関数(指数的テールが$\tilde{\mathcal{O}}(1/T^2)$Acceleration)、ニューラルタンジェントカーネルの非線形予測器、オンライン確率勾配降下(SGD)を適切な分離条件下で処理する。

We consider gradient descent (GD) with a constant stepsize applied to logistic regression with linearly separable data, where the constant stepsize $\eta$ is so large that the loss initially oscillates. We show that GD exits this initial oscillatory phase rapidly -- in $\mathcal{O}(\eta)$ steps -- and subsequently achieves an $\tilde{\mathcal{O}}(1 / (\eta t) )$ convergence rate after $t$ additional steps. Our results imply that, given a budget of $T$ steps, GD can achieve an accelerated loss of $\tilde{\mathcal{O}}(1/T^2)$ with an aggressive stepsize $\eta:= \Theta( T)$, without any use of momentum or variable stepsize schedulers. Our proof technique is versatile and also handles general classification loss functions (where exponential tails are needed for the $\tilde{\mathcal{O}}(1/T^2)$ acceleration), nonlinear predictors in the neural tangent kernel regime, and online stochastic gradient descent (SGD) with a large stepsize, under suitable separability conditions.
翻訳日:2024-06-12 01:13:35 公開日:2024-06-10
# 事前学習したコントラスト型EEG-Text Masked Autoencoderからの伝達可能な表現によるEEG-to-Textデコーディングの強化

Enhancing EEG-to-Text Decoding through Transferable Representations from Pre-trained Contrastive EEG-Text Masked Autoencoder ( http://arxiv.org/abs/2402.17433v3 )

ライセンス: Link先を確認
Jiaqi Wang, Zhenxi Song, Zhengyu Ma, Xipeng Qiu, Min Zhang, Zhiguo Zhang, (参考訳) 非侵襲脳波(EEG)から自然言語を再構築することは、脳-コンピュータインタフェース(BCI)のための言語復号技術として大きな可能性を秘めている。 しかし、EEGベースの言語デコーディングはまだ初期段階にあり、次のような技術的な問題に直面している。 1) クロスモダリティ(脳波とテキスト)の自己学習と、脳波の特徴又はテキストシーケンスのモダリティ内自己再構成を効果的に統合できるハイブリッド戦略の欠如 2)大言語モデル(LLM)のアンダーユーティリティ化により,脳波に基づく言語復号化が促進される。 以上の課題に対処するため,コントラスト型脳波テキストマスケドオートエンコーダ (CET-MAE) を提案する。 さらに、CET-MAEからのEEGストリームと並行してトレーニング済みのモジュールを活用できるE2T-PTR(Pretrained Transferable Representationsを用いたEEG-to-Text decoding)というフレームワークを開発し、さらにLLM(特にBART)がEEGシーケンスからテキストをデコードできるようにする。 E2T-PTRはROUGE-1 F1とBLEU-4のスコアをそれぞれ8.34%、32.21%で上回っている。 これらの結果は、この分野における大幅な進歩を示し、より強力で広範なBCIアプリケーションを実現するためのフレームワークの可能性を強調している。

Reconstructing natural language from non-invasive electroencephalography (EEG) holds great promise as a language decoding technology for brain-computer interfaces (BCIs). However, EEG-based language decoding is still in its nascent stages, facing several technical issues such as: 1) Absence of a hybrid strategy that can effectively integrate cross-modality (between EEG and text) self-learning with intra-modality self-reconstruction of EEG features or textual sequences; 2) Under-utilization of large language models (LLMs) to enhance EEG-based language decoding. To address above issues, we propose the Contrastive EEG-Text Masked Autoencoder (CET-MAE), a novel model that orchestrates compound self-supervised learning across and within EEG and text through a dedicated multi-stream encoder. Furthermore, we develop a framework called E2T-PTR (EEG-to-Text decoding using Pretrained Transferable Representations), which leverages pre-trained modules alongside the EEG stream from CET-MAE and further enables an LLM (specifically BART) to decode text from EEG sequences. Comprehensive experiments conducted on the popular text-evoked EEG database, ZuCo, demonstrate the superiority of E2T-PTR, which outperforms the state-of-the-art in ROUGE-1 F1 and BLEU-4 scores by 8.34% and 32.21%, respectively. These results indicate significant advancements in the field and underscores the proposed framework's potential to enable more powerful and widespread BCI applications.
翻訳日:2024-06-12 01:13:35 公開日:2024-06-10
# 語彙データに基づく大規模言語モデル(LLM) - 予測・生成・理解-

Large Language Models(LLMs) on Tabular Data: Prediction, Generation, and Understanding -- A Survey ( http://arxiv.org/abs/2402.17944v3 )

ライセンス: Link先を確認
Xi Fang, Weijie Xu, Fiona Anting Tan, Jiani Zhang, Ziqing Hu, Yanjun Qi, Scott Nickleach, Diego Socolinsky, Srinivasan Sengamedu, Christos Faloutsos, (参考訳) 大規模言語モデリングの最近の進歩は、予測、表型データ合成、質問応答、テーブル理解など、表型データモデリングに関連する様々なタスクにおいて、その応用を厳格に探求する上で役立っている。 各タスクは、固有の課題と機会を提供する。 しかしながら、現時点では、この研究領域における主要なテクニック、メトリクス、データセット、モデル、最適化アプローチを要約し比較する包括的なレビューが欠如しています。 この調査は、これらの領域における最近の進歩を集約し、使用するデータセット、メトリクス、方法論の詳細な調査と分類を提供することによって、このギャップに対処することを目的としている。 既存の文献の強さ、限界、未探索領域、ギャップを識別し、この重要かつ急速に発展する分野における将来の研究の方向性についていくつかの洞察を提供する。 関連するコードやデータセットの参照も提供する。 この総合的なレビューを通じて、興味のある読者に関連する参照と洞察に富んだ視点を提供し、この分野の一般的な課題を効果的にナビゲートし、対処するための必要なツールと知識を彼らに与えたいと思っています。

Recent breakthroughs in large language modeling have facilitated rigorous exploration of their application in diverse tasks related to tabular data modeling, such as prediction, tabular data synthesis, question answering, and table understanding. Each task presents unique challenges and opportunities. However, there is currently a lack of comprehensive review that summarizes and compares the key techniques, metrics, datasets, models, and optimization approaches in this research domain. This survey aims to address this gap by consolidating recent progress in these areas, offering a thorough survey and taxonomy of the datasets, metrics, and methodologies utilized. It identifies strengths, limitations, unexplored territories, and gaps in the existing literature, while providing some insights for future research directions in this vital and rapidly evolving field. It also provides relevant code and datasets references. Through this comprehensive review, we hope to provide interested readers with pertinent references and insightful perspectives, empowering them with the necessary tools and knowledge to effectively navigate and address the prevailing challenges in the field.
翻訳日:2024-06-12 01:13:35 公開日:2024-06-10
# 質問と回答:ディグライズとリコンストラクションによる少数のクエリにおける大規模言語モデルのジェイルブレーク

Making Them Ask and Answer: Jailbreaking Large Language Models in Few Queries via Disguise and Reconstruction ( http://arxiv.org/abs/2402.18104v2 )

ライセンス: Link先を確認
Tong Liu, Yingjie Zhang, Zhe Zhao, Yinpeng Dong, Guozhu Meng, Kai Chen, (参考訳) 近年,大規模言語モデル (LLM) は様々なタスクにおいて顕著な成功を収めてきたが,LLMの信頼性は依然として未解決の問題である。 特定の脅威の1つは、有害または有害な反応を引き起こす可能性があることである。 攻撃者はLSMから有害な反応を引き起こす敵のプロンプトを作れます。 本研究では,DRA(Disguise and Restruction Attack)と呼ばれるブラックボックスジェイルブレイク法を設計し,偽装による有害な命令を隠蔽し,その完了時にオリジナルの有害な命令を再構築するようモデルに促すことにより,LLMのセキュリティの理論的基盤を開拓する。 我々は、さまざまなオープンソースおよびクローズドソースモデルでDRAを評価し、最先端のジェイルブレイク成功率と攻撃効率を示す。 特に、DRAはOpenAI GPT-4チャットボットの攻撃成功率91.1%を誇っている。

In recent years, large language models (LLMs) have demonstrated notable success across various tasks, but the trustworthiness of LLMs is still an open problem. One specific threat is the potential to generate toxic or harmful responses. Attackers can craft adversarial prompts that induce harmful responses from LLMs. In this work, we pioneer a theoretical foundation in LLMs security by identifying bias vulnerabilities within the safety fine-tuning and design a black-box jailbreak method named DRA (Disguise and Reconstruction Attack), which conceals harmful instructions through disguise and prompts the model to reconstruct the original harmful instruction within its completion. We evaluate DRA across various open-source and closed-source models, showcasing state-of-the-art jailbreak success rates and attack efficiency. Notably, DRA boasts a 91.1% attack success rate on OpenAI GPT-4 chatbot.
翻訳日:2024-06-12 01:13:35 公開日:2024-06-10
# UniVS: Promptをクエリとして統合されたユニバーサルビデオセグメンテーション

UniVS: Unified and Universal Video Segmentation with Prompts as Queries ( http://arxiv.org/abs/2402.18115v2 )

ライセンス: Link先を確認
Minghan Li, Shuai Li, Xindong Zhang, Lei Zhang, (参考訳) 統合画像分割(IS)の最近の進歩にもかかわらず、統合ビデオ分割(VS)モデルの開発は依然として課題である。 これは主に、一般的なカテゴリ指定のVSタスクがすべてのオブジェクトを検出し、連続するフレームをまたいで追跡する必要があるのに対して、プロンプト誘導のVSタスクは、ビデオ全体を通して視覚/テキストプロンプトでターゲットを再識別する必要があるため、異なるタスクを同じアーキテクチャで扱うのが難しくなるためである。 これらの問題に対処し、クエリとしてプロンプトを使用することで、新しい統合VSアーキテクチャ、すなわちUniVSを提案する。 UniVSは、マスクを明示的にデコードするための初期クエリとして、以前のフレームからターゲットのプロンプト機能を平均化し、マスクデコーダにターゲットワイドプロンプトのクロスアテンション層を導入して、メモリプールにプロンプト機能を統合する。 以前のフレームから予測されたエンティティのマスクを視覚的なプロンプトとすることで、UniVSは異なるVSタスクをプロンプト誘導されたターゲットセグメンテーションに変換し、ヒューリスティックなフレーム間マッチングプロセスを排除する。 私たちのフレームワークは、異なるVSタスクを統一するだけでなく、自然に普遍的なトレーニングとテストを実現し、異なるシナリオ間で堅牢なパフォーマンスを確保します。 UniVSは、ビデオインスタンス、セマンティクス、パノプティクス、オブジェクト、セグメンテーションタスクの参照を含む、VSの10の挑戦的なベンチマークで、パフォーマンスと普遍性の合計バランスを示している。 コードは \url{https://github.com/MinghanLi/UniVS} で見ることができる。

Despite the recent advances in unified image segmentation (IS), developing a unified video segmentation (VS) model remains a challenge. This is mainly because generic category-specified VS tasks need to detect all objects and track them across consecutive frames, while prompt-guided VS tasks require re-identifying the target with visual/text prompts throughout the entire video, making it hard to handle the different tasks with the same architecture. We make an attempt to address these issues and present a novel unified VS architecture, namely UniVS, by using prompts as queries. UniVS averages the prompt features of the target from previous frames as its initial query to explicitly decode masks, and introduces a target-wise prompt cross-attention layer in the mask decoder to integrate prompt features in the memory pool. By taking the predicted masks of entities from previous frames as their visual prompts, UniVS converts different VS tasks into prompt-guided target segmentation, eliminating the heuristic inter-frame matching process. Our framework not only unifies the different VS tasks but also naturally achieves universal training and testing, ensuring robust performance across different scenarios. UniVS shows a commendable balance between performance and universality on 10 challenging VS benchmarks, covering video instance, semantic, panoptic, object, and referring segmentation tasks. Code can be found at \url{https://github.com/MinghanLi/UniVS}.
翻訳日:2024-06-12 01:13:35 公開日:2024-06-10
# 人間のシミュラクラ:大規模言語モデルのパーソナライゼーションのベンチマーク

Human Simulacra: Benchmarking the Personification of Large Language Models ( http://arxiv.org/abs/2402.18180v5 )

ライセンス: Link先を確認
Qiuejie Xie, Qiming Feng, Tianqi Zhang, Qingqiu Li, Linyi Yang, Yuejie Zhang, Rui Feng, Liang He, Shang Gao, Yue Zhang, (参考訳) 大規模言語モデル(LLM)は、人間の知性の側面を忠実に模倣するシステムとして認識されている。 この能力は社会科学界から注目を集めており、LLMを活用して人間の実験参加者を置き換え、研究コストと複雑さを低減させる可能性があると考えている。 本稿では,人間の認知過程をシミュレートするマルチエージェント認知機構と,自己と観察の両方の観点から人間のシミュレーションを評価する心理誘導評価手法を含む,大規模言語モデルの擬人化のためのフレームワークを紹介する。 実験により, 構築したシミュラクラは, 対象キャラクタと一致した擬人化応答を生成できることが実証された。 我々の研究は予備的な探索であり、実践的な応用に大きな可能性を秘めている。 すべてのコードとデータセットがリリースされ、さらなる調査を促進することを期待している。

Large language models (LLMs) are recognized as systems that closely mimic aspects of human intelligence. This capability has attracted attention from the social science community, who see the potential in leveraging LLMs to replace human participants in experiments, thereby reducing research costs and complexity. In this paper, we introduce a framework for large language models personification, including a strategy for constructing virtual characters' life stories from the ground up, a Multi-Agent Cognitive Mechanism capable of simulating human cognitive processes, and a psychology-guided evaluation method to assess human simulations from both self and observational perspectives. Experimental results demonstrate that our constructed simulacra can produce personified responses that align with their target characters. Our work is a preliminary exploration which offers great potential in practical applications. All the code and datasets will be released, with the hope of inspiring further investigations.
翻訳日:2024-06-12 01:13:35 公開日:2024-06-10
# 異方性誘起スピンパリティ効果

Anisotropy-Induced Spin Parity Effects ( http://arxiv.org/abs/2402.19311v3 )

ライセンス: Link先を確認
Shuntaro Sumita, Akihiro Tanaka, Yusuke Kato, (参考訳) スピンパリティ効果(スピンパリティえき、英: Spin parity effect)とは、系の物理的挙動における二分法が生じる特別な状況を指し、関連するスピン量子数が積分であるか半負積分であるかに依存する。 反強磁性スピン鎖におけるハルダン予想と同様に、それらの追求はしばしば深い洞察を導き、量子凝縮物質物理学の新しい発展を呼び起こす。 ここでは、異方性相互作用を用いて、任意の空間次元におけるそのような効果を生成するための単純で一般的なスキームと、最先端のコールド原子実装の妥当な到達範囲に設定する。 本研究では, 横磁場中の異方性反強磁性体である1次元スピン鎖モデルの磁化挙動を詳細に解析し, 従来注目されてきたが明確には理解されていない磁化曲線で観測された有限サイズの効果の量子的起源を解明する。

Spin parity effects refer to those special situations where a dichotomy in the physical behavior of a system arises, solely depending on whether the relevant spin quantum number is integral or half-odd integral. As is the case with the Haldane conjecture in antiferromagnetic spin chains, their pursuit often derives deep insights and invokes new developments in quantum condensed matter physics. Here we put forth a simple and general scheme for generating such effects in any spatial dimension through the use of anisotropic interactions, and a setup within reasonable reach of state-of-the-art cold-atom implementations. We demonstrate its utility through a detailed analysis of the magnetization behavior of a specific one-dimensional spin chain model -- an anisotropic antiferromagnet in a transverse magnetic field, unraveling along the way the quantum origin of finite-size effects observed in the magnetization curve that had previously been noted but not clearly understood.
翻訳日:2024-06-12 01:03:43 公開日:2024-06-10
# インコンテキスト学習のためのマルチヘッドソフトマックス注意のトレーニングダイナミクス:創発性、収束性、最適性

Training Dynamics of Multi-Head Softmax Attention for In-Context Learning: Emergence, Convergence, and Optimality ( http://arxiv.org/abs/2402.19442v2 )

ライセンス: Link先を確認
Siyu Chen, Heejune Sheen, Tianhao Wang, Zhuoran Yang, (参考訳) マルチタスク線形回帰の文脈内学習のためのマルチヘッドソフトマックスアテンションモデルを訓練するための勾配流のダイナミクスについて検討する。 我々は,初期化の適切な選択の下で,勾配流のグローバル収束を確立する。 さらに,マルチタスクモデルの単一タスクの解決に注目する,勾配流のダイナミックスにおいて,興味深い「タスク割り当て」現象が出現することを証明する。 具体的には、勾配流れのダイナミクスを3つのフェーズに分割できることを証明し、損失がよりゆっくり減少し、注目ヘッドが徐々に個々のタスクへの傾きを増すウォームアップフェーズ、各ヘッドが1つのタスクを選択し、損失が急速に減少する出現フェーズ、注意パラメータが極限に収束する収束フェーズ、に証明する。 さらに, 勾配流の最適性は, 勾配流によって学習される制限モデルが, 最適なマルチヘッドソフトマックスアテンションモデルと同程度であることを示す。 また,本分析では,シングルヘッドとマルチヘッドアテンションモデル間のICLの予測精度に関して,厳密な分離を導出する。 収束解析の鍵となる手法は、パラメータ空間の勾配流のダイナミクスをスペクトル領域の常微分方程式の集合にマッピングすることであり、注意重みの半特異値の相対等級がタスク割り当てを決定する。 我々の知る限り、我々の研究はマルチヘッドソフトマックスアテンションモデルに対する最初の収束結果を提供する。

We study the dynamics of gradient flow for training a multi-head softmax attention model for in-context learning of multi-task linear regression. We establish the global convergence of gradient flow under suitable choices of initialization. In addition, we prove that an interesting "task allocation" phenomenon emerges during the gradient flow dynamics, where each attention head focuses on solving a single task of the multi-task model. Specifically, we prove that the gradient flow dynamics can be split into three phases -- a warm-up phase where the loss decreases rather slowly and the attention heads gradually build up their inclination towards individual tasks, an emergence phase where each head selects a single task and the loss rapidly decreases, and a convergence phase where the attention parameters converge to a limit. Furthermore, we prove the optimality of gradient flow in the sense that the limiting model learned by gradient flow is on par with the best possible multi-head softmax attention model up to a constant factor. Our analysis also delineates a strict separation in terms of the prediction accuracy of ICL between single-head and multi-head attention models. The key technique for our convergence analysis is to map the gradient flow dynamics in the parameter space to a set of ordinary differential equations in the spectral domain, where the relative magnitudes of the semi-singular values of the attention weights determines task allocation. To our best knowledge, our work provides the first convergence result for the multi-head softmax attention model.
翻訳日:2024-06-12 01:03:43 公開日:2024-06-10
# 共振RoPE:大規模言語モデルの文脈長一般化の改善

Resonance RoPE: Improving Context Length Generalization of Large Language Models ( http://arxiv.org/abs/2403.00071v2 )

ライセンス: Link先を確認
Suyuchen Wang, Ivan Kobyzev, Peng Lu, Mehdi Rezagholizadeh, Bang Liu, (参考訳) 本稿では,ロータリー位置埋め込み (RoPE) を備えた大規模言語モデル (LLM) における列車ショート・テスト・ロング (TSTL) シナリオの課題について述べる。 我々は,OOD位置に対するRoPE機能を補間することで,TSTLシナリオの一般化ギャップを狭めるために設計された新しい手法であるResonance RoPEを紹介し,オンライン計算コストを増大させることなく,モデル性能を大幅に向上させる。 さらに,TSTLシナリオにおけるきめ細かな挙動解析に特化して設計された新しい合成ベンチマークPosGenを提案する。 Resonance RoPEを適用すると、変換器はOODの位置をより良く、より堅牢に認識する。 我々のLLM実験は、現在最先端のRoPEスケーリング手法であるYaRNにResonance RoPEを適用した後、上流言語モデリングタスクと様々な下流長文アプリケーションの両方で優れた性能を示す。

This paper addresses the challenge of train-short-test-long (TSTL) scenarios in Large Language Models (LLMs) equipped with Rotary Position Embedding (RoPE), where models pre-trained on shorter sequences face difficulty with out-of-distribution (OOD) token positions in longer sequences. We introduce Resonance RoPE, a novel approach designed to narrow the generalization gap in TSTL scenarios by refining the interpolation of RoPE features for OOD positions, significantly improving the model performance without additional online computational costs. Furthermore, we present PosGen, a new synthetic benchmark specifically designed for fine-grained behavior analysis in TSTL scenarios, aiming to isolate the constantly increasing difficulty of token generation on long contexts from the challenges of recognizing new token positions. Our experiments on synthetic tasks show that after applying Resonance RoPE, Transformers recognize OOD position better and more robustly. Our extensive LLM experiments also show superior performance after applying Resonance RoPE to the current state-of-the-art RoPE scaling method, YaRN, on both upstream language modeling tasks and a variety of downstream long-text applications.
翻訳日:2024-06-12 01:03:43 公開日:2024-06-10
# HALC:Adaptive Focal-Contrast Decodingによる物体幻覚の低減

HALC: Object Hallucination Reduction via Adaptive Focal-Contrast Decoding ( http://arxiv.org/abs/2403.00425v2 )

ライセンス: Link先を確認
Zhaorun Chen, Zhuokai Zhao, Hongyin Luo, Huaxiu Yao, Bo Li, Jiawei Zhou, (参考訳) 大規模視覚言語モデル(LVLM)は、多モードの文脈を解釈する際、印象的な能力を示してきたが、それらは必然的に対象幻覚(OH)に悩まされている。 本稿では,LVLMにおけるOH低減のための新しい復号アルゴリズムHALCを紹介する。 HALCは視覚言語タスクにおいて、視覚情報を微粒化し、ローカルとグローバルの両方のコンテキストで同時に動作する。 具体的には、ハエの幻覚トークンを補正するために(局所的に)頑健なオートフォーカスグラウンド機構と、テキスト生成品質を維持しながらOHを大幅に削減する特殊なビーム探索アルゴリズム(グロブリー)を統合する。 加えて、HALCは任意のLVLMにプラグイン・アンド・プレイモジュールとして追加のトレーニングなしで統合できる。 大規模な実験により、HALCのOH低減効果が示され、4つのベンチマークにおいて最先端の最先端が達成された。

While large vision-language models (LVLMs) have demonstrated impressive capabilities in interpreting multi-modal contexts, they invariably suffer from object hallucinations (OH). We introduce HALC, a novel decoding algorithm designed to mitigate OH in LVLMs. HALC leverages distinct fine-grained optimal visual information in vision-language tasks and operates on both local and global contexts simultaneously. Specifically, HALC integrates a robust auto-focal grounding mechanism (locally) to correct hallucinated tokens on the fly, and a specialized beam search algorithm (globally) to significantly reduce OH while preserving text generation quality. Additionally, HALC can be integrated into any LVLMs as a plug-and-play module without extra training. Extensive experimental studies demonstrate the effectiveness of HALC in reducing OH, outperforming state-of-the-arts across four benchmarks.
翻訳日:2024-06-12 01:03:43 公開日:2024-06-10
# FedHCDR:ハイパーグラフ信号デカップリングによるクロスドメイン勧告

FedHCDR: Federated Cross-Domain Recommendation with Hypergraph Signal Decoupling ( http://arxiv.org/abs/2403.02630v4 )

ライセンス: Link先を確認
Hongyu Zhang, Dongyi Zheng, Lin Zhong, Xu Yang, Jiyuan Feng, Yunqing Feng, Qing Liao, (参考訳) 近年,複数のドメインのユーザデータを用いて推薦性能を向上させるクロスドメインレコメンデーション (CDR) が注目されている。 しかし、現在のCDRメソッドでは、ドメイン間でユーザデータを共有する必要があるため、GDPR(General Data Protection Regulation)に違反する。 その結果,Federated Cross-Domain Recommendation (FedCDR) には多くのアプローチが提案されている。 それでも、異なる領域にわたるデータの異質性は、フェデレート学習の全体的なパフォーマンスに必然的に影響を及ぼす。 本研究では,ハイパーグラフ信号デカップリングを用いた新しいFederated Cross-Domain RecommendationフレームワークであるFedHCDRを提案する。 具体的には、ドメイン間のデータ不均一性に対処するため、ハイパーグラフ信号デカップリング(HSD)と呼ばれるアプローチを導入し、ユーザ機能をドメイン排他的およびドメイン共有機能に分離する。 このアプローチでは、高パスと低パスのハイパーグラフフィルタを用いて、ドメイン排他的およびドメイン共有されたユーザ表現を分離する。 さらに、ユーザハイパーグラフを摂動させることにより、ドメイン共有ユーザ関係情報の学習を強化するために、ハイパーグラフコントラスト学習(HCL)モジュールを考案する。 3つの実世界のシナリオで実施された大規模な実験は、FedHCDRが既存のベースラインを著しく上回ることを示した。

In recent years, Cross-Domain Recommendation (CDR) has drawn significant attention, which utilizes user data from multiple domains to enhance the recommendation performance. However, current CDR methods require sharing user data across domains, thereby violating the General Data Protection Regulation (GDPR). Consequently, numerous approaches have been proposed for Federated Cross-Domain Recommendation (FedCDR). Nevertheless, the data heterogeneity across different domains inevitably influences the overall performance of federated learning. In this study, we propose FedHCDR, a novel Federated Cross-Domain Recommendation framework with Hypergraph signal decoupling. Specifically, to address the data heterogeneity across domains, we introduce an approach called hypergraph signal decoupling (HSD) to decouple the user features into domain-exclusive and domain-shared features. The approach employs high-pass and low-pass hypergraph filters to decouple domain-exclusive and domain-shared user representations, which are trained by the local-global bi-directional transfer algorithm. In addition, a hypergraph contrastive learning (HCL) module is devised to enhance the learning of domain-shared user relationship information by perturbing the user hypergraph. Extensive experiments conducted on three real-world scenarios demonstrate that FedHCDR outperforms existing baselines significantly.
翻訳日:2024-06-12 01:03:43 公開日:2024-06-10
# 合成データに自然画像パターンを埋め込んだゼロショット物質状態セグメンテーションの学習

Learning Zero-Shot Material States Segmentation, by Implanting Natural Image Patterns in Synthetic Data ( http://arxiv.org/abs/2403.03309v5 )

ライセンス: Link先を確認
Sagi Eppel, Jolina Li, Manuel Drehwald, Alan Aspuru-Guzik, (参考訳) 物質とその状態の視覚的認識は、表面や汚れの濡れた領域を識別するから、岩石中の植物や鉱物の感染領域を検出するまで、物理的世界を理解するために不可欠である。 この大きな変動を捉えたデータの収集は、物質状態の散在と漸進的な性質のために複雑である。 手動でアノテートする現実世界のイメージはコストと精度で制約されるが、合成データは正確で安価だが現実世界の多様性に欠ける。 この研究は、現実世界の画像から抽出されたパターンを合成データに注入することで、このギャップを埋めることを目的としている。 そのため、自然画像から収集したパターンを用いて、素材を合成シーンにマッピングする。 この教師なしのアプローチは、合成データの精度とスケーラビリティを維持しながら、現実世界の複雑さを捉えている。 また, 食品, 土壌, 建設, 植物, 液体など, さまざまな領域にまたがる実世界の画像を利用して, 湿潤, 乾燥, 感染, 調理, 焼成などの様々な状態に出現する, ゼロショット物質状態セグメンテーションの総合的なベンチマークも行った。 このアノテーションは、類似しているが同一ではない領域間の部分的な類似性と、同一の物質状態のみのハードセグメンテーションを含む。 このベンチマークは、既存のデータ収集メソッドの制限を露呈して、上位の基盤モデルを取り除いた。 一方、注入されたデータに基づいてトレーニングされたネットは、これと関連したタスクにおいて、大幅に改善された。 データセット、コード、トレーニングされたモデルが利用可能だ。 また,30,000の抽出テクスチャとSVBRDF/PBR材料を共有し,将来のデータセット生成を容易にする。

Visual recognition of materials and their states is essential for understanding the physical world, from identifying wet regions on surfaces or stains on fabrics to detecting infected areas on plants or minerals in rocks. Collecting data that captures this vast variability is complex due to the scattered and gradual nature of material states. Manually annotating real-world images is constrained by cost and precision, while synthetic data, although accurate and inexpensive, lacks real-world diversity. This work aims to bridge this gap by infusing patterns automatically extracted from real-world images into synthetic data. Hence, patterns collected from natural images are used to generate and map materials into synthetic scenes. This unsupervised approach captures the complexity of the real world while maintaining the precision and scalability of synthetic data. We also present the first comprehensive benchmark for zero-shot material state segmentation, utilizing real-world images across a diverse range of domains, including food, soils, construction, plants, liquids, and more, each appears in various states such as wet, dry, infected, cooked, burned, and many others. The annotation includes partial similarity between regions with similar but not identical materials and hard segmentation of only identical material states. This benchmark eluded top foundation models, exposing the limitations of existing data collection methods. Meanwhile, nets trained on the infused data performed significantly better on this and related tasks. The dataset, code, and trained model are available. We also share 300,000 extracted textures and SVBRDF/PBR materials to facilitate future datasets generation.
翻訳日:2024-06-12 01:03:43 公開日:2024-06-10
# インターフリート都市交通バスアイドリングの地球位置リアルタイムデータ

Global Geolocated Realtime Data of Interfleet Urban Transit Bus Idling ( http://arxiv.org/abs/2403.03489v3 )

ライセンス: Link先を確認
Nicholas Kunz, H. Oliver Gao, (参考訳) 都市交通バスのアイドリングは、エコロジー的なストレス、経済的非効率性、そして排出による医療上の有害な健康結果に寄与している。 この好ましくない運転行動の頻繁なパターンの世界的な蓄積は巨大である。 その規模を測定するため,都市交通バスの走行時間と位置を国際的に記録する拡張可能なリアルタイム検知システムとして,GRD-TRT-BUF-4I(Ground Truth Buffer for Idling)を提案する。 このシステムは、General Transit Feed Specification(GTFS)リアルタイムから、北米、ヨーロッパ、オセアニア、アジアの50都市から1日に約20万回のアイドリングイベントを検出する。 このリアルタイムデータは、運用上の意思決定と艦隊管理を動的に行うために作成され、アイドリングイベントの発生頻度と期間を減らし、その累積効果を捉えた。 市民・交通技術者、都市計画家、疫学者、政策立案者、その他の利害関係者は、様々な地理的・時間的スケールで、エミッションモデリング、交通管理、ルートプランニング、その他の都市サステナビリティの取り組みに役立つと考えている。

Urban transit bus idling is a contributor to ecological stress, economic inefficiency, and medically hazardous health outcomes due to emissions. The global accumulation of this frequent pattern of undesirable driving behavior is enormous. In order to measure its scale, we propose GRD-TRT- BUF-4I (Ground Truth Buffer for Idling) an extensible, realtime detection system that records the geolocation and idling duration of urban transit bus fleets internationally. Using live vehicle locations from General Transit Feed Specification (GTFS) Realtime, the system detects approximately 200,000 idling events per day from over 50 cities across North America, Europe, Oceania, and Asia. This realtime data was created to dynamically serve operational decision-making and fleet management to reduce the frequency and duration of idling events as they occur, as well as to capture its accumulative effects. Civil and Transportation Engineers, Urban Planners, Epidemiologists, Policymakers, and other stakeholders might find this useful for emissions modeling, traffic management, route planning, and other urban sustainability efforts at a variety of geographic and temporal scales.
翻訳日:2024-06-12 00:53:58 公開日:2024-06-10
# MedMamba:Vision Mamba for Medical Image Classification (動画)

MedMamba: Vision Mamba for Medical Image Classification ( http://arxiv.org/abs/2403.03849v4 )

ライセンス: Link先を確認
Yubiao Yue, Zhenzhang Li, (参考訳) ディープラーニングの時代から、畳み込みニューラルネットワーク(CNN)とビジョントランスフォーマー(ViT)が医学画像分類タスクで広く研究され、広く利用されている。 残念なことに、CNNの長距離依存のモデリングにおける制限は、分類性能の低下をもたらす。 対照的に、ViTは自己保持機構の2次計算複雑性によって妨げられ、限られた計算資源を持つ現実の環境でのデプロイが困難になる。 近年の研究では、Mambaによって表現される状態空間モデル(SSM)は、線形計算複雑性を維持しながら、効果的に長距離依存をモデル化できることが示されている。 そこで我々は,汎用的な医用画像分類のための最初のビジョンであるMedMambaを提案する。 具体的には,SS-Conv-SSMという,局所的な特徴を抽出するための畳み込み層をSSMの能力と統合し,様々な画像モダリティから医用画像を効率的にモデル化することを目的とした,新しいハイブリッド・ベーシック・ブロックを導入した。 グループ化された畳み込み戦略とチャネルシャッフル演算を用いることで、MedMambaはより少ないモデルパラメータとより少ない計算負荷を効率よく提供できる。 MedMambaの可能性を実証するために,10つの画像モダリティと411,007の画像を含む16のデータセットを用いて広範囲にわたる実験を行った。 実験の結果,提案するMedMambaは,最先端の手法と比較して,様々な医用画像の分類において競争力を発揮することが示された。 我々の研究は、医用画像分類の新しいベースラインを確立することを目的としており、医療分野でより強力なSSMベースの人工知能アルゴリズムとアプリケーションシステムを開発するための貴重な洞察を提供する。 MedMambaのソースコードとトレーニング済み重量はすべてhttps://github.com/YubiaoYue/MedMamba.comで入手できる。

Since the era of deep learning, convolutional neural networks (CNNs) and vision transformers (ViTs) have been extensively studied and widely used in medical image classification tasks. Unfortunately, CNN's limitations in modeling long-range dependencies result in poor classification performances. In contrast, ViTs are hampered by the quadratic computational complexity of their self-attention mechanism, making them difficult to deploy in real-world settings with limited computational resources. Recent studies have shown that state space models (SSMs) represented by Mamba can effectively model long-range dependencies while maintaining linear computational complexity. Inspired by it, we proposed MedMamba, the first vision Mamba for generalized medical image classification. Concretely, we introduced a novel hybrid basic block named SS-Conv-SSM, which integrates the convolutional layers for extracting local features with the abilities of SSM to capture long-range dependencies, aiming to model medical images from different image modalities efficiently. By employing the grouped convolution strategy and channel-shuffle operation, MedMamba successfully provides fewer model parameters and a lower computational burden for efficient applications. To demonstrate the potential of MedMamba, we conducted extensive experiments using 16 datasets containing ten imaging modalities and 411,007 images. Experimental results show that the proposed MedMamba demonstrates competitive performance in classifying various medical images compared with the state-of-the-art methods. Our work is aims to establish a new baseline for medical image classification and provide valuable insights for developing more powerful SSM-based artificial intelligence algorithms and application systems in the medical field. The source codes and all pre-trained weights of MedMamba are available at https://github.com/YubiaoYue/MedMamba.
翻訳日:2024-06-12 00:53:58 公開日:2024-06-10
# モデルベースアーキテクチャにおける未学習ニューラルネットワークを用いたモデルミスマッチによる逆問題の解法

Solving Inverse Problems with Model Mismatch using Untrained Neural Networks within Model-based Architectures ( http://arxiv.org/abs/2403.04847v2 )

ライセンス: Link先を確認
Peimeng Guan, Naveed Iqbal, Mark A. Davenport, Mudassir Masood, (参考訳) ループアンローリング(LU)やディープ均衡モデル(DEQ)拡張のようなモデルに基づくディープラーニング手法は、逆問題(IP)の解法において優れた性能を提供する。 これらの手法は最適化イテレーションをニューラルネットワークのシーケンスに展開し、実際にデータから正規化関数を学習する。 これらのアーキテクチャは現在多くのアプリケーションで最先端のアーキテクチャとなっているが、その成功はフォワードモデルの正確性に大きく依存している。 この仮定は、装置のモデルの単純化や不確実性により、多くの物理的応用において制限される可能性がある。 フォワードモデルミスマッチに対処するために、各インスタンスの計測領域におけるデータの一貫性を一致させるために、モデルベースアーキテクチャ内でトレーニングされていないフォワードモデル残差ブロックを導入する。 本稿では,よく知られたモデルベースアーキテクチャ (LU と DEQ) の2つの変種を提案する。 提案手法は,パラメータ感受性の低い統一解を提供し,追加データを必要としないとともに,前方モデルの同時嵌合と単一パスでの再構成を実現し,線形逆問題と非線形逆問題の両方に有効である。 実験は, アーティファクトの除去と, 非線形逆問題と非線形逆問題の両方を含む3つの異なる応用の詳細な保存において, 大幅な品質向上を示した。 さらに、中間段階における再構成の有効性を強調し、残余ブロックのランダム初期化と、評価中の繰り返し回数の増加に頑健性を示す。 コードは \texttt{https://github.com/InvProbs/A-adaptive-model-based-methods} で公開されている。

Model-based deep learning methods such as loop unrolling (LU) and deep equilibrium model}(DEQ) extensions offer outstanding performance in solving inverse problems (IP). These methods unroll the optimization iterations into a sequence of neural networks that in effect learn a regularization function from data. While these architectures are currently state-of-the-art in numerous applications, their success heavily relies on the accuracy of the forward model. This assumption can be limiting in many physical applications due to model simplifications or uncertainties in the apparatus. To address forward model mismatch, we introduce an untrained forward model residual block within the model-based architecture to match the data consistency in the measurement domain for each instance. We propose two variants in well-known model-based architectures (LU and DEQ) and prove convergence under mild conditions. Our approach offers a unified solution that is less parameter-sensitive, requires no additional data, and enables simultaneous fitting of the forward model and reconstruction in a single pass, benefiting both linear and nonlinear inverse problems. The experiments show significant quality improvement in removing artifacts and preserving details across three distinct applications, encompassing both linear and nonlinear inverse problems. Moreover, we highlight reconstruction effectiveness in intermediate steps and showcase robustness to random initialization of the residual block and a higher number of iterations during evaluation. Code is available at \texttt{https://github.com/InvProbs/A-adaptive-model-based-methods}.
翻訳日:2024-06-12 00:53:58 公開日:2024-06-10
# 混合古典位相空間を持つ系におけるハイブリッド量子固有状態のキャラクタリゼーション

Characterization of hybrid quantum eigenstates in systems with mixed classical phasespace ( http://arxiv.org/abs/2403.06212v2 )

ライセンス: Link先を確認
Anant Vijay Varma, Amichay Vardi, Doron Cohen, (参考訳) ジェネリックな低次元ハミルトニアン系は構造化され、古典位相空間を混合する。 量子スペクトルの伝統的なパーシックな分類は、準可積分領域と準カオス領域によって支持される不規則な状態によって支持される正規状態に分類され、ヒルベルト空間の豊かさを捉えるには不十分であることが判明した。 ベリー予想と固有状態熱化仮説は適用不可能であり、トンネル、スカーリング、局在化のような量子効果は標準パラダイムに従わない。 本稿では,Bose-Hubbardモデルのプロトタイプについて述べる。 我々は、エルゴディディティとローカライゼーションの反対の観点から、カオス領域と正規領域のハイブリッド化を強調した。

Generic low-dimensional Hamiltonian systems feature a structured, mixed classical phase-space. The traditional Percival classification of quantum spectra into regular states supported by quasi-integrable regions and irregular states supported by quasi-chaotic regions turns out to be insufficient to capture the richness of the Hilbert space. Berry's conjecture and the eigenstate thermalization hypothesis are not applicable and quantum effects such as tunneling, scarring, and localization, do not obey the standard paradigms. We demonstrate these statements for a prototype Bose-Hubbard model. We highlight the hybridization of chaotic and regular regions from opposing perspectives of ergodicity and localization.
翻訳日:2024-06-12 00:53:58 公開日:2024-06-10
# 大規模言語モデルの内部状態に基づく教師なしリアルタイム幻覚検出

Unsupervised Real-Time Hallucination Detection based on the Internal States of Large Language Models ( http://arxiv.org/abs/2403.06448v2 )

ライセンス: Link先を確認
Weihang Su, Changyue Wang, Qingyao Ai, Yiran HU, Zhijing Wu, Yujia Zhou, Yiqun Liu, (参考訳) 大型言語モデル (LLMs) における幻覚とは、コヒーレントで事実上不正確な応答を生成する LLM の現象を指す。 本課題は, LLMの幻覚の検出・緩和に関する研究を要し, 実用化におけるLLMの有効性を損なうものである。 これまでの研究は主に幻覚検出のための後処理技術に焦点を合わせてきたが、これは計算集約的であり、LLMの推論プロセスからの分離により有効性が制限される傾向にある。 これらの制約を克服するために,手動のアノテーションを必要とせず,LLMの内部状態をリアルタイムの幻覚検出に活用する教師なしのトレーニングフレームワークであるMINDを導入する。 さらに,複数のLLMにおける幻覚検出のための新しいベンチマークであるHELMについて述べる。 我々の実験では、MINDは幻覚検出において既存の最先端手法よりも優れていることを示した。

Hallucinations in large language models (LLMs) refer to the phenomenon of LLMs producing responses that are coherent yet factually inaccurate. This issue undermines the effectiveness of LLMs in practical applications, necessitating research into detecting and mitigating hallucinations of LLMs. Previous studies have mainly concentrated on post-processing techniques for hallucination detection, which tend to be computationally intensive and limited in effectiveness due to their separation from the LLM's inference process. To overcome these limitations, we introduce MIND, an unsupervised training framework that leverages the internal states of LLMs for real-time hallucination detection without requiring manual annotations. Additionally, we present HELM, a new benchmark for evaluating hallucination detection across multiple LLMs, featuring diverse LLM outputs and the internal states of LLMs during their inference process. Our experiments demonstrate that MIND outperforms existing state-of-the-art methods in hallucination detection.
翻訳日:2024-06-12 00:53:58 公開日:2024-06-10
# ボーソニックおよびフェルミオン型貯水池の少数層接合における量子輸送の統一図解的アプローチ:量子ラビモデルへの応用

A unified diagrammatic approach to quantum transport in few-level junctions for bosonic and fermionic reservoirs: Application to the quantum Rabi model ( http://arxiv.org/abs/2403.06923v3 )

ライセンス: Link先を確認
L. Magazzù, E. Paladino, M. Grifoni, (参考訳) 本研究では, 中島・ズワンジグ法を用いて, ボーソニック・フェルミオン型貯水池と結合する一般多層接合の定常輸送について検討する。 この方法は、リウヴィル空間における統一的な図式定式化を可能にし、図式は貯水池とジャンクションの間の結合強度の膨張に応じて分類される。 スピン-ボソンモデルにおける低温熱伝導の既知の結果として、多レベル系に一般化する定常ボソン輸送について、解析的、近似式を最大4次に設定する。 この定式化は量子ラビモデルによってモデル化された量子ビット共振器接合における熱輸送問題に適用される。 非自明な輸送特徴は、クビットオシレータの変形と結合強度の相互作用の結果現れる。 準退化スペクトルでは、消滅しない定常コヒーレンスにより熱伝導が抑制される。

We apply the Nakajima-Zwanzig approach to open quantum systems to study steady-state transport across generic multi-level junctions coupled to bosonic or fermionic reservoirs. The method allows for a unified diagrammatic formulation in Liouville space, with diagrams being classified according to an expansion in the coupling strength between the reservoirs and the junction. Analytical, approximate expressions are provided up to fourth order for the steady-state boson transport that generalize to multi-level systems the known results for the low-temperature thermal conductance in the spin-boson model. The formalism is applied to the problem of heat transport in a qubit-resonator junction modeled by the quantum Rabi model. Nontrivial transport features emerge as a result of the interplay between the qubit-oscillator detuning and coupling strength. For quasi-degenerate spectra, nonvanishing steady-state coherences cause a suppression of the thermal conductance.
翻訳日:2024-06-12 00:53:58 公開日:2024-06-10
# カリキュラム強化学習とエキスパートの混在による異種スキルの獲得

Acquiring Diverse Skills using Curriculum Reinforcement Learning with Mixture of Experts ( http://arxiv.org/abs/2403.06966v2 )

ライセンス: Link先を確認
Onur Celik, Aleksandar Taranovic, Gerhard Neumann, (参考訳) 強化学習(Reinforcement Learning, RL)は, 優れた政策獲得のための強力なアプローチである。 しかし、多種多様なスキルの学習は、一般的に使われているガウス政策パラメータ化のため、RLでは困難である。 筆者らは,Mixture of Expertsを用いて多種多様なスキルを学習するRL法である \textbf{Di}verse \textbf{Skil}l \textbf{L}earning (Di-SkilL\footnote{Videos and code are available on the project webpage: \url{https://alrhub.github.io/di-skill-website/}})を提案する。 Di-SkilLは、各専門家とその関連するコンテキスト分布を最大エントロピー目標に最適化し、同様のコンテキストにおける多様なスキルの学習にインセンティブを与える。 専門家ごとのコンテキスト分布は、自動カリキュラム学習を可能にし、各専門家は、コンテキスト空間の最も優れたサブリージョンに集中することができる。 環境の未知の文脈確率空間に関する事前の知識を必要とせずに、厳しい不連続性やマルチモダリティを克服するために、我々は、エネルギーモデルを利用して、専門家ごとの文脈分布を表現し、標準方針勾配の目的を用いて効率的に学習する方法を実証する。 本稿では,Di-SkilLが多種多様なパフォーマンススキルを学習できるロボットシミュレーションタスクについて述べる。

Reinforcement learning (RL) is a powerful approach for acquiring a good-performing policy. However, learning diverse skills is challenging in RL due to the commonly used Gaussian policy parameterization. We propose \textbf{Di}verse \textbf{Skil}l \textbf{L}earning (Di-SkilL\footnote{Videos and code are available on the project webpage: \url{https://alrhub.github.io/di-skill-website/}}), an RL method for learning diverse skills using Mixture of Experts, where each expert formalizes a skill as a contextual motion primitive. Di-SkilL optimizes each expert and its associate context distribution to a maximum entropy objective that incentivizes learning diverse skills in similar contexts. The per-expert context distribution enables automatic curricula learning, allowing each expert to focus on its best-performing sub-region of the context space. To overcome hard discontinuities and multi-modalities without any prior knowledge of the environment's unknown context probability space, we leverage energy-based models to represent the per-expert context distributions and demonstrate how we can efficiently train them using the standard policy gradient objective. We show on challenging robot simulation tasks that Di-SkilL can learn diverse and performant skills.
翻訳日:2024-06-12 00:53:58 公開日:2024-06-10
# デュアルドメインマッチングによる時系列分類のためのデータセットの凝縮

Dataset Condensation for Time Series Classification via Dual Domain Matching ( http://arxiv.org/abs/2403.07245v3 )

ライセンス: Link先を確認
Zhanyu Liu, Ke Hao, Guanjie Zheng, Yanwei Yu, (参考訳) 時系列データは様々な研究分野において重要であることが示されている。 大量の時系列データの管理は、特にディープニューラルネットワークのトレーニングにおいて、ディープラーニングタスクの観点からの課題を提示する。 近年,この問題に対する解決策として,textit{Dataset Condensation} というテクニックが登場している。 このテクニックは、分類などの下流タスクにおいて、完全な実データセットに匹敵するパフォーマンスを持つ、より小さな合成データセットを生成する。 しかし、従来の手法は主に画像とグラフのデータセット用に設計されており、特に周波数領域において時系列データに固有のリッチな情報を効果的に活用できないため、時系列データセットに直接適応することで、最適なパフォーマンスをもたらす。 本稿では、時系列分類データセットの凝縮タスクに着目した、Dataset \textit{\textbf{Cond}}ensation for \textit{\textbf{T}}ime \textit{\textbf{S}}eries \textit{\textbf{C}}lassification via Dual Domain Matching (\textbf{CondTSC})を提案する。 提案手法は,従来の手法と異なり,時間領域と周波数領域の両方で代理対象と一致する縮合データセットを生成することを目的としている。 具体的には、マルチビューデータ拡張、二重ドメイントレーニング、二重代理目的を取り入れて、時間と周波数領域におけるデータセットの凝縮プロセスを強化する。 より広範な実験を通じて,提案フレームワークの有効性を実証し,他のベースラインよりも優れ,元のデータの分布に適合するなど,望ましい特徴を示す凝縮合成データセットを学習する。

Time series data has been demonstrated to be crucial in various research fields. The management of large quantities of time series data presents challenges in terms of deep learning tasks, particularly for training a deep neural network. Recently, a technique named \textit{Dataset Condensation} has emerged as a solution to this problem. This technique generates a smaller synthetic dataset that has comparable performance to the full real dataset in downstream tasks such as classification. However, previous methods are primarily designed for image and graph datasets, and directly adapting them to the time series dataset leads to suboptimal performance due to their inability to effectively leverage the rich information inherent in time series data, particularly in the frequency domain. In this paper, we propose a novel framework named Dataset \textit{\textbf{Cond}}ensation for \textit{\textbf{T}}ime \textit{\textbf{S}}eries \textit{\textbf{C}}lassification via Dual Domain Matching (\textbf{CondTSC}) which focuses on the time series classification dataset condensation task. Different from previous methods, our proposed framework aims to generate a condensed dataset that matches the surrogate objectives in both the time and frequency domains. Specifically, CondTSC incorporates multi-view data augmentation, dual domain training, and dual surrogate objectives to enhance the dataset condensation process in the time and frequency domains. Through extensive experiments, we demonstrate the effectiveness of our proposed framework, which outperforms other baselines and learns a condensed synthetic dataset that exhibits desirable characteristics such as conforming to the distribution of the original data.
翻訳日:2024-06-12 00:53:58 公開日:2024-06-10
# HeadEvolver: 表現的および属性保存型メッシュ変形によるアバターのヘッドテキスト

HeadEvolver: Text to Head Avatars via Expressive and Attribute-Preserving Mesh Deformation ( http://arxiv.org/abs/2403.09326v2 )

ライセンス: Link先を確認
Duotun Wang, Hengyu Meng, Zeyu Cai, Zhijing Shao, Qianxi Liu, Lin Wang, Mingming Fan, Xiaohang Zhan, Zeyu Wang, (参考訳) 本稿では、テキストガイダンスからスタイリングされたヘッドアバターを生成する新しいフレームワークであるHeadEvolverを紹介する。 HeadEvolverはテンプレートのヘッドメッシュからローカルに学習可能なメッシュ変形を使用して、詳細な編集とアニメーションのために高品質なデジタルアセットを生成する。 ジャコビアンによる大域的変形における局所形状制御の微粒化とセマンティックな制御の欠如に対処するために,各三角形におけるジャコビアンの重み付け因子としてトレーニング可能なパラメータを導入し,グローバルな対応や顔の特徴を維持しながら局所形状を適応的に変化させる。 さらに、異なる視点から得られた形状と外観のコヒーレンスを確実にするために、正規化項付き微分可能レンダリングに事前訓練された画像拡散モデルを用いて、テキスト指導下での変形を洗練させる。 大規模な実験により,本手法は3次元グラフィックソフトウェアでシームレスに編集可能なメッシュで多種多様な頭部アバターを生成できることが実証された。

We present HeadEvolver, a novel framework to generate stylized head avatars from text guidance. HeadEvolver uses locally learnable mesh deformation from a template head mesh, producing high-quality digital assets for detail-preserving editing and animation. To tackle the challenges of lacking fine-grained and semantic-aware local shape control in global deformation through Jacobians, we introduce a trainable parameter as a weighting factor for the Jacobian at each triangle to adaptively change local shapes while maintaining global correspondences and facial features. Moreover, to ensure the coherence of the resulting shape and appearance from different viewpoints, we use pretrained image diffusion models for differentiable rendering with regularization terms to refine the deformation under text guidance. Extensive experiments demonstrate that our method can generate diverse head avatars with an articulated mesh that can be edited seamlessly in 3D graphics software, facilitating downstream applications such as more efficient animation with inherited blend shapes and semantic consistency.
翻訳日:2024-06-12 00:43:59 公開日:2024-06-10
# 量子領域における内部因果分解と絡み合いの出現

Internal causality breaking and emergence of entanglement in the quantum realm ( http://arxiv.org/abs/2403.09368v2 )

ライセンス: Link先を確認
Shuang-Kai Yang, Wei-Min Zhang, (参考訳) エンタングルメントは、ベルの不等式違反の基準によって何十年にもわたって多くの実験によって確認されてきたにもかかわらず、量子力学において最も顕著だが最も奇妙な性質である。 しかし、EPRパラドックスから生じる根本的な問題はまだ完全には理解されていない。 本稿では,ビーム分割により互いに結合した2つのフォトニックモード(または2つのボソニックモード)の量子力学について検討する。 このような結合は2モードの絡み合いを生じさせない。 また、最初は2つのモードで分離可能な純粋な状態から始めます。 確率論的解釈に頼らずに運動の量子方程式を正確に解くことで、1つのモードの初期波動関数が最小のハイゼンベルクの不確実性(これは古典的粒子と一致する)に従うウェーブパケットと異なる場合、各モードの時間進化の因果性は内部的に破壊される。 これはまた、2つのモード間の量子絡み合いの出現にも繋がる。 因果関係の欠如は統計の性質である。 ベルの定理は、量子力学の確率論的解釈における局所的な隠れ変数の存在を規定するのみである。 これは、量子力学の確率論的性質を誘導する部分系の力学進化における内部因果関係の破滅であり、系全体の力学進化は決定論的シュルンディンガー方程式に完全に従う。 この結論は全ての量子系に対して有効である。 これは、量子力学の決定論的枠組みにおける確率的特徴の根本的な起源を提供する。

Entanglement is the most striking but also most weird property in quantum mechanics, even though it has been confirmed by many experiments over decades through the criterion of violating Bell's inequality. However, a fundamental questions arisen from EPR paradox is still not fully understood, that is, why and how entanglement emerges in quantum realm but not in classical world. In this paper, we investigate the quantum dynamics of two photonic modes (or any two bosonic modes) coupled to each other through a beam splitting. Such a coupling fails to produce two-mode entanglement. We also start with an initially separable pure state for the two modes, namely, there are no entanglement and statistic probability feature to begin with. By solving the quantum equation of motion exactly without relying on the probabilistic interpretation, we find that when the initial wave function of one mode is different from a wave packet obeying the minimum Heisenberg uncertainty (which corresponds to a well-defined classically particle), the causality in the time-evolution of each mode is internally broken. It also leads to the emergence of quantum entanglement between the two modes. The lack of causality is the nature of statistics. The Bell's theorem only rules out the existence of local hidden variables in the probabilistic interpretation of quantum mechanics. It is the breaking of internal causality in the dynamical evolution of subsystems that induces the probabilistic nature of quantum mechanics, even though the dynamical evolution of the whole system completely obey the deterministic Schr\"{o}dinger equation. This conclusion is valid for all quantum systems. It provides a fundamental origin of the probabilistic feature within the deterministic framework of quantum mechanics.
翻訳日:2024-06-12 00:43:59 公開日:2024-06-10
# FusionINN:脳腫瘍モニタリングのための分解可能な画像融合

FusionINN: Decomposable Image Fusion for Brain Tumor Monitoring ( http://arxiv.org/abs/2403.15769v3 )

ライセンス: Link先を確認
Nishant Kumar, Ziyan Tao, Jaikirat Singh, Yang Li, Peiwen Sun, Binghui Zhao, Stefan Gumhold, (参考訳) 画像融合は通常、複数のソースイメージを単一の融合イメージにマージするために、非可逆ニューラルネットワークを使用する。 しかし, 臨床専門医では, 融合機構が原像の特徴を融合させ, 基礎疾患の理解を困難にするため, 融合画像のみに頼って診断を下すには不十分である可能性がある。 本稿では,新しい分解可能な画像融合フレームワークFusionINNについて紹介する。 FusionINNは、ソース画像から潜伏表現への情報の最小転送を確保しながら、融合画像と並んで潜伏画像を含むことによって、単射性を持つように設計されている。 特に,マルチフォーカスやマルチ露光画像融合といった他のタスクと比較して,医用画像融合などのライフセンシティブな応用には特に重要である。 我々の広範な実験は、既存の識別的および生成的融合法に対して、主観的および客観的にFusionINNを検証する。 さらに,近年の拡散型核融合モデルと比較すると,より高速かつ質的に優れた核融合結果が得られる。

Image fusion typically employs non-invertible neural networks to merge multiple source images into a single fused image. However, for clinical experts, solely relying on fused images may be insufficient for making diagnostic decisions, as the fusion mechanism blends features from source images, thereby making it difficult to interpret the underlying tumor pathology. We introduce FusionINN, a novel decomposable image fusion framework, capable of efficiently generating fused images and also decomposing them back to the source images. FusionINN is designed to be bijective by including a latent image alongside the fused image, while ensuring minimal transfer of information from the source images to the latent representation. To the best of our knowledge, we are the first to investigate the decomposability of fused images, which is particularly crucial for life-sensitive applications such as medical image fusion compared to other tasks like multi-focus or multi-exposure image fusion. Our extensive experimentation validates FusionINN over existing discriminative and generative fusion methods, both subjectively and objectively. Moreover, compared to a recent denoising diffusion-based fusion model, our approach offers faster and qualitatively better fusion results.
翻訳日:2024-06-12 00:43:59 公開日:2024-06-10
# 画像ベースセキュリティアプリケーションにおけるマルチモーダル大規模マルチモーダルモデルVersus Fine-Tuned Vision Transformerの有効性評価

Evaluating the Efficacy of Prompt-Engineered Large Multimodal Models Versus Fine-Tuned Vision Transformers in Image-Based Security Applications ( http://arxiv.org/abs/2403.17787v2 )

ライセンス: Link先を確認
Fouad Trad, Ali Chehab, (参考訳) LLM(Large Language Models)の成功により、LMM(Large Multimodal Models)の開発が並行して増加し、様々な応用の転換が始まっている。 これらの洗練されたマルチモーダルモデルは、テキストや画像などの複数のモダリティを統合することで、複雑なデータを解釈し、解析するために設計されており、それによって、様々なアプリケーションのための新しい道を開くことができる。 本稿では、LLaVA、BakLLaVA、Moondream、Gemini-pro-vision、GPT-4oといった画像とテキストの両方を処理するプロンプトエンジニアリングLMMの適用性と、重要なセキュリティ課題に対処する微調整ビジョントランスフォーマー(ViT)モデルとの比較を行った。 私たちは2つの異なるセキュリティタスクに重点を置いています。 1)モデル内の潜在的なバックドアへのアクセスに利用可能な画像の画素変動など、単純なトリガーを検出する視覚的に明らかなタスク。 2)視覚的表現によるマルウェア分類の視覚的非明白なタスク。 視覚的に明らかなタスクでは、Gemini-pro-vision や GPT-4o のような一部の LMM は、慎重にプロンプトエンジニアリングを行い、GPT-4o は、それぞれ 91.9\% と 91\% の F1-score を達成する可能性を実証している。 しかし、微調整されたViTモデルは、単純さのため、このタスクにおいて完璧な性能を示す。 視覚的に不明瞭なタスクでは、ViTモデルは25のマルウェアクラスの予測において97.11\%、97.61\%でF1スコアを達成し、一方LMMは反復的な迅速な改善にもかかわらず準最適性能を示した。 この研究は、サイバーセキュリティアプリケーションにおける即発的なLMMの強みと限界を示すだけでなく、精密で信頼性の高いタスクのための微調整されたViTモデルの未整合性も強調する。

The success of Large Language Models (LLMs) has led to a parallel rise in the development of Large Multimodal Models (LMMs), which have begun to transform a variety of applications. These sophisticated multimodal models are designed to interpret and analyze complex data by integrating multiple modalities such as text and images, thereby opening new avenues for a range of applications. This paper investigates the applicability and effectiveness of prompt-engineered LMMs that process both images and text, including models such as LLaVA, BakLLaVA, Moondream, Gemini-pro-vision, and GPT-4o, compared to fine-tuned Vision Transformer (ViT) models in addressing critical security challenges. We focus on two distinct security tasks: 1) a visually evident task of detecting simple triggers, such as small pixel variations in images that could be exploited to access potential backdoors in the models, and 2) a visually non-evident task of malware classification through visual representations. In the visually evident task, some LMMs, such as Gemini-pro-vision and GPT-4o, have demonstrated the potential to achieve good performance with careful prompt engineering, with GPT-4o achieving the highest accuracy and F1-score of 91.9\% and 91\%, respectively. However, the fine-tuned ViT models exhibit perfect performance in this task due to its simplicity. For the visually non-evident task, the results highlight a significant divergence in performance, with ViT models achieving F1-scores of 97.11\% in predicting 25 malware classes and 97.61\% in predicting 5 malware families, whereas LMMs showed suboptimal performance despite iterative prompt improvements. This study not only showcases the strengths and limitations of prompt-engineered LMMs in cybersecurity applications but also emphasizes the unmatched efficacy of fine-tuned ViT models for precise and dependable tasks.
翻訳日:2024-06-12 00:34:14 公開日:2024-06-10
# 対立環境におけるアセンブリコードの進化

Evolving Assembly Code in an Adversarial Environment ( http://arxiv.org/abs/2403.19489v2 )

ライセンス: Link先を確認
Irina Maliukov, Gera Weiss, Oded Margalit, Achiya Elyasaf, (参考訳) この作業では、CodeGuruコンペティションのためのアセンブリコードを進化させます。 目標は、敵の生存者からの攻撃に抵抗し、その弱点を見つけることで、最も長い共有メモリを実行するアセンブリープログラムを作成することである。 トップノッチソルバの進化には,アセンブリ言語用の正規形式 (BNF) を指定し,遺伝的プログラミング (GP) を用いてスクラッチからコードを合成する。 我々は,CodeGuruゲームにおいて,人手による勝利者に対するサバイバルの評価を行った。 進化したプログラムは、トレーニング対象のプログラムに弱点を見つけ、利用しました。 進化をさらに推し進めるために,機械学習を用いて解空間を効果的に探索するメメティック演算子を実装した。 この研究は、進化を利用して生存者の弱点を検出するため、サイバーセキュリティに重要な応用がある。 アセンブリBNFはドメインに依存しないため、適合関数を変更することで、コードの弱点を検出し、修正するのに役立つ。 最後に、CodeGuruコンペティションは、敵環境におけるGPとコード進化を分析する新しいプラットフォームを提供する。 この方向のさらなる研究を支援するため、進化した生き残りとその弱点の徹底的な質的分析を行う。

In this work, we evolve Assembly code for the CodeGuru competition. The goal is to create a survivor -- an Assembly program that runs the longest in shared memory, by resisting attacks from adversary survivors and finding their weaknesses. For evolving top-notch solvers, we specify a Backus Normal Form (BNF) for the Assembly language and synthesize the code from scratch using Genetic Programming (GP). We evaluate the survivors by running CodeGuru games against human-written winning survivors. Our evolved programs found weaknesses in the programs they were trained against and utilized them. To push evolution further, we implemented memetic operators that utilize machine learning to explore the solution space effectively. This work has important applications for cyber-security as we utilize evolution to detect weaknesses in survivors. The Assembly BNF is domain-independent; thus, by modifying the fitness function, it can detect code weaknesses and help fix them. Finally, the CodeGuru competition offers a novel platform for analyzing GP and code evolution in adversarial environments. To support further research in this direction, we provide a thorough qualitative analysis of the evolved survivors and the weaknesses found.
翻訳日:2024-06-12 00:34:14 公開日:2024-06-10
# 対実画像生成のベンチマーク

Benchmarking Counterfactual Image Generation ( http://arxiv.org/abs/2403.20287v2 )

ライセンス: Link先を確認
Thomas Melistas, Nikos Spyrou, Nefeli Gkouti, Pedro Sanchez, Athanasios Vlontzos, Yannis Panagakis, Giorgos Papanastasiou, Sotirios A. Tsaftaris, (参考訳) ジェネレーティブAIは、視覚コンテンツ編集に革命をもたらし、画像やビデオの編集に力を入れている。 しかし、全ての編集が等しいわけではない。 自然画像や医用画像などの領域で現実的な編集を行うには、データ生成プロセスに固有の因果関係を尊重する必要がある。 このような画像編集は、反現実的な画像生成体制に該当する。 反ファクト画像生成の評価はかなり複雑で、観測可能な基底の真理を欠いているだけでなく、因果的制約の遵守も必要である。 いくつかの反ファクト画像生成手法と評価指標が存在するが、統合された設定における包括的な比較は欠落している。 本稿では,反実画像生成手法の徹底的なベンチマークを行うための比較フレームワークを提案する。 タスクに使用したすべてのモデルを統合し、新しいデータセットや因果グラフに拡張し、ほとんどのデータセットやメトリクスにまたがる階層的VAEの優位性を実証します。 我々のフレームワークはユーザフレンドリなPythonパッケージに実装されており、コミュニティが構築するための追加のSCM、因果メソッド、生成モデル、データセットを組み込むように拡張できます。

Generative AI has revolutionised visual content editing, empowering users to effortlessly modify images and videos. However, not all edits are equal. To perform realistic edits in domains such as natural image or medical imaging, modifications must respect causal relationships inherent to the data generation process. Such image editing falls into the counterfactual image generation regime. Evaluating counterfactual image generation is substantially complex: not only it lacks observable ground truths, but also requires adherence to causal constraints. Although several counterfactual image generation methods and evaluation metrics exist, a comprehensive comparison within a unified setting is lacking. We present a comparison framework to thoroughly benchmark counterfactual image generation methods. We integrate all models that have been used for the task at hand and expand them to novel datasets and causal graphs, demonstrating the superiority of Hierarchical VAEs across most datasets and metrics. Our framework is implemented in a user-friendly Python package that can be extended to incorporate additional SCMs, causal methods, generative models, and datasets for the community to build on.
翻訳日:2024-06-12 00:34:14 公開日:2024-06-10
# 有機太陽電池の効率劣化予測のための過最適化機械学習モデルの比較

Comparing Hyper-optimized Machine Learning Models for Predicting Efficiency Degradation in Organic Solar Cells ( http://arxiv.org/abs/2404.00173v2 )

ライセンス: Link先を確認
David Valiente, Fernando Rodríguez-Mas, Juan V. Alegre-Requena, David Dalmau, Juan C. Ferrer, (参考訳) 本研究は,多層構造ITO/PEDOT:PSS/P3HT:PCBM/Alを用いた高分子有機太陽電池 (OSC) の電力変換効率 (PCE) による時間劣化の最適機械学習モデルを提案する。 そこで我々は,製造プロセスと環境条件の両方に関して最大7変数を含む996項目のデータベースを180日間以上作成した。 そこで私たちは、コマンドラインインターフェースだけでデータベースに対してシーケンシャルに実行する自動MLプロトコルの集合体をまとめるソフトウェアフレームワークを頼りにしました。 これにより、徹底的なベンチマークによってMLモデルの超最適化およびランダム化が可能になり、最適なモデルが得られる。 一方、根平均二乗誤差(RMSE)、二乗誤差(SSE)の和、および平均絶対誤差(MAE)>1%の目標値であるPCEは、係数決定(R2)の値に達した。 さらに、データベースにないOSCの動作を確認できる検証されたモデルにコントリビュートする。 この場合 R2~0.96-0.97 と RMSE~1% は、予測する提案の信頼性を確認する。 比較目的では、非線形平均平方(LMS)に基づく古典的ベイズ回帰フィッティング(英語版)も提示され、単一のOSCの単変量に対してのみ十分に機能する。 そのため、MLモデルで示される能力の広さを上回りません。 最後に、MLフレームワークによって提供される標準化された結果により、データセットの変数とOSCの最適性能と安定性の関係について検討する。 再現性は、Githubで公開されているデータセットとともに標準化されたレポートによって保証される。

This work presents a set of optimal machine learning (ML) models to represent the temporal degradation suffered by the power conversion efficiency (PCE) of polymeric organic solar cells (OSCs) with a multilayer structure ITO/PEDOT:PSS/P3HT:PCBM/Al. To that aim, we generated a database with 996 entries, which includes up to 7 variables regarding both the manufacturing process and environmental conditions for more than 180 days. Then, we relied on a software framework that brings together a conglomeration of automated ML protocols that execute sequentially against our database by simply command-line interface. This easily permits hyper-optimizing and randomizing seeds of the ML models through exhaustive benchmarking so that optimal models are obtained. The accuracy achieved reaches values of the coefficient determination (R2) widely exceeding 0.90, whereas the root mean squared error (RMSE), sum of squared error (SSE), and mean absolute error (MAE)>1% of the target value, the PCE. Additionally, we contribute with validated models able to screen the behavior of OSCs never seen in the database. In that case, R2~0.96-0.97 and RMSE~1%, thus confirming the reliability of the proposal to predict. For comparative purposes, classical Bayesian regression fitting based on non-linear mean squares (LMS) are also presented, which only perform sufficiently for univariate cases of single OSCs. Hence they fail to outperform the breadth of the capabilities shown by the ML models. Finally, thanks to the standardized results offered by the ML framework, we study the dependencies between the variables of the dataset and their implications for the optimal performance and stability of the OSCs. Reproducibility is ensured by a standardized report altogether with the dataset, which are publicly available at Github.
翻訳日:2024-06-12 00:34:14 公開日:2024-06-10
# 陽電子境界状態に対する二体ディラック方程式の新しい解法

New method for the solution of the two-body Dirac equation for the positronium bound states ( http://arxiv.org/abs/2404.00444v4 )

ライセンス: Link先を確認
E. M. Tursunov, Sh. G. Norbutaev, B. A. Fayzullaev, (参考訳) ポジトロニウムの2体境界状態ディラック方程式を解くための新しい理論法を開発した。 クーロンポテンシャルのみがディラック・ハミルトンに含まれていた。 二つの体 Dirac Hamiltonian は 4$\times$4 のエルミート行列形式で書くことができ、運動量状態の表現で対角化することができる。 調和振動子基底関数を用いた変分法で実行されるパラポジトロニウム基底状態とオルトポジトロニウム基底状態のエネルギースペクトルの数値計算結果は、T.C. Scott et al の高精度有限要素法とよく一致している。 基底状態波動関数の大小成分と小小成分の重みは10$^{-6}$と推定され、小成分の重みは10$^{-12}$と推定される。

A new theoretical method is developed to solve the two-body bound-state Dirac equation for positronium. Only Coulomb potential was included in the Dirac Hamiltonian. It is shown that the two-body Dirac Hamiltonian can be written in the Hermitian matrix form of the 4$\times$4 size and diagonalized in the momentum-state representation. Numerical results for the energy spectrum of the para- and ortho-positronium ground states performed within the variational method using the harmonic oscillator basis functions are in good agreement with a high-precision finite-element method of T.C. Scott et al. After the Fourier transformation into the coordinate-state representation the bound state wave functions of the para-Ps and ortho-Ps do not contain any singularity at the origin in contrast to the method mentioned above. The weights of the large-small and small-large components of the ground state wave functions are estimated to be of order 10$^{-6}$, while the weight of the small-small component is of order 10$^{-12}$.
翻訳日:2024-06-12 00:34:14 公開日:2024-06-10
# ゲージ理論の双対変換と絡み合いエントロピー

Duality transformations and the entanglement entropy of gauge theories ( http://arxiv.org/abs/2404.01987v2 )

ライセンス: Link先を確認
Andrea Bulgarelli, Marco Panero, (参考訳) ゲージ理論における絡み合いの研究は、閉じ込めを含む多くの基本的な現象についての洞察を与えることが期待されている。 しかし、ゲージ理論における絡み合いに関連する量の計算は、ヒルベルト空間の非分解性に由来するあいまいさによって制限される。 本研究では、スピンモデルの観点から二重記述を持つ格子ゲージ理論について研究し、レプリカトリックとR'enyiエントロピーがよく定義される。 この研究の前半では、ゲージ理論のレプリカ空間の構造を導出し、レプリカ幾何学における双対変換を明示的に行う。 次に,モンテカルロシミュレーションを用いて3次元時空次元における$\Z_2$ゲージ理論のエントロピックc-函数を計算し,その双対記述を3次元イジングモデルの観点から利用した。

The study of entanglement in gauge theories is expected to provide insights into many fundamental phenomena, including confinement. However, calculations of quantities related to entanglement in gauge theories are limited by ambiguities that stem from the non-factorizability of the Hilbert space. In this work we study lattice gauge theories that admit a dual description in terms of spin models, for which the replica trick and R\'enyi entropies are well defined. In the first part of this work, we explicitly perform the duality transformation in a replica geometry, deriving the structure of a replica space for a gauge theory. Then, in the second part, we calculate, by means of Monte Carlo simulations, the entropic c-function of the $\Z_2$ gauge theory in three spacetime dimensions, exploiting its dual description in terms of the three-dimensional Ising model.
翻訳日:2024-06-12 00:34:14 公開日:2024-06-10
# 日頭電力価格の確率予測のためのオンライン共形ニューラルネットワークアンサンブル

On-line conformalized neural networks ensembles for probabilistic forecasting of day-ahead electricity prices ( http://arxiv.org/abs/2404.02722v2 )

ライセンス: Link先を確認
Alessandro Brusaferri, Andrea Ballarino, Luigi Grossi, Fabrizio Laurini, (参考訳) 確率的電力価格予測(PEPF、probabilistic electric price forecasting)は、予測の不確実性の適切な定量化を要求され、再生可能エネルギーのシェアが増大する複雑な電力市場における運用を支援するため、関心が高まっている。 分散ニューラルネットワークのアンサンブルは、最近、最先端のPEPFベンチマークより優れていることが示されている。 それでも、予測の地平線上の様々なステップでカバレッジテストに合格できないため、重要な信頼性の強化が必要である。 本研究では,PEPF に対する新しいアプローチを提案する。この手法は,オンライン再校正手順内に展開される共形推論に基づく手法を用いて,最先端のニューラルネットワークのアンサンブルを拡張したものである。 複数の市場地域で実験が行われ、昼の予測が達成され、時間帯のカバレッジが向上し、安定した確率的スコアが得られた。

Probabilistic electricity price forecasting (PEPF) is subject of increasing interest, following the demand for proper quantification of prediction uncertainty, to support the operation in complex power markets with increasing share of renewable generation. Distributional neural networks ensembles have been recently shown to outperform state of the art PEPF benchmarks. Still, they require critical reliability enhancements, as fail to pass the coverage tests at various steps on the prediction horizon. In this work, we propose a novel approach to PEPF, extending the state of the art neural networks ensembles based methods through conformal inference based techniques, deployed within an on-line recalibration procedure. Experiments have been conducted on multiple market regions, achieving day-ahead forecasts with improved hourly coverage and stable probabilistic scores.
翻訳日:2024-06-12 00:24:28 公開日:2024-06-10
# Visual Autoregressive Modeling: 次世代予測によるスケーラブルな画像生成

Visual Autoregressive Modeling: Scalable Image Generation via Next-Scale Prediction ( http://arxiv.org/abs/2404.02905v2 )

ライセンス: Link先を確認
Keyu Tian, Yi Jiang, Zehuan Yuan, Bingyue Peng, Liwei Wang, (参考訳) 我々は,画像上の自己回帰学習を粗大な"next-scale prediction"や"next- resolution prediction"として再定義する,新しい世代パラダイムであるVisual AutoRegressive Modeling (VAR)を提案する。 このシンプルで直感的な手法により、自動回帰変換器(AR)は視覚分布を高速に学習し、一般化することができる。 ImageNet 256x256ベンチマークでは、VARはFrechet開始距離(FID)を18.65から1.73に改善し、開始スコア(IS)を80.4から350.2に改善し、推論速度を約20倍に向上させた。 また、VARは画像品質、推論速度、データ効率、スケーラビリティなど、複数の次元において拡散変換器(DiT)より優れていることを実証的に検証した。 VARモデルのスケールアップは、LLMで見られるのと同様の明確なパワー則のスケーリング法則を示し、-0.998付近の線形相関係数を確かな証拠として示している。 VARはさらに、画像のインペインティング、アウトペインティング、編集など、下流タスクでゼロショットの一般化機能を示す。 これらの結果は、当初VARがLLMの2つの重要な特性であるスケーリング法則とゼロショットタスク一般化をエミュレートしたことを示唆している。 我々は、視覚生成と統合学習のためのAR/VARモデルの探索を促進するために、すべてのモデルとコードをリリースした。

We present Visual AutoRegressive modeling (VAR), a new generation paradigm that redefines the autoregressive learning on images as coarse-to-fine "next-scale prediction" or "next-resolution prediction", diverging from the standard raster-scan "next-token prediction". This simple, intuitive methodology allows autoregressive (AR) transformers to learn visual distributions fast and generalize well: VAR, for the first time, makes GPT-like AR models surpass diffusion transformers in image generation. On ImageNet 256x256 benchmark, VAR significantly improve AR baseline by improving Frechet inception distance (FID) from 18.65 to 1.73, inception score (IS) from 80.4 to 350.2, with around 20x faster inference speed. It is also empirically verified that VAR outperforms the Diffusion Transformer (DiT) in multiple dimensions including image quality, inference speed, data efficiency, and scalability. Scaling up VAR models exhibits clear power-law scaling laws similar to those observed in LLMs, with linear correlation coefficients near -0.998 as solid evidence. VAR further showcases zero-shot generalization ability in downstream tasks including image in-painting, out-painting, and editing. These results suggest VAR has initially emulated the two important properties of LLMs: Scaling Laws and zero-shot task generalization. We have released all models and codes to promote the exploration of AR/VAR models for visual generation and unified learning.
翻訳日:2024-06-12 00:24:28 公開日:2024-06-10
# $μ$-transferの大規模探索

A Large-Scale Exploration of $μ$-Transfer ( http://arxiv.org/abs/2404.05728v4 )

ライセンス: Link先を確認
Lucas Lingle, (参考訳) 大規模なニューラルネットワークモデルは、言語、ビジョン、オーディオ処理、合成の主要な柱となっているが、その初期化と学習率は、新しいアーキテクチャやモデルサイズがトレーニングされるたびに起こりうる高いコストで、ほとんど洗練されておらず、潜在的に高価な方法で設定されている。 この$\mu$-Parameterization($\mu$P)は、これらの課題に対する潜在的な解決策を提供し、モデルの初期化と学習率のスケーリングルールを与え、さまざまなケースで小さなモデルから大きなモデルへのゼロショットハイパーパラメータ転送を可能にすると伝えられている。 明らかな約束にもかかわらず、$\mu$P 法はまだ広く採用されていない。 本研究は,ユビキタストランスフォーマーアーキテクチャに着目して,実証的に$\mu$Pを調査し,簡単な質問に答えることを目的としている。 最大10Bパラメータのモデルと最大190Bトークンのトレーニング予算を調べると、$\mu$-Transferは重要なケースの大多数を意図して機能するが、そうでないケースもいくつかある。 実験コードベースはhttps://github.com/lucaslingle/mu_transformer/で公開しています。

Large neural network models have become a mainstay of language, vision, and audio processing and synthesis, yet their initialization and learning rates are still set in a largely unsophisticated and potentially expensive fashion, with a potentially high cost incurred every time a new architecture or model size is to be trained. The $\mu$-Parameterization ($\mu$P) offers a potential solution to these challenges, yielding scaling rules for model initialization and learning rates, and reportedly enabling zero-shot hyperparameter transfer from small to large models in a variety of cases. Despite its evident promise, the $\mu$P method is not yet widely adopted, perhaps due to higher implementation complexity, many variations, or complex theoretical background. This work investigates $\mu$P empirically, focusing on the ubiquitous transformer architecture, and aims to answer a simple question: does $\mu$-Transfer yield optimal learning rates in practice? Studying models of up to 10B parameters and training budgets of up to 190B tokens, we find $\mu$-Transfer works as intended for the majority of important cases, yet also identify a few cases where it may not. Our experiment codebase is available at https://github.com/lucaslingle/mu_transformer/
翻訳日:2024-06-12 00:24:28 公開日:2024-06-10
# RQMアナロジーにおける量子等方宇宙:宇宙の地平線

Quantum Isotropic Universe in RQM Analogy: the Cosmological Horizon ( http://arxiv.org/abs/2404.07056v3 )

ライセンス: Link先を確認
Gabriele Barca, Luisa Boglioni, Giovanni Montani, (参考訳) 我々は、自由質量のないスカラー場の存在下での等方宇宙の量子力学を考察し、物理時計の役割を担っている。 ヒルベルト空間は、ミニ超空間のホイーラー・デウィット方程式と物理空間の相対論的スカラー方程式の直接的な類似によって構成される。 特に、宇宙の進化における「転回点」の導入によって、膨張し崩壊する宇宙を表現するという本質的な曖昧さを克服できることを示す。 このように、正および負の周波数は単に時間反転状態と同一視される。 本分析の主目的は地平線演算子の構築であり, 初期特異点近傍の漸近的進化を記述するために, 高分子量子力学を実装した際の量子的挙動について検討する。 この選択の理由は、ポリマーの分散関係が量子力学を支配するとき、局所的なウェーブパケットの固有の拡散によって動機づけられる。 量子地平線作用素の平均値がその半古典的挙動(重合のために修正された)に従うという証拠は、因果性の概念が量子宇宙論の図でも復元可能であることを明確に示している。

We investigate the quantum dynamics of the isotropic Universe in the presence of a free massless scalar field, playing the role of a physical clock. The Hilbert space is constructed via a direct analogy between the Wheeler-DeWitt equation in the minisuperspace and a relativistic scalar one in physical space. In particular, we show how the introduction of a "turning point" in the Universe evolution allows to overcome an intrinsic ambiguity in representing the expanding and collapsing Universe. In this way, the positive and negative frequencies are simply identified with time reversed states. The main subject of the present analysis is the construction of a horizon operator, whose quantum behavior is investigated when Polymer Quantum Mechanics is implemented to describe the asymptotic evolution near the initial singularity. The reason of this choice is motivated by the intrinsic spreading of localized wavepackets when the polymer dispersion relation governs the quantum dynamics. The evidence that the mean value of the quantum horizon operator follows its semiclassical behavior (corrected for polymerization) is a clear indication that a concept of causality can be restored also in the quantum cosmological picture.
翻訳日:2024-06-12 00:24:28 公開日:2024-06-10
# FSRT:顔再現のための顔表情変換器

FSRT: Facial Scene Representation Transformer for Face Reenactment from Factorized Appearance, Head-pose, and Facial Expression Features ( http://arxiv.org/abs/2404.09736v2 )

ライセンス: Link先を確認
Andre Rochow, Max Schwarz, Sven Behnke, (参考訳) 顔再現の課題は、頭部の動きと表情を駆動ビデオから、異なる人物(クロス再現)であるかもしれないソース画像の外観に転送することである。 既存のほとんどの手法はCNNベースで、ソース画像から現在の駆動フレームへの光の流れを推定し、出力アニメーションを生成する。 本稿では,ソース画像のセットラテント表現を演算するためのトランスフォーマーベースのエンコーダを提案する。 次に、キーポイントを条件とした変換器ベースのデコーダと、駆動フレームから抽出した表情ベクトルを用いて、問合せ画素の出力色を予測する。 ソース人物の潜在表現は、外観、頭部ポーズ、表情を分解する自己指導的な方法で学習される。 そのため、クロス再現に完全に適している。 多くの関連する研究とは対照的に、本手法は自然に複数のソース画像に拡張し、人固有の顔力学に適応することができる。 また、学習した表現の過度な適合を防止し、一般化を支援するために必要なデータ拡張および正規化スキームを提案する。 ランダム化ユーザスタディにおいて,我々のアプローチを評価した。 その結果, 運動伝達品質と時間的一貫性の両面において, 最先端技術と比較して優れた性能を示した。

The task of face reenactment is to transfer the head motion and facial expressions from a driving video to the appearance of a source image, which may be of a different person (cross-reenactment). Most existing methods are CNN-based and estimate optical flow from the source image to the current driving frame, which is then inpainted and refined to produce the output animation. We propose a transformer-based encoder for computing a set-latent representation of the source image(s). We then predict the output color of a query pixel using a transformer-based decoder, which is conditioned with keypoints and a facial expression vector extracted from the driving frame. Latent representations of the source person are learned in a self-supervised manner that factorize their appearance, head pose, and facial expressions. Thus, they are perfectly suited for cross-reenactment. In contrast to most related work, our method naturally extends to multiple source images and can thus adapt to person-specific facial dynamics. We also propose data augmentation and regularization schemes that are necessary to prevent overfitting and support generalizability of the learned representations. We evaluated our approach in a randomized user study. The results indicate superior performance compared to the state-of-the-art in terms of motion transfer quality and temporal consistency.
翻訳日:2024-06-12 00:24:28 公開日:2024-06-10
# ClashEval: LLMの内部的事前証拠と外部証拠の間の綱引きの定量化

ClashEval: Quantifying the tug-of-war between an LLM's internal prior and external evidence ( http://arxiv.org/abs/2404.10198v2 )

ライセンス: Link先を確認
Kevin Wu, Eric Wu, James Zou, (参考訳) Retrieval augmented generation(RAG)は、幻覚を緩和し、大規模言語モデル(LLM)の最新の知識を提供するために頻繁に使用される。 しかし、ドキュメント検索が不正確なタスクであり、時にコンテキスト内で誤ったあるいは有害なコンテンツが提示されることを考えると、LLMがどのようにして取得した情報を処理しているのかという疑問が提起される: 提供されたコンテンツが間違っていれば、モデルはそれを無視するか、あるいはエラーを再カプセル化するのか? 逆に、モデルの初期応答が正しくない場合、取得した情報を使って自身を修正することを常に知っているのか、それとも、間違った事前応答を主張しているのか? これに対応するために、6つのドメイン(例えば、薬物摂取量、オリンピック記録、場所)にわたる1200以上の質問のデータセットを、各質問に対する回答に関連するコンテンツとともにキュレートする。 さらに、微妙な誤りから緩やかな誤りまで幅広い内容の回答に正確な摂動を適用した。 GPT-4oを含む6つのトップパフォーマンスLCMをこのデータセット上でベンチマークし、LLMが不正検索されたコンテンツを採用する可能性があり、その60%以上を自分自身の正しい事前知識がオーバーライドされていることを発見した。 しかし、検索された内容がより非現実的である(すなわち、真実から逸脱した)ほど、モデルがそれを採用する可能性は低い。 また、モデルの信頼性が低いほど(トークン確率の測定による)、検索したコンテンツにその情報を採用する可能性が高くなる。 この発見を利用して、検索されたコンテンツに矛盾がある場合のモデル精度を向上させるための簡単な手法を実証する。 我々の結果は、LLMの難しいタスクとベンチマーク、すなわち、正しい検索されたコンテンツが間違っている場合に正しく識別し、提供されたコンテンツが正しくない場合にケースを拒否する能力を強調している。

Retrieval augmented generation (RAG) is frequently used to mitigate hallucinations and provide up-to-date knowledge for large language models (LLMs). However, given that document retrieval is an imprecise task and sometimes results in erroneous or even harmful content being presented in context, this raises the question of how LLMs handle retrieved information: If the provided content is incorrect, does the model know to ignore it, or does it recapitulate the error? Conversely, when the model's initial response is incorrect, does it always know to use the retrieved information to correct itself, or does it insist on its wrong prior response? To answer this, we curate a dataset of over 1200 questions across six domains (e.g., drug dosages, Olympic records, locations) along with content relevant to answering each question. We further apply precise perturbations to the answers in the content that range from subtle to blatant errors. We benchmark six top-performing LLMs, including GPT-4o, on this dataset and find that LLMs are susceptible to adopting incorrect retrieved content, overriding their own correct prior knowledge over 60% of the time. However, the more unrealistic the retrieved content is (i.e. more deviated from truth), the less likely the model is to adopt it. Also, the less confident a model is in its initial response (via measuring token probabilities), the more likely it is to adopt the information in the retrieved content. We exploit this finding and demonstrate simple methods for improving model accuracy where there is conflicting retrieved content. Our results highlight a difficult task and benchmark for LLMs -- namely, their ability to correctly discern when it is wrong in light of correct retrieved content and to reject cases when the provided content is incorrect.
翻訳日:2024-06-12 00:24:28 公開日:2024-06-10
# 正確な故障検出・診断のための説明可能な人工知能技術

Explainable Artificial Intelligence Techniques for Accurate Fault Detection and Diagnosis: A Review ( http://arxiv.org/abs/2404.11597v2 )

ライセンス: Link先を確認
Ahmed Maged, Salah Haridy, Herman Shen, (参考訳) 製造業がセンサーの統合と自動化で進歩するにつれ、機械学習におけるディープラーニングモデルの不透明な性質は、障害検出と診断において重要な課題となっている。 そして、人工知能(AI)がもたらす予測的な洞察にもかかわらず、先進的な機械学習エンジンはブラックボックスのままであることが多い。 本稿では、この文脈におけるeXplainable AI(XAI)ツールとテクニックについてレビューする。 我々は、AI決定を透明にする役割、特に人間が関与する重要なシナリオに焦点をあて、様々なXAI方法論を探求する。 また、重要な産業ユースケースにおけるAIアプリケーションのコンテキストにおける信頼性を改善しながら、モデルパフォーマンスと説明可能性のバランスをとることを目的とした、現在の制限と将来の研究についても論じる。

As the manufacturing industry advances with sensor integration and automation, the opaque nature of deep learning models in machine learning poses a significant challenge for fault detection and diagnosis. And despite the related predictive insights Artificial Intelligence (AI) can deliver, advanced machine learning engines often remain a black box. This paper reviews the eXplainable AI (XAI) tools and techniques in this context. We explore various XAI methodologies, focusing on their role in making AI decision-making transparent, particularly in critical scenarios where humans are involved. We also discuss current limitations and potential future research that aims to balance explainability with model performance while improving trustworthiness in the context of AI applications for critical industrial use cases.
翻訳日:2024-06-12 00:24:28 公開日:2024-06-10
# セマンティックセグメンテーションのためのVision Foundation Modelのベンチマーク方法

How to Benchmark Vision Foundation Models for Semantic Segmentation? ( http://arxiv.org/abs/2404.12172v2 )

ライセンス: Link先を確認
Tommie Kerssies, Daan de Geus, Gijs Dubbelman, (参考訳) 近年の視覚基礎モデル (VFM) は, 様々なタスクにおいて熟練度を示すが, セマンティックセグメンテーションを効果的に行うためには, 教師付き微調整が必要である。 それらのパフォーマンスのベンチマークは、現在のモデルを選択し、このタスクのために将来のモデル開発を導くのに不可欠です。 標準ベンチマークの欠如は比較を複雑にする。 そこで本研究では,VFMのセマンティックセグメンテーションにおける評価方法について検討する。 そのため、様々な設定下で様々なVFMを微調整し、個々の設定がパフォーマンスランキングやトレーニング時間に与える影響を評価する。 この結果に基づき、VFMのViT-B変種を16x16パッチサイズとリニアデコーダで微調整することが推奨されている。 データセットとドメインシフト間でのパフォーマンスランキングが異なるため、トレーニングと評価に複数のデータセットを使用することも推奨されている。 VFMの一般的な実践である線形探索は、エンドツーエンドの微調整を代表していないため推奨されない。 本稿では, セマンティックセグメンテーションのためのVFMの性能解析を行う。 このような分析の結果,プロンプト可能なセグメンテーションによる事前トレーニングは有益ではないことが明らかとなった。一方,抽象表現を用いたマスク画像モデリング(MIM)は,使用した監視方式よりも重要である。 セマンティックセグメンテーションのためのVFMを効率的に微調整するためのコードは、プロジェクトのページからアクセスできる。

Recent vision foundation models (VFMs) have demonstrated proficiency in various tasks but require supervised fine-tuning to perform the task of semantic segmentation effectively. Benchmarking their performance is essential for selecting current models and guiding future model developments for this task. The lack of a standardized benchmark complicates comparisons. Therefore, the primary objective of this paper is to study how VFMs should be benchmarked for semantic segmentation. To do so, various VFMs are fine-tuned under various settings, and the impact of individual settings on the performance ranking and training time is assessed. Based on the results, the recommendation is to fine-tune the ViT-B variants of VFMs with a 16x16 patch size and a linear decoder, as these settings are representative of using a larger model, more advanced decoder and smaller patch size, while reducing training time by more than 13 times. Using multiple datasets for training and evaluation is also recommended, as the performance ranking across datasets and domain shifts varies. Linear probing, a common practice for some VFMs, is not recommended, as it is not representative of end-to-end fine-tuning. The benchmarking setup recommended in this paper enables a performance analysis of VFMs for semantic segmentation. The findings of such an analysis reveal that pretraining with promptable segmentation is not beneficial, whereas masked image modeling (MIM) with abstract representations is crucial, even more important than the type of supervision used. The code for efficiently fine-tuning VFMs for semantic segmentation can be accessed through the project page at: https://tue-mps.github.io/benchmark-vfm-ss/.
翻訳日:2024-06-12 00:24:28 公開日:2024-06-10
# 応用対応量子回路のコンパイルに向けて

Towards Application-Aware Quantum Circuit Compilation ( http://arxiv.org/abs/2404.12433v2 )

ライセンス: Link先を確認
Nils Quetschlich, Florian J. Kiwit, Maximilian A. Wolf, Carlos A. Riofrio, Lukas Burgholzer, Andre Luckow, Robert Wille, (参考訳) 量子コンピューティングは、ソフトウェアとハードウェアの両方で大幅に改善され、量子コンピューティングアプリケーションを実現するための学術と産業への関心を喚起した。 この目的のためには、いくつかのステップが必要である: 根底にある問題は量子回路にエンコードされなければならず、適切なデバイスが選択され、それに従ってコンパイルされなければならない。 このコンパイルステップは、結果のソリューションの品質に大きな影響を与えます。 しかし、現在の最先端のコンパイルツールは、量子回路を実際のアプリケーションを考えることなく命令のシーケンスとして扱う。 本研究では、アプリケーションの考慮を明示的に取り入れ、コンパイル時にソリューションの品質を最適化することを目的とした、別のアプローチが検討されている。 最初の結果は、このアプローチの利点を示している: 量子生成モデルの産業的な応用のために、提案されたアプローチは、Qiskitの最も最適化されたコンパイル方式よりも優れ、より良いソリューション品質をもたらした。 したがって、本研究はアプリケーション対応コンパイルへの第一歩となる。

Quantum computing has made tremendous improvements in both software and hardware that have sparked interest in academia and industry to realize quantum computing applications. To this end, several steps are necessary: The underlying problem must be encoded in a quantum circuit, a suitable device must be selected to execute it, and it must be compiled accordingly. This compilation step has a significant influence on the quality of the resulting solution. However, current state-of-the-art compilation tools treat the quantum circuit as a sequence of instructions without considering the actual application it realizes -- wasting a yet untapped potential to increase the solution quality. In this work, a different approach is explored that explicitly incorporates the application considered and aims to optimize its solution quality during compilation. Initial results show the benefits of this approach: For an industry-inspired application of a quantum generative model, the proposed approach outperformed Qiskit's most-optimized compilation scheme and led to better solution quality. Therefore, this work presents a first step towards application-aware compilation.
翻訳日:2024-06-12 00:14:44 公開日:2024-06-10
# 不完全モーダルを用いたマルチモーダル感性分析のための相関分離型知識蒸留法

Correlation-Decoupled Knowledge Distillation for Multimodal Sentiment Analysis with Incomplete Modalities ( http://arxiv.org/abs/2404.16456v2 )

ライセンス: Link先を確認
Mingcheng Li, Dingkang Yang, Xiao Zhao, Shuaibing Wang, Yan Wang, Kun Yang, Mingyang Sun, Dongliang Kou, Ziyun Qian, Lihua Zhang, (参考訳) マルチモーダル感情分析(MSA)は、マルチモーダルデータを通して人間の感情を理解することを目的としている。 ほとんどのMSAの取り組みは、モダリティ完全性の仮定に基づいている。 しかし、現実の応用においては、いくつかの実用的な要因が不確実なモダリティの欠如を引き起こし、モデルの性能が劇的に低下する。 そこで本研究では,MSAタスクのための相関分離型知識蒸留(CorrKD)フレームワークを提案する。 具体的には、クロスサンプル相関を含む包括的知識を伝達し、欠落した意味論を再構築するサンプルレベルのコントラスト蒸留機構を提案する。 さらに, カテゴリ誘導型蒸留機構を導入し, カテゴリプロトタイプを用いてカテゴリ間相関を捕捉し, 特徴分布を整列させ, 良好な関節表現を生成する。 最終的には、応答不整合と相互情報の最大化により、学生ネットワークの感情決定境界を最適化する応答不整合蒸留戦略を設計する。 3つのデータセットに関する総合的な実験は、我々のフレームワークがいくつかのベースラインと比較して良好な改善を達成できることを示している。

Multimodal sentiment analysis (MSA) aims to understand human sentiment through multimodal data. Most MSA efforts are based on the assumption of modality completeness. However, in real-world applications, some practical factors cause uncertain modality missingness, which drastically degrades the model's performance. To this end, we propose a Correlation-decoupled Knowledge Distillation (CorrKD) framework for the MSA task under uncertain missing modalities. Specifically, we present a sample-level contrastive distillation mechanism that transfers comprehensive knowledge containing cross-sample correlations to reconstruct missing semantics. Moreover, a category-guided prototype distillation mechanism is introduced to capture cross-category correlations using category prototypes to align feature distributions and generate favorable joint representations. Eventually, we design a response-disentangled consistency distillation strategy to optimize the sentiment decision boundaries of the student network through response disentanglement and mutual information maximization. Comprehensive experiments on three datasets indicate that our framework can achieve favorable improvements compared with several baselines.
翻訳日:2024-06-12 00:14:44 公開日:2024-06-10
# LLMがUMLモデリングにどのように役立つか - 初心者アナリストによる探索的研究

How LLMs Aid in UML Modeling: An Exploratory Study with Novice Analysts ( http://arxiv.org/abs/2404.17739v2 )

ライセンス: Link先を確認
Beian Wang, Chong Wang, Peng Liang, Bing Li, Cheng Zeng, (参考訳) GPT-3の登場以来、大規模言語モデル(LLM)は、ソフトウェア工学の分野における研究者、実践者、教育者の目を引いている。 しかし、要求分析やUMLモデリングを補助するLLMの性能については、比較的研究が進んでいない。 本稿では、LLMが初心者アナリストに対して、ユースケースモデル、クラス図、シーケンス図という3つの典型的なUMLモデルを作成するのにどのように役立つかを考察する。 そこで我々は,LLMの助けを借りて,要件モデリングコースに参加した45人の大学生を対象に,これら3つのUMLモデルのモデリングタスクを設計した。 プロジェクトレポートを解析した結果,LLMはUMLモデリングタスクの初心者アナリストとして学生を支援することができることがわかった。

Since the emergence of GPT-3, Large Language Models (LLMs) have caught the eyes of researchers, practitioners, and educators in the field of software engineering. However, there has been relatively little investigation regarding the performance of LLMs in assisting with requirements analysis and UML modeling. This paper explores how LLMs can assist novice analysts in creating three types of typical UML models: use case models, class diagrams, and sequence diagrams. For this purpose, we designed the modeling tasks of these three UML models for 45 undergraduate students who participated in a requirements modeling course, with the help of LLMs. By analyzing their project reports, we found that LLMs can assist undergraduate students as novice analysts in UML modeling tasks, but LLMs also have shortcomings and limitations that should be considered when using them.
翻訳日:2024-06-12 00:14:44 公開日:2024-06-10
# 水中可変ズーム:水中画像強調のための深さ誘導知覚ネットワーク

Underwater Variable Zoom: Depth-Guided Perception Network for Underwater Image Enhancement ( http://arxiv.org/abs/2404.17883v3 )

ライセンス: Link先を確認
Zhixiong Huang, Xinying Wang, Chengpei Xu, Jinjiang Li, Lin Feng, (参考訳) 水中のシーンは、不均一な海洋要素による劣化問題に本質的に関係している。 水中画像強調法(UIE)は、単純な特徴モデリングによってマッピング関数を学習し、より明確な物理的手がかり(例えば深度)が欠如しているため、視力の上昇が制限される。 そこで本研究では,より精密なシーン強調機能を実現するために,より深いUIEモデルに先行して深度を注入することを検討した。 この目的のために,水中可変ズーム (UVZ) と呼ばれる新しい深度誘導型知覚UIEフレームワークを提案する。 具体的には、UVZは2段階のパイプラインを利用する。 第一に、深度推定ネットワークは、訓練中の推定差を抑えるために導入された補助的な監視ネットワークと組み合わせて、臨界深度マップを生成するように設計されている。 第二に、UVZは予測された深度マップを利用することで、近距離シナリオを解析し、異なる領域における局所的および非局所的知覚を可能にする。 5つのベンチマークデータセットに対する大規模な実験は、UVZが優れた視覚的ゲインを達成し、有望な定量的指標を提供することを示す。 さらに、UVZは視覚的なタスク、特に異常な照明条件において、優れた一般化を示すことが確認されている。 コード、モデル、および結果は、https://github.com/WindySprint/UVZ.comで公開されている。

Underwater scenes intrinsically involve degradation problems owing to heterogeneous ocean elements. Prevailing underwater image enhancement (UIE) methods stick to straightforward feature modeling to learn the mapping function, which leads to limited vision gain as it lacks more explicit physical cues (e.g., depth). In this work, we investigate injecting the depth prior into the deep UIE model for more precise scene enhancement capability. To this end, we present a novel depth-guided perception UIE framework, dubbed underwater variable zoom (UVZ). Specifically, UVZ resorts to a two-stage pipeline. First, a depth estimation network is designed to generate critical depth maps, combined with an auxiliary supervision network introduced to suppress estimation differences during training. Second, UVZ parses near-far scenarios by harnessing the predicted depth maps, enabling local and non-local perceiving in different regions. Extensive experiments on five benchmark datasets demonstrate that UVZ achieves superior visual gain and delivers promising quantitative metrics. Besides, UVZ is confirmed to exhibit good generalization in some visual tasks, especially in unusual lighting conditions. The code, models and results are available at: https://github.com/WindySprint/UVZ.
翻訳日:2024-06-12 00:14:44 公開日:2024-06-10
# MinBackProp -- 最小限の解決を通じてバックプロパゲート

MinBackProp -- Backpropagating through Minimal Solvers ( http://arxiv.org/abs/2404.17993v2 )

ライセンス: Link先を確認
Diana Sungatullina, Tomas Pajdla, (参考訳) 本稿では、エンドツーエンドのニューラルネットワークトレーニングにおいて、最小限の問題解決者を通してバックプロパゲーションを行うアプローチを提案する。 手作業で構築された公式、有限差分、オートグレードに依存する従来の手法は、複雑な最小限の問題解決者にとって、困難で近似的で不安定である。 インプリシット関数定理(IFT)を用いて微分を計算し、最小問題解法の解をバックプロパゲートすることは単純で高速で安定であることを示す。 私たちは我々のアプローチと比べる i) 最小限の問題解法における標準オートグレードを用いて、SVDおよびEigに基づく解法を通して、既存のバックプロパゲーション公式に関連付けること。 (ii) 既存のPyTorch Deep Declarative Networks (DDN)フレームワークでバックプロップを実装する。 本稿では,3次元点登録のための外乱除去重量をトレーニングするおもちゃの例と,画像マッチングにおける外乱除去とRANSACサンプリングネットワークの実際の応用について述べる。 本手法は安定性が100\%で, 不安定で遅いオートグレードに比べて10倍高速であり, DDNは安定だが遅い。

We present an approach to backpropagating through minimal problem solvers in end-to-end neural network training. Traditional methods relying on manually constructed formulas, finite differences, and autograd are laborious, approximate, and unstable for complex minimal problem solvers. We show that using the Implicit function theorem (IFT) to calculate derivatives to backpropagate through the solution of a minimal problem solver is simple, fast, and stable. We compare our approach to (i) using the standard autograd on minimal problem solvers and relate it to existing backpropagation formulas through SVD-based and Eig-based solvers and (ii) implementing the backprop with an existing PyTorch Deep Declarative Networks (DDN) framework. We demonstrate our technique on a toy example of training outlier-rejection weights for 3D point registration and on a real application of training an outlier-rejection and RANSAC sampling network in image matching. Our method provides $100\%$ stability and is 10 times faster compared to autograd, which is unstable and slow, and compared to DDN, which is stable but also slow.
翻訳日:2024-06-12 00:14:44 公開日:2024-06-10
# ビジョン・アンド・ランゲージ・デコーダは画像とテキストを等しく使用するか?

Do Vision & Language Decoders use Images and Text equally? How Self-consistent are their Explanations? ( http://arxiv.org/abs/2404.18624v2 )

ライセンス: Link先を確認
Letitia Parcalabescu, Anette Frank, (参考訳) 視覚と言語モデル(VLM)デコーダは現在、マルチモーダルタスクにおける最高のパフォーマンスのアーキテクチャである。 予測の次は、ポストホックまたはCoT設定でも説明を生成することができる。 しかし、予測や説明を生成する際に、視覚とテキストのモダリティがどの程度使われるかは明らかになっていない。 本研究は,VLMが回答を提供するのとは対照的に説明を生成する場合,モダリティに依存するかどうかを考察する。 また,VLMデコーダの自己整合性を評価するために,既存の単調なテストと測定値をVLMデコーダに拡張することで,ポストホックおよびCoT説明設定におけるVLMデコーダの自己整合性を評価する。 VLM は LLM よりも自己整合性が低いことがわかった。 VLデコーダにおけるテキストコントリビューションは、すべての検査作業における画像コントリビューションよりも重要である。 さらに、画像のコントリビューションは、回答生成と比較して説明生成において著しく強い。 この違いは、ポストホックな説明に比べ、CoTではさらに大きい。 最後に,最新のVLデコーダのベンチマークをVALSEベンチマークで提供する。 VLデコーダは、VALSEによってテストされたほとんどの現象に依然として苦戦している。

Vision and language model (VLM) decoders are currently the best-performing architectures on multimodal tasks. Next to predictions, they can also produce explanations, either in post-hoc or CoT settings. However, it is not clear how much they use the vision and text modalities when generating predictions or explanations. In this work, we investigate if VLMs rely on modalities differently when they produce explanations as opposed to providing answers. We also evaluate the self-consistency of VLM decoders in both post-hoc and CoT explanation settings, by extending existing unimodal tests and measures to VLM decoders. We find that VLMs are less self-consistent than LLMs. Text contributions in VL decoders are more important than image contributions in all examined tasks. Moreover, the contributions of images are significantly stronger for explanation generation compared to answer generation. This difference is even larger in CoT compared to post-hoc explanations. Lastly, we provide an up-to-date benchmarking of state-of-the-art VL decoders on the VALSE benchmark, which before only covered VL encoders. We find that VL decoders still struggle with most phenomena tested by VALSE.
翻訳日:2024-06-12 00:14:44 公開日:2024-06-10
# オンライン強化学習による費用効果・エキスパートレベル臨床ノート作成のためのオープンソース大規模言語モデルの適用

Adapting Open-Source Large Language Models for Cost-Effective, Expert-Level Clinical Note Generation with On-Policy Reinforcement Learning ( http://arxiv.org/abs/2405.00715v4 )

ライセンス: Link先を確認
Hanyin Wang, Chufan Gao, Bolun Liu, Qiping Xu, Guleid Hussein, Mohamad El Labban, Kingsley Iheasirim, Hariprasad Korsapati, Chuck Outcalt, Jimeng Sun, (参考訳) GPT-4やGeminiのようなプロプライエタリな大規模言語モデル(LLM)は、臨床テキスト要約タスクにおいて有望な能力を示している。 しかしながら、患者のデータのプライバシに関する懸念と計算コストのため、多くの医療提供者は、外部ジェネリックLLMよりも、小さなローカルホストモデルを使うことを好む。 本研究は、オープンソースのLLaMA-213億パラメーターモデルに対する包括的ドメインおよびタスク固有の適応プロセスを示し、外来患者と医師の対話から高品質な臨床ノートを生成する。 私たちのプロセスには、継続的な事前トレーニング、教師付き微調整、AIと人間のフィードバックからの強化学習が含まれています。 我々は、教師モデルとしてGemini 1.0 Proを用いて、政治強化学習を行うための新しいアプローチであるDistillDirectを導入した。 得られたLLaMA-Clinicは,医師が作成したものと同等の精度で臨床記録を作成できる。 盲目医学読者の研究では、個々の評価の90.4%がLLaMA-Clinicが生み出したノートを「許容可能」以上の3つの基準(現実の読みやすさ、完全性、正確性)で評価している。 より挑戦的な「評価と計画」のセクションでは、LLaMA-クリニックは医師が発行したノート(4.1/5)よりも現実の即応性が高い(4.2/5)。 我々のLLaMA-Clinicモデルでは,外部ジェネリックLLMサービスに比べて3.75倍のコスト削減を実現している。 さらに, 臨床実践において, LLM に頼らず, ベストプラクティスのノートフォーマットを事前に定義することの重要性を強調し, 今後の臨床ノート生成課題の重要点を強調した。 我々は,新たに作成した総合診療録データセットと医師のフィードバックデータセットを公開し,今後の研究を奨励した。

Proprietary Large Language Models (LLMs) such as GPT-4 and Gemini have demonstrated promising capabilities in clinical text summarization tasks. However, due to patient data privacy concerns and computational costs, many healthcare providers prefer using small, locally-hosted models over external generic LLMs. This study presents a comprehensive domain- and task-specific adaptation process for the open-source LLaMA-2 13 billion parameter model, enabling it to generate high-quality clinical notes from outpatient patient-doctor dialogues. Our process incorporates continued pre-training, supervised fine-tuning, and reinforcement learning from both AI and human feedback. We introduced a new approach, DistillDirect, for performing on-policy reinforcement learning with Gemini 1.0 Pro as the teacher model. Our resulting model, LLaMA-Clinic, can generate clinical notes comparable in quality to those authored by physicians. In a blinded physician reader study, the majority (90.4%) of individual evaluations rated the notes generated by LLaMA-Clinic as "acceptable" or higher across all three criteria: real-world readiness, completeness, and accuracy. In the more challenging "Assessment and Plan" section, LLaMA-Clinic scored higher (4.2/5) in real-world readiness than physician-authored notes (4.1/5). Our cost analysis for inference shows that our LLaMA-Clinic model achieves a 3.75-fold cost reduction compared to an external generic LLM service. Additionally, we highlight key considerations for future clinical note-generation tasks, emphasizing the importance of pre-defining a best-practice note format, rather than relying on LLMs to determine this for clinical practice. We have made our newly created synthetic clinic dialogue-note dataset and the physician feedback dataset publicly available to foster future research.
翻訳日:2024-06-12 00:14:44 公開日:2024-06-10
# 色付き表面ボクセルを用いた能動3次元画像再構成

Active Neural 3D Reconstruction with Colorized Surface Voxel-based View Selection ( http://arxiv.org/abs/2405.02568v2 )

ライセンス: Link先を確認
Hyunseo Kim, Hyeonseo Yang, Taekyung Kim, YoonSung Kim, Jin-Hwa Kim, Byoung-Tak Zhang, (参考訳) 3次元シーン再構築におけるアクティブな視点選択は、情報的視点の訓練が再建に欠かせないため、広く研究されている。 近年,Neural Radiance Fields (NeRF) 変種は,不確実性誘導ビュー選択を用いたアクティブ3次元再構成において有望な結果を示している。 彼らは、シーンの幾何学と外観を符号化するニューラルネットワークで推定された不確実性を利用する。 しかしながら、ボクセルベースやニューラルレンダリングといった不確実性統合手法の選択は、伝統的に、幾何学的・外観的関係にかかわらず、推定されるシーンの不確実性の種類に依存している。 本稿では,表面ボクセルによるシーンの不確実性の測定を活かした,カラー化表面ボクセル(CSV)に基づくビューセレクション,NBV(Next-best View)選択手法を提案する。 CSVは、推定シーンの外観の不確実性(eg, 色の不確実性)と推定幾何学情報(eg, 表面)をカプセル化する。 幾何学的情報を用いて,声道ごとの不確実性の集約において,3次元的なシーンの外観の不確かさを解釈する。 その結果、限られた入力データを持つ難解なシナリオの下で、隠蔽された領域や複雑な領域からの不確実性が認識される。 我々の手法は、一般的なデータセット、DTU、Blender、および不均衡な視点を持つ新しいデータセットにおいて、過去の研究よりも優れており、CSVベースのビュー選択により、パフォーマンスが最大30%向上することを示す。

Active view selection in 3D scene reconstruction has been widely studied since training on informative views is critical for reconstruction. Recently, Neural Radiance Fields (NeRF) variants have shown promising results in active 3D reconstruction using uncertainty-guided view selection. They utilize uncertainties estimated with neural networks that encode scene geometry and appearance. However, the choice of uncertainty integration methods, either voxel-based or neural rendering, has conventionally depended on the types of scene uncertainty being estimated, whether geometric or appearance-related. In this paper, we introduce Colorized Surface Voxel (CSV)-based view selection, a new next-best view (NBV) selection method exploiting surface voxel-based measurement of uncertainty in scene appearance. CSV encapsulates the uncertainty of estimated scene appearance (e.g., color uncertainty) and estimated geometric information (e.g., surface). Using the geometry information, we interpret the uncertainty of scene appearance 3D-wise during the aggregation of the per-voxel uncertainty. Consequently, the uncertainty from occluded and complex regions is recognized under challenging scenarios with limited input data. Our method outperforms previous works on popular datasets, DTU and Blender, and our new dataset with imbalanced viewpoints, showing that the CSV-based view selection significantly improves performance by up to 30%.
翻訳日:2024-06-12 00:04:39 公開日:2024-06-10
# 部分的測定能力を有するカリキュラムのエンドツーエンド強化学習

End-to-End Reinforcement Learning of Curative Curtailment with Partial Measurement Availability ( http://arxiv.org/abs/2405.03262v2 )

ライセンス: Link先を確認
Hinrikus Wolf, Luis Böttcher, Sarra Bouchkati, Philipp Lutat, Jens Breitung, Bastian Jung, Tina Möllemann, Viktor Todosijević, Jan Schiefelbein-Lach, Oliver Pohl, Andreas Ulbig, Martin Grohe, (参考訳) エネルギー移行の過程では、発電と消費の拡大が変化し、PVシステム、電気自動車、ヒートポンプなど多くの技術が、特に配電網において電力の流れに影響を与える。 各グリッド接続に対して決定を下すことのできるスケーラブルなメソッドは、分散グリッドにおける混雑のないグリッド操作を可能にするために必要である。 本稿では,配電系統の混雑解消のための新しいエンドツーエンドアプローチを提案する。 我々のアーキテクチャは、電力を削減し、非混雑かつ実現可能なグリッド状態を決定するために適切なリアクティブパワーを設定することを学びます。 最適電力フロー(OPF)のような最先端の手法では、グリッド内の全てのバスの詳細な測定と計算コストが要求される。 対照的に,提案手法は,グリッド内で観測可能なバス数台で,スパース情報に基づく決定を可能にする。 配電網は、一般にはまだ完全にデジタル化されておらず、観測可能であるため、この方法は低電圧グリッドの大部分の意思決定に使用できる。 実際の低電圧グリッドでは、この手法は電圧帯の100 %の違反と98.8 %の資産過負荷を解消する。 その結果, 渋滞のないグリッド操作に十分な品質を確保するために, 実際のグリッド上で決定を下すことが可能であることが示唆された。

In the course of the energy transition, the expansion of generation and consumption will change, and many of these technologies, such as PV systems, electric cars and heat pumps, will influence the power flow, especially in the distribution grids. Scalable methods that can make decisions for each grid connection are needed to enable congestion-free grid operation in the distribution grids. This paper presents a novel end-to-end approach to resolving congestion in distribution grids with deep reinforcement learning. Our architecture learns to curtail power and set appropriate reactive power to determine a non-congested and, thus, feasible grid state. State-of-the-art methods such as the optimal power flow (OPF) demand high computational costs and detailed measurements of every bus in a grid. In contrast, the presented method enables decisions under sparse information with just some buses observable in the grid. Distribution grids are generally not yet fully digitized and observable, so this method can be used for decision-making on the majority of low-voltage grids. On a real low-voltage grid the approach resolves 100\% of violations in the voltage band and 98.8\% of asset overloads. The results show that decisions can also be made on real grids that guarantee sufficient quality for congestion-free grid operation.
翻訳日:2024-06-12 00:04:39 公開日:2024-06-10
# コントラスト学習に基づく特徴抽出を用いたアテンションベース逆正則変分グラフオートエンコーダによる乳腺病理像検索

Breast Histopathology Image Retrieval by Attention-based Adversarially Regularized Variational Graph Autoencoder with Contrastive Learning-Based Feature Extraction ( http://arxiv.org/abs/2405.04211v2 )

ライセンス: Link先を確認
Nematollah Saeidi, Hossein Karshenas, Bijan Shoushtarian, Sepideh Hatamikia, Ramona Woitek, Amirreza Mahbod, (参考訳) 乳がんは世界でも最も多いがんである。 早期発見と適切な治療は、その影響を著しく減少させる。 病理組織学的検査は、迅速かつ正確な診断において重要な役割を担っているが、適切な認識とがんのグレーディングのために、かなりの労働力と経験豊富な医療専門家を必要としていることが多い。 自動画像検索システムは、病理学者ががん組織を同定するのを補助し、診断プロセスを加速する可能性がある。 しかし, 組織像と細胞像の相違により, 正確な画像検索モデルの提案は非常に困難である。 本研究は,乳房組織像検索のための新しいアテンションベース逆正則変分グラフオートエンコーダモデルを提案する。 さらに,クラスタ誘導型コントラスト学習をグラフ特徴抽出器として組み込んで検索性能を向上した。 乳がん組織像の2つの公開データセットにおけるモデルの有効性を評価し,BreakHisデータセットでは平均mAPスコア96.5%,BACHデータセットでは94.7%,mVPスコア91.9%,91.3%の成績を示した。 提案した検索モデルは,臨床現場で診断性能を高め,最終的には患者に利益をもたらす可能性がある。

Breast cancer is the most common cancer type in women worldwide. Early detection and appropriate treatment can significantly reduce its impact. While histopathology examinations play a vital role in rapid and accurate diagnosis, they often require a substantial workforce and experienced medical experts for proper recognition and cancer grading. Automated image retrieval systems have the potential to assist pathologists in identifying cancerous tissues, thereby accelerating the diagnostic process. Nevertheless, due to considerable variability among the tissue and cell patterns in histological images, proposing an accurate image retrieval model is very challenging. This work introduces a novel attention-based adversarially regularized variational graph autoencoder model for breast histological image retrieval. Additionally, we incorporated cluster-guided contrastive learning as the graph feature extractor to boost the retrieval performance. We evaluated the performance of the proposed model on two publicly available datasets of breast cancer histological images and achieved superior or very competitive retrieval performance, with average mAP scores of 96.5% for the BreakHis dataset and 94.7% for the BACH dataset, and mVP scores of 91.9% and 91.3%, respectively. Our proposed retrieval model has the potential to be used in clinical settings to enhance diagnostic performance and ultimately benefit patients.
翻訳日:2024-06-12 00:04:39 公開日:2024-06-10
# EEG-to-Textモデルは機能しているか?

Are EEG-to-Text Models Working? ( http://arxiv.org/abs/2405.06459v2 )

ライセンス: Link先を確認
Hyejeong Jo, Yiqian Yang, Juhyeok Han, Yiqun Duan, Hui Xiong, Won Hee Lee, (参考訳) この研究は、オープン語彙EEG-to-Text翻訳のための既存のモデルを批判的に分析する。 過去の研究では、評価中に暗黙の教師強制をしばしば採用し、パフォーマンス指標を人工的に膨らませた。 さらに、純粋なノイズ入力に対するモデルパフォーマンスの比較という、重要なベンチマークも欠如していた。 本稿では,脳波信号から真に学習するモデルと,トレーニングデータを記憶するモデルとを区別する手法を提案する。 分析の結果,ノイズデータのモデル性能は脳波データに匹敵することがわかった。 これらの知見は、透過的なレポーティングとノイズ入力による厳密なベンチマークを強調し、EEG-to-Text研究における厳格な評価プラクティスの必要性を強調している。 このアプローチにより、モデル能力の信頼性が向上し、ロバストなEEG-テキスト通信システムへの道が開ける。

This work critically analyzes existing models for open-vocabulary EEG-to-Text translation. We identify a crucial limitation: previous studies often employed implicit teacher-forcing during evaluation, artificially inflating performance metrics. Additionally, they lacked a critical benchmark - comparing model performance on pure noise inputs. We propose a methodology to differentiate between models that truly learn from EEG signals and those that simply memorize training data. Our analysis reveals that model performance on noise data can be comparable to that on EEG data. These findings highlight the need for stricter evaluation practices in EEG-to-Text research, emphasizing transparent reporting and rigorous benchmarking with noise inputs. This approach will lead to more reliable assessments of model capabilities and pave the way for robust EEG-to-Text communication systems.
翻訳日:2024-06-12 00:04:39 公開日:2024-06-10
# 基本的ビジュアルネットワーク分析によるマルチモーダルLLMストルグル:VNAベンチマーク

Multimodal LLMs Struggle with Basic Visual Network Analysis: a VNA Benchmark ( http://arxiv.org/abs/2405.06634v2 )

ライセンス: Link先を確認
Evan M. Williams, Kathleen M. Carley, (参考訳) GPT-4 と LLaVa のゼロショット能力を評価し,小型グラフ上で単純な Visual Network Analysis (VNA) タスクを実行する。 我々は,3つの基礎的ネットワーク科学概念に関連する5つのタスクについて,視覚言語モデル (VLM) の評価を行った。 これらのタスクは、基礎となるグラフ理論の概念を理解する人間にとって簡単なように構成されており、グラフの適切な要素を数えることによって全てを解決できる。 GPT-4はLLaVaより一貫して優れていますが、どちらのモデルも提案するすべての視覚的ネットワーク分析タスクに苦労しています。 基礎的なVNAタスクにおけるVLMの評価のための最初のベンチマークを公開している。

We evaluate the zero-shot ability of GPT-4 and LLaVa to perform simple Visual Network Analysis (VNA) tasks on small-scale graphs. We evaluate the Vision Language Models (VLMs) on 5 tasks related to three foundational network science concepts: identifying nodes of maximal degree on a rendered graph, identifying whether signed triads are balanced or unbalanced, and counting components. The tasks are structured to be easy for a human who understands the underlying graph theoretic concepts, and can all be solved by counting the appropriate elements in graphs. We find that while GPT-4 consistently outperforms LLaVa, both models struggle with every visual network analysis task we propose. We publicly release the first benchmark for the evaluation of VLMs on foundational VNA tasks.
翻訳日:2024-06-12 00:04:39 公開日:2024-06-10
# Liouville Flow Importance Smpler

Liouville Flow Importance Sampler ( http://arxiv.org/abs/2405.06672v2 )

ライセンス: Link先を確認
Yifeng Tian, Nishant Panda, Yen Ting Lin, (参考訳) 非正規化密度関数からサンプルを生成する革新的なフローベースモデルであるLiouville Flow Importance Sampler(LFIS)を提案する。 LFISは、単純な初期分布から複雑なターゲット分布へサンプルを決定的に輸送する時間依存速度場を学習し、アニール分布の所定の経路で導かれる。 LFISのトレーニングは、導出偏微分方程式の構造を速度場をモデル化するニューラルネットワークに強制するユニークな手法を用いる。 神経速度場を重要なサンプルとして考えることで、サンプル重量は、神経速度場によって駆動されるサンプル軌跡に沿って誤差を蓄積し、統計量の偏りと一貫した推定を確実にすることで計算することができる。 本研究では,LFISが最先端性能を達成したベンチマーク問題に対して,LFISの有効性を実証する。

We present the Liouville Flow Importance Sampler (LFIS), an innovative flow-based model for generating samples from unnormalized density functions. LFIS learns a time-dependent velocity field that deterministically transports samples from a simple initial distribution to a complex target distribution, guided by a prescribed path of annealed distributions. The training of LFIS utilizes a unique method that enforces the structure of a derived partial differential equation to neural networks modeling velocity fields. By considering the neural velocity field as an importance sampler, sample weights can be computed through accumulating errors along the sample trajectories driven by neural velocity fields, ensuring unbiased and consistent estimation of statistical quantities. We demonstrate the effectiveness of LFIS through its application to a range of benchmark problems, on many of which LFIS achieved state-of-the-art performance.
翻訳日:2024-06-11 23:54:54 公開日:2024-06-10
# FreeVA: トレーニングフリーのビデオアシスタントとしてのオフラインMLLM

FreeVA: Offline MLLM as Training-Free Video Assistant ( http://arxiv.org/abs/2405.07798v2 )

ライセンス: Link先を確認
Wenhao Wu, (参考訳) 本稿では,Multimodal Large Language Models (MLLMs: Video Assistant)の最新技術を再考するための実証的研究を行う。 この研究、つまりFreeVAは、既存の画像ベースのMLLMをトレーニング不要な方法でビデオ領域に拡張することを目的としている。 この研究は、必須だが必須のベースラインを提供し、いくつかの驚くべき発見を明らかにします。 1) オフライン画像ベースMLLMのみを活用するFreeVAは、ゼロショットビデオ質問応答(例えば、MSVD-QA、ActivityNet-QA、MSRVTT-QA)に優れており、ビデオ命令チューニングを含む最先端の手法を超越している。 2)メインストリームのビデオベースMLLMは,イメージベースMLLM(例,LLaVA)で初期化され,次にビデオインストラクションチューニングを用いた微調整を行うのが一般的であるが,ビデオインストラクションチューニングに広く採用されているVideoInstruct-100Kを用いることで,トレーニングを行わないことに比べ,実際のパフォーマンスは向上しない。 3) 既存の作業で一般的に使用されている評価指標は, GPT APIバージョンの変更によって大きく影響される。 無視すれば、これは異なる方法の比較の公平性と均一性に影響し、この分野の研究者の分析と判断に影響を与える可能性がある。 MLLMの進歩は現在活発であり、この分野に多くの研究者を引き寄せている。 本研究は,ビデオ領域における既存のMLLMの直接評価を奨励するとともに,ビデオ対話モデルの分野をある程度標準化し,プラグイン・アンド・プレイ・シンプルかつ効果的なベースラインとして機能することを目的としている。 現在のビデオMLLMメソッドは、イメージMLLM以上の知識を本当に獲得していますか? コードはhttps://github.com/whwu95/FreeVAで入手できる。

This paper undertakes an empirical study to revisit the latest advancements in Multimodal Large Language Models (MLLMs): Video Assistant. This study, namely FreeVA, aims to extend existing image-based MLLM to the video domain in a training-free manner. The study provides an essential, yet must-know baseline, and reveals several surprising findings: 1) FreeVA, leveraging only offline image-based MLLM without additional training, excels in zero-shot video question-answering (e.g., MSVD-QA, ActivityNet-QA, and MSRVTT-QA), even surpassing state-of-the-art methods that involve video instruction tuning. 2) While mainstream video-based MLLMs typically initialize with an image-based MLLM (e.g., LLaVA) and then fine-tune using video instruction tuning, the study indicates that utilizing the widely adopted VideoInstruct-100K for video instruction tuning doesn't actually lead to better performance compared to not training at all. 3) The commonly used evaluation metrics in existing works are significantly influenced by changes in the GPT API version over time. If ignored, this could affect the fairness and uniformity of comparisons between different methods and impact the analysis and judgment of researchers in the field. The advancement of MLLMs is currently thriving, drawing numerous researchers into the field. We aim for this work to serve as a plug-and-play, simple yet effective baseline, encouraging the direct evaluation of existing MLLMs in video domain while also standardizing the field of video conversational models to a certain extent. Also, we encourage researchers to reconsider: Have current video MLLM methods truly acquired knowledge beyond image MLLM? Code is available at https://github.com/whwu95/FreeVA
翻訳日:2024-06-11 23:54:54 公開日:2024-06-10
# 簡単な質問によるアクティブラーニング

Active Learning with Simple Questions ( http://arxiv.org/abs/2405.07937v2 )

ライセンス: Link先を確認
Vasilis Kontonis, Mingchen Ma, Christos Tzamos, (参考訳) 我々は、学習者がドメイン X に属する n 個の未ラベル例のプール S を提示し、対象概念 h^* \in H に一致する基礎的なラベリングを見つけるためにクエリーを尋ねる。 ラベルの単一例を問う従来のアクティブラーニングとは対照的に、学習者がドメイン T \subset X とターゲットラベル y のサブセットを選択できるより一般的な地域クエリーを研究し、学習者が集合 T \cap S のすべての例に対して h^*(x) = y を問う。 私たちの主な貢献は、クエリの数と学習者が使用するクエリ言語の複雑さの間のトレードオフを定量化することです。 本稿では,各領域のVC次元を用いて,領域問合せの複雑さを計測する。 我々は、VC次元 d の任意の仮説クラス H が与えられたとき、VC次元 O(d) を持つ領域クエリファミリー Q を設計でき、任意の n 個の例 S \subset X とすべての h^* \in H に対して、学習者は、Q から O(d log n) のクエリをラベラおよび完全ラベル S に送信することができることを示す。 最後に、間隔の和、高次元ボックス、およびd次元半空間を含むよく研究された仮説クラスに注目し、より強い結果を得る。 特に、我々は学習アルゴリズムを設計する。 i) 計算効率が高く (ii) 学習者のサンプルSのプールに基づいてクエリが答えられなくても、未知のSのスーパーセットL上で作業する。

We consider an active learning setting where a learner is presented with a pool S of n unlabeled examples belonging to a domain X and asks queries to find the underlying labeling that agrees with a target concept h^* \in H. In contrast to traditional active learning that queries a single example for its label, we study more general region queries that allow the learner to pick a subset of the domain T \subset X and a target label y and ask a labeler whether h^*(x) = y for every example in the set T \cap S. Such more powerful queries allow us to bypass the limitations of traditional active learning and use significantly fewer rounds of interactions to learn but can potentially lead to a significantly more complex query language. Our main contribution is quantifying the trade-off between the number of queries and the complexity of the query language used by the learner. We measure the complexity of the region queries via the VC dimension of the family of regions. We show that given any hypothesis class H with VC dimension d, one can design a region query family Q with VC dimension O(d) such that for every set of n examples S \subset X and every h^* \in H, a learner can submit O(d log n) queries from Q to a labeler and perfectly label S. We show a matching lower bound by designing a hypothesis class H with VC dimension d and a dataset S \subset X of size n such that any learning algorithm using any query class with VC dimension less than O(d) must make poly(n) queries to label S perfectly. Finally, we focus on well-studied hypothesis classes including unions of intervals, high-dimensional boxes, and d-dimensional halfspaces, and obtain stronger results. In particular, we design learning algorithms that (i) are computationally efficient and (ii) work even when the queries are not answered based on the learner's pool of examples S but on some unknown superset L of S
翻訳日:2024-06-11 23:54:54 公開日:2024-06-10
# RAID: 機械生成テキスト検出器のロバスト評価のための共有ベンチマーク

RAID: A Shared Benchmark for Robust Evaluation of Machine-Generated Text Detectors ( http://arxiv.org/abs/2405.07940v2 )

ライセンス: Link先を確認
Liam Dugan, Alyssa Hwang, Filip Trhlik, Josh Magnus Ludan, Andrew Zhu, Hainiu Xu, Daphne Ippolito, Chris Callison-Burch, (参考訳) 多くの商用およびオープンソースモデルは、非常に高い精度(99%以上)で機械生成テキストを検出すると主張している。 しかし、これらの検出装置のごく一部は、共有ベンチマークデータセットで評価されており、たとえそれであっても、サンプリング戦略、敵攻撃、オープンソースの生成モデルにおいて、評価に使用されるデータセットは不十分に難題である。 本研究では,機械生成テキスト検出のための最大かつ最も困難なベンチマークデータセットであるRAIDを紹介する。 RAIDには、11モデルにまたがる600万世代、ドメイン8、敵攻撃11、デコード戦略4がある。 RAIDを用いて,8つのクローズドソース検出器と4つのクローズドソース検出器のドメイン外および逆方向のロバスト性を評価し,現在の検出器は,敵攻撃やサンプリング戦略のバリエーション,繰り返し罰則,予期せぬ生成モデルによって容易に騙されることがわかった。 将来の研究を促進するために、リーダーボードとともにデータを公開しています。

Many commercial and open-source models claim to detect machine-generated text with extremely high accuracy (99% or more). However, very few of these detectors are evaluated on shared benchmark datasets and even when they are, the datasets used for evaluation are insufficiently challenging-lacking variations in sampling strategy, adversarial attacks, and open-source generative models. In this work we present RAID: the largest and most challenging benchmark dataset for machine-generated text detection. RAID includes over 6 million generations spanning 11 models, 8 domains, 11 adversarial attacks and 4 decoding strategies. Using RAID, we evaluate the out-of-domain and adversarial robustness of 8 open- and 4 closed-source detectors and find that current detectors are easily fooled by adversarial attacks, variations in sampling strategies, repetition penalties, and unseen generative models. We release our data along with a leaderboard to encourage future research.
翻訳日:2024-06-11 23:54:54 公開日:2024-06-10
# 強化学習における高速2時間スケール確率勾配法

Fast Two-Time-Scale Stochastic Gradient Method with Applications in Reinforcement Learning ( http://arxiv.org/abs/2405.09660v2 )

ライセンス: Link先を確認
Sihan Zeng, Thinh T. Doan, (参考訳) 二段階最適化はZeng et al (2024)で導入されたフレームワークであり、強化学習(RL)における様々な政策評価と政策最適化問題を抽象化する。 この2時間スケール最適化フレームワークは、特定の確率的オラクルの下での双レベル最適化と同様に、低レベル問題の解に依存する勾配評価を持つ上位レベル目標を持ち、強い単調作用素の根を求める。 本研究では,従来の手法よりもはるかに高速な収束を実現する2段階最適化手法を提案する。 我々のアプローチの鍵となる考え方は、決定変数を更新する前に、下層と上層の両方の演算子の見積もりを改善する平均的なステップを活用することである。 これらの付加的な平均化ステップは、主変数間の直接結合を排除し、アルゴリズムの性能を高速化する。 提案アルゴリズムの有限時間収束速度を, 強凸性, 凸性, ポリアック・ロジャシエヴィチ条件, 一般凸性など, 基礎となる目的関数の様々な条件下で特徴づける。 これらの値は、標準的な2時間スケール確率近似アルゴリズムの最もよく知られた複雑さよりも大幅に改善される。 RLに適用した場合、提案アルゴリズムが既存の最先端技術に匹敵する新しいオンラインサンプルベース手法にどのように特化しているかを示す。 最後に,RLの数値シミュレーションによる理論的結果を支持する。

Two-time-scale optimization is a framework introduced in Zeng et al. (2024) that abstracts a range of policy evaluation and policy optimization problems in reinforcement learning (RL). Akin to bi-level optimization under a particular type of stochastic oracle, the two-time-scale optimization framework has an upper level objective whose gradient evaluation depends on the solution of a lower level problem, which is to find the root of a strongly monotone operator. In this work, we propose a new method for solving two-time-scale optimization that achieves significantly faster convergence than the prior arts. The key idea of our approach is to leverage an averaging step to improve the estimates of the operators in both lower and upper levels before using them to update the decision variables. These additional averaging steps eliminate the direct coupling between the main variables, enabling the accelerated performance of our algorithm. We characterize the finite-time convergence rates of the proposed algorithm under various conditions of the underlying objective function, including strong convexity, convexity, Polyak-Lojasiewicz condition, and general non-convexity. These rates significantly improve over the best-known complexity of the standard two-time-scale stochastic approximation algorithm. When applied to RL, we show how the proposed algorithm specializes to novel online sample-based methods that surpass or match the performance of the existing state of the art. Finally, we support our theoretical results with numerical simulations in RL.
翻訳日:2024-06-11 23:54:54 公開日:2024-06-10
# NeRFからガウスプレートへ, そしてバックへ

From NeRFs to Gaussian Splats, and Back ( http://arxiv.org/abs/2405.09717v2 )

ライセンス: Link先を確認
Siming He, Zach Osman, Pratik Chaudhari, (参考訳) 限られた数の(典型的には自我中心の)ビューがあるロボティクスアプリケーションでは、ニューラルラディアンスフィールド(NeRF)のようなパラメトリック表現は、ガウススプラッティング(GS)のような非パラメトリックのビューよりも、トレーニングデータと非常に異なるビューに一般化される。 我々はこの2つを前後に変換する手順を開発する。 提案手法は,NRF (PSNR, SSIM, LPIPS) とGS (リアルタイムレンダリング, 表現の修正能力) の双方の利点を生かし, これらの変換の計算コストは, スクラッチからトレーニングするよりも小さかった。

For robotics applications where there is a limited number of (typically ego-centric) views, parametric representations such as neural radiance fields (NeRFs) generalize better than non-parametric ones such as Gaussian splatting (GS) to views that are very different from those in the training data; GS however can render much faster than NeRFs. We develop a procedure to convert back and forth between the two. Our approach achieves the best of both NeRFs (superior PSNR, SSIM, and LPIPS on dissimilar views, and a compact representation) and GS (real-time rendering and ability for easily modifying the representation); the computational cost of these conversions is minor compared to training the two from scratch.
翻訳日:2024-06-11 23:54:54 公開日:2024-06-10
# 高速コミッタマシン:カーネルによる解釈可能な予測

The fast committor machine: Interpretable prediction with kernels ( http://arxiv.org/abs/2405.10410v2 )

ライセンス: Link先を確認
D. Aristoff, M. Johnson, G. Simpson, R. J. Webber, (参考訳) 確率的システムの研究において、コミッタ関数は、初期設定から始まるシステムが、セット$A$の前にセット$B$に達する確率を記述する。 本稿では, 高速コミッタマシン (FCM) と呼ばれる, コミッタを近似するための効率的かつ解釈可能なアルゴリズムを提案する。 FCMは、シミュレーションされた軌跡データを使用して、コミッタのカーネルベースのモデルを構築する。 カーネル関数は、$A$から$B$遷移を最適に記述する低次元部分空間を強調するように構成される。 カーネルモデルの係数はランダム化された線形代数を用いて決定され、データポイント数で線形にスケールするランタイムとなる。 三重井戸電位とアラニンジペプチドを含む数値実験では、FCMは精度が高く、同じ数のパラメータを持つニューラルネットワークよりも速く訓練する。 FCMはニューラルネットよりも解釈可能である。

In the study of stochastic systems, the committor function describes the probability that a system starting from an initial configuration $x$ will reach a set $B$ before a set $A$. This paper introduces an efficient and interpretable algorithm for approximating the committor, called the "fast committor machine" (FCM). The FCM uses simulated trajectory data to build a kernel-based model of the committor. The kernel function is constructed to emphasize low-dimensional subspaces which optimally describe the $A$ to $B$ transitions. The coefficients in the kernel model are determined using randomized linear algebra, leading to a runtime that scales linearly in the number of data points. In numerical experiments involving a triple-well potential and alanine dipeptide, the FCM yields higher accuracy and trains more quickly than a neural network with the same number of parameters. The FCM is also more interpretable than the neural net.
翻訳日:2024-06-11 23:54:54 公開日:2024-06-10
# 量子トレイン:モデル圧縮の観点からのハイブリッド量子古典機械学習の再考

Quantum-Train: Rethinking Hybrid Quantum-Classical Machine Learning in the Model Compression Perspective ( http://arxiv.org/abs/2405.11304v2 )

ライセンス: Link先を確認
Chen-Yu Liu, En-Jui Kuo, Chu-Hsuan Abraham Lin, Jason Gemsun Young, Yeong-Jar Chang, Min-Hsiu Hsieh, Hsi-Sheng Goan, (参考訳) 我々は、量子コンピューティングと古典的な機械学習アルゴリズムを統合する新しいアプローチであるQuantum-Train(QT)フレームワークを導入し、データエンコーディング、モデル圧縮、推論ハードウェア要求における重要な課題に対処する。 精度がわずかに低下しても、QTは古典的なマッピングモデルとともに量子ニューラルネットワークを使用することで、トレーニング中にパラメータカウントを$M$から$O(\text{polylog} (M)$に大幅に削減することで、顕著な結果が得られる。 我々の実験は、分類タスクにおけるQTの有効性を実証し、量子計算の利点を活用して機械学習に革命をもたらす可能性についての洞察を提供する。 このアプローチはモデルの効率を向上するだけでなく、一般化エラーを低減し、さまざまな機械学習アプリケーションにまたがるQTの可能性を示す。

We introduces the Quantum-Train(QT) framework, a novel approach that integrates quantum computing with classical machine learning algorithms to address significant challenges in data encoding, model compression, and inference hardware requirements. Even with a slight decrease in accuracy, QT achieves remarkable results by employing a quantum neural network alongside a classical mapping model, which significantly reduces the parameter count from $M$ to $O(\text{polylog} (M))$ during training. Our experiments demonstrate QT's effectiveness in classification tasks, offering insights into its potential to revolutionize machine learning by leveraging quantum computational advantages. This approach not only improves model efficiency but also reduces generalization errors, showcasing QT's potential across various machine learning applications.
翻訳日:2024-06-11 23:54:54 公開日:2024-06-10
# 階層的セマンティックグラフを用いた3次元復元におけるガウス制御

Gaussian Control with Hierarchical Semantic Graphs in 3D Human Recovery ( http://arxiv.org/abs/2405.12477v2 )

ライセンス: Link先を確認
Hongsheng Wang, Weiyue Zhang, Sihao Liu, Xinrui Zhou, Jing Li, Zhanyun Tang, Shengyu Zhang, Fei Wu, Feng Lin, (参考訳) 3D Gaussian Splatting (3DGS)は、最近3Dの人間の再構築に進歩を遂げているが、主に2Dピクセルレベルの監視に依存しており、異なる部位の幾何学的複雑さとトポロジ的関係を見越している。 このギャップに対処するために,高忠実度3次元再構成を実現するための階層型人ガウス制御(HUGS)フレームワークを導入する。 我々のアプローチは、幾何学的トポロジーの整合性を確保するために、身体部分の明確な意味的先行を活用することにより、身体部分間の複雑な幾何学的およびトポロジ的関連の捕捉を可能にする。 さらに,大域的な人体の特徴から高周波の特徴を引き離し,表面の細部を洗練させる。 広範囲な実験により,本手法は人体再建において優れた性能を示し,特に表面の細部の改善と体部接合部の精密再構築に有効であることが示された。 コードはhttps://wanghongsheng01.github.io/HUGS/で公開されている。

Although 3D Gaussian Splatting (3DGS) has recently made progress in 3D human reconstruction, it primarily relies on 2D pixel-level supervision, overlooking the geometric complexity and topological relationships of different body parts. To address this gap, we introduce the Hierarchical Graph Human Gaussian Control (HUGS) framework for achieving high-fidelity 3D human reconstruction. Our approach involves leveraging explicitly semantic priors of body parts to ensure the consistency of geometric topology, thereby enabling the capture of the complex geometrical and topological associations among body parts. Additionally, we disentangle high-frequency features from global human features to refine surface details in body parts. Extensive experiments demonstrate that our method exhibits superior performance in human body reconstruction, particularly in enhancing surface details and accurately reconstructing body part junctions. Codes are available at https://wanghongsheng01.github.io/HUGS/.
翻訳日:2024-06-11 23:45:08 公開日:2024-06-10
# 近接動作中の未知空間物体の空間推定のためのニューラルラジアンス場の利用

Leveraging Neural Radiance Fields for Pose Estimation of an Unknown Space Object during Proximity Operations ( http://arxiv.org/abs/2405.12728v2 )

ライセンス: Link先を確認
Antoine Legrand, Renaud Detry, Christophe De Vleeschouwer, (参考訳) 本研究では,モノクロカメラに対する未知のターゲット宇宙船の6次元ポーズの推定,自律型ランデブーへの重要なステップ,および将来のアクティブデブリ除去ミッションに必要な近接操作について述べる。 本稿では,ターゲットCADモデルが未知のターゲットに適用可能な「オフ・ザ・シェルフ」宇宙船ポーズ推定器を提案する。 本手法は,自然界で見られる様々な照明条件を表現するために,学習可能な外観埋め込みを用いたニューラル・レージアンス・フィールド(NeRF)を利用する。 対象画像のスパースコレクションを用いてNeRFモデルをトレーニングし,視点と照明の両面で多様な大きなデータセットを生成する。 このデータセットを使用して、ポーズ推定ネットワークをトレーニングする。 我々は,SPEED+のハードウェア・イン・ザ・ループ画像において,軌道上で遭遇した光に近い照明条件をエミュレートする手法を検証する。 本手法は,スパース画像の集合から,市販の宇宙船のポーズ推定ネットワークの訓練に有効であることが実証された。 さらに,本手法を用いてトレーニングしたネットワークは,ターゲットのCADモデルを用いて生成した合成画像に基づいてトレーニングしたモデルと類似して動作することを示す。

We address the estimation of the 6D pose of an unknown target spacecraft relative to a monocular camera, a key step towards the autonomous rendezvous and proximity operations required by future Active Debris Removal missions. We present a novel method that enables an "off-the-shelf" spacecraft pose estimator, which is supposed to known the target CAD model, to be applied on an unknown target. Our method relies on an in-the wild NeRF, i.e., a Neural Radiance Field that employs learnable appearance embeddings to represent varying illumination conditions found in natural scenes. We train the NeRF model using a sparse collection of images that depict the target, and in turn generate a large dataset that is diverse both in terms of viewpoint and illumination. This dataset is then used to train the pose estimation network. We validate our method on the Hardware-In-the-Loop images of SPEED+ that emulate lighting conditions close to those encountered on orbit. We demonstrate that our method successfully enables the training of an off-the-shelf spacecraft pose estimation network from a sparse set of images. Furthermore, we show that a network trained using our method performs similarly to a model trained on synthetic images generated using the CAD model of the target.
翻訳日:2024-06-11 23:45:08 公開日:2024-06-10
# 光子統計による量子乱数発生器の量子性とランダム性

Quantumness and Randomness of Quantum Random Number Generators via Photon Statistics ( http://arxiv.org/abs/2405.14085v2 )

ライセンス: Link先を確認
Goutam Paul, Nirupam Basak, Soumya Das, (参考訳) いくつかの量子乱数生成(QRNG)モデルがランダム数を生成するために提案されている。 多くのQRNGデバイスは市販のブラックボックスデバイスとして市販されている。 計算上、出力を観察するだけでPRNGとQRNGを区別することはできない。 量子性をテストする一般的な慣習は、実験光子数の平均と分散の直接比較である。 しかし、統計的には、これは有限サンプルサイズのため、実現可能な解ではない。 単一光子を量子源として使用するQRNGは、真の量子乱数を生成する。 単一光子はポアソン統計に従うため、基礎となる分布を決定することにより、QRNGが真に量子的かどうかを決定できる。 本稿では,そのような意思決定プロセスの既存手法の限界を指摘し,より効率的な2次元統計手法を提案する。 また、QRNGは決定論的古典的後処理なしでは真の乱数を生成することができない。 本研究では,指数分布から乱数を生成するQRNGと,一様分布から乱数を生成するQRNGの2つのモデルが,デバイスノイズ下で本質的に類似していることを示す。 上記の2つのモデルの検出器出力はQRNGの量子源から来るランダム性を定量化するためにテストされ、量子性を保持する良い乱数を生成するのに後処理がどれくらい必要かが決定される。 この文脈では、QRNGの基底となるサンプリング分布が$\epsilon$-randomとなるときにも関係を導出する。 この関係により、適切な後処理アルゴリズムを選択することができる。

Several quantum random number generator (QRNG) models have been proposed to produce random numbers, which, due to the quantum theory, are more secure than their classical counterparts. Many QRNG devices are commercially available as off-the-shelf black-box devices. Computationally, it is not possible to distinguish between a PRNG and a QRNG just by observing their outputs. The common practice for testing quantumness is a direct comparison between the mean and the variance of the experimental photon count. However, statistically, this is not a feasible solution either, because of finite sample size. A QRNG that uses single photons as the quantum source produces true quantum random numbers. Since single photons follow sub-Poissonian statistics, by determining the underlying distribution one can conclude whether a QRNG is truly quantum or not. In this work, we point out the limitations of existing methods of such a decision-making processes, and propose a more efficient two-fold statistical method, which can ensure whether an optical source is quantum or not up to a desired confidence level. Also, QRNGs can not produce true random numbers without deterministic classical post-processing. In this work, we also show that the two models of QRNGs, one producing random numbers from exponential distribution and the other from uniform distribution, become essentially similar under device noise. Detector outputs of both the above models can be tested to quantify the randomness coming from the quantum source of a QRNG, which in turn, dictates how much post-processing is required to produce good random numbers retaining quantumness. In this context, we also derive a relation when the underlying sampling distributions of the QRNGs will be $\epsilon$-random. Depending on this relation, a suitable post-processing algorithm can be chosen.
翻訳日:2024-06-11 23:45:08 公開日:2024-06-10
# CFT状態を用いたジッタ空間の探索

Probing de Sitter Space Using CFT States ( http://arxiv.org/abs/2405.14237v2 )

ライセンス: Link先を確認
Kazuki Doi, Naoki Ogawa, Kotaro Shinmyo, Yu-ki Suzuki, Tadashi Takayanagi, (参考訳) 本稿では、バルク局所状態と呼ばれる3次元ド・ジッター空間(dS)における局所励起に双対なCFT状態を構築する。 dS$_3/$CFT$_2$の共役演算は、AdS$_3/$CFT$_2$の共役演算と明らかに異なる。 これにより、CPT不変な方法で異なる一次状態から構築された2つの局所状態を組み合わせる必要がある。 この分析は、dS ユークリッド真空におけるグリーン関数が、AdS のウィック回転から簡単には得られない理由を説明する。 また、この特徴は双対ユークリッド CFT からの時間座標の出現を説明する。 バルク座標値の量子推定のための情報計量は、ド・ジッター空間計量を再現することを示す。

In this paper we construct CFT states dual to local excitations in the three-dimensional de Sitter space (dS), called the bulk local states. We find that the conjugation operation in dS$_3/$CFT$_2$ is notably different from that in AdS$_3/$CFT$_2$. This requires us to combine two bulk local states constructed out of different primary states in a CPT-invariant way. This analysis explains why Green's functions in the dS Euclidean vacuum cannot simply be obtained from the Wick rotation of those in AdS. We also argue that this characteristic feature explains the emergence of time coordinate from the dual Euclidean CFT. We show that the information metric for the quantum estimation of bulk coordinate values replicates the de Sitter space metric.
翻訳日:2024-06-11 23:45:08 公開日:2024-06-10
# 予測も説明できる: より優れたニューラル潜水剤を選択するための数発の予測

When predict can also explain: few-shot prediction to select better neural latents ( http://arxiv.org/abs/2405.14425v2 )

ライセンス: Link先を確認
Kabir Dabholkar, Omri Barak, (参考訳) 潜在変数モデルは、観測された神経活動から基礎となるダイナミクスを推測する強力なツールとして機能する。 しかし、地上の真実データがないため、予測ベンチマークはしばしばプロキシとして使用される。 本研究では,広く使われている「コ・スムーシング」予測フレームワークの限界を明らかにするとともに,より正確な潜伏ダイナミクスを促進するために,改良された数ショット予測手法を提案する。 ヒドゥンマルコフモデルを用いた生徒-教師のセットアップを用いて、高次共生モデル空間は、その潜在表現の中に任意の外部ダイナミクスを持つモデルを包含できることを示した。 これを解決するために、我々は2次計量(co-smoothingの数ショットバージョン)を導入します。 これは、より少ないトライアルを使用して、遅延変数からデータ内のホールドアウトチャネルへの回帰を実行することを含む。 以上の結果から, 準最適コムースティングモデルでは, 数発のコムースティングにおいて, それらのダイナミックスを欠いた「最小」モデルと比較して, 外部ダイナミクスのモデルでは性能が低いことが示唆された。 また、この現象の起源に関する分析的な知見も提供する。 さらに,LFADSとSTNDTの2つの最先端手法を用いて,実際のニューラルネットワークに関する知見を検証した。 基底的真理がなければ、外部ダイナミクスを定量化するためのプロキシ測度を提案する。 すべてのモデルペアの潜伏変数を高共平滑化でクロスデコードすることにより、最小限の外部ダイナミクスを持つモデルを同定する。 数発の共平滑化性能とこの新しい測定値との相関関係を見いだす。 要約すると、我々は、より正確に基底的真理を反映した潜伏変数を得るように設計された新しい予測指標を提案し、潜伏力学の推論に顕著な改善をもたらす。

Latent variable models serve as powerful tools to infer underlying dynamics from observed neural activity. However, due to the absence of ground truth data, prediction benchmarks are often employed as proxies. In this study, we reveal the limitations of the widely-used 'co-smoothing' prediction framework and propose an improved few-shot prediction approach that encourages more accurate latent dynamics. Utilizing a student-teacher setup with Hidden Markov Models, we demonstrate that the high co-smoothing model space can encompass models with arbitrary extraneous dynamics within their latent representations. To address this, we introduce a secondary metric -- a few-shot version of co-smoothing. This involves performing regression from the latent variables to held-out channels in the data using fewer trials. Our results indicate that among models with near-optimal co-smoothing, those with extraneous dynamics underperform in the few-shot co-smoothing compared to 'minimal' models devoid of such dynamics. We also provide analytical insights into the origin of this phenomenon. We further validate our findings on real neural data using two state-of-the-art methods: LFADS and STNDT. In the absence of ground truth, we suggest a proxy measure to quantify extraneous dynamics. By cross-decoding the latent variables of all model pairs with high co-smoothing, we identify models with minimal extraneous dynamics. We find a correlation between few-shot co-smoothing performance and this new measure. In summary, we present a novel prediction metric designed to yield latent variables that more accurately reflect the ground truth, offering a significant improvement for latent dynamics inference.
翻訳日:2024-06-11 23:45:08 公開日:2024-06-10
# AndroidWorld: 自律エージェントのための動的ベンチマーク環境

AndroidWorld: A Dynamic Benchmarking Environment for Autonomous Agents ( http://arxiv.org/abs/2405.14573v2 )

ライセンス: Link先を確認
Christopher Rawles, Sarah Clinckemaillie, Yifan Chang, Jonathan Waltz, Gabrielle Lau, Marybeth Fair, Alice Li, William Bishop, Wei Li, Folawiyo Campbell-Ajala, Daniel Toyama, Robert Berry, Divya Tyamagundlu, Timothy Lillicrap, Oriana Riva, (参考訳) コンピュータを制御することで人間のタスクを実行する自律エージェントは、人間の生産性とアプリケーションアクセシビリティを高めることができる。 しかし、この分野の進歩は現実的で再現可能なベンチマークによって推進される。 私たちは、20の現実世界のAndroidアプリに116のプログラムタスクの報酬信号を提供する、完全に機能するAndroid環境であるAndroidWorldを紹介します。 静的なテストセットを提供する既存のインタラクティブ環境とは異なり、AndroidWorldはパラメータ化され、自然言語で無制限に表現されるタスクを動的に構築する。 リワード信号はコンピュータのシステム状態から導出され、タスクのバリエーションにまたがって耐久性があり、異なるアプリ間で拡張可能である。 AndroidWorldのメリットと運用モードを示すために,新しいコンピュータ制御エージェントM3Aを導入する。 M3Aは、AndroidWorldのタスクの30.6%を完了でき、将来の作業に十分な余地を残している。 さらに、人気のあるデスクトップウェブエージェントをAndroid上で動作させることで、モバイルでは効果が低く、クロスドメインエージェントの実現には将来的な研究が必要であることを示唆している。 最後に、タスクの代表的なサブセット上でのタスク変動に対するM3Aのテストによるロバストネス解析を行い、タスクパラメータの変動がタスクの複雑さを著しく変化させることを示した。 AndroidWorldとこの論文の実験はhttps://github.com/google-research/android_world.comで公開されている。

Autonomous agents that execute human tasks by controlling computers can enhance human productivity and application accessibility. However, progress in this field will be driven by realistic and reproducible benchmarks. We present AndroidWorld, a fully functional Android environment that provides reward signals for 116 programmatic tasks across 20 real-world Android apps. Unlike existing interactive environments, which provide a static test set, AndroidWorld dynamically constructs tasks that are parameterized and expressed in natural language in unlimited ways, thus enabling testing on a much larger and more realistic suite of tasks. Reward signals are derived from the computer's system state, making them durable across task variations and extensible across different apps. To demonstrate AndroidWorld's benefits and mode of operation, we introduce a new computer control agent, M3A. M3A can complete 30.6% of the AndroidWorld's tasks, leaving ample room for future work. Furthermore, we adapt a popular desktop web agent to work on Android, which we find to be less effective on mobile, suggesting future research is needed to achieve universal, cross-domain agents. Finally, we conduct a robustness analysis by testing M3A against a range of task variations on a representative subset of tasks, demonstrating that variations in task parameters can significantly alter a task's complexity and, consequently, an agent's performance, highlighting the importance of testing agents under diverse conditions. AndroidWorld and the experiments in this paper are available at https://github.com/google-research/android_world.
翻訳日:2024-06-11 23:45:08 公開日:2024-06-10
# U-TELL:教師なしタスクエキスパートの生涯学習

U-TELL: Unsupervised Task Expert Lifelong Learning ( http://arxiv.org/abs/2405.14623v2 )

ライセンス: Link先を確認
Indu Solomon, Aye Phyu Phyu Aung, Uttam Kumar, Senthilnath Jayavelu, (参考訳) 連続学習(CL)モデルは、ネットワークを再訓練することなく、連続的に到着するタスクを学習するように設計されている。 しかし、実世界のMLアプリケーションはラベル情報が非常に限られており、これらのモデルは破滅的な忘れ物に悩まされている。 これらの問題に対処するために,教師なしタスクエキスパート生涯学習(Unsupervised Task Expert Lifelong Learning, U-TELL)と呼ばれるタスクエキスパートによる教師なしCLモデルを提案する。 U-TELLの訓練中、我々は新しいタスクの到着について新しい専門家を紹介する。 提案アーキテクチャは,タスクエキスパート,構造化データジェネレータ,タスクアサインラを備える。 各タスクエキスパートは3ブロックで構成されています。 一 タスク分布を捉えてデータの抽象化を行う変分オートエンコーダ 二 k平均クラスタリングモジュール及び 三 潜在タスクデータ署名を保持する構造抽出器 テスト中、タスクアサインラはクラスタリングを行うのに適した専門家を選択する。 U-TELLはタスクサンプルを格納したり再生したりせず、代わりに生成された構造化サンプルを使用してタスクアサインラをトレーニングします。 我々は,U-TELLを5つの教師なしCL法と比較した。 U-TELLは7つのベンチマークと、最高のパフォーマンスベースラインの6倍以上のトレーニング時間で、さまざまなCLシナリオの1つの業界データセットで、すべてのベースラインをパフォーマンスした。

Continual learning (CL) models are designed to learn new tasks arriving sequentially without re-training the network. However, real-world ML applications have very limited label information and these models suffer from catastrophic forgetting. To address these issues, we propose an unsupervised CL model with task experts called Unsupervised Task Expert Lifelong Learning (U-TELL) to continually learn the data arriving in a sequence addressing catastrophic forgetting. During training of U-TELL, we introduce a new expert on arrival of a new task. Our proposed architecture has task experts, a structured data generator and a task assigner. Each task expert is composed of 3 blocks; i) a variational autoencoder to capture the task distribution and perform data abstraction, ii) a k-means clustering module, and iii) a structure extractor to preserve latent task data signature. During testing, task assigner selects a suitable expert to perform clustering. U-TELL does not store or replay task samples, instead, we use generated structured samples to train the task assigner. We compared U-TELL with five SOTA unsupervised CL methods. U-TELL outperformed all baselines on seven benchmarks and one industry dataset for various CL scenarios with a training time over 6 times faster than the best performing baseline.
翻訳日:2024-06-11 23:45:08 公開日:2024-06-10
# Semantica: 適応型画像共有拡散モデル

Semantica: An Adaptable Image-Conditioned Diffusion Model ( http://arxiv.org/abs/2405.14857v2 )

ライセンス: Link先を確認
Manoj Kumar, Neil Houlsby, Emiel Hoogeboom, (参考訳) 画像生成モデルを微調整なしで異なるデータセットに適応させる作業について検討する。 この目的のために,条件付き画像のセマンティクスに基づいて画像を生成することができる画像条件拡散モデルであるSemanticaを紹介する。 Semanticaは、条件入力としてWebページからランダムなイメージを受け取り、同じWebページから別のランダムなイメージをモデル化する。 実験では,事前学習した画像エンコーダの表現性と,高品質な画像生成を実現するための意味に基づくデータフィルタリングの必要性を強調した。 トレーニングが完了すると、データセットからのイメージを入力として単純に使用することで、データセットから新しいイメージを適応的に生成できる。 ImageNet, LSUN Churches, LSUN Bedroom, SUN397におけるSemanticaの転写特性について検討した。

We investigate the task of adapting image generative models to different datasets without finetuneing. To this end, we introduce Semantica, an image-conditioned diffusion model capable of generating images based on the semantics of a conditioning image. Semantica is trained exclusively on web-scale image pairs, that is it receives a random image from a webpage as conditional input and models another random image from the same webpage. Our experiments highlight the expressivity of pretrained image encoders and necessity of semantic-based data filtering in achieving high-quality image generation. Once trained, it can adaptively generate new images from a dataset by simply using images from that dataset as input. We study the transfer properties of Semantica on ImageNet, LSUN Churches, LSUN Bedroom and SUN397.
翻訳日:2024-06-11 23:35:23 公開日:2024-06-10
# 制御可能なメモリを用いたパイプライン並列処理

Pipeline Parallelism with Controllable Memory ( http://arxiv.org/abs/2405.15362v3 )

ライセンス: Link先を確認
Penghui Qi, Xinyi Wan, Nyamdavaa Amar, Min Lin, (参考訳) パイプライン並列性は広く研究されてきたが、既存のスケジュールには体系的な方法論がない。 本稿では,パイプラインスケジュールをビルディングブロックの繰り返しとして分解するフレームワークを提案し,ビルディングブロックの寿命がパイプラインスケジュールのピークアクティベーションメモリを決定することを示す。 観察によってガイドされた結果,既存のパイプラインスケジュールのほとんどすべてが,私たちの知る限りでは,メモリ非効率であることが分かりました。 これを解決するために、制御可能なアクティベーションメモリを備えたメモリ効率の良いビルディングブロック群を導入し、1F1Bのピークアクティベーションメモリを、効率を犠牲にすることなく1/2に削減し、最大スループットで1/3にまで削減する。 また、1F1Bと同じアクティベーションメモリを維持しながら、ほぼゼロのパイプラインバブルを実現できる。 我々の評価は、純粋なパイプライン並列化設定では、スループットの点で1F1Bを7%から55%上回っていることを示している。 提案手法は,大規模言語モデルの1F1Bベースラインよりも16%のスループット向上を示す。

Pipeline parallelism has been widely explored, but most existing schedules lack a systematic methodology. In this paper, we propose a framework to decompose pipeline schedules as repeating a building block and we show that the lifespan of the building block decides the peak activation memory of the pipeline schedule. Guided by the observations, we find that almost all existing pipeline schedules, to the best of our knowledge, are memory inefficient. To address this, we introduce a family of memory efficient building blocks with controllable activation memory, which can reduce the peak activation memory to 1/2 of 1F1B without sacrificing efficiency, and even to 1/3 with comparable throughput. We can also achieve almost zero pipeline bubbles while maintaining the same activation memory as 1F1B. Our evaluations demonstrate that in pure pipeline parallelism settings, our methods outperform 1F1B by from 7% to 55% in terms of throughput. When employing a grid search over hybrid parallelism hyperparameters in practical scenarios, our proposed methods demonstrate a 16% throughput improvement over the 1F1B baseline for large language models.
翻訳日:2024-06-11 23:35:23 公開日:2024-06-10
# CPsyCoun:中国の心理カウンセリングのためのマルチターン対話再構築と評価フレームワーク

CPsyCoun: A Report-based Multi-turn Dialogue Reconstruction and Evaluation Framework for Chinese Psychological Counseling ( http://arxiv.org/abs/2405.16433v3 )

ライセンス: Link先を確認
Chenhao Zhang, Renhao Li, Minghuan Tan, Min Yang, Jingwei Zhu, Di Yang, Jiahao Zhao, Guancheng Ye, Chengming Li, Xiping Hu, (参考訳) 心理学的カウンセリングを支援するために大きな言語モデル(LLM)を使用することは、現時点では重要だが難しい課題である。 LLMの治療において共感的会話を改善するか、効果的なアシスタントとして機能する試みがなされている。 しかし、既存のデータセットにはコンサルティングの知識が欠けており、LSMは専門的なコンサルティング能力に欠けていた。 さらに、カウンセリングプロセス内のマルチターン対話を自動的に評価する方法は、まだ未検討領域である。 このギャップを埋めるため,中国心理カウンセリングのためのレポートベースの多方向対話再構築・評価フレームワークであるCPsyCounを提案する。 心理カウンセリングレポートをフル活用するために,多ターン心理相談の効果的な自動評価のための総合評価ベンチマークを開発しながら,高品質な対話を構築するための2段階のアプローチを考案した。 比較実験の結果,心理学的カウンセリングにおける枠組みの有効性が示された。 我々は、将来の研究のためのデータセットとモデルをhttps://github.com/CAS-SIAT-XinHai/CPsyCounでオープンソース化した。

Using large language models (LLMs) to assist psychological counseling is a significant but challenging task at present. Attempts have been made on improving empathetic conversations or acting as effective assistants in the treatment with LLMs. However, the existing datasets lack consulting knowledge, resulting in LLMs lacking professional consulting competence. Moreover, how to automatically evaluate multi-turn dialogues within the counseling process remains an understudied area. To bridge the gap, we propose CPsyCoun, a report-based multi-turn dialogue reconstruction and evaluation framework for Chinese psychological counseling. To fully exploit psychological counseling reports, a two-phase approach is devised to construct high-quality dialogues while a comprehensive evaluation benchmark is developed for the effective automatic evaluation of multi-turn psychological consultations. Competitive experimental results demonstrate the effectiveness of our proposed framework in psychological counseling. We open-source the datasets and model for future research at https://github.com/CAS-SIAT-XinHai/CPsyCoun
翻訳日:2024-06-11 23:35:23 公開日:2024-06-10
# 自己エンコーダによるUWBランキングのセキュアなチャネル相互性に基づく攻撃検出

Channel Reciprocity Based Attack Detection for Securing UWB Ranging by Autoencoder ( http://arxiv.org/abs/2405.18255v2 )

ライセンス: Link先を確認
Wenlong Gou, Chuanhang Yu, Juntao Ma, Gang Wu, Vladimir Mordachev, (参考訳) ゴーストピーク攻撃に代表される様々な範囲の脅威は、IEEE 802.15.4z標準の完成と共にウルトラウェイドバンド(UWB)システムのセキュリティ性能に関する懸念を引き起こしている。 本稿では, チャネルの相互性に基づいて, チャネルインパルス応答(CIR)特性とデータ圧縮能力, 特徴抽出能力を比較し, チャネルインパルス応答(CIR)特性を比較する。 本稿では, ゴーストピーク攻撃を例として, シミュレーションと実験による攻撃検出手法の有効性, 可能性, 一般化性を示す。 提案手法は,99%以上の攻撃検出成功率を実現し,低コストで現行システムに実装可能である。

A variety of ranging threats represented by Ghost Peak attack have raised concerns regarding the security performance of Ultra-Wide Band (UWB) systems with the finalization of the IEEE 802.15.4z standard. Based on channel reciprocity, this paper proposes a low complexity attack detection scheme that compares Channel Impulse Response (CIR) features of both ranging sides utilizing an autoencoder with the capability of data compression and feature extraction. Taking Ghost Peak attack as an example, this paper demonstrates the effectiveness, feasibility and generalizability of the proposed attack detection scheme through simulation and experimental validation. The proposed scheme achieves an attack detection success rate of over 99% and can be implemented in current systems at low cost.
翻訳日:2024-06-11 23:35:23 公開日:2024-06-10
# FAIIR: 若者のメンタルヘルスサービス提供のための会話型AIエージェントアシスタントの構築

FAIIR: Building Toward A Conversational AI Agent Assistant for Youth Mental Health Service Provision ( http://arxiv.org/abs/2405.18553v2 )

ライセンス: Link先を確認
Stephen Obadinma, Alia Lachana, Maia Norman, Jocelyn Rankin, Joanna Yu, Xiaodan Zhu, Darren Mastropaolo, Deval Pandya, Roxana Sultan, Elham Dolatabadi, (参考訳) 世界の医療システムとメンタルヘルス機関は、限られた資源の同時挑戦とともに、若者のメンタルヘルスサービスへの需要が高まっている。 これらの制約を踏まえ、本研究は、ドメイン適応型および微調整型トランスフォーマーモデルのアンサンブルであるFAIIR(Frontline Assistant: Issue Identification and Recommendation)ツールの作成と評価において、自然言語処理を活用し、若者が経験している可能性のある問題を識別する。 本研究では,FAIIRツールに活用される技術開発,性能,検証プロセスについて,キッズヘルプ電話による最前線危機対応の状況に適用する。 フロントライン危機応答器は、各会話に従って定義されたリストからイシュータグを割り当てる。 関連性の問題の特定の支援は、CRの負担を軽減し、適切な資源を提供し、アクティブな救助や強制的な報告が即時エスカレーションを必要とする重要な状況で実施されることを保証する。

World's healthcare systems and mental health agencies face both a growing demand for youth mental health services, alongside a simultaneous challenge of limited resources. Given these constraints, this work presents our experience in the creation and evaluation of the FAIIR (Frontline Assistant: Issue Identification and Recommendation) tool, an ensemble of domain-adapted and fine-tuned transformer models, leveraging natural language processing to identify issues that youth may be experiencing. We explore the technical development, performance, and validation processes leveraged for the FAIIR tool in application to situations of frontline crisis response via Kids Help Phone. Frontline Crisis Responders assign an issue tag from a defined list following each conversation. Assisting with the identification of issues of relevance helps reduce the burden on CRs, ensuring that appropriate resources can be provided and that active rescues and mandatory reporting can take place in critical situations requiring immediate de-escalation.
翻訳日:2024-06-11 23:25:32 公開日:2024-06-10
# IReNe: ニューラルネットワークのインスタントリカラー化

IReNe: Instant Recoloring of Neural Radiance Fields ( http://arxiv.org/abs/2405.19876v2 )

ライセンス: Link先を確認
Alessio Mazzucchelli, Adrian Garcia-Garcia, Elena Garces, Fernando Rivas-Manzaneque, Francesc Moreno-Noguer, Adrian Penate-Sanchez, (参考訳) NERFの進歩により、3Dシーンの再構築と新しいビュー合成が可能になった。 しかし、これらの表現をフォトリアリズムを維持しながら効率的に編集することは、新たな課題である。 インタラクティブな使用には時間がかかり、オブジェクト境界の精度が欠如しており、マルチビューの一貫性を確保するのに苦労しています。 我々はこれらの制限に対処するためにIReNeを導入し、NeRFにおける高速でほぼリアルタイムな色編集を可能にした。 トレーニング済みのNeRFモデルとユーザ対応のカラー編集を備えた単一のトレーニングイメージを活用して、IReNeはネットワークパラメータを数秒で迅速に調整する。 この調整により、モデルは新しいシーンビューを生成し、トレーニング画像からの色変化を正確に表現し、オブジェクト境界とビュー固有の効果を制御できる。 オブジェクト境界制御は、トレーニング可能なセグメンテーションモジュールをモデルに統合することで実現される。 このプロセスは、最後のネットワーク層の重みだけをトレーニングすることで効率を上げる。 この層内のニューロンは、視力依存的な外見と拡散性外見に寄与するニューロンに分類できる。 我々は,これらのニューロンタイプを同定し,拡散ニューロンの重みを限定的に微調整する自動分類手法を導入する。 これにより、トレーニングをさらに加速し、異なるビューにまたがる一貫性のある色編集が保証される。 オブジェクトの色を編集した新しいデータセットに対する徹底的な検証では、競合に対する量的および質的な進歩を示し、スピードを5倍から500倍に加速する。

Advances in NERFs have allowed for 3D scene reconstructions and novel view synthesis. Yet, efficiently editing these representations while retaining photorealism is an emerging challenge. Recent methods face three primary limitations: they're slow for interactive use, lack precision at object boundaries, and struggle to ensure multi-view consistency. We introduce IReNe to address these limitations, enabling swift, near real-time color editing in NeRF. Leveraging a pre-trained NeRF model and a single training image with user-applied color edits, IReNe swiftly adjusts network parameters in seconds. This adjustment allows the model to generate new scene views, accurately representing the color changes from the training image while also controlling object boundaries and view-specific effects. Object boundary control is achieved by integrating a trainable segmentation module into the model. The process gains efficiency by retraining only the weights of the last network layer. We observed that neurons in this layer can be classified into those responsible for view-dependent appearance and those contributing to diffuse appearance. We introduce an automated classification approach to identify these neuron types and exclusively fine-tune the weights of the diffuse neurons. This further accelerates training and ensures consistent color edits across different views. A thorough validation on a new dataset, with edited object colors, shows significant quantitative and qualitative advancements over competitors, accelerating speeds by 5x to 500x.
翻訳日:2024-06-11 23:25:32 公開日:2024-06-10
# 非交叉表現のための木構造環境による空間正規化

Sparsity regularization via tree-structured environments for disentangled representations ( http://arxiv.org/abs/2405.20482v2 )

ライセンス: Link先を確認
Elliot Layne, Jason Hartford, Sébastien Lachapelle, Mathieu Blanchette, Dhanya Sridhar, (参考訳) 細胞内の生物学的プロセスのような多くの因果系は、遺伝子発現のような測定によってのみ間接的に観察できる。 低レベルの観察を潜伏因果変数に正しくマッピングするタスクである因果表現学習は、経路活性化などの潜伏変数の推測を可能にすることによって科学的理解を促進する可能性がある。 本論文では,複数の関連するデータセット(環境)とタスクから潜在変数を推定する手法を開発する。 実行中の例として、遺伝子発現から表現型を予測するタスクを考える。そこでは、既知の方法で関連している複数の細胞タイプや生物からデータを収集する。 重要な洞察は、遺伝子発現によって引き起こされる潜伏変数から興味の表現型へのマッピングは、密接な関係のある環境間でわずかに変化するということである。 スパース変化をモデル化するために,予測誤差を最小化し,関連する環境を規則化し,類似の予測子を学習するTBR(Tree-Based Regularization)を導入する。 スパース変化の度合いに関する仮定の下では、TBRは真の潜在変数をいくつかの単純な変換まで特定する。 この理論をシミュレーションと基底構造遺伝子発現データの両方で実証的に評価する。 TBRは, 理論のいくつかの仮定に反する設定下であっても, 関連手法よりも潜伏した因果変数を回復することがわかった。

Many causal systems such as biological processes in cells can only be observed indirectly via measurements, such as gene expression. Causal representation learning -- the task of correctly mapping low-level observations to latent causal variables -- could advance scientific understanding by enabling inference of latent variables such as pathway activation. In this paper, we develop methods for inferring latent variables from multiple related datasets (environments) and tasks. As a running example, we consider the task of predicting a phenotype from gene expression, where we often collect data from multiple cell types or organisms that are related in known ways. The key insight is that the mapping from latent variables driven by gene expression to the phenotype of interest changes sparsely across closely related environments. To model sparse changes, we introduce Tree-Based Regularization (TBR), an objective that minimizes both prediction error and regularizes closely related environments to learn similar predictors. We prove that under assumptions about the degree of sparse changes, TBR identifies the true latent variables up to some simple transformations. We evaluate the theory empirically with both simulations and ground-truth gene expression data. We find that TBR recovers the latent causal variables better than related methods across these settings, even under settings that violate some assumptions of the theory.
翻訳日:2024-06-11 23:25:32 公開日:2024-06-10
# まだ軌道にいるの? LLM Task Drift と Activations を併用して

Are you still on track!? Catching LLM Task Drift with Activations ( http://arxiv.org/abs/2406.00799v2 )

ライセンス: Link先を確認
Sahar Abdelnabi, Aideen Fay, Giovanni Cherubin, Ahmed Salem, Mario Fritz, Andrew Paverd, (参考訳) 大規模言語モデル(LLM)は、ユーザや他のソースからの入力を処理したり、タスクを編成したりするための検索拡張されたアプリケーションで日常的に使用される。 これらの入力は、単一のLLM相互作用であっても、様々な信頼性と証明性の様々なソースから得ることができる。 これにより、LDMがデータのみのソースからの命令を受け取り、動作させるようなインジェクション攻撃を誘導する扉が開き、ユーザーの元の命令から逸脱する。 我々はこれをタスクドリフトと定義し、LCMのアクティベーションをスキャンして解析することでこれをキャッチすることを提案する。 我々は、この入力が命令ドリフトを引き起こしたかどうかを検出するために、外部入力の処理前後のLCMのアクティベーションを比較した。 我々は2つの探索法を開発し, 線形分類器を用いることで, 分布外テストセット上で, ほぼ完全なROC AUCでドリフトを検出することができることを確認した。 このアプローチは、これらの攻撃に対してトレーニングを受けることなく、インジェクションやジェイルブレイク、悪意のある指示など、目に見えないタスクドメインに対して驚くほどうまく一般化することを示す。 私たちのセットアップでは、LCM(例えば微調整)やテキスト生成を一切必要とせず、デプロイ性とコスト効率を最大化し、信頼性の低いモデル出力に依存しないようにしています。 アクティベーションベースのタスクインスペクション、デコード、解釈可能性に関する今後の研究を促進するため、500K以上のインスタンスのデータセット、4つのSoTA言語モデルからの表現、検査ツールを含む大規模なTaskTrackerツールキットをリリースする。

Large Language Models (LLMs) are routinely used in retrieval-augmented applications to orchestrate tasks and process inputs from users and other sources. These inputs, even in a single LLM interaction, can come from a variety of sources, of varying trustworthiness and provenance. This opens the door to prompt injection attacks, where the LLM receives and acts upon instructions from supposedly data-only sources, thus deviating from the user's original instructions. We define this as task drift, and we propose to catch it by scanning and analyzing the LLM's activations. We compare the LLM's activations before and after processing the external input in order to detect whether this input caused instruction drift. We develop two probing methods and find that simply using a linear classifier can detect drift with near perfect ROC AUC on an out-of-distribution test set. We show that this approach generalizes surprisingly well to unseen task domains, such as prompt injections, jailbreaks, and malicious instructions, without being trained on any of these attacks. Our setup does not require any modification of the LLM (e.g., fine-tuning) or any text generation, thus maximizing deployability and cost efficiency and avoiding reliance on unreliable model output. To foster future research on activation-based task inspection, decoding, and interpretability, we will release our large-scale TaskTracker toolkit, comprising a dataset of over 500K instances, representations from 4 SoTA language models, and inspection tools.
翻訳日:2024-06-11 23:15:47 公開日:2024-06-10
# 物理インフォームド深層学習と高次元拡散反応方程式の圧縮コロケーション:実用的存在論と数値

Physics-informed deep learning and compressive collocation for high-dimensional diffusion-reaction equations: practical existence theory and numerics ( http://arxiv.org/abs/2406.01539v2 )

ライセンス: Link先を確認
Simone Brugiapaglia, Nick Dexter, Samir Karam, Weiqi Wang, (参考訳) 科学計算の最前線では、Deep Learning(DL)、すなわちDeep Neural Networks(DNN)による機械学習が、部分微分方程式(PDE)を解く強力な新しいツールとして登場した。 DNNは特に、50年代後半にリチャード・ベルマン(Richard E. Bellman)が提唱した「次元の呪い」の効果を弱めるのに適している。 しかし、DNNは90年代以降、PDEの解法として使われてきたが、数値解析(安定性、精度、サンプルの複雑さなど)でそれらの数学的効率を支えている文献は、最近現れ始めたばかりである。 本稿では,分散度に基づく手法とランダムサンプリングを用いた関数近似の最近の進歩を活用し,DLに基づく効率的な高次元PDEソルバの開発と解析を行う。 理論的にも数値的にも,新しい安定かつ高精度なスペクトルコロケーション法と競合できることを示す。 特に,ネットワークアーキテクチャに適切な境界を持つ訓練可能なDNNのクラスと,サンプルの複雑性に十分な条件が存在すること,対数的あるいは最悪の場合,ネットワークが安定かつ正確に拡散反応PDEを高い確率で近似できるような次元の線形スケーリングが存在すること,という新たな実用的存在定理を実証する。

On the forefront of scientific computing, Deep Learning (DL), i.e., machine learning with Deep Neural Networks (DNNs), has emerged a powerful new tool for solving Partial Differential Equations (PDEs). It has been observed that DNNs are particularly well suited to weakening the effect of the curse of dimensionality, a term coined by Richard E. Bellman in the late `50s to describe challenges such as the exponential dependence of the sample complexity, i.e., the number of samples required to solve an approximation problem, on the dimension of the ambient space. However, although DNNs have been used to solve PDEs since the `90s, the literature underpinning their mathematical efficiency in terms of numerical analysis (i.e., stability, accuracy, and sample complexity), is only recently beginning to emerge. In this paper, we leverage recent advancements in function approximation using sparsity-based techniques and random sampling to develop and analyze an efficient high-dimensional PDE solver based on DL. We show, both theoretically and numerically, that it can compete with a novel stable and accurate compressive spectral collocation method. In particular, we demonstrate a new practical existence theorem, which establishes the existence of a class of trainable DNNs with suitable bounds on the network architecture and a sufficient condition on the sample complexity, with logarithmic or, at worst, linear scaling in dimension, such that the resulting networks stably and accurately approximate a diffusion-reaction PDE with high probability.
翻訳日:2024-06-11 23:15:47 公開日:2024-06-10
# 組織スライドのマルチターゲット染色正規化

Multi-target stain normalization for histology slides ( http://arxiv.org/abs/2406.02077v3 )

ライセンス: Link先を確認
Desislav Ivanov, Carlo Alberto Barbano, Marco Grangetto, (参考訳) 従来の染色正規化アプローチ(例: Macenko)は、一般的に単一の代表参照イメージの選択に依存しており、実用的なシナリオで収集されたデータセットの多様な染色パターンを適切に考慮していない可能性がある。 本研究では,複数の参照画像を利用して,染色変化に対するロバスト性を高める手法を提案する。 提案手法はパラメータフリーであり,有意な変化のない既存の計算病理パイプラインに適用可能である。 本手法の有効性を,深層学習パイプラインを用いた大腸画像の自動分割実験により評価した。 以上の結果から,複数の参照画像を活用することにより,外部データへの一般化において,染色がトレーニングセットと大きく異なる場合において,より優れた結果が得られることが示された。

Traditional staining normalization approaches, e.g. Macenko, typically rely on the choice of a single representative reference image, which may not adequately account for the diverse staining patterns of datasets collected in practical scenarios. In this study, we introduce a novel approach that leverages multiple reference images to enhance robustness against stain variation. Our method is parameter-free and can be adopted in existing computational pathology pipelines with no significant changes. We evaluate the effectiveness of our method through experiments using a deep-learning pipeline for automatic nuclei segmentation on colorectal images. Our results show that by leveraging multiple reference images, better results can be achieved when generalizing to external data, where the staining can widely differ from the training set.
翻訳日:2024-06-11 23:15:47 公開日:2024-06-10
# 任意の測地におけるランダム量子回路の計算力

The computational power of random quantum circuits in arbitrary geometries ( http://arxiv.org/abs/2406.02501v2 )

ライセンス: Link先を確認
Matthew DeCross, Reza Haghshenas, Minzhao Liu, Yuri Alexeev, Charles H. Baldwin, John P. Bartolotta, Matthew Bohn, Eli Chertkov, Jonhas Colina, Davide DelVento, Joan M. Dreiling, Cameron Foltz, John P. Gaebler, Thomas M. Gatterman, Christopher N. Gilbreth, Johnnie Gray, Dan Gresh, Nathan Hewitt, Ross B. Hutson, Jacob Johansen, Dominic Lucchetti, Danylo Lykov, Ivaylo S. Madjarov, Karl Mayer, Michael Mills, Pradeep Niroula, Enrico Rinaldi, Peter E. Siegfried, Bruce G. Tiemann, Curtis Volin, James Walker, Ruslan Shaydulin, Marco Pistoia, Steven. A. Moses, David Hayes, Brian Neyenhuis, Russell P. Stutz, Michael Foss-Feig, (参考訳) 古典コンピュータと量子コンピュータの計算能力のギャップに関する実証的な証拠は、二次元量子回路の出力分布をサンプリングする実験によって提供されてきた。 このギャップを埋めようとする試みの多くはテンソルネットワーク技術に基づく古典シミュレーションを利用しており、それらの制限は古典的なシミュラビリティをフラストレーションするために必要な量子ハードウェアの改善に光を当てている。 特に、$\sim 50$ qubit を超える量子コンピュータは、ゲートの忠実度と接続性に制限があるため、主に古典的なシミュレーションに弱い。 ここでは、QuantinuumのH2量子コンピュータへの最近のハードウェアアップグレードについて説明する。これにより、任意の接続で最大56$ qubits、99.843(5)\%$ 2-qubit gate fidelityで動作することができる。 H2のフレキシブルな接続を利用して、高連結なジオメトリーにおけるランダム回路サンプリングのデータを示し、前代未聞の忠実度と、最先端の古典的アルゴリズムの能力を超越したスケールを示す。 H2を古典的にシミュレートすることのかなりの困難さは、量子ビット数によってのみ制限され、より大きなマシンを構築するための継続的な進歩がQCCDアーキテクチャの約束と拡張性を示している。

Empirical evidence for a gap between the computational powers of classical and quantum computers has been provided by experiments that sample the output distributions of two-dimensional quantum circuits. Many attempts to close this gap have utilized classical simulations based on tensor network techniques, and their limitations shed light on the improvements to quantum hardware required to frustrate classical simulability. In particular, quantum computers having in excess of $\sim 50$ qubits are primarily vulnerable to classical simulation due to restrictions on their gate fidelity and their connectivity, the latter determining how many gates are required (and therefore how much infidelity is suffered) in generating highly-entangled states. Here, we describe recent hardware upgrades to Quantinuum's H2 quantum computer enabling it to operate on up to $56$ qubits with arbitrary connectivity and $99.843(5)\%$ two-qubit gate fidelity. Utilizing the flexible connectivity of H2, we present data from random circuit sampling in highly connected geometries, doing so at unprecedented fidelities and a scale that appears to be beyond the capabilities of state-of-the-art classical algorithms. The considerable difficulty of classically simulating H2 is likely limited only by qubit number, demonstrating the promise and scalability of the QCCD architecture as continued progress is made towards building larger machines.
翻訳日:2024-06-11 23:15:47 公開日:2024-06-10
# スケーラブルなmatMulフリー言語モデリング

Scalable MatMul-free Language Modeling ( http://arxiv.org/abs/2406.02528v2 )

ライセンス: Link先を確認
Rui-Jie Zhu, Yu Zhang, Ethan Sifferman, Tyler Sheaves, Yiqiao Wang, Dustin Richmond, Peng Zhou, Jason K. Eshraghian, (参考訳) 行列乗法 (MatMul) は一般に大規模言語モデル (LLM) の計算コストを支配している。 このコストは、LLMがより大きな埋め込み次元とコンテキスト長にスケールするにつれて増大する。 本研究では,10億パラメータスケールで高い性能を維持しながら,MateMul 演算を LLM から完全に除去できることを示す。 実験の結果,提案したMatMulフリーモデルは,少なくとも2.7Bパラメータのスケールでの推論において,はるかに多くのメモリを必要とする最先端のトランスフォーマーと同等の性能が得られることがわかった。 スケーリング法則を調査し,モデルサイズが大きくなるにつれて,我々のMatMulフリーモデルと完全精度トランスフォーマーのパフォーマンスギャップが狭まることを確かめる。 また、トレーニング中に最適化されていないベースラインに対して最大61%のメモリ使用量を削減できるGPU効率のよい実装も提供します。 推論中に最適化されたカーネルを利用することで、最適化されていないモデルと比較してメモリ消費を10倍以上削減することができる。 アーキテクチャの効率を適切に定量化するために、FPGA上にカスタムハードウェアソリューションを構築します。 13Wで10億パラメータのスケールモデルを人間の可読スループットを超えて処理し、LLMを脳に似た効率に近づけました。 この研究は、LLMがいつまで有効に機能するかを示すだけでなく、次世代軽量LLMの処理に最適化されるべき操作のタイプについても指摘する。 私たちのコード実装はhttps://github.com/ridgerchu/matmulfreellm.comで利用可能です。

Matrix multiplication (MatMul) typically dominates the overall computational cost of large language models (LLMs). This cost only grows as LLMs scale to larger embedding dimensions and context lengths. In this work, we show that MatMul operations can be completely eliminated from LLMs while maintaining strong performance at billion-parameter scales. Our experiments show that our proposed MatMul-free models achieve performance on-par with state-of-the-art Transformers that require far more memory during inference at a scale up to at least 2.7B parameters. We investigate the scaling laws and find that the performance gap between our MatMul-free models and full precision Transformers narrows as the model size increases. We also provide a GPU-efficient implementation of this model which reduces memory usage by up to 61% over an unoptimized baseline during training. By utilizing an optimized kernel during inference, our model's memory consumption can be reduced by more than 10x compared to unoptimized models. To properly quantify the efficiency of our architecture, we build a custom hardware solution on an FPGA which exploits lightweight operations beyond what GPUs are capable of. We processed billion-parameter scale models at 13W beyond human readable throughput, moving LLMs closer to brain-like efficiency. This work not only shows how far LLMs can be stripped back while still performing effectively, but also points at the types of operations future accelerators should be optimized for in processing the next generation of lightweight LLMs. Our code implementation is available at https://github.com/ridgerchu/matmulfreellm.
翻訳日:2024-06-11 23:15:47 公開日:2024-06-10
# EchoMamba4Rec: 高度なシーケンスレコメンデーションのためのスペクトルフィルタリングによる双方向状態空間モデルの調和

EchoMamba4Rec: Harmonizing Bidirectional State Space Models with Spectral Filtering for Advanced Sequential Recommendation ( http://arxiv.org/abs/2406.02638v2 )

ライセンス: Link先を確認
Yuda Wang, Xuxin He, Shengxin Zhu, (参考訳) ユーザの好みとシーケンシャルな依存関係を履歴行動に基づいて予測することは、シーケンシャルなレコメンデーションのコアゴールである。 注意に基づくモデルはこの分野において有効性を示しているが、注意機構、特に長距離行動系列に固有の2次計算複雑性のため、推論の非効率性に苦慮することが多い。 制御理論における状態空間モデル (SSM) の最近の進歩から着想を得た上で, 動的システムのモデリングと制御のための堅牢なフレームワークである EchoMamba4Rec を紹介する。 制御理論は、長期依存を管理し、構造化状態行列を通して推論効率を維持するためのSSMの使用を強調している。 EchoMamba4Recは、これらの制御関係をシーケンシャルなレコメンデーションで利用し、双方向処理と周波数領域フィルタリングを統合して、ユーザインタラクションデータの複雑なパターンや依存関係をより効率的にキャプチャする。 我々のモデルは、並列計算を学習し実行し、計算効率とスケーラビリティを大幅に向上させる状態空間モデル(SSM)の利点がある。 前方と後方の両方のMambaコンポーネントを組み込んだ双方向のMambaモジュールを備えており、過去と将来のインタラクションからの情報を活用する。 さらに、フィルタ層は、学習可能なFast Fourier Transform(FFT)と学習可能なフィルタを使用して周波数領域で動作し、続いて逆FFTによってアイテム埋め込みを洗練しノイズを低減する。 また、ゲート線形ユニット(GLU)を統合して情報の流れを動的に制御し、モデルの表現性や訓練安定性を高める。 実験の結果、EchoMambaは既存のモデルを大幅に上回り、より正確でパーソナライズされたレコメンデーションを提供することが示された。

Predicting user preferences and sequential dependencies based on historical behavior is the core goal of sequential recommendation. Although attention-based models have shown effectiveness in this field, they often struggle with inference inefficiency due to the quadratic computational complexity inherent in attention mechanisms, especially with long-range behavior sequences. Drawing inspiration from the recent advancements of state space models (SSMs) in control theory, which provide a robust framework for modeling and controlling dynamic systems, we introduce EchoMamba4Rec. Control theory emphasizes the use of SSMs for managing long-range dependencies and maintaining inferential efficiency through structured state matrices. EchoMamba4Rec leverages these control relationships in sequential recommendation and integrates bi-directional processing with frequency-domain filtering to capture complex patterns and dependencies in user interaction data more effectively. Our model benefits from the ability of state space models (SSMs) to learn and perform parallel computations, significantly enhancing computational efficiency and scalability. It features a bi-directional Mamba module that incorporates both forward and reverse Mamba components, leveraging information from both past and future interactions. Additionally, a filter layer operates in the frequency domain using learnable Fast Fourier Transform (FFT) and learnable filters, followed by an inverse FFT to refine item embeddings and reduce noise. We also integrate Gate Linear Units (GLU) to dynamically control information flow, enhancing the model's expressiveness and training stability. Experimental results demonstrate that EchoMamba significantly outperforms existing models, providing more accurate and personalized recommendations.
翻訳日:2024-06-11 23:15:47 公開日:2024-06-10
# 自動グラフニューラルネットワークによる組合せ最適化

Combinatorial Optimization with Automated Graph Neural Networks ( http://arxiv.org/abs/2406.02872v2 )

ライセンス: Link先を確認
Yang Liu, Peng Zhang, Yang Gao, Chuan Zhou, Zhao Li, Hongyang Chen, (参考訳) 近年、グラフニューラルネットワーク(GNN)は、最大カットや最大独立セットといったNP-hard combinatorial optimization(CO)問題を解決するために人気が高まっている。 これらの手法の背後にある中核的な考え方は、CO問題をグラフとして表現し、GNNを使用して、組み合わせ情報によるノード/グラフの埋め込みを学ぶことである。 これらの手法は、特定のCO問題を考えると、有望な結果を得たが、GNNアーキテクチャの設計にはドメイン知識による重い手作業が必要である。 既存の自動GNNは、NPハードCO問題の解決には適用できない従来のグラフ学習問題に主に焦点をあてている。 この目的のために、我々は、新しいクラスである \textbf{AUTO}mated \textbf{G}NNs を、 \textbf{NP}-ハード問題、すなわち \textbf{AutoGNP} を解決する。 我々は、GNNによるCO問題を表現するとともに、2つの特定の問題、すなわち混合整数線形計画法と2次非制約バイナリ最適化に焦点をあてる。 AutoGNPの考え方は、グラフニューラルアーキテクチャ検索アルゴリズムを使用して、与えられたNPハード組合せ最適化問題に対して最適なGNNを自動的に見つけることである。 既存のグラフニューラルネットワーク検索アルゴリズムと比較して、AutoGNPはアーキテクチャ検索空間の2ホップ演算子を利用する。 さらに、AutoGNPはシミュレーションアニールと厳密な早期停止ポリシーを利用して局所最適解を回避する。 ベンチマーク組合せ問題に対する実験結果から,提案モデルの有効性が示された。

In recent years, graph neural networks (GNNs) have become increasingly popular for solving NP-hard combinatorial optimization (CO) problems, such as maximum cut and maximum independent set. The core idea behind these methods is to represent a CO problem as a graph and then use GNNs to learn the node/graph embedding with combinatorial information. Although these methods have achieved promising results, given a specific CO problem, the design of GNN architectures still requires heavy manual work with domain knowledge. Existing automated GNNs are mostly focused on traditional graph learning problems, which is inapplicable to solving NP-hard CO problems. To this end, we present a new class of \textbf{AUTO}mated \textbf{G}NNs for solving \textbf{NP}-hard problems, namely \textbf{AutoGNP}. We represent CO problems by GNNs and focus on two specific problems, i.e., mixed integer linear programming and quadratic unconstrained binary optimization. The idea of AutoGNP is to use graph neural architecture search algorithms to automatically find the best GNNs for a given NP-hard combinatorial optimization problem. Compared with existing graph neural architecture search algorithms, AutoGNP utilizes two-hop operators in the architecture search space. Moreover, AutoGNP utilizes simulated annealing and a strict early stopping policy to avoid local optimal solutions. Empirical results on benchmark combinatorial problems demonstrate the superiority of our proposed model.
翻訳日:2024-06-11 23:15:47 公開日:2024-06-10
# スピンのない磁化-イテナント電子の有効ラグランジアン

Magnetization without spin: effective Lagrangian of itinerant electrons ( http://arxiv.org/abs/2406.03112v2 )

ライセンス: Link先を確認
Kenzo Ishikawa, (参考訳) 有限磁場における有限密度のイテナント電子系の有効ラグランジアンは、以前研究したよりも低次元の電磁ポテンシャルのチャーン・サイモンズ項を含む。 この用語は多体波動関数の起源であり、スピン自由度とは独立な独自の位相的性質を持つ。 結合強度は$\frac{\rho}{eB}$に比例し、これは定電荷密度に対して$B=0$の特異値である。 B$の有効ラグランジアンは、B$の物理効果を正しく表す。 スレーター・ポーリング曲線と呼ばれる磁場の普遍的なシフトは、有効ラグランジアンから導かれる。

Effective Lagrangian of itinerant electron system of finite density at finite magnetic field is found to include Chern-Simons term of electromagnetic potentials of lower scale dimension than those studied before. This term has an origin in many-body wave function and unique topological property that is independent of a spin degree of freedom. The coupling strength is proportional to $\frac{\rho}{eB}$, which is singular at $B=0$ for a constant charge density. The effective Lagrangian at a finite $B$ represents physical effects at $ B \neq 0$ properly. A universal shift of the magnetic field known as Slater-Pauling curve is derived from the effective Lagrangian.
翻訳日:2024-06-11 23:15:47 公開日:2024-06-10
# FairACの再現性に関する研究

Reproducibility study of FairAC ( http://arxiv.org/abs/2406.03314v2 )

ライセンス: Link先を確認
Gijs de Jong, Macha J. Meijer, Derck W. E. Prinzhorn, Harold Ruiter, (参考訳) 本研究は,Guo, Chu, Li arXiv:2302.12977 の論文 "Fair Attribute Completion on Graph with Missing Attributes" の成果を,論文の主張を調査して再現することを目的とする。 本論文は,原論文の結果が再現可能であることを示唆し,その主張を裏付けるものである。 しかしながら、FairACが多くの下流タスクのための汎用フレームワークであるという主張は非常に広範であり、そのため部分的にしかテストできない。 さらに、FairACは様々なデータセットやセンシティブな属性に一般化可能であることを示し、FairACフレームワークの群フェアネスの改善が個々のフェアネスを犠牲にしないことを示す。 最後に、FairACのコードベースはリファクタリングされ、さまざまなデータセットやモデルに容易に適用できるようになった。

This work aims to reproduce the findings of the paper "Fair Attribute Completion on Graph with Missing Attributes" written by Guo, Chu, and Li arXiv:2302.12977 by investigating the claims made in the paper. This paper suggests that the results of the original paper are reproducible and thus, the claims hold. However, the claim that FairAC is a generic framework for many downstream tasks is very broad and could therefore only be partially tested. Moreover, we show that FairAC is generalizable to various datasets and sensitive attributes and show evidence that the improvement in group fairness of the FairAC framework does not come at the expense of individual fairness. Lastly, the codebase of FairAC has been refactored and is now easily applicable for various datasets and models.
翻訳日:2024-06-11 23:15:47 公開日:2024-06-10
# CountCLIP -- [Re]CLIPに10までのカウントを教える

CountCLIP -- [Re] Teaching CLIP to Count to Ten ( http://arxiv.org/abs/2406.03586v2 )

ライセンス: Link先を確認
Harshvardhan Mestha, Tejas Agrawal, Karan Bania, Shreyas V, Yash Bhisikar, (参考訳) 大規模視覚言語モデル(VLM)は、下流タスクにおける高いパフォーマンスを実現するために、リッチな共同画像テキスト表現を学習する。 しかし、それらはオブジェクトの定量的な理解を示すことができず、カウント・アウェアの表現が不十分である。 本稿では,CLIPモデル(Radford et al ,2021)を微調整し,ゼロショット分類の性能を維持しつつ,画像中のゼロショットカウント精度を向上させる方法を提案する。 より少ない計算資源でトレーニングデータの小さなサブセットでモデルの性能を向上させる。 私たちは、自分たちのコードで研究を再現することで、これらの主張を検証する。 実装はhttps://github.com/SforAiDl/CountCLIPで確認できる。

Large vision-language models (VLMs) are shown to learn rich joint image-text representations enabling high performances in relevant downstream tasks. However, they fail to showcase their quantitative understanding of objects, and they lack good counting-aware representation. This paper conducts a reproducibility study of 'Teaching CLIP to Count to Ten' (Paiss et al., 2023), which presents a method to finetune a CLIP model (Radford et al., 2021) to improve zero-shot counting accuracy in an image while maintaining the performance for zero-shot classification by introducing a counting-contrastive loss term. We improve the model's performance on a smaller subset of their training data with lower computational resources. We verify these claims by reproducing their study with our own code. The implementation can be found at https://github.com/SforAiDl/CountCLIP.
翻訳日:2024-06-11 23:15:47 公開日:2024-06-10
# 組合せ最適化のための決定型グラフニューラルネットワーク

Decision-focused Graph Neural Networks for Combinatorial Optimization ( http://arxiv.org/abs/2406.03647v2 )

ライセンス: Link先を確認
Yang Liu, Chuan Zhou, Peng Zhang, Shirui Pan, Zhao Li, Hongyang Chen, (参考訳) 近年,ニューラルネットワークフレームワークによる組合せ最適化(CO)問題の研究に注目が集まっている。 これらの課題に取り組むための新たな戦略は、従来のアルゴリズムに代わるグラフニューラルネットワーク(GNN)の採用である。 GNNや従来のアルゴリズムソルバがCOの領域で人気が高まっているにもかかわらず、それらの統合利用とエンドツーエンドフレームワークにおけるそれらの相関について限定的な研究がなされている。 私たちの研究の主な焦点は、決定に焦点をあてた学習をグラフに導入することで、より効率的で正確なCOフレームワークを定式化することです。 さらに、GNNを利用してCO問題に補助的なサポートで対処する決定に焦点を当てたフレームワークも導入する。 エンドツーエンドのアプローチを実現するために、我々は2つのカスケードモジュールを設計した。 (a)教師なし学習グラフ予測モデル、及び (b)2進二進最適化のための解法。 最大カット,最大独立セット,最小頂点カバーなど,様々な古典的タスクに対して実証評価を行う。 古典的CO問題(MaxCut,MIS,MVC)に対する実験結果から,従来のGNN手法と古典的手法のどちらよりも,本手法の優位性が示された。

In recent years, there has been notable interest in investigating combinatorial optimization (CO) problems by neural-based framework. An emerging strategy to tackle these challenging problems involves the adoption of graph neural networks (GNNs) as an alternative to traditional algorithms, a subject that has attracted considerable attention. Despite the growing popularity of GNNs and traditional algorithm solvers in the realm of CO, there is limited research on their integrated use and the correlation between them within an end-to-end framework. The primary focus of our work is to formulate a more efficient and precise framework for CO by employing decision-focused learning on graphs. Additionally, we introduce a decision-focused framework that utilizes GNNs to address CO problems with auxiliary support. To realize an end-to-end approach, we have designed two cascaded modules: (a) an unsupervised trained graph predictive model, and (b) a solver for quadratic binary unconstrained optimization. Empirical evaluations are conducted on various classical tasks, including maximum cut, maximum independent set, and minimum vertex cover. The experimental results on classical CO problems (i.e. MaxCut, MIS, and MVC) demonstrate the superiority of our method over both the standalone GNN approach and classical methods.
翻訳日:2024-06-11 23:05:25 公開日:2024-06-10
# シャープネスを考慮した最小化アルゴリズムの普遍クラス

A Universal Class of Sharpness-Aware Minimization Algorithms ( http://arxiv.org/abs/2406.03682v2 )

ライセンス: Link先を確認
Behrooz Tahmasebi, Ashkan Soleymani, Dara Bahri, Stefanie Jegelka, Patrick Jaillet, (参考訳) 近年、一般化を達成するには適切なバイアスを持つアルゴリズムが必要であると信じられているため、過パラメータ化モデルの最適化アルゴリズム開発への関心が高まっている。 この関心は、元の損失関数のシャープさを最小化することに集中しており、シャープネス・アウェア・最小化(SAM)アルゴリズムが有効であることが証明されている。 しかし、ほとんどの文献では、ニューラルネットワークのような非凸最適化シナリオにおいて意味のある洞察を得られない、最大固有値やトレーニング損失のトレースなど、いくつかのシャープネス測度しか考慮していない。 さらに、多くのシャープネス測定は、ニューラルネットワークのパラメータ不変性に敏感であり、再スケーリングパラメータの下で大幅に増大する。 これらの課題に感化されて,本論文では,新たなシャープネス尺度を導入し,新たなシャープネスを考慮した客観的機能を実現する。 これらの測度がtextit{universally expressive} であることが証明され、訓練損失 Hessian 行列の任意の関数を適切なハイパーパラメータで表すことができる。 さらに,提案した目的関数は,対応するシャープネス尺度の最小化に向けて明らかに偏りを示し,パラメータ不変性を持つモデル(スケール不変性など)に有意義な適用を可能にする方法を示す。 最後に,提案した一般フレームワークの例として,FrobeniusノルムとHessianのトレーニング損失の行列式を最小化するために特別に設計された \textit{Frob-SAM} と \textit{Det-SAM} を提示する。 また、広範な実験を通じて、一般的なフレームワークの利点を実証する。

Recently, there has been a surge in interest in developing optimization algorithms for overparameterized models as achieving generalization is believed to require algorithms with suitable biases. This interest centers on minimizing sharpness of the original loss function; the Sharpness-Aware Minimization (SAM) algorithm has proven effective. However, most literature only considers a few sharpness measures, such as the maximum eigenvalue or trace of the training loss Hessian, which may not yield meaningful insights for non-convex optimization scenarios like neural networks. Additionally, many sharpness measures are sensitive to parameter invariances in neural networks, magnifying significantly under rescaling parameters. Motivated by these challenges, we introduce a new class of sharpness measures in this paper, leading to new sharpness-aware objective functions. We prove that these measures are \textit{universally expressive}, allowing any function of the training loss Hessian matrix to be represented by appropriate hyperparameters. Furthermore, we show that the proposed objective functions explicitly bias towards minimizing their corresponding sharpness measures, and how they allow meaningful applications to models with parameter invariances (such as scale-invariances). Finally, as instances of our proposed general framework, we present \textit{Frob-SAM} and \textit{Det-SAM}, which are specifically designed to minimize the Frobenius norm and the determinant of the Hessian of the training loss, respectively. We also demonstrate the advantages of our general framework through extensive experiments.
翻訳日:2024-06-11 23:05:25 公開日:2024-06-10
# HeSum: ヘブライ語における抽象テキスト要約のための新しいデータセット

HeSum: a Novel Dataset for Abstractive Text Summarization in Hebrew ( http://arxiv.org/abs/2406.03897v2 )

ライセンス: Link先を確認
Tzuf Paz-Argaman, Itai Mondshine, Asaf Achi Mordechai, Reut Tsarfaty, (参考訳) 大きな言語モデル(LLM)は英語の様々な自然言語タスクに優れるが、ヘブライ語のような低リソース言語、特に抽象的な要約のような生成的なタスクにおいて、その性能は未だ不明である。 ヘブライ語における高い形態的豊かさは、文理解の曖昧さと建設の意味の複雑さにより、さらなる課題をもたらす。 本稿では,現代ヘブライ語における抽象テキスト要約に特化して設計された新しいベンチマークHeSumを導入することで,このリソースと評価ギャップに対処する。 HeSumは、プロが書いたヘブライ語ニュースサイトから入手した1万記事と1万記事のペアで構成されている。 言語学的分析は、ヘサムの高い抽象性とユニークな形態的課題を裏付ける。 ヘブライ語における生成言語技術のための貴重なテストベッドとして,HeSumは現代LLMに対して,またMRLの一般的な生成課題として,明確な困難を呈していることを示す。

While large language models (LLMs) excel in various natural language tasks in English, their performance in lower-resourced languages like Hebrew, especially for generative tasks such as abstractive summarization, remains unclear. The high morphological richness in Hebrew adds further challenges due to the ambiguity in sentence comprehension and the complexities in meaning construction. In this paper, we address this resource and evaluation gap by introducing HeSum, a novel benchmark specifically designed for abstractive text summarization in Modern Hebrew. HeSum consists of 10,000 article-summary pairs sourced from Hebrew news websites written by professionals. Linguistic analysis confirms HeSum's high abstractness and unique morphological challenges. We show that HeSum presents distinct difficulties for contemporary state-of-the-art LLMs, establishing it as a valuable testbed for generative language technology in Hebrew, and MRLs generative challenges in general.
翻訳日:2024-06-11 23:05:25 公開日:2024-06-10
# 単位変換の実装のための量子速度限界

Quantum Speed Limits for Implementation of Unitary Transformations ( http://arxiv.org/abs/2406.03964v2 )

ライセンス: Link先を確認
Abolfazl Farmanian, Vahid Karimipour, (参考訳) 量子速度制限 (quantum speed limit) とは、1つの量子状態が別の量子状態へいかに素早く変換できるかを定義する境界である。 状態のペア間の変換に焦点をあてるのではなく、任意の次元のユニタリ作用素による量子進化の速度限界に制限を与える。 これらは初期状態と最終状態に依存しないが、実装されるユニタリ作用素のトレースと、このユニタリ進化を生成するハミルトニアンのエネルギースペクトルの全体的特性(平均と分散)にのみ依存する。 私たちが見いだす境界は、ユニタリ作用素の実装への状態変換に対するマンデルスタム・タム(TM)およびマーゴラス・レヴィチン(ML)境界の一般化と考えることができる。 量子情報処理に関心のある変換のいくつかのクラスにおけるこれらの境界の適用について論じる。

Quantum speed limits are the boundaries that define how quickly one quantum state can transform into another. Instead of focusing on the transformation between pairs of states, we provide bounds on the speed limit of quantum evolution by unitary operators in arbitrary dimensions. These do not depend on the initial and final state but depend only on the trace of the unitary operator that is to be implemented and the gross characteristics (average and variance) of the energy spectrum of the Hamiltonian which generates this unitary evolution. The bounds that we find can be thought of as the generalization of the Mandelstam-Tamm (TM) and the Margolus-Levitin (ML) bound for state transformations to implementations of unitary operators. We will discuss the application of these bounds in several classes of transformations that are of interest in quantum information processing.
翻訳日:2024-06-11 23:05:25 公開日:2024-06-10
# ガウスの変分混合による変分推論の理論的保証

Theoretical Guarantees for Variational Inference with Fixed-Variance Mixture of Gaussians ( http://arxiv.org/abs/2406.04012v2 )

ライセンス: Link先を確認
Tom Huix, Anna Korba, Alain Durmus, Eric Moulines, (参考訳) 変分推論 (VI) はベイズ推定において一般的な手法であり、パラメトリック族内の後方分布の最適近似を求め、典型的には(逆)クルバック・リーブラー(KL)の偏差である損失を最小化する。 経験的な成功にもかかわらず、第6の理論的性質は近年のみ注目されており、主にパラメトリック家がガウス家のものである。 この研究は、非ガウスの場合のVIの理論研究に寄与することを目的として、固定された共分散と一定の重みを持つガウスの混合の設定を調査した。 この見方では、この特定の族上の VI は、モリファイド相対エントロピーの最小化、すなわちディラックス上で支持される原子測度の畳み込み(ガウス核に関して)とターゲット分布の間の KL としてキャストすることができる。 原子測度の支持はガウス成分の局所化に対応する。 したがって、変分推論の解法は、ディラック(粒子)の位置を最適化するのと同値となり、これは勾配降下によって行われ、相互作用する粒子系の形を取ることができる。 そこで本研究では,モーラ化相対エントロピーの最適化において,この文脈における変分推論の誤差の2つの原因について検討する。 1つは最適化結果であり、これはアルゴリズムが反復毎に目的を減少させることを示す降下補題である。 第2の誤差は近似誤差であり、最適有限混合と対象分布の上限となる。

Variational inference (VI) is a popular approach in Bayesian inference, that looks for the best approximation of the posterior distribution within a parametric family, minimizing a loss that is typically the (reverse) Kullback-Leibler (KL) divergence. Despite its empirical success, the theoretical properties of VI have only received attention recently, and mostly when the parametric family is the one of Gaussians. This work aims to contribute to the theoretical study of VI in the non-Gaussian case by investigating the setting of Mixture of Gaussians with fixed covariance and constant weights. In this view, VI over this specific family can be casted as the minimization of a Mollified relative entropy, i.e. the KL between the convolution (with respect to a Gaussian kernel) of an atomic measure supported on Diracs, and the target distribution. The support of the atomic measure corresponds to the localization of the Gaussian components. Hence, solving variational inference becomes equivalent to optimizing the positions of the Diracs (the particles), which can be done through gradient descent and takes the form of an interacting particle system. We study two sources of error of variational inference in this context when optimizing the mollified relative entropy. The first one is an optimization result, that is a descent lemma establishing that the algorithm decreases the objective at each iteration. The second one is an approximation error, that upper bounds the objective between an optimal finite mixture and the target distribution.
翻訳日:2024-06-11 23:05:25 公開日:2024-06-10
# アメリカの手話はコミュニケーション効率を高めるためにプレッシャーを反映する

American Sign Language Handshapes Reflect Pressures for Communicative Efficiency ( http://arxiv.org/abs/2406.04024v2 )

ライセンス: Link先を確認
Kayo Yin, Terry Regier, Dan Klein, (参考訳) コミュニケーション効率(Communicative efficiency)は言語学や認知心理学において重要なトピックであり、最小限の努力でコミュニケーションする圧力がいかに自然言語の形を導くかを示す多くの研究がある。 しかし、この現象は符号付き言語ではほとんど探索されない。 本稿は,アメリカ手話(ASL)におけるハンプチがこれらの効率圧をどのように反映しているかを示し,視覚・ジェスチャーのモダリティにおけるコミュニケーション効率の新たな証拠を提供する。 我々は、ASLと英語の双方の効率圧を比較するために、英語から借用されたASLのネイティブサインとサインの手構成に焦点を当てた。 まず, 触覚の生成に必要な調音的努力と, 認識に必要な知覚的努力を定量化する手法を開発した。 そこで我々は,ASL や英語におけるコミュニケーション活動と利用統計の相関関係を解析した。 以上の結果から,英語の語彙を借りるよりは,コミュニケーション効率のプレッシャーがASLの使用に大きく影響していることが示唆された。

Communicative efficiency is a key topic in linguistics and cognitive psychology, with many studies demonstrating how the pressure to communicate with minimal effort guides the form of natural language. However, this phenomenon is rarely explored in signed languages. This paper shows how handshapes in American Sign Language (ASL) reflect these efficiency pressures and provides new evidence of communicative efficiency in the visual-gestural modality. We focus on hand configurations in native ASL signs and signs borrowed from English to compare efficiency pressures from both ASL and English usage. First, we develop new methodologies to quantify the articulatory effort needed to produce handshapes and the perceptual effort required to recognize them. Then, we analyze correlations between communicative effort and usage statistics in ASL or English. Our findings reveal that frequent ASL handshapes are easier to produce and that pressures for communicative efficiency mostly come from ASL usage, rather than from English lexical borrowing.
翻訳日:2024-06-11 23:05:25 公開日:2024-06-10
# 深度過度化低ランク学習・適応における圧縮性ダイナミクス

Compressible Dynamics in Deep Overparameterized Low-Rank Learning & Adaptation ( http://arxiv.org/abs/2406.04112v2 )

ライセンス: Link先を確認
Can Yaras, Peng Wang, Laura Balzano, Qing Qu, (参考訳) 機械学習モデルの過度パラメータ化は、最適化と一般化の点で大きなメリットをもたらすが、モデルのサイズが大きくなるにつれて、計算要求も増加する。 本研究では,データ固有の低次元構造と圧縮可能な動力学をモデルパラメータ内で活用することにより,計算負担を伴わずに過度パラメータ化の利点を享受できることを示す。 実際に,本手法の低ランク行列補完および微調整言語モデルへの適用例を示す。 提案手法は,各重み行列の学習力学が不変な低次元部分空間に制限されていることを示す。 したがって、過パラメータ化された因子と同じ利点を持つコンパクトで高度に圧縮された因子化を構築し、訓練することができる。 本手法は, オーバーパラメータ化の利点を保ちながら, トレーニング効率を大幅に向上させる。 言語モデルの微調整において,既存のローランク適応(LoRA)技術を改善する手法である"Deep LoRA"を提案する。 本稿では,自然言語処理におけるDeep LoRAの有効性について検証する。 私たちのコードはhttps://github.com/cjyaras/deep-lora-transformersで利用可能です。

While overparameterization in machine learning models offers great benefits in terms of optimization and generalization, it also leads to increased computational requirements as model sizes grow. In this work, we show that by leveraging the inherent low-dimensional structures of data and compressible dynamics within the model parameters, we can reap the benefits of overparameterization without the computational burdens. In practice, we demonstrate the effectiveness of this approach for deep low-rank matrix completion as well as fine-tuning language models. Our approach is grounded in theoretical findings for deep overparameterized low-rank matrix recovery, where we show that the learning dynamics of each weight matrix are confined to an invariant low-dimensional subspace. Consequently, we can construct and train compact, highly compressed factorizations possessing the same benefits as their overparameterized counterparts. In the context of deep matrix completion, our technique substantially improves training efficiency while retaining the advantages of overparameterization. For language model fine-tuning, we propose a method called "Deep LoRA", which improves the existing low-rank adaptation (LoRA) technique, leading to reduced overfitting and a simplified hyperparameter setup, while maintaining comparable efficiency. We validate the effectiveness of Deep LoRA on natural language tasks, particularly when fine-tuning with limited data. Our code is available at https://github.com/cjyaras/deep-lora-transformers.
翻訳日:2024-06-11 23:05:25 公開日:2024-06-10
# サーキットブレーカによるアライメントとロバスト性の改善

Improving Alignment and Robustness with Circuit Breakers ( http://arxiv.org/abs/2406.04313v2 )

ライセンス: Link先を確認
Andy Zou, Long Phan, Justin Wang, Derek Duenas, Maxwell Lin, Maksym Andriushchenko, Rowan Wang, Zico Kolter, Matt Fredrikson, Dan Hendrycks, (参考訳) AIシステムは有害な行動をとることができ、敵の攻撃に対して非常に脆弱である。 本稿では,近年の表現工学の進歩に触発されて,有害な出力を「回路ブレーカー」で処理することでモデルを中断するアプローチを提案する。 拒否訓練などのアライメント改善を目的とした既存の技術は、しばしばバイパスされる。 敵の訓練のような技術は、特定の攻撃に対抗して穴を塞ごうとする。 拒絶訓練や敵対訓練の代替として、サーキットブレーキングは、そもそも有害なアウトプットの原因となる表現を直接制御する。 我々の手法はテキストのみの言語モデルとマルチモーダル言語モデルの両方に適用でき、強力な目に見えない攻撃があっても、ユーティリティを犠牲にすることなく有害なアウトプットの発生を防げます。 特に、スタンドアロン画像認識における敵対的堅牢性は未解決の課題であるが、回路ブレーカーは、有害なコンテンツを生み出すことを目的とした画像「ヒジャック」に対して、より大きなマルチモーダルシステムを確実に耐えられるようにしている。 最後に、我々のアプローチをAIエージェントに拡張し、攻撃されているときの有害な行動の率を大幅に低下させることを示す。 当社のアプローチは、有害な行動や敵の攻撃に対する信頼性の高い安全対策の開発において、大きな前進を示している。

AI systems can take harmful actions and are highly vulnerable to adversarial attacks. We present an approach, inspired by recent advances in representation engineering, that interrupts the models as they respond with harmful outputs with "circuit breakers." Existing techniques aimed at improving alignment, such as refusal training, are often bypassed. Techniques such as adversarial training try to plug these holes by countering specific attacks. As an alternative to refusal training and adversarial training, circuit-breaking directly controls the representations that are responsible for harmful outputs in the first place. Our technique can be applied to both text-only and multimodal language models to prevent the generation of harmful outputs without sacrificing utility -- even in the presence of powerful unseen attacks. Notably, while adversarial robustness in standalone image recognition remains an open challenge, circuit breakers allow the larger multimodal system to reliably withstand image "hijacks" that aim to produce harmful content. Finally, we extend our approach to AI agents, demonstrating considerable reductions in the rate of harmful actions when they are under attack. Our approach represents a significant step forward in the development of reliable safeguards to harmful behavior and adversarial attacks.
翻訳日:2024-06-11 23:05:25 公開日:2024-06-10
# 養殖網ケージ内構造動態のリアルタイムモニタリングのための多自由度ディジタルツイン

Multifidelity digital twin for real-time monitoring of structural dynamics in aquaculture net cages ( http://arxiv.org/abs/2406.04519v2 )

ライセンス: Link先を確認
Eirini Katsidoniotaki, Biao Su, Eleni Kelasidi, Themistoklis P. Sapsis, (参考訳) 世界の人口が増加し、気候変動が増すにつれて、持続可能な食料生産が重要となる。 海洋養殖は持続可能なソリューションを提供し、持続可能なタンパク質源を提供する。 しかし、産業の拡大には、遠隔管理と自律運転のための新しい技術が必要である。 デジタルツイン技術は水産産業を前進させることができるが、その採用は限られている。 フレキシブルな浮体構造である魚網ケージは、養殖農場の重要かつ脆弱な構成要素である。 厳しい海洋環境に曝露され、ケージは大きな負荷と危険を経験し、魚の逃走、環境への影響、財政的損失につながった。 確率海洋環境下での養殖網ケージ構造動態のリアルタイムモニタリングのための多要素代理モデリングフレームワークを提案する。 この枠組みの中心は非線形自己回帰的ガウス過程法であり、様々な忠実度モデル間の複雑で非線形な相互相関を学習する。 低忠実度シミュレーションデータと高忠実度センサの小さなセットを組み合わせることで、実際のダイナミクスを提供するが、高価で空間的にも疎らである。 ノルウェーのSINTEF ACE養殖場で検証された我々のデジタル双生児は、オンラインメトカンデータを受け取り、ネットケージの変位と係留ラインの荷重を正確に予測し、フィールド計測と密接に一致させる。 提案するフレームワークは,アプリケーション固有のデータが不足している場合に有効であり,迅速な予測とリアルタイムシステム表現を提供する。 開発されたデジタルツインは、構造的整合性を評価することによって潜在的な損傷を防止し、無人水中車両による遠隔操作を容易にする。 また,ネットワークケージ変形予測のためのGPとGCNを比較し,複雑な構造応用における後者の有効性を強調した。

As the global population grows and climate change intensifies, sustainable food production is critical. Marine aquaculture offers a viable solution, providing a sustainable protein source. However, the industry's expansion requires novel technologies for remote management and autonomous operations. Digital twin technology can advance the aquaculture industry, but its adoption has been limited. Fish net cages, which are flexible floating structures, are critical yet vulnerable components of aquaculture farms. Exposed to harsh and dynamic marine environments, the cages experience significant loads and risk damage, leading to fish escapes, environmental impacts, and financial losses. We propose a multifidelity surrogate modeling framework for integration into a digital twin for real-time monitoring of aquaculture net cage structural dynamics under stochastic marine conditions. Central to this framework is the nonlinear autoregressive Gaussian process method, which learns complex, nonlinear cross-correlations between models of varying fidelity. It combines low-fidelity simulation data with a small set of high-fidelity field sensor measurements, which offer the real dynamics but are costly and spatially sparse. Validated at the SINTEF ACE fish farm in Norway, our digital twin receives online metocean data and accurately predicts net cage displacements and mooring line loads, aligning closely with field measurements. The proposed framework is beneficial where application-specific data are scarce, offering rapid predictions and real-time system representation. The developed digital twin prevents potential damages by assessing structural integrity and facilitates remote operations with unmanned underwater vehicles. Our work also compares GP and GCNs for predicting net cage deformation, highlighting the latter's effectiveness in complex structural applications.
翻訳日:2024-06-11 23:05:25 公開日:2024-06-10
# パラメータアンダーレジームにおけるフェデレーション表現学習

Federated Representation Learning in the Under-Parameterized Regime ( http://arxiv.org/abs/2406.04596v2 )

ライセンス: Link先を確認
Renpu Liu, Cong Shen, Jing Yang, (参考訳) フェデレーション表現学習(FRL)は、クライアントが共通の表現をトレーニングし、パーソナライズされた頭を維持しながら協調する、パーソナライズされたフェデレーション学習(FL)フレームワークである。 しかし、既存の研究は主に過度にパラメータ化された体制に焦点を当てている。 本稿では, フラックスモデルがすべての地中構造モデルの変動を表現するのに不十分な, パラメータ下条件下でのFRLについて検討する。 我々は新しいFRLアルゴリズムFLUTEを提案し、パラメータ下状態における線形モデルに対する標本の複雑さと収束率を理論的に特徴づける。 我々の知る限りでは、この方式で証明可能な性能保証を備えたFRLアルゴリズムは初めてである。 FLUTEは、データ非依存のランダム初期化と、不整合局所表現から大域的最適表現に代表される部分空間の蒸留を支援する、慎重に設計された目的関数を備えている。 技術的には、FL解析による低ランク行列近似手法を橋渡しする。 また、FLUTEを線形表現を超えて拡張する。 実験により、FLUTEは、合成タスクと実世界のタスクの両方において、最先端のFRLソリューションよりも優れていることが示された。

Federated representation learning (FRL) is a popular personalized federated learning (FL) framework where clients work together to train a common representation while retaining their personalized heads. Existing studies, however, largely focus on the over-parameterized regime. In this paper, we make the initial efforts to investigate FRL in the under-parameterized regime, where the FL model is insufficient to express the variations in all ground-truth models. We propose a novel FRL algorithm FLUTE, and theoretically characterize its sample complexity and convergence rate for linear models in the under-parameterized regime. To the best of our knowledge, this is the first FRL algorithm with provable performance guarantees in this regime. FLUTE features a data-independent random initialization and a carefully designed objective function that aids the distillation of subspace spanned by the global optimal representation from the misaligned local representations. On the technical side, we bridge low-rank matrix approximation techniques with the FL analysis, which may be of broad interest. We also extend FLUTE beyond linear representations. Experimental results demonstrate that FLUTE outperforms state-of-the-art FRL solutions in both synthetic and real-world tasks.
翻訳日:2024-06-11 23:05:25 公開日:2024-06-10
# アンタングル表現学習によるグラフニューラルネットワークにおけるサイズ一般化の促進

Enhancing Size Generalization in Graph Neural Networks through Disentangled Representation Learning ( http://arxiv.org/abs/2406.04601v2 )

ライセンス: Link先を確認
Zheng Huang, Qihui Yang, Dawei Zhou, Yujun Yan, (参考訳) ほとんどのグラフニューラルネットワーク(GNN)は、任意のサイズのグラフで操作できるが、その分類性能は、トレーニング中に遭遇したグラフよりも大きいグラフで低下することが多い。 既存の手法では、グラフ表現からサイズ情報の除去が不十分であり、その結果、サブ最適性能とバックボーンモデルへの依存が生じる。 そこで我々は,グラフ表現からサイズ因子をアンタングル化する新しい,モデルに依存しないフレームワークである DISGEN を提案する。 DISGENはサイズとタスク不変の拡張を採用し、デカップリングロスを導入し、隠れた表現における共有情報を最小化し、その効果を理論的に保証する。 実験の結果, DISGENは実世界のデータセットにおいて, 最大6%の精度で最先端のモデルより優れており, GNNのサイズ一般化性の向上に有効であることが示唆された。 私たちのコードは、https://github.com/GraphmindDartmouth/DISGEN.comで利用可能です。

Although most graph neural networks (GNNs) can operate on graphs of any size, their classification performance often declines on graphs larger than those encountered during training. Existing methods insufficiently address the removal of size information from graph representations, resulting in sub-optimal performance and reliance on backbone models. In response, we propose DISGEN, a novel and model-agnostic framework designed to disentangle size factors from graph representations. DISGEN employs size- and task-invariant augmentations and introduces a decoupling loss that minimizes shared information in hidden representations, with theoretical guarantees for its effectiveness. Our empirical results show that DISGEN outperforms the state-of-the-art models by up to 6% on real-world datasets, underscoring its effectiveness in enhancing the size generalizability of GNNs. Our codes are available at: https://github.com/GraphmindDartmouth/DISGEN.
翻訳日:2024-06-11 23:05:25 公開日:2024-06-10
# Adaptive Interface-PINNs (AdaI-PINNs): インタフェース問題のための効率的な物理情報ニューラルネットワークフレームワーク

Adaptive Interface-PINNs (AdaI-PINNs): An Efficient Physics-informed Neural Networks Framework for Interface Problems ( http://arxiv.org/abs/2406.04626v2 )

ライセンス: Link先を確認
Sumanta Roy, Chandrasekhar Annavarapu, Pratanu Roy, Antareep Kumar Sarma, (参考訳) 本稿では、不連続な係数や/または界面ジャンプを伴うインタフェース問題のモデル化を改善するために、適応インターフェース-PINN(Adaptive Interface-PINN)と呼ばれる効率的な物理情報ニューラルネットワーク(PINN)フレームワークを提案する。 このフレームワークは、前身であるInterface PINNまたはI-PINN(Sarma et al ; https://dx.doi.org/10.2139/ssrn.4766623)の強化版であり、ニューラルネットワークの他のパラメータをすべて同一にしつつ、各サブドメイン内の各サブドメインで定義されたアクティベーション関数のドメイン分解と割り当てを含む。 AdaI-PINNでは、アクティベーション機能は、ニューラルネットワークの他のパラメータとともにトレーニングされる斜面でのみ異なる。 これにより、AdaI-PINNsフレームワークは、プリセットされたアクティベーション関数を必要とせずに完全に自動化される。 1次元,2次元,3次元のベンチマーク楕円型インタフェース問題の比較研究により,AdaI-PINNはI-PINNよりも優れており,計算コストが2~6倍削減され,類似性や精度が向上した。

We present an efficient physics-informed neural networks (PINNs) framework, termed Adaptive Interface-PINNs (AdaI-PINNs), to improve the modeling of interface problems with discontinuous coefficients and/or interfacial jumps. This framework is an enhanced version of its predecessor, Interface PINNs or I-PINNs (Sarma et al.; https://dx.doi.org/10.2139/ssrn.4766623), which involves domain decomposition and assignment of different predefined activation functions to the neural networks in each subdomain across a sharp interface, while keeping all other parameters of the neural networks identical. In AdaI-PINNs, the activation functions vary solely in their slopes, which are trained along with the other parameters of the neural networks. This makes the AdaI-PINNs framework fully automated without requiring preset activation functions. Comparative studies on one-dimensional, two-dimensional, and three-dimensional benchmark elliptic interface problems reveal that AdaI-PINNs outperform I-PINNs, reducing computational costs by 2-6 times while producing similar or better accuracy.
翻訳日:2024-06-11 23:05:25 公開日:2024-06-10
# 販売面でのデジタルアシスタント

Digital assistant in a point of sales ( http://arxiv.org/abs/2406.04851v2 )

ライセンス: Link先を確認
Emilia Lesiak, Grzegorz Wolny, Bartosz Przybył, Michał Szczerbak, (参考訳) 本稿では、VUI(Voice User Interface)を利用したデジタルアシスタントを小売店舗に展開し、顧客エンゲージメントとサービス効率への影響を評価する。 本研究は,多言語対応による高度な対話機能を通じて,デジタルアシスタントがユーザインタラクションを向上する方法について検討した。 デジタルアシスタントを高トラフィックの小売環境に組み込むことで、顧客サービスの品質と運用効率を向上させる効果を評価する。 実験で収集されたデータは、顧客とのインタラクションに様々な影響を示し、デジタルアシスタント技術の将来の最適化に関する洞察を明らかにした。 本研究は,顧客関係領域におけるディジタルトランスフォーメーション戦略の理解に寄与し,現代の小売店舗におけるサービスフレキシビリティとユーザ中心設計の必要性を強調した。

This article investigates the deployment of a Voice User Interface (VUI)-powered digital assistant in a retail setting and assesses its impact on customer engagement and service efficiency. The study explores how digital assistants can enhance user interactions through advanced conversational capabilities with multilingual support. By integrating a digital assistant into a high-traffic retail environment, we evaluate its effectiveness in improving the quality of customer service and operational efficiency. Data collected during the experiment demonstrate varied impacts on customer interaction, revealing insights into the future optimizations of digital assistant technologies in customer-facing roles. This study contributes to the understanding of digital transformation strategies within the customer relations domain emphasizing the need for service flexibility and user-centric design in modern retail stores.
翻訳日:2024-06-11 23:05:25 公開日:2024-06-10
# 固有共振器リセットによる分散量子ビット読み出し

Dispersive Qubit Readout with Intrinsic Resonator Reset ( http://arxiv.org/abs/2406.04891v2 )

ライセンス: Link先を確認
M. Jerger, F. Motzoi, Y. Gao, C. Dickel, L. Buchmann, A. Bengtsson, G. Tancredi, C. W. Warren, J. Bylander, D. DiVincenzo, R. Barends, P. A. Bushev, (参考訳) 量子コンピューティングにおける重要な課題は、測定と初期化のスピードアップである。 ここでは、量子ビットを同時に測定し、読み出し共振器を初期状態に戻す超伝導量子ビットの分散測定法を実験的に示す。 この手法は普遍的な解析パルスに基づいており、量子ビットおよび共振器パラメータの知識を必要とするが、システムの非線形性を考慮してもパルス形状を直接最適化する必要はない。 さらに、任意のモードと状態の測定に一般化する。 qubitreadoutでは、共振器を$\sim 10^2$ photonsに、$\sim 10^{-3}$ photonsを$3 \kappa^{-1}$に戻すことができる。 また,四重項読み出しのための普遍パルス形状と実験結果も提示する。

A key challenge in quantum computing is speeding up measurement and initialization. Here, we experimentally demonstrate a dispersive measurement method for superconducting qubits that simultaneously measures the qubit and returns the readout resonator to its initial state. The approach is based on universal analytical pulses and requires knowledge of the qubit and resonator parameters, but needs no direct optimization of the pulse shape, even when accounting for the nonlinearity of the system. Moreover, the method generalizes to measuring an arbitrary number of modes and states. For the qubit readout, we can drive the resonator to $\sim 10^2$ photons and back to $\sim 10^{-3}$ photons in less than $3 \kappa^{-1}$, while still achieving a $T_1$-limited assignment error below 1\%. We also present universal pulse shapes and experimental results for qutrit readout.
翻訳日:2024-06-11 23:05:25 公開日:2024-06-10
# GenHeld: ハンドヘルドオブジェクトの生成と編集

GenHeld: Generating and Editing Handheld Objects ( http://arxiv.org/abs/2406.05059v2 )

ライセンス: Link先を確認
Chaerin Min, Srinath Sridhar, (参考訳) グラスピングは、ロボット工学、コンピュータビジョン、認知科学において長年研究されてきた重要な人間の活動である。 既存の研究の多くは、3次元または2次元のオブジェクト表現に条件付けされた手ポーズの合成の観点から把握することを研究している。 我々は3次元ハンドモデルや2次元画像に条件付き保持オブジェクトを合成する逆問題にGenHeldを提案する。 GenHeld 3Dは3Dモデルによってオブジェクトコードと呼ばれるコンパクトなオブジェクト表現を用いて大きなデータセットから可塑性保持オブジェクトを選択できる。 もし2Dハンドイメージが利用可能であれば、GenHeld 2Dはこの画像を編集して保持されているオブジェクトを追加したり置き換えたりできる。 GenHeld 2Dは、GenHeld 3Dの能力と拡散ベースの画像編集を組み合わせることで動作する。 結果と実験により, 2次元および3次元の両方において, ベースラインを上回り, 保持可能な物体を生成できることが判明した。 実験により,本手法は3次元および2次元の両方で保持対象合成の精度と妥当性を実証した。

Grasping is an important human activity that has long been studied in robotics, computer vision, and cognitive science. Most existing works study grasping from the perspective of synthesizing hand poses conditioned on 3D or 2D object representations. We propose GenHeld to address the inverse problem of synthesizing held objects conditioned on 3D hand model or 2D image. Given a 3D model of hand, GenHeld 3D can select a plausible held object from a large dataset using compact object representations called object codes.The selected object is then positioned and oriented to form a plausible grasp without changing hand pose. If only a 2D hand image is available, GenHeld 2D can edit this image to add or replace a held object. GenHeld 2D operates by combining the abilities of GenHeld 3D with diffusion-based image editing. Results and experiments show that we outperform baselines and can generate plausible held objects in both 2D and 3D. Our experiments demonstrate that our method achieves high quality and plausibility of held object synthesis in both 3D and 2D.
翻訳日:2024-06-11 22:55:40 公開日:2024-06-10
# M2CVD:コードの脆弱性検出のためのマルチモデルコラボレーション

M2CVD: Multi-Model Collaboration for Code Vulnerability Detection ( http://arxiv.org/abs/2406.05940v1 )

ライセンス: Link先を確認
Ziliang Wang, Ge Li, Jia Li, Yingfei Xiong, Jia Li, Zhi Jin, (参考訳) 大規模言語モデル(LLM)は、コード理解において強力な能力を持つが、微調整コストとセマンティックアライメントの問題により、プロジェクト固有の最適化が制限される。 これらの課題に対処するために,LLMから脆弱性意味を解析し,コードモデルの検出精度を向上させるM2CVD(Multi-Model Collaborative Vulnerability Detection)を提案する。 M2CVDは、コードモデルによるプロジェクトコードの理解を通じて、LLMが生成する脆弱性セマンティック記述の品質を向上させるとともに、これらの改善された脆弱性セマンティック記述を使用して、コードモデルの検出精度を高めるという、新しい協調プロセスを採用している。 実世界の2つのデータセットにおいて,M2CVDの有効性を実証した。 さらに,M2CVDコラボレーティブ手法は,他のLLMやコードモデルにも拡張可能で,脆弱性検出タスクの精度が向上することを示した。

Large Language Models (LLMs) have strong capabilities in code comprehension, but fine-tuning costs and semantic alignment issues limit their project-specific optimization; conversely, code models such CodeBERT are easy to fine-tune, but it is often difficult to learn vulnerability semantics from complex code languages. To address these challenges, this paper introduces the Multi-Model Collaborative Vulnerability Detection approach (M2CVD) that leverages the strong capability of analyzing vulnerability semantics from LLMs to improve the detection accuracy of code models. M2CVD employs a novel collaborative process: first enhancing the quality of vulnerability semantic description produced by LLMs through the understanding of project code by code models, and then using these improved vulnerability semantic description to boost the detection accuracy of code models. We demonstrated M2CVD's effectiveness on two real-world datasets, where M2CVD significantly outperformed the baseline. In addition, we demonstrate that the M2CVD collaborative method can extend to other different LLMs and code models to improve their accuracy in vulnerability detection tasks.
翻訳日:2024-06-11 15:25:59 公開日:2024-06-10
# 脱獄型量子コンピュータ

Jailbreaking Quantum Computers ( http://arxiv.org/abs/2406.05941v1 )

ライセンス: Link先を確認
Chuanqi Xu, Jakub Szefer, (参考訳) この研究は、ゲートレベルとパルスレベル量子回路とパルスレベル量子回路との界面に対する攻撃を、初めて徹底的に調査した。 通常、量子コンピュータ上で実行される量子回路やプログラムはゲートレベルのプリミティブを用いて定義される。 しかし、量子回路の表現性を向上し、より良い最適化を可能にするために、パルスレベル回路がしばしば用いられる。 この研究で示された攻撃は、カスタムゲートのゲートレベル記述と、このゲートの実際の低レベルパルス実装の矛盾を利用する。 カスタムゲート仕様の操作により、qubit plunder、qubit block、qubit reorder、time mismatch、 frequency mismatch、phase mismatch、Waveform mismatchなど、数多くの攻撃が提案されている。 この研究は、実際の量子コンピュータとシミュレータに対するこれらの攻撃を実証し、現在のソフトウェア開発キットがこれらの新しいタイプの攻撃に対して脆弱であることを示す。 最終的に、この研究は防衛の枠組みを提案する。 パルスレベル量子回路のセキュリティとプライバシの問題の調査は、セキュアな量子ソフトウェア開発キットと量子コンピュータシステムの将来の開発に関する洞察を与えてくれる。

This work presented the first thorough exploration of the attacks on the interface between gate-level and pulse-level quantum circuits and pulse-level quantum circuits themselves. Typically, quantum circuits and programs that execute on quantum computers, are defined using gate-level primitives. However, to improve the expressivity of quantum circuits and to allow better optimization, pulse-level circuits are now often used. The attacks presented in this work leverage the inconsistency between the gate-level description of the custom gate, and the actual, low-level pulse implementation of this gate. By manipulating the custom gate specification, this work proposes numerous attacks: qubit plunder, qubit block, qubit reorder, timing mismatch, frequency mismatch, phase mismatch, and waveform mismatch. This work demonstrates these attacks on the real quantum computer and simulator, and shows that most current software development kits are vulnerable to these new types of attacks. In the end, this work proposes a defense framework. The exploration of security and privacy issues of the rising pulse-level quantum circuits provides insight into the future development of secure quantum software development kits and quantum computer systems.
翻訳日:2024-06-11 15:25:59 公開日:2024-06-10
# SETC: 脆弱性のあるテレメトリコレクションフレームワーク

SETC: A Vulnerability Telemetry Collection Framework ( http://arxiv.org/abs/2406.05942v1 )

ライセンス: Link先を確認
Ryan Holeman, John Hastings, Varghese Mathew Vaidyan, (参考訳) 新たなソフトウェア脆弱性が企業やインターネットサービスに継続的に脅威を与えているため、セキュリティ研究機能の改善には重要なニーズがある。 本稿では,セキュアなセキュリティ研究のために,大規模な再現可能な脆弱性エクスプロイトデータを生成する自動化フレームワークであるSecurity Exploit Telemetry Collection (SETC)フレームワークを紹介する。 SETCは構成可能な環境をデプロイし、分離されたコンテナ内での脆弱性エクスプロイトのリッチなテレメトリを実行および記録する。 エクスプロイト、脆弱なサービス、監視ツール、ロギングパイプラインは、モジュール化されたJSON設定によって定義され、必要に応じてデプロイされる。 現在の手動プロセスと比較して、SETCは様々なセキュリティテレメトリを生成するために、自動化され、カスタマイズ可能で、繰り返し可能な脆弱性テストを可能にする。 この研究は、スケーラブルなエクスプロイトデータ生成を可能にし、脅威モデリング、検出方法、分析技術、修復戦略の革新を促進する。 フレームワークの能力は、例のシナリオで示されます。 セキュリティデータ生成における重要な障壁に対処することにより、SETCは、影響のある脆弱性と防御的なセキュリティ研究をサポートする上で価値のあるプラットフォームである。

As emerging software vulnerabilities continuously threaten enterprises and Internet services, there is a critical need for improved security research capabilities. This paper introduces the Security Exploit Telemetry Collection (SETC) framework - an automated framework to generate reproducible vulnerability exploit data at scale for robust defensive security research. SETC deploys configurable environments to execute and record rich telemetry of vulnerability exploits within isolated containers. Exploits, vulnerable services, monitoring tools, and logging pipelines are defined via modular JSON configurations and deployed on demand. Compared to current manual processes, SETC enables automated, customizable, and repeatable vulnerability testing to produce diverse security telemetry. This research enables scalable exploit data generation to drive innovations in threat modeling, detection methods, analysis techniques, and remediation strategies. The capabilities of the framework are demonstrated through an example scenario. By addressing key barriers in security data generation, SETC represents a valuable platform to support impactful vulnerability and defensive security research.
翻訳日:2024-06-11 15:25:59 公開日:2024-06-10
# 安全アライメントは、ほんの少しの深さ以上のものを作るべきだ

Safety Alignment Should Be Made More Than Just a Few Tokens Deep ( http://arxiv.org/abs/2406.05946v1 )

ライセンス: Link先を確認
Xiangyu Qi, Ashwinee Panda, Kaifeng Lyu, Xiao Ma, Subhrajit Roy, Ahmad Beirami, Prateek Mittal, Peter Henderson, (参考訳) 現在のLarge Language Models(LLM)の安全性アライメントは脆弱である。 比較的単純な攻撃、あるいは微調整さえも、ジェイルブレイク対応のモデルを作ることができる。 安全アライメントはショートカットを取ることができ、アライメントはモデルの生成的分布を、ごく少数の出力トークンのみに適応させる。 我々はこの問題を浅瀬安全アライメントと呼んでいる。 本稿では,なぜ浅層安全アライメントが存在するのかを説明するケーススタディと,現在のLCMがこの問題に対処する証拠を提供する。 また,最近発見されたLDMの脆弱性について,逆サフィックス攻撃に対する感受性,プリフィル攻撃,デコードパラメータ攻撃,微調整攻撃などを説明する上でも有効であることを示す。 重要なことは、この浅層安全アライメントの概念の統合が、これらの脆弱性を緩和するための有望な研究方向性に光を当てることについて論じる。 例えば、最初の数個のトークン以上の安全性アライメントの強化は、いくつかの一般的なエクスプロイトに対する堅牢性を有意義に改善できることが示されています。 最後に,初期トークンの更新を制限することにより,安全アライメントをより永続的にする,正規化された微調整目標を設計する。 全体として、将来の安全性の整合性は、ほんの少しのトークンよりも深いものにすべきだ、と私たちは主張します。

The safety alignment of current Large Language Models (LLMs) is vulnerable. Relatively simple attacks, or even benign fine-tuning, can jailbreak aligned models. We argue that many of these vulnerabilities are related to a shared underlying issue: safety alignment can take shortcuts, wherein the alignment adapts a model's generative distribution primarily over only its very first few output tokens. We refer to this issue as shallow safety alignment. In this paper, we present case studies to explain why shallow safety alignment can exist and provide evidence that current aligned LLMs are subject to this issue. We also show how these findings help explain multiple recently discovered vulnerabilities in LLMs, including the susceptibility to adversarial suffix attacks, prefilling attacks, decoding parameter attacks, and fine-tuning attacks. Importantly, we discuss how this consolidated notion of shallow safety alignment sheds light on promising research directions for mitigating these vulnerabilities. For instance, we show that deepening the safety alignment beyond just the first few tokens can often meaningfully improve robustness against some common exploits. Finally, we design a regularized finetuning objective that makes the safety alignment more persistent against fine-tuning attacks by constraining updates on initial tokens. Overall, we advocate that future safety alignment should be made more than just a few tokens deep.
翻訳日:2024-06-11 15:25:59 公開日:2024-06-10
# Chain-of-Scrutiny:大規模言語モデルに対するバックドアアタックの検出

Chain-of-Scrutiny: Detecting Backdoor Attacks for Large Language Models ( http://arxiv.org/abs/2406.05948v1 )

ライセンス: Link先を確認
Xi Li, Yusen Zhang, Renze Lou, Chen Wu, Jiaqi Wang, (参考訳) バックドア攻撃は、特にAPI統合とプロンプトエンジニアリングを提供するサードパーティサービスの台頭によって、大きな言語モデル(LLM)に重大な脅威をもたらす。 信頼できないサードパーティは、LLMにバックドアを配置し、悪意のある命令をユーザクエリに埋め込むことで、ユーザにリスクを及ぼすことができる。 バックドアにコンパイルされたLSMは、攻撃者が指定した特定のトリガーに入力が埋め込まれたときに悪意のある出力を生成する。 モデルパラメータの微調整と勾配計算を主とする従来の防衛戦略は、計算とクリーンなデータ要求のためにLLMには不十分である。 本稿では,これらの課題に対処する新しいソリューションとして,CoS(Chain-of-Scrutiny)を提案する。 バックドア攻撃は基本的に、トリガーからターゲット出力へのショートカットを生成するため、推論サポートが欠如している。 したがって、CoS は LLM を誘導して入力の詳細な推論ステップを生成し、最終回答との整合性を確保するために推論プロセスを精査する。 いかなる不整合も攻撃を示すことがある。 CoS は LLM へのブラックボックスアクセスのみを必要とし、特に API アクセス可能な LLM に対して実用的な防御を提供する。 ユーザフレンドリーで、ユーザ自身が防御を行うことができる。 自然言語によって駆動される防衛プロセス全体がユーザにとって透過的です。 各種タスクおよびLLMにわたる広範囲な実験により,CoSの有効性を検証する。 さらに、実験の結果、CoSはより強力なLCMにとってより有益であることが示された。

Backdoor attacks present significant threats to Large Language Models (LLMs), particularly with the rise of third-party services that offer API integration and prompt engineering. Untrustworthy third parties can plant backdoors into LLMs and pose risks to users by embedding malicious instructions into user queries. The backdoor-compromised LLM will generate malicious output when and input is embedded with a specific trigger predetermined by an attacker. Traditional defense strategies, which primarily involve model parameter fine-tuning and gradient calculation, are inadequate for LLMs due to their extensive computational and clean data requirements. In this paper, we propose a novel solution, Chain-of-Scrutiny (CoS), to address these challenges. Backdoor attacks fundamentally create a shortcut from the trigger to the target output, thus lack reasoning support. Accordingly, CoS guides the LLMs to generate detailed reasoning steps for the input, then scrutinizes the reasoning process to ensure consistency with the final answer. Any inconsistency may indicate an attack. CoS only requires black-box access to LLM, offering a practical defense, particularly for API-accessible LLMs. It is user-friendly, enabling users to conduct the defense themselves. Driven by natural language, the entire defense process is transparent to users. We validate the effectiveness of CoS through extensive experiments across various tasks and LLMs. Additionally, experiments results shows CoS proves more beneficial for more powerful LLMs.
翻訳日:2024-06-11 15:16:08 公開日:2024-06-10
# アクション空間からの正規化の分離

Decoupling regularization from the action space ( http://arxiv.org/abs/2406.05953v1 )

ライセンス: Link先を確認
Sobhan Mohammadpour, Emma Frejinger, Pierre-Luc Bacon, (参考訳) 正規化強化学習(RL)、特にエントロピー規則化学習は、最適制御および逆RLにおいて牽引力を高めている。 標準の非正規化RL法は, 動作数の変化の影響を受けていないが, 正則化RL法に深刻な影響を及ぼす可能性が示唆された。 本稿では,レギュレータをアクション空間から分離することの重要性を示す。すなわち,過剰なレギュレータ化を回避するためのアクションの数に関係なく,一貫したレギュレータレベルを維持すること。 タスク固有の温度パラメータを導入することで問題を回避することができるが、多くの場合は望ましくないものであり、アクション空間が状態依存である場合には解決できない。 状態依存のアクションコンテキストでは、異なるアクション空間を持つ異なる状態が整合的に正規化される。 静的温度選択法と動的対向法という2つの解を導入し、この問題が発生した場合に普遍的に適用する。 これらの変更を実装することで、静的および動的温度条件におけるDeepMindコントロールスイートのパフォーマンスと、生物学的シーケンス設計タスクが改善される。

Regularized reinforcement learning (RL), particularly the entropy-regularized kind, has gained traction in optimal control and inverse RL. While standard unregularized RL methods remain unaffected by changes in the number of actions, we show that it can severely impact their regularized counterparts. This paper demonstrates the importance of decoupling the regularizer from the action space: that is, to maintain a consistent level of regularization regardless of how many actions are involved to avoid over-regularization. Whereas the problem can be avoided by introducing a task-specific temperature parameter, it is often undesirable and cannot solve the problem when action spaces are state-dependent. In the state-dependent action context, different states with varying action spaces are regularized inconsistently. We introduce two solutions: a static temperature selection approach and a dynamic counterpart, universally applicable where this problem arises. Implementing these changes improves performance on the DeepMind control suite in static and dynamic temperature regimes and a biological sequence design task.
翻訳日:2024-06-11 15:16:08 公開日:2024-06-10
# 表現編集による大規模言語モデルの調整:制御の観点から

Aligning Large Language Models with Representation Editing: A Control Perspective ( http://arxiv.org/abs/2406.05954v1 )

ライセンス: Link先を確認
Lingkai Kong, Haorui Wang, Wenhao Mu, Yuanqi Du, Yuchen Zhuang, Yifei Zhou, Yue Song, Rongzhi Zhang, Kai Wang, Chao Zhang, (参考訳) 大規模言語モデル(LLM)を人間の目的に合わせることは、現実世界のアプリケーションには不可欠である。 しかし、アライメントのための微調整 LLM は不安定なトレーニングに悩まされ、かなりの計算資源を必要とする。 プロンプトやガイドデコーディングのようなテスト時のアライメント技術は、基礎となるモデルを変更せず、その性能は元のモデルの性能に依存している。 これらの課題に対処するために,表現編集によるLLMの整合性を提案する。 本手法の核となるのは,事前学習した自己回帰型LDMを離散時間確率力学系として見ることである。 この言語力学系の状態空間に外部制御信号を導入する。 我々はベルマン方程式に従って隠蔽状態の値関数を直接訓練し、勾配に基づく最適化によりテスト時に最適な制御信号が得られるようにした。 実験の結果,本手法は既存のテスト時間アライメント手法より優れており,微調整法に比べて資源の削減が著しく少ないことがわかった。

Aligning large language models (LLMs) with human objectives is crucial for real-world applications. However, fine-tuning LLMs for alignment often suffers from unstable training and requires substantial computing resources. Test-time alignment techniques, such as prompting and guided decoding, do not modify the underlying model, and their performance remains dependent on the original model's capabilities. To address these challenges, we propose aligning LLMs through representation editing. The core of our method is to view a pre-trained autoregressive LLM as a discrete-time stochastic dynamical system. To achieve alignment for specific objectives, we introduce external control signals into the state space of this language dynamical system. We train a value function directly on the hidden states according to the Bellman equation, enabling gradient-based optimization to obtain the optimal control signals at test time. Our experiments demonstrate that our method outperforms existing test-time alignment techniques while requiring significantly fewer resources compared to fine-tuning methods.
翻訳日:2024-06-11 15:16:08 公開日:2024-06-10
# ターボスパース:最小活性化パラメータによるLDM SOTAの性能向上

Turbo Sparse: Achieving LLM SOTA Performance with Minimal Activated Parameters ( http://arxiv.org/abs/2406.05955v1 )

ライセンス: Link先を確認
Yixin Song, Haotong Xie, Zhengyan Zhang, Bo Wen, Li Ma, Zeyu Mi, Haibo Chen, (参考訳) 活性化スペシャリティの爆発は、性能を損なうことなく、大規模言語モデル(LLM)の推論プロセスを著しく加速する、有望なアプローチである。 しかし、アクティベーション間隔はアクティベーション関数によって決定され、SwiGLUやGeGLUのような一般的に使われるものは限られた間隔を示す。 これらの関数をReLUで置き換えるだけで十分な間隔が得られない。 さらに、不十分なトレーニングデータは、パフォーマンス劣化のリスクをさらに高めることができる。 これらの課題に対処するため, LLMの活性化空間性を改善するために設計された新しいdReLU関数と, 効果的なスパシフィケーションを容易にするための高品質なトレーニングデータ混合比を提案する。 さらに、Mixture-of-Experts(MoE)モデルのFFN(Feed-Forward Network)エキスパートのスパースアクティベーションパターンを活用し、効率をさらに向上する。 ミストラルモデルとミキストラルモデルにニューロンスペーシフィケーション法を適用することにより、推論イテレーション毎に25億と43億のパラメータが活性化され、さらに強力なモデル性能が達成される。 評価結果から,この疎度は2~5倍の復号速度を実現することが示された。 携帯電話では、TurboSparse-Mixtral-47Bが毎秒11トークンの推論速度を実現しています。 我々のモデルは \url{https://huggingface.co/PowerInfer} で利用可能です。

Exploiting activation sparsity is a promising approach to significantly accelerating the inference process of large language models (LLMs) without compromising performance. However, activation sparsity is determined by activation functions, and commonly used ones like SwiGLU and GeGLU exhibit limited sparsity. Simply replacing these functions with ReLU fails to achieve sufficient sparsity. Moreover, inadequate training data can further increase the risk of performance degradation. To address these challenges, we propose a novel dReLU function, which is designed to improve LLM activation sparsity, along with a high-quality training data mixture ratio to facilitate effective sparsification. Additionally, we leverage sparse activation patterns within the Feed-Forward Network (FFN) experts of Mixture-of-Experts (MoE) models to further boost efficiency. By applying our neuron sparsification method to the Mistral and Mixtral models, only 2.5 billion and 4.3 billion parameters are activated per inference iteration, respectively, while achieving even more powerful model performance. Evaluation results demonstrate that this sparsity achieves a 2-5x decoding speedup. Remarkably, on mobile phones, our TurboSparse-Mixtral-47B achieves an inference speed of 11 tokens per second. Our models are available at \url{https://huggingface.co/PowerInfer}
翻訳日:2024-06-11 15:16:08 公開日:2024-06-10
# 量子Z2格子ゲージ理論を用いた高次非拘束二元最適化の高速化

Speedup of high-order unconstrained binary optimization using quantum Z2 lattice gauge theory ( http://arxiv.org/abs/2406.05958v1 )

ライセンス: Link先を確認
Bi-Ying Wang, Xiaopeng Cui, Qingguo Zeng, Yemin Zhan, Yu Shi, Man-Hong Yung, (参考訳) 高次非制約バイナリ最適化(HUBO)の問題を迅速に解決する方法は、その重要性と広範囲の応用により、多くの注目を集めている。 本稿では、量子断熱アルゴリズムを用いてHUBOを実装し、このアルゴリズムにゲージ対称性を導入してアルゴリズムの高速化を実現する。 ゲージ対称性は、状態が瞬時に基底状態になることを強制し、計算をさらに高速化する。 具体的には、HUBO問題を双対グラフ上で定義された量子Z2格子ゲージ理論にマッピングする。 ゲージ演算子は閉ループ探索アルゴリズムを用いて検出され、HUBO問題に対するゲージ対称性を持つ高速化スキームが開発された。 古典的計算機で実証された例として,我々の高速化スキームの数学的定式化を提案し,ゲージ対称性によって保護される局所量子アニール (LQA) であるゲージド局所アニール (gLQA) という,いわゆるゲージド局所アニール (gLQA) を提案する。 次に、gLQAを用いてZ2ゲージ理論の基底状態エネルギーを計算する。 gLQAは、LQAの計算時間から1桁の計算時間を短縮する。

How to quickly solve the problem of high-order unconstrained binary optimization (HUBO) has attracted much attention, because of its importance and wide-range applications. Here we implement HUBO using a quantum adiabatic algorithm and achieve algorithmic speedup by introducing gauge symmetry into the algorithm. Gauge symmetry enforces the state to be in the instantaneous ground state, further speeding up the computation. Specifically we map the HUBO problem to quantum Z2 lattice gauge theory defined on the dual graph. The gauge operators are found by using the closed-loop-search algorithm, and subsequently the speedup scheme with gauge symmetry for HUBO problem is developed. As an example demonstrated in the classical computers, we present the mathematical formulation of our speedup scheme and propose the so-called gauged local annealing (gLQA) , which is the local quantum annealing (LQA) protected by the gauge symmetry. We then use gLQA to calculate the ground state energy of the Z2 gauge theory. gLQA reduces the computational time by one order of magnitude from that of LQA.
翻訳日:2024-06-11 15:16:08 公開日:2024-06-10
# MAGNOLIA:オンライン価値対ゴ近似のためのGNNによるマッチングアルゴリズム

MAGNOLIA: Matching Algorithms via GNNs for Online Value-to-go Approximation ( http://arxiv.org/abs/2406.05959v1 )

ライセンス: Link先を確認
Alexandre Hayderi, Amin Saberi, Ellen Vitercik, Anders Wikum, (参考訳) オンライン・ベイズ・バイパルタイト・マッチングは、広告、クラウドソーシング、ライドシェアリング、腎臓交換など、デジタル市場や取引所における中心的な問題である。 グラフニューラルネットワーク(GNN)アプローチを導入し、各アクションの値 to go(VTG)を計算してアクション(例えば、どのノードが一致するか)を選択する。 我々は、VTGを推定するためにGNNを訓練し、このGNNが様々なタスクにまたがるハイウェイトマッチングを返すことを実証的に示す。 さらに,VTGを効率よく近似できるライドシェアのような空間的クラウドソーシングアプリケーションにおけるグラフ分布の共通系を,グラフ内の局所的に情報を集約することで同定する。 この構造はGNNの局所的挙動と一致し、我々のアプローチを理論的に正当化する。

Online Bayesian bipartite matching is a central problem in digital marketplaces and exchanges, including advertising, crowdsourcing, ridesharing, and kidney exchange. We introduce a graph neural network (GNN) approach that emulates the problem's combinatorially-complex optimal online algorithm, which selects actions (e.g., which nodes to match) by computing each action's value-to-go (VTG) -- the expected weight of the final matching if the algorithm takes that action, then acts optimally in the future. We train a GNN to estimate VTG and show empirically that this GNN returns high-weight matchings across a variety of tasks. Moreover, we identify a common family of graph distributions in spatial crowdsourcing applications, such as rideshare, under which VTG can be efficiently approximated by aggregating information within local neighborhoods in the graphs. This structure matches the local behavior of GNNs, providing theoretical justification for our approach.
翻訳日:2024-06-11 15:16:08 公開日:2024-06-10
# CVPRマルチモーダルアルゴリズム推論タスク2024のSMART-101への挑戦

Solution for SMART-101 Challenge of CVPR Multi-modal Algorithmic Reasoning Task 2024 ( http://arxiv.org/abs/2406.05963v1 )

ライセンス: Link先を確認
Jinwoo Ahn, Junhyeok Park, Min-Jun Kim, Kang-Hyeon Kim, So-Yeong Sohn, Yun-Ji Lee, Du-Seong Chang, Yu-Jung Heo, Eun-Sol Kim, (参考訳) 本稿では,HYU MLLAB KT Teamのマルチモーダルアルゴリズム推論タスクに対する解であるSMART-101 CVPR 2024 Challengeについて述べる。 SMART-101チャレンジは、従来の視覚的質問応答問題以外にも、6-8歳児を対象とした複雑な視覚言語パズルに取り組むことで、人間レベルのマルチモーダル理解を実現することを目的としている。 この問題を解決するために、我々は2つの主要な考えを提案する。 まず、大規模言語モデル(LLM)の推論能力を利用するために、与えられた視覚的手がかり(画像)は、テキストのモダリティに基礎を置いている。 この目的のために、画像のコンテキストを記述した高精細なテキストキャプションを生成し、これらのキャプションをLSMの入力として使用する。 第二に、様々な幾何学的視覚パターンを含むパズル画像の性質から、これらのパターンがキャプションの過程で見過ごされないようにオブジェクト検出アルゴリズムを利用する。 様々な大きさの物体を検出できるSAMアルゴリズムを用いて,これらの幾何学的パターンの視覚的特徴を抽出し,この情報をLLMの入力として利用した。 パズル分割構成では,テストセットで29.5のオプション選択精度Oacc,チャレンジセットで27.1の重み付きオプション選択精度(WOSA)を達成した。

In this paper, the solution of HYU MLLAB KT Team to the Multimodal Algorithmic Reasoning Task: SMART-101 CVPR 2024 Challenge is presented. Beyond conventional visual question-answering problems, the SMART-101 challenge aims to achieve human-level multimodal understanding by tackling complex visio-linguistic puzzles designed for children in the 6-8 age group. To solve this problem, we suggest two main ideas. First, to utilize the reasoning ability of a large-scale language model (LLM), the given visual cues (images) are grounded in the text modality. For this purpose, we generate highly detailed text captions that describe the context of the image and use these captions as input for the LLM. Second, due to the nature of puzzle images, which often contain various geometric visual patterns, we utilize an object detection algorithm to ensure these patterns are not overlooked in the captioning process. We employed the SAM algorithm, which can detect various-size objects, to capture the visual features of these geometric patterns and used this information as input for the LLM. Under the puzzle split configuration, we achieved an option selection accuracy Oacc of 29.5 on the test set and a weighted option selection accuracy (WOSA) of 27.1 on the challenge set.
翻訳日:2024-06-11 15:16:08 公開日:2024-06-10
# 分散ロバスト安全なサンプルスクリーニング

Distributionally Robust Safe Sample Screening ( http://arxiv.org/abs/2406.05964v1 )

ライセンス: Link先を確認
Hiroyuki Hanada, Aoyama Tatsuya, Akahane Satoshi, Tomonari Tanaka, Yoshito Okura, Yu Inatsu, Noriaki Hashimoto, Shion Takeno, Taro Murayama, Hanju Lee, Shinya Kojima, Ichiro Takeuchi, (参考訳) 本研究では,DRSSS(Dis Distributionally Robust Safe Sample Screening)と呼ばれる機械学習手法を提案する。 DRSSSは、将来トレーニングサンプルの分布が変化しても、不要なトレーニングサンプルを特定することを目的としている。 そこで本研究では,データ分散の変動に対するモデルロバスト性向上を目的とした分散ロバスト(DR)パラダイムと,モデルトレーニングに先立って不要なトレーニングサンプルを識別する安全なサンプルスクリーニング(SSS)を効果的に組み合わせた。 分散の変化に関して無限のシナリオを考える必要があるため、分散の変化後にモデルトレーニングを必要としないため、SSSを適用した。 本稿では,トレーニングサンプルの分布を表すために共変量シフトフレームワークを用い,DR共変量シフト問題を,所定の範囲内で重みが不確実な重み付き経験的リスク最小化問題として再検討した。 この重みの不確実性に対応するために既存のSSS技術を拡張することで、DRSSS法は、特定範囲内の将来の分布下で不必要なサンプルを確実に識別することができる。 我々は、DRSSS法の理論的保証と、合成データセットと実世界のデータセットの数値実験による性能評価を行う。

In this study, we propose a machine learning method called Distributionally Robust Safe Sample Screening (DRSSS). DRSSS aims to identify unnecessary training samples, even when the distribution of the training samples changes in the future. To achieve this, we effectively combine the distributionally robust (DR) paradigm, which aims to enhance model robustness against variations in data distribution, with the safe sample screening (SSS), which identifies unnecessary training samples prior to model training. Since we need to consider an infinite number of scenarios regarding changes in the distribution, we applied SSS because it does not require model training after the change of the distribution. In this paper, we employed the covariate shift framework to represent the distribution of training samples and reformulated the DR covariate-shift problem as a weighted empirical risk minimization problem, where the weights are subject to uncertainty within a predetermined range. By extending the existing SSS technique to accommodate this weight uncertainty, the DRSSS method is capable of reliably identifying unnecessary samples under any future distribution within a specified range. We provide a theoretical guarantee for the DRSSS method and validate its performance through numerical experiments on both synthetic and real-world datasets.
翻訳日:2024-06-11 15:16:08 公開日:2024-06-10
# MakeSinger: 分類器なし拡散誘導によるデータ効率の良い歌声合成のための半教師付き訓練方法

MakeSinger: A Semi-Supervised Training Method for Data-Efficient Singing Voice Synthesis via Classifier-free Diffusion Guidance ( http://arxiv.org/abs/2406.05965v1 )

ライセンス: Link先を確認
Semin Kim, Myeonghun Jeong, Hyeonseung Lee, Minchan Kim, Byoung Jin Choi, Nam Soo Kim, (参考訳) 本稿では,歌唱音声合成のための半教師付き訓練手法であるMakeSingerを提案する。 SVSの課題は、整列したテキスト、ピッチ、オーディオデータを収集するコストのかかるプロセスにある。 MakeSingerは、ラベリングにかかわらず、任意の音声および歌唱音声データから拡散ベースのSVSモデルのトレーニングを可能にし、大量の未ラベルデータで生成された音声の品質を向上させる。 提案手法では, マスク入力のスコアを推定することにより, 逆拡散ステップのテキストとピッチ誘導を行う。 実験結果から,半教師付き手法で訓練したモデルは,発音,ピッチ精度,全体的な品質において,ラベル付きデータのみに基づいて訓練した他のベースラインよりも優れていた。 さらに、トレーニング中にテキスト・トゥ・スペーチ(TTS)データを追加することで、TTS話者の歌声を歌声なしで合成できることを実証した。

In this paper, we propose MakeSinger, a semi-supervised training method for singing voice synthesis (SVS) via classifier-free diffusion guidance. The challenge in SVS lies in the costly process of gathering aligned sets of text, pitch, and audio data. MakeSinger enables the training of the diffusion-based SVS model from any speech and singing voice data regardless of its labeling, thereby enhancing the quality of generated voices with large amount of unlabeled data. At inference, our novel dual guiding mechanism gives text and pitch guidance on the reverse diffusion step by estimating the score of masked input. Experimental results show that the model trained in a semi-supervised manner outperforms other baselines trained only on the labeled data in terms of pronunciation, pitch accuracy and overall quality. Furthermore, we demonstrate that by adding Text-to-Speech (TTS) data in training, the model can synthesize the singing voices of TTS speakers even without their singing voices.
翻訳日:2024-06-11 15:16:08 公開日:2024-06-10
# CVQA: 文化的に多言語で視覚的な質問に対する回答ベンチマーク

CVQA: Culturally-diverse Multilingual Visual Question Answering Benchmark ( http://arxiv.org/abs/2406.05967v1 )

ライセンス: Link先を確認
David Romero, Chenyang Lyu, Haryo Akbarianto Wibowo, Teresa Lynn, Injy Hamed, Aditya Nanda Kishore, Aishik Mandal, Alina Dragonetti, Artem Abzaliev, Atnafu Lambebo Tonja, Bontu Fufa Balcha, Chenxi Whitehouse, Christian Salamea, Dan John Velasco, David Ifeoluwa Adelani, David Le Meur, Emilio Villa-Cueva, Fajri Koto, Fauzan Farooqui, Frederico Belcavello, Ganzorig Batnasan, Gisela Vallejo, Grainne Caulfield, Guido Ivetta, Haiyue Song, Henok Biadglign Ademtew, Hernán Maina, Holy Lovenia, Israel Abebe Azime, Jan Christian Blaise Cruz, Jay Gala, Jiahui Geng, Jesus-German Ortiz-Barajas, Jinheon Baek, Jocelyn Dunstan, Laura Alonso Alemany, Kumaranage Ravindu Yasas Nagasinghe, Luciana Benotti, Luis Fernando D'Haro, Marcelo Viridiano, Marcos Estecha-Garitagoitia, Maria Camila Buitrago Cabrera, Mario Rodríguez-Cantelar, Mélanie Jouitteau, Mihail Mihaylov, Mohamed Fazli Mohamed Imam, Muhammad Farid Adilazuarda, Munkhjargal Gochoo, Munkh-Erdene Otgonbold, Naome Etori, Olivier Niyomugisha, Paula Mónica Silva, Pranjal Chitale, Raj Dabre, Rendi Chevi, Ruochen Zhang, Ryandito Diandaru, Samuel Cahyawijaya, Santiago Góngora, Soyeong Jeong, Sukannya Purkayastha, Tatsuki Kuribayashi, Thanmay Jayakumar, Tiago Timponi Torrent, Toqeer Ehsan, Vladimir Araujo, Yova Kementchedjhieva, Zara Burzo, Zheng Wei Lim, Zheng Xin Yong, Oana Ignat, Joan Nwatu, Rada Mihalcea, Thamar Solorio, Alham Fikri Aji, (参考訳) VQA(Visual Question Answering)は、マルチモーダルAIにおいて重要なタスクであり、視覚言語モデルが視覚データとテキストデータの両方に存在する知識を理解し、推論する能力をテストするためにしばしば使用される。 しかしながら、現在のVQAモデルのほとんどは、主に英語といくつかの主要な世界言語に焦点を当てたデータセットを使用しており、通常は西洋中心のイメージである。 最近の取り組みでは、VQAデータセットでカバーされる言語数を増やそうとしているが、低リソース言語の多様性は依然として欠如している。 さらに重要なことは、これらのデータセットは翻訳やその他のアプローチによって言語範囲を拡大することが多いが、通常画像はそのまま保持され、文化的な表現は狭くなることである。 これらの制約に対処するため、CVQAという、多言語多言語視覚質問回答ベンチマークを構築し、豊富な言語や文化をカバーし、データ収集プロセスにおいてネイティブスピーカーや文化専門家と関わります。 その結果、CVQAには文化主導のイメージと4大陸28カ国の質問が含まれており、26の言語と11のスクリプトをカバーし、合計9kの質問を提供する。 次に、CVQA上で複数のマルチモーダル大言語モデル(MLLM)をベンチマークし、現在の最先端モデルではデータセットが困難であることを示す。 このベンチマークは、マルチモーダルモデルの文化的能力とバイアスを評価するための調査評価スイートとして機能し、この分野での文化的認識と言語多様性を高めるためのさらなる研究活動を促進することを願っている。

Visual Question Answering (VQA) is an important task in multimodal AI, and it is often used to test the ability of vision-language models to understand and reason on knowledge present in both visual and textual data. However, most of the current VQA models use datasets that are primarily focused on English and a few major world languages, with images that are typically Western-centric. While recent efforts have tried to increase the number of languages covered on VQA datasets, they still lack diversity in low-resource languages. More importantly, although these datasets often extend their linguistic range via translation or some other approaches, they usually keep images the same, resulting in narrow cultural representation. To address these limitations, we construct CVQA, a new Culturally-diverse multilingual Visual Question Answering benchmark, designed to cover a rich set of languages and cultures, where we engage native speakers and cultural experts in the data collection process. As a result, CVQA includes culturally-driven images and questions from across 28 countries on four continents, covering 26 languages with 11 scripts, providing a total of 9k questions. We then benchmark several Multimodal Large Language Models (MLLMs) on CVQA, and show that the dataset is challenging for the current state-of-the-art models. This benchmark can serve as a probing evaluation suite for assessing the cultural capability and bias of multimodal models and hopefully encourage more research efforts toward increasing cultural awareness and linguistic diversity in this field.
翻訳日:2024-06-11 15:16:08 公開日:2024-06-10
# 汎用音声要約のための音声を用いた大規模言語モデルの提案

Prompting Large Language Models with Audio for General-Purpose Speech Summarization ( http://arxiv.org/abs/2406.05968v1 )

ライセンス: Link先を確認
Wonjune Kang, Deb Roy, (参考訳) 本研究では,大規模言語モデル(LLM)の処理能力と推論能力を活用する,音声要約のためのフレームワークを提案する。 本稿では,LLM が解釈可能なトークン表現に変換する音声エンコーダと命令調整 LLM を組み合わせたエンドツーエンドシステムを提案する。 組合わせの音声テキストデータを用いたデータセットを用いて、入力モダリティによらず、同じ意味情報を持つプロンプトに対して一貫した応答を生成するよう、システム全体を訓練する。 結果として、LLMはテキストと同じ方法で音声入力を処理でき、LLMを単にプロンプトすることで、音声の要約を可能にする。 従来の手法とは異なり、任意のドメインから音声コンテンツを要約することができ、LLMプロンプト戦略を変化させることで、異なるスタイルの要約を作成できる。 実験により,本手法が音声認識のカスケードベースラインを上回り,LLMテキスト処理が続くことを示した。

In this work, we introduce a framework for speech summarization that leverages the processing and reasoning capabilities of large language models (LLMs). We propose an end-to-end system that combines an instruction-tuned LLM with an audio encoder that converts speech into token representations that the LLM can interpret. Using a dataset with paired speech-text data, the overall system is trained to generate consistent responses to prompts with the same semantic information regardless of the input modality. The resulting framework allows the LLM to process speech inputs in the same way as text, enabling speech summarization by simply prompting the LLM. Unlike prior approaches, our method is able to summarize spoken content from any arbitrary domain, and it can produce summaries in different styles by varying the LLM prompting strategy. Experiments demonstrate that our approach outperforms a cascade baseline of speech recognition followed by LLM text processing.
翻訳日:2024-06-11 15:16:08 公開日:2024-06-10
# 不確実条件下におけるLCMの意思決定行動評価フレームワーク

Decision-Making Behavior Evaluation Framework for LLMs under Uncertain Context ( http://arxiv.org/abs/2406.05972v1 )

ライセンス: Link先を確認
Jingru Jia, Zehua Yuan, Junhao Pan, Paul McNamara, Deming Chen, (参考訳) 不確実性の下で意思決定を行う場合、個人はしばしば合理的行動から逸脱し、リスク優先、確率重み付け、損失回避の3つの次元で評価することができる。 意思決定プロセスにおける大規模言語モデル(LLM)の普及を考えると、その行動が人間の規範や倫理的期待と一致しているか、潜在的なバイアスを示すかを評価することが重要である。 いくつかの実証的研究は、LLMの合理性と社会的行動性能について研究しているが、その内部決定の傾向と能力は不適切なままである。 本稿では, LLMの意思決定行動を評価するための行動経済学に基づく枠組みを提案する。 複数選択リスト実験により,ChatGPT-4.0-Turbo,Claude-3-Opus,Gemini-1.0-proの3つの商用LCMの文脈自由設定におけるリスク選択,確率重み付け,損失回避の程度を推定した。 以上の結果から,LSMはリスク回避や損失回避といった人間に類似したパターンを呈し,その傾向は小さすぎることが示唆された。 しかし、これらの振る舞いが異なるLLM間で表現される程度には、大きなバリエーションがある。 また,社会デミノグラフィー的特徴を組み込んだ場合の行動についても検討し,重要な差異を明らかにした。 例えば、性的少数派や身体障害の属性でモデル化された場合、Claude-3-Opusはリスク回避を増大させ、より保守的な選択をもたらす。 これらの知見は, 意思決定シナリオにおけるLCMの展開における倫理的含意と潜在的なバイアスについて, 慎重に検討することの必要性を浮き彫りにした。 そこで本研究では,LLMが複雑な意思決定環境において実用性を高めつつ,倫理的境界内での運用を保証するための基準とガイドラインの開発を提唱する。

When making decisions under uncertainty, individuals often deviate from rational behavior, which can be evaluated across three dimensions: risk preference, probability weighting, and loss aversion. Given the widespread use of large language models (LLMs) in decision-making processes, it is crucial to assess whether their behavior aligns with human norms and ethical expectations or exhibits potential biases. Several empirical studies have investigated the rationality and social behavior performance of LLMs, yet their internal decision-making tendencies and capabilities remain inadequately understood. This paper proposes a framework, grounded in behavioral economics, to evaluate the decision-making behaviors of LLMs. Through a multiple-choice-list experiment, we estimate the degree of risk preference, probability weighting, and loss aversion in a context-free setting for three commercial LLMs: ChatGPT-4.0-Turbo, Claude-3-Opus, and Gemini-1.0-pro. Our results reveal that LLMs generally exhibit patterns similar to humans, such as risk aversion and loss aversion, with a tendency to overweight small probabilities. However, there are significant variations in the degree to which these behaviors are expressed across different LLMs. We also explore their behavior when embedded with socio-demographic features, uncovering significant disparities. For instance, when modeled with attributes of sexual minority groups or physical disabilities, Claude-3-Opus displays increased risk aversion, leading to more conservative choices. These findings underscore the need for careful consideration of the ethical implications and potential biases in deploying LLMs in decision-making scenarios. Therefore, this study advocates for developing standards and guidelines to ensure that LLMs operate within ethical boundaries while enhancing their utility in complex decision-making environments.
翻訳日:2024-06-11 15:16:08 公開日:2024-06-10
# 自己教師型微調整による磁気共鳴画像のスライス間超解像

Inter-slice Super-resolution of Magnetic Resonance Images by Pre-training and Self-supervised Fine-tuning ( http://arxiv.org/abs/2406.05974v1 )

ライセンス: Link先を確認
Xin Wang, Zhiyun Song, Yitao Zhu, Sheng Wang, Lichi Zhang, Dinggang Shen, Qian Wang, (参考訳) 臨床実践では、2次元磁気共鳴(MR)配列が広く採用されている。 個々の2Dスライスを積み重ねて3Dボリュームを作ることもできるが、比較的大きなスライスススペーシングは画像の可視化とその後の解析タスクの両方に課題をもたらす可能性がある。 スライス間隔を低減するため,ディープラーニングに基づく超解像技術が広く研究されている。 しかし、現在のほとんどのソリューションは、教師付きトレーニングのためにかなり多くの高解像度と低解像度のイメージを必要としており、通常は現実のシナリオでは利用できない。 本研究では,MR画像のスライス間超解像のための自己監督型超解像フレームワークを提案する。 ビデオの時間的相関はMRスライス間の空間的関係をモデル化するのに有用である。 そして、公開された高品質MRデータセットを使用して、トレーニング済みのモデルを微調整し、モデルの医療データへの認識を高める。 最後に、対象とするデータセットが手元にある場合、自己教師付き微調整を使用して、モデルがユーザ固有の超解像タスクとうまく機能することを保証します。 提案手法は、他の自己管理手法と比較して優れた性能を示し、また、様々なダウンストリームアプリケーションに利益をもたらす可能性を秘めている。

In clinical practice, 2D magnetic resonance (MR) sequences are widely adopted. While individual 2D slices can be stacked to form a 3D volume, the relatively large slice spacing can pose challenges for both image visualization and subsequent analysis tasks, which often require isotropic voxel spacing. To reduce slice spacing, deep-learning-based super-resolution techniques are widely investigated. However, most current solutions require a substantial number of paired high-resolution and low-resolution images for supervised training, which are typically unavailable in real-world scenarios. In this work, we propose a self-supervised super-resolution framework for inter-slice super-resolution of MR images. Our framework is first featured by pre-training on video dataset, as temporal correlation of videos is found beneficial for modeling the spatial relation among MR slices. Then, we use public high-quality MR dataset to fine-tune our pre-trained model, for enhancing awareness of our model to medical data. Finally, given a target dataset at hand, we utilize self-supervised fine-tuning to further ensure our model works well with user-specific super-resolution tasks. The proposed method demonstrates superior performance compared to other self-supervised methods and also holds the potential to benefit various downstream applications.
翻訳日:2024-06-11 15:16:08 公開日:2024-06-10
# 単一領域一般化のための因果性にインスパイアされた潜在特徴増強

Causality-inspired Latent Feature Augmentation for Single Domain Generalization ( http://arxiv.org/abs/2406.05980v1 )

ライセンス: Link先を確認
Jian Xu, Chaojie Ji, Yankai Cao, Ye Li, Ruxin Wang, (参考訳) 単一ドメインの一般化(Single-DG)は、単一のトレーニングドメインのみを持つ一般化可能なモデルを開発し、他の未知のターゲットドメインでうまく機能させることを目的としている。 ドメイン・ハングリー構成の下では、ソース・ドメインのカバレッジを拡張し、異なる分布にまたがる固有の因果的特徴を見つける方法がモデルの一般化能力を高める鍵となる。 既存の手法は主に、有限画像レベルの変換技法の巧妙な設計と、ソースドメイン内のサンプルとラベルの統計的相関に基づく領域間の学習不変性に依存している。 これにより、ソースとターゲットドメイン間の安定したセマンティクスのキャプチャが難しくなり、モデルの一般化性能の改善を妨げる。 本稿では,因果学習と介入に基づく特徴レベルの変換のメタ知識を学習することで,単一DGの因果性に着想を得た潜在機能拡張手法を提案する。 学習されたメタ知識により、有限画像レベルの変換に強く依存する代わりに、因果的特徴の一貫性と非因果的特徴の多様性に基づいて、潜在空間における多様な暗黙的特徴レベルの変換を生成することができる。 いくつかのオープンアクセスベンチマークにおいて、他の最先端の単一領域一般化法やマルチソース領域一般化法よりも優れた性能を示す実験を行った。

Single domain generalization (Single-DG) intends to develop a generalizable model with only one single training domain to perform well on other unknown target domains. Under the domain-hungry configuration, how to expand the coverage of source domain and find intrinsic causal features across different distributions is the key to enhancing the models' generalization ability. Existing methods mainly depend on the meticulous design of finite image-level transformation techniques and learning invariant features across domains based on statistical correlation between samples and labels in source domain. This makes it difficult to capture stable semantics between source and target domains, which hinders the improvement of the model's generalization performance. In this paper, we propose a novel causality-inspired latent feature augmentation method for Single-DG by learning the meta-knowledge of feature-level transformation based on causal learning and interventions. Instead of strongly relying on the finite image-level transformation, with the learned meta-knowledge, we can generate diverse implicit feature-level transformations in latent space based on the consistency of causal features and diversity of non-causal features, which can better compensate for the domain-hungry defect and reduce the strong reliance on initial finite image-level transformations and capture more stable domain-invariant causal features for generalization. Extensive experiments on several open-access benchmarks demonstrate the outstanding performance of our model over other state-of-the-art single domain generalization and also multi-source domain generalization methods.
翻訳日:2024-06-11 15:16:08 公開日:2024-06-10
# ShiftAddLLM: トレーニング後の乗算レスパラメータ化による事前学習LDMの高速化

ShiftAddLLM: Accelerating Pretrained LLMs via Post-Training Multiplication-Less Reparameterization ( http://arxiv.org/abs/2406.05981v1 )

ライセンス: Link先を確認
Haoran You, Yipin Guo, Yichao Fu, Wei Zhou, Huihong Shi, Xiaofan Zhang, Souvik Kundu, Amir Yazdanbakhsh, Yingyan Lin, (参考訳) 大規模言語モデル(LLM)は、言語タスクにおいて顕著なパフォーマンスを示しているが、リソース制約のあるデバイスにデプロイする際の課題は、その広範なパラメータと密度の高い乗算に依存するため、高いメモリ要求と遅延ボトルネックをもたらす。 Shift-and-add再パラメータ化は、LLMの注目層と多層パーセプトロン(MLP)層の両方において、ハードウェアフレンドリなプリミティブにコストのかかる乗算を置き換えることで、有望なソリューションを提供する。 しかし、現在の再パラメータ化技術では、LLMのリソース集約的な精度を回復するために、スクラッチやフルパラメータの微調整からのトレーニングが必要である。 そこで本研究では,事前学習後の再パラメータ化を高速化し,ShiftAddLLMと呼ばれる効率的な乗算自由モデルを作成することを提案する。 具体的には,各重み行列を群ワイドスケーリング因子と組み合わせた二乗行列に定量化する。 関連する乗算は(1)アクティベーションとスケーリング係数のシフト、(2)クエリに再パラメータ化され、バイナリ行列に従って加算される。 精度損失を低減するため,重みと出力のアクティベーション再パラメータ化誤差を最小化する多目的最適化手法を提案する。 さらに、再パラメータ化のための層間の感度の変化に基づいて、メモリ使用量とレイテンシをさらに削減する自動ビット割り当て戦略を開発する。 5つのLLMファミリーと8つのタスクによる実験は、ShiftAddLLMの有効性を一貫して検証し、それぞれ3ビットと2ビットの最も競争力のある量子化LDMと比較して5.6ポイントと22.7ポイントの平均パープレキシティ改善を実現し、元のLCMよりも80%以上のメモリとエネルギー削減を実現した。 コードとモデルはhttps://github.com/GATECH-EIC/ShiftAddLLM.comで公開されている。

Large language models (LLMs) have shown impressive performance on language tasks but face challenges when deployed on resource-constrained devices due to their extensive parameters and reliance on dense multiplications, resulting in high memory demands and latency bottlenecks. Shift-and-add reparameterization offers a promising solution by replacing costly multiplications with hardware-friendly primitives in both the attention and multi-layer perceptron (MLP) layers of an LLM. However, current reparameterization techniques require training from scratch or full parameter fine-tuning to restore accuracy, which is resource-intensive for LLMs. To address this, we propose accelerating pretrained LLMs through post-training shift-and-add reparameterization, creating efficient multiplication-free models, dubbed ShiftAddLLM. Specifically, we quantize each weight matrix into binary matrices paired with group-wise scaling factors. The associated multiplications are reparameterized into (1) shifts between activations and scaling factors and (2) queries and adds according to the binary matrices. To reduce accuracy loss, we present a multi-objective optimization method to minimize both weight and output activation reparameterization errors. Additionally, based on varying sensitivity across layers to reparameterization, we develop an automated bit allocation strategy to further reduce memory usage and latency. Experiments on five LLM families and eight tasks consistently validate the effectiveness of ShiftAddLLM, achieving average perplexity improvements of 5.6 and 22.7 points at comparable or lower latency compared to the most competitive quantized LLMs at 3 and 2 bits, respectively, and more than 80% memory and energy reductions over the original LLMs. Codes and models are available at https://github.com/GATECH-EIC/ShiftAddLLM.
翻訳日:2024-06-11 15:16:08 公開日:2024-06-10
# 神経MRI取得のための人工知能 : レビュー

Artificial Intelligence for Neuro MRI Acquisition: A Review ( http://arxiv.org/abs/2406.05982v1 )

ライセンス: Link先を確認
Hongjia Yang, Guanhua Wang, Ziyu Li, Haoxiang Li, Jialan Zheng, Yuxin Hu, Xiaozhi Cao, Congyu Liao, Huihui Ye, Qiyuan Tian, (参考訳) 磁気共鳴画像(MRI)は人工知能(AI)の復活の恩恵を受けている。 大規模最適化とパターン認識におけるAIの機能を活用することで、革新的な方法は、計画、シーケンス設計、取得アーティファクトの修正を含む、MRI取得ワークフローを変革しようとしている。 これらの新興アルゴリズムは、取得ステップの効率性とスループットを高める大きな可能性を示している。 本稿では, 神経MRI取得におけるいくつかの重要なAIベースの手法について考察し, その技術進歩, 臨床実践への影響, 潜在的なリスクについて考察する。

Magnetic resonance imaging (MRI) has significantly benefited from the resurgence of artificial intelligence (AI). By leveraging AI's capabilities in large-scale optimization and pattern recognition, innovative methods are transforming the MRI acquisition workflow, including planning, sequence design, and correction of acquisition artifacts. These emerging algorithms demonstrate substantial potential in enhancing the efficiency and throughput of acquisition steps. This review discusses several pivotal AI-based methods in neuro MRI acquisition, focusing on their technological advances, impact on clinical practice, and potential risks.
翻訳日:2024-06-11 15:06:21 公開日:2024-06-10
# ソーシャルメディアによる精神障害検出のための説明可能なAI:調査と展望

Explainable AI for Mental Disorder Detection via Social Media: A survey and outlook ( http://arxiv.org/abs/2406.05984v1 )

ライセンス: Link先を確認
Yusif Ibrahimov, Tarique Anwar, Tommy Yuan, (参考訳) メンタルヘルスは複雑で広範にわたる世界的な課題であり、数百万人の命に影響を与え、しばしば深刻な結果をもたらす。 本稿では、オンラインソーシャルメディア(OSM)による精神障害検出の最近の進展に着目し、データサイエンス、人工知能、メンタルヘルスの交わりを徹底的に調査する。 人口のかなりの部分はOSMプラットフォームに積極的に関わっており、メンタルヘルス分析の大きな可能性を秘めている個人データの巨大なリポジトリを作成している。 この論文は、従来の診断方法、最先端のデータおよびAI駆動型研究研究、および精神医療のための説明可能なAIモデル(XAI)の出現をナビゲートする。 医療AIモデルにおける説明可能性の必要性を強調しながら、最先端の機械学習手法、特に現代のディープラーニングに基づく手法についてレビューする。 実験的なデザインセクションは、利用可能なデータセットや評価アプローチを含む、一般的なプラクティスに関する洞察を提供する。 また、この分野における重要な課題と課題を特定し、将来的な研究の方向性を提案する。 メンタルヘルスの決定が透明性、解釈可能性、倫理的考察を要求される中、ソーシャルメディアを通じたメンタルヘルスにおけるXAIの進展に関する議論の進行に寄与する。 ここで紹介する総合的な概要は、精神障害検出の分野の開発において、研究者、実践家、政策立案者を導くことを目的としている。

Mental health constitutes a complex and pervasive global challenge, affecting millions of lives and often leading to severe consequences. In this paper, we conduct a thorough survey to explore the intersection of data science, artificial intelligence, and mental healthcare, focusing on the recent developments of mental disorder detection through online social media (OSM). A significant portion of the population actively engages in OSM platforms, creating a vast repository of personal data that holds immense potential for mental health analytics. The paper navigates through traditional diagnostic methods, state-of-the-art data- and AI-driven research studies, and the emergence of explainable AI (XAI) models for mental healthcare. We review state-of-the-art machine learning methods, particularly those based on modern deep learning, while emphasising the need for explainability in healthcare AI models. The experimental design section provides insights into prevalent practices, including available datasets and evaluation approaches. We also identify key issues and challenges in the field and propose promising future research directions. As mental health decisions demand transparency, interpretability, and ethical considerations, this paper contributes to the ongoing discourse on advancing XAI in mental healthcare through social media. The comprehensive overview presented here aims to guide researchers, practitioners, and policymakers in developing the area of mental disorder detection.
翻訳日:2024-06-11 15:06:21 公開日:2024-06-10
# Neural-g: 混合密度推定のためのディープラーニングフレームワーク

Neural-g: A Deep Learning Framework for Mixing Density Estimation ( http://arxiv.org/abs/2406.05986v1 )

ライセンス: Link先を確認
Shijie Wang, Saptarshi Chakraborty, Qian Qin, Ray Bai, (参考訳) 混合(または先行)密度推定は、機械学習と統計学において重要な問題であり、特に実験的なベイズ$g$-modelingでは、適切な後部推論を行うためには、事前を正確に推定する必要がある。 本稿では,新しいニューラルネットワークを用いたモデリング手法であるNeural-$g$を提案する。 Neural-g$は、推定された事前が有効な確率密度であることを保証するために、ソフトマックス出力層を使用する。 デフォルトのハイパーパラメータでは、g$は非常に柔軟で、平坦な領域、重い尾、および/または不連続性を含む多くの未知の密度を捉えることができる。 対照的に、既存の手法は、これらの以前の形をすべて捉えるのに苦労している。 我々は、任意の確率質量関数を学習するニューラルネットワークの能力に関する、新しい普遍近似定理を確立することにより、ニューラル=g$の正当化を提供する。 数値的な実装の収束を加速するために、重み付き平均勾配降下法を用いて、ネットワークパラメータを更新する。 最後に、ニューラル=$g$を拡張し、事前密度推定を多変量化する。 本稿では,実データセットのシミュレーションと解析によるアプローチの有効性について述べる。 Neural-g$を実装するソフトウェアパッケージはhttps://github.com/shijiew97/neuralG.comで公開されている。

Mixing (or prior) density estimation is an important problem in machine learning and statistics, especially in empirical Bayes $g$-modeling where accurately estimating the prior is necessary for making good posterior inferences. In this paper, we propose neural-$g$, a new neural network-based estimator for $g$-modeling. Neural-$g$ uses a softmax output layer to ensure that the estimated prior is a valid probability density. Under default hyperparameters, we show that neural-$g$ is very flexible and capable of capturing many unknown densities, including those with flat regions, heavy tails, and/or discontinuities. In contrast, existing methods struggle to capture all of these prior shapes. We provide justification for neural-$g$ by establishing a new universal approximation theorem regarding the capability of neural networks to learn arbitrary probability mass functions. To accelerate convergence of our numerical implementation, we utilize a weighted average gradient descent approach to update the network parameters. Finally, we extend neural-$g$ to multivariate prior density estimation. We illustrate the efficacy of our approach through simulations and analyses of real datasets. A software package to implement neural-$g$ is publicly available at https://github.com/shijiew97/neuralG.
翻訳日:2024-06-11 15:06:21 公開日:2024-06-10
# MHS-VM:Vision Mambaの並列サブスペースにおけるマルチヘッドスキャン

MHS-VM: Multi-Head Scanning in Parallel Subspaces for Vision Mamba ( http://arxiv.org/abs/2406.05992v1 )

ライセンス: Link先を確認
Zhongping Ji, (参考訳) 近年,Mambaを主例とする状態空間モデル (SSM) は,線形複雑性を伴う長距離依存性モデリングにおいて大きな期待を抱いている。 そして、Vision Mambaとその後のアーキテクチャを順次提示し、視覚的なタスクでうまく機能する。 Mambaを視覚タスクに適用する重要なステップは、2次元視覚的特徴を逐次的に構築することだ。 1次元選択的スキャンにより2次元画像空間内の視覚的特徴を効果的に整理・構築するために,新しいマルチヘッドスキャン(MHS)モジュールを提案する。 前層から抽出した埋め込みは、複数の低次元部分空間に投影される。 その後、各部分空間内で、選択走査が異なるスキャン経路に沿って実行される。 その結果、マルチヘッドスキャンプロセスから得られたサブ埋め込みは統合され、最終的に高次元空間に投影される。 さらに,SRA(Scan Route Attention)機構を導入し,複雑な構造を識別するモジュールの能力を高める。 モジュールの有効性を検証するため,VM-UNet の 2D-Selective-Scan (SS2D) ブロックを提案モジュールに置き換えた。 結果は、元のVM-UNetのパラメータを減らしながら、パフォーマンスが大幅に向上したことを示している。 この研究のコードはhttps://github.com/PixDeep/MHS-VMで公開されている。

Recently, State Space Models (SSMs), with Mamba as a prime example, have shown great promise for long-range dependency modeling with linear complexity. Then, Vision Mamba and the subsequent architectures are presented successively, and they perform well on visual tasks. The crucial step of applying Mamba to visual tasks is to construct 2D visual features in sequential manners. To effectively organize and construct visual features within the 2D image space through 1D selective scan, we propose a novel Multi-Head Scan (MHS) module. The embeddings extracted from the preceding layer are projected into multiple lower-dimensional subspaces. Subsequently, within each subspace, the selective scan is performed along distinct scan routes. The resulting sub-embeddings, obtained from the multi-head scan process, are then integrated and ultimately projected back into the high-dimensional space. Moreover, we incorporate a Scan Route Attention (SRA) mechanism to enhance the module's capability to discern complex structures. To validate the efficacy of our module, we exclusively substitute the 2D-Selective-Scan (SS2D) block in VM-UNet with our proposed module, and we train our models from scratch without using any pre-trained weights. The results indicate a significant improvement in performance while reducing the parameters of the original VM-UNet. The code for this study is publicly available at https://github.com/PixDeep/MHS-VM.
翻訳日:2024-06-11 15:06:21 公開日:2024-06-10
# オフライン強化学習における単一課題からの複数解の発見

Discovering Multiple Solutions from a Single Task in Offline Reinforcement Learning ( http://arxiv.org/abs/2406.05993v1 )

ライセンス: Link先を確認
Takayuki Osa, Tatsuya Harada, (参考訳) オンライン強化学習(RL)の最近の研究は、新しい環境へのわずかな適応の場合のように、一つのタスクから複数の行動を学習する利点を実証している。 このアプローチはオフラインRLでも同様の利点をもたらすことが期待されているが、複数のソリューションを学習するための適切な方法は、これまでの研究では十分に研究されていない。 そこで本研究では,オフラインRLにおける単一タスクから複数の解を求める問題に対処した。 オフラインのRLで複数の解を学習できるアルゴリズムを提案し,その性能を実証的に検討する。 実験の結果,提案アルゴリズムはオフラインRLにおいて,定性的,定量的に複数の解を学習することがわかった。

Recent studies on online reinforcement learning (RL) have demonstrated the advantages of learning multiple behaviors from a single task, as in the case of few-shot adaptation to a new environment. Although this approach is expected to yield similar benefits in offline RL, appropriate methods for learning multiple solutions have not been fully investigated in previous studies. In this study, we therefore addressed the problem of finding multiple solutions from a single task in offline RL. We propose algorithms that can learn multiple solutions in offline RL, and empirically investigate their performance. Our experimental results show that the proposed algorithm learns multiple qualitatively and quantitatively distinctive solutions in offline RL.
翻訳日:2024-06-11 15:06:21 公開日:2024-06-10
# 共同診察による放射線学レポートの分類に関する2視点的アプローチ

A Dual-View Approach to Classifying Radiology Reports by Co-Training ( http://arxiv.org/abs/2406.05995v1 )

ライセンス: Link先を確認
Yutong Han, Yan Yuan, Lili Mou, (参考訳) 放射線医学レポート分析は、公衆衛生イニシアチブに役立つ貴重な情報を提供し、研究コミュニティから注目を集めている。 本研究では, 放射線学レポートの構造(すなわち, Findings と Impression セクション)が, 放射線学スキャンの異なる視点を提供するという, 新たな知見を提示する。 この直感に基づいて、2つの機械学習モデルがそれぞれFinderingsとImpressionセクション上に構築され、相互の情報を用いて、大量のラベルのないデータを用いて半教師付きでパフォーマンスを向上させる、協調学習手法を提案する。 公衆衛生監視研究で実験を行った結果,両視点による協調学習手法は,両視点で性能を向上し,指導的・半監督的な手法に勝るものであることが示唆された。

Radiology report analysis provides valuable information that can aid with public health initiatives, and has been attracting increasing attention from the research community. In this work, we present a novel insight that the structure of a radiology report (namely, the Findings and Impression sections) offers different views of a radiology scan. Based on this intuition, we further propose a co-training approach, where two machine learning models are built upon the Findings and Impression sections, respectively, and use each other's information to boost performance with massive unlabeled data in a semi-supervised manner. We conducted experiments in a public health surveillance study, and results show that our co-training approach is able to improve performance using the dual views and surpass competing supervised and semi-supervised methods.
翻訳日:2024-06-11 15:06:21 公開日:2024-06-10
# fSEAD: FPGAベースのストリームアンサンブル異常検出ライブラリ

fSEAD: a Composable FPGA-based Streaming Ensemble Anomaly Detection Library ( http://arxiv.org/abs/2406.05999v1 )

ライセンス: Link先を確認
Binglei Lou, David Boland, Philip H. W. Leong, (参考訳) 機械学習のアンサンブルは、複数のベースモデルを組み合わせてより正確な出力を生成する。 異常検出を含む、さまざまな機械学習問題に適用することができる。 本稿では,FPGAを用いたストリーミングアンサンブル異常検出器(fSEAD)の構成性とスケーラビリティを最大化する方法について検討する。 そこで本研究では,複数の部分再構成可能な領域,pブロックからなるフレキシブルコンピューティングアーキテクチャを提案し,それぞれが異常検出を実装している。 概念実証設計では,ロダ,RS-Hash,xStreamの3つの最先端異常検出アルゴリズムがサポートされている。 各アルゴリズムはスケーラブルであり、パフォーマンスを改善するために複数のインスタンスをpblock内に配置することができる。 さらに、fSEADは高レベル合成(HLS)を使用して実装されており、さらにカスタムな異常検出がサポートされる。 ブロックはAXIスイッチを介して相互接続され、実行時に結果を組み合わせてマージする前に任意の方法で構成し、FPGAリソースと精度を最大化するアンサンブルを生成する。 再構成可能な動的関数 eXchange (DFX) を利用することで、環境条件の変化に適応するために、実行時にデザイナを変更することができる。 fSEADを4つの標準データセットを使用した同等の中央処理ユニット(CPU)実装と比較し、スピードアップは$3\times$から$8\times$までである。

Machine learning ensembles combine multiple base models to produce a more accurate output. They can be applied to a range of machine learning problems, including anomaly detection. In this paper, we investigate how to maximize the composability and scalability of an FPGA-based streaming ensemble anomaly detector (fSEAD). To achieve this, we propose a flexible computing architecture consisting of multiple partially reconfigurable regions, pblocks, which each implement anomaly detectors. Our proof-of-concept design supports three state-of-the-art anomaly detection algorithms: Loda, RS-Hash and xStream. Each algorithm is scalable, meaning multiple instances can be placed within a pblock to improve performance. Moreover, fSEAD is implemented using High-level synthesis (HLS), meaning further custom anomaly detectors can be supported. Pblocks are interconnected via an AXI-switch, enabling them to be composed in an arbitrary fashion before combining and merging results at run-time to create an ensemble that maximizes the use of FPGA resources and accuracy. Through utilizing reconfigurable Dynamic Function eXchange (DFX), the detector can be modified at run-time to adapt to changing environmental conditions. We compare fSEAD to an equivalent central processing unit (CPU) implementation using four standard datasets, with speed-ups ranging from $3\times$ to $8\times$.
翻訳日:2024-06-11 15:06:21 公開日:2024-06-10
# タイのCoref:タイのCoreference解決データセット

ThaiCoref: Thai Coreference Resolution Dataset ( http://arxiv.org/abs/2406.06000v1 )

ライセンス: Link先を確認
Pontakorn Trakuekul, Wei Qi Leong, Charin Polpanumas, Jitkapat Sawatphol, William Chandra Tjhi, Attapol T. Rutherford, (参考訳) コア推論の解決は自然言語処理(NLP)において確立された研究分野であるが、タイ語に焦点を絞った研究は、大きな注釈付きコーパスが欠如しているため、依然として限られている。 本稿では,タイのコア参照解決のためのデータセットであるThaiCorefを紹介する。 私たちのデータセットは、777,271のトークン、44,082の言及、大学エッセイ、新聞、スピーチ、ウィキペディアという4つのテキストジャンルの10,429のエンティティで構成されています。 このアノテーションはOntoNotesベンチマークに基づいて構築され,タイ固有の現象に対処するための調整を行う。 ThaiCorefを利用して、多言語エンコーダとクロスランガルトランスファー技術を用いたモデルをトレーニングし、テストセット上で最高のF1スコア67.88\%を達成する。 誤り分析はタイ固有の言語的特徴によって引き起こされる課題を明らかにする。 NLPコミュニティの利益を得るために、データセットとモデルをhttp://www.github.com/nlp-chula/thai-corefで公開しています。

While coreference resolution is a well-established research area in Natural Language Processing (NLP), research focusing on Thai language remains limited due to the lack of large annotated corpora. In this work, we introduce ThaiCoref, a dataset for Thai coreference resolution. Our dataset comprises 777,271 tokens, 44,082 mentions and 10,429 entities across four text genres: university essays, newspapers, speeches, and Wikipedia. Our annotation scheme is built upon the OntoNotes benchmark with adjustments to address Thai-specific phenomena. Utilizing ThaiCoref, we train models employing a multilingual encoder and cross-lingual transfer techniques, achieving a best F1 score of 67.88\% on the test set. Error analysis reveals challenges posed by Thai's unique linguistic features. To benefit the NLP community, we make the dataset and the model publicly available at http://www.github.com/nlp-chula/thai-coref .
翻訳日:2024-06-11 15:06:21 公開日:2024-06-10
# テンソル列車分解によるテンソル・オン・テンソル回帰の計算・統計的保証

Computational and Statistical Guarantees for Tensor-on-Tensor Regression with Tensor Train Decomposition ( http://arxiv.org/abs/2406.06002v1 )

ライセンス: Link先を確認
Zhen Qin, Zhihui Zhu, (参考訳) 近年,スカラー・オン・テンソル回帰やテンソル・オン・ベクトル回帰といったシナリオを含むテンソルリカバリの一般化を目的としたテンソル・オン・テンソル回帰モデルが提案されている。 しかし、テンソル複雑性の指数関数的増加は、ToT回帰の記憶と計算に困難をもたらす。 このハードルを克服するために、テンソルトレイン(TT)ベースのToTモデルにより、メモリ要求の低減、計算効率の向上、サンプリング複雑性の低減などにより、実際に効率的なテンソル分解が導入された。 これらの実用的な利点にもかかわらず、理論分析と実世界のパフォーマンスの間には相違がある。 本稿では,TTに基づくToT回帰モデルの理論的およびアルゴリズム的側面について検討する。 回帰作用素が制限等尺性(RIP)を満たすと仮定すると、制約最小二乗最適化問題に対する解の誤差解析を行う。 この解析は上限誤差境界とミニマックス下限を含むもので、そのような誤差境界は位数$N+M$に多項式的に依存することを示した。 このような誤差境界を満たす解を効率的に見つけるために、反復的ハードしきい値分解(TT-SVD)アルゴリズムとリーマン勾配分解(RGD)アルゴリズムを用いた分解手法の2つの最適化アルゴリズムを提案する。 RIPが満たされるとスペクトル初期化は適切な初期化を促進し、IHTとRGDの両方の線形収束速度を確立する。

Recently, a tensor-on-tensor (ToT) regression model has been proposed to generalize tensor recovery, encompassing scenarios like scalar-on-tensor regression and tensor-on-vector regression. However, the exponential growth in tensor complexity poses challenges for storage and computation in ToT regression. To overcome this hurdle, tensor decompositions have been introduced, with the tensor train (TT)-based ToT model proving efficient in practice due to reduced memory requirements, enhanced computational efficiency, and decreased sampling complexity. Despite these practical benefits, a disparity exists between theoretical analysis and real-world performance. In this paper, we delve into the theoretical and algorithmic aspects of the TT-based ToT regression model. Assuming the regression operator satisfies the restricted isometry property (RIP), we conduct an error analysis for the solution to a constrained least-squares optimization problem. This analysis includes upper error bound and minimax lower bound, revealing that such error bounds polynomially depend on the order $N+M$. To efficiently find solutions meeting such error bounds, we propose two optimization algorithms: the iterative hard thresholding (IHT) algorithm (employing gradient descent with TT-singular value decomposition (TT-SVD)) and the factorization approach using the Riemannian gradient descent (RGD) algorithm. When RIP is satisfied, spectral initialization facilitates proper initialization, and we establish the linear convergence rate of both IHT and RGD.
翻訳日:2024-06-11 15:06:21 公開日:2024-06-10
# FLEUR: 大規模マルチモーダルモデルを用いた画像キャプションのための説明可能な参照不要評価基準

FLEUR: An Explainable Reference-Free Evaluation Metric for Image Captioning Using a Large Multimodal Model ( http://arxiv.org/abs/2406.06004v1 )

ライセンス: Link先を確認
Yebin Lee, Imseong Park, Myungjoo Kang, (参考訳) 既存の画像キャプション評価指標のほとんどは、参照キャプションと比較することにより、1つの数値スコアをキャプションに割り当てることに焦点を当てている。 しかし、これらの手法は割り当てられたスコアについての説明を与えていない。 また、参照キャプションの取得も高価である。 本稿では、画像キャプション評価指標に説明可能性を導入するための説明自由度指標であるFLEURを提案する。 大規模なマルチモーダルモデルを利用することで、FLEURは参照キャプションを必要とせずに画像に対するキャプションを評価し、割り当てられたスコアの説明を提供する。 スコアスムーシングを導入し、人間の判断と可能な限り密接に一致させ、ユーザ定義のグルーピング基準に頑健になる。 FLEURは、画像キャプション評価ベンチマークにおける人間の判断と高い相関を達成し、リファレンスフリー評価指標の領域内でFlickr8k-CF、ComposITE、Pascal-50Sの最先端結果に到達する。 私たちのソースコードと結果は、https://github.com/Yebin46/FLEUR.comで公開されています。

Most existing image captioning evaluation metrics focus on assigning a single numerical score to a caption by comparing it with reference captions. However, these methods do not provide an explanation for the assigned score. Moreover, reference captions are expensive to acquire. In this paper, we propose FLEUR, an explainable reference-free metric to introduce explainability into image captioning evaluation metrics. By leveraging a large multimodal model, FLEUR can evaluate the caption against the image without the need for reference captions, and provide the explanation for the assigned score. We introduce score smoothing to align as closely as possible with human judgment and to be robust to user-defined grading criteria. FLEUR achieves high correlations with human judgment across various image captioning evaluation benchmarks and reaches state-of-the-art results on Flickr8k-CF, COMPOSITE, and Pascal-50S within the domain of reference-free evaluation metrics. Our source code and results are publicly available at: https://github.com/Yebin46/FLEUR.
翻訳日:2024-06-11 15:06:21 公開日:2024-06-10
# CARES:医療ビジョン言語モデルにおける信頼性の総合ベンチマーク

CARES: A Comprehensive Benchmark of Trustworthiness in Medical Vision Language Models ( http://arxiv.org/abs/2406.06007v1 )

ライセンス: Link先を確認
Peng Xia, Ze Chen, Juanxi Tian, Yangrui Gong, Ruibo Hou, Yue Xu, Zhenbang Wu, Zhiyuan Fan, Yiyang Zhou, Kangyu Zhu, Wenhao Zheng, Zhaoyang Wang, Xiao Wang, Xuchao Zhang, Chetan Bansal, Marc Niethammer, Junzhou Huang, Hongtu Zhu, Yun Li, Jimeng Sun, Zongyuan Ge, Gang Li, James Zou, Huaxiu Yao, (参考訳) 人工知能は医療応用に大きな影響を与えており、特に医療大ビジョン言語モデル(Med-LVLMs)が出現し、自動化されたパーソナライズされた医療の未来に対する楽観を喚起している。 しかし、Med-LVLMsの信頼性は検証されていないままであり、将来のモデル展開には重大なリスクが伴う。 本稿では,CARESを紹介し,医療領域全体での医療LVLMの信頼性を総合的に評価することを目的とする。 我々は,Med-LVLMの信頼性を,信頼性,公正性,安全性,プライバシ,堅牢性,5次元にわたって評価する。 CARESは、クローズドとオープンエンドの両方の形式で約41Kの質問応答ペアで構成され、16の医療画像モダリティと27の解剖学的領域をカバーしている。 分析の結果,信頼度に関する懸念が一貫して現れ,事実的不正確さや集団間の公正さの維持が困難であることが判明した。 さらに、攻撃に対して脆弱であり、プライバシー意識の欠如を示している。 私たちはベンチマークとコードをhttps://github.com/richard-peng-xia/CARESで公開しています。

Artificial intelligence has significantly impacted medical applications, particularly with the advent of Medical Large Vision Language Models (Med-LVLMs), sparking optimism for the future of automated and personalized healthcare. However, the trustworthiness of Med-LVLMs remains unverified, posing significant risks for future model deployment. In this paper, we introduce CARES and aim to comprehensively evaluate the Trustworthiness of Med-LVLMs across the medical domain. We assess the trustworthiness of Med-LVLMs across five dimensions, including trustfulness, fairness, safety, privacy, and robustness. CARES comprises about 41K question-answer pairs in both closed and open-ended formats, covering 16 medical image modalities and 27 anatomical regions. Our analysis reveals that the models consistently exhibit concerns regarding trustworthiness, often displaying factual inaccuracies and failing to maintain fairness across different demographic groups. Furthermore, they are vulnerable to attacks and demonstrate a lack of privacy awareness. We publicly release our benchmark and code in https://github.com/richard-peng-xia/CARES.
翻訳日:2024-06-11 15:06:21 公開日:2024-06-10
# AIが学術研究と出版に与える影響

The Impact of AI on Academic Research and Publishing ( http://arxiv.org/abs/2406.06009v1 )

ライセンス: Link先を確認
Brady Lund, Manika Lamba, Sang Hoo Oh, (参考訳) ChatGPTのような生成人工知能(AI)技術は、人間の作家に匹敵するレベルのコンテンツを生成する能力を通じて、学術的な執筆と出版に大きな影響を与えている。 本稿では,近年の学際的文献のレビューを通じて,学術論文の執筆・編集・レビューにおいて,この技術が学術的不正・必然的監視に活用される可能性に着目し,AIの学術への統合に関する倫理的考察を考察する。 この発見は、この技術が倫理的かつ生産的に使用されることを保証するために、出版者、編集者、レビュアー、著者の間でAI利用への協力的アプローチの必要性を強調している。

Generative artificial intelligence (AI) technologies like ChatGPT, have significantly impacted academic writing and publishing through their ability to generate content at levels comparable to or surpassing human writers. Through a review of recent interdisciplinary literature, this paper examines ethical considerations surrounding the integration of AI into academia, focusing on the potential for this technology to be used for scholarly misconduct and necessary oversight when using it for writing, editing, and reviewing of scholarly papers. The findings highlight the need for collaborative approaches to AI usage among publishers, editors, reviewers, and authors to ensure that this technology is used ethically and productively.
翻訳日:2024-06-11 15:06:21 公開日:2024-06-10
# 量子ネットワークに基づく量子スパース符号化と復号化

Quantum Sparse Coding and Decoding Based on Quantum Network ( http://arxiv.org/abs/2406.06012v1 )

ライセンス: Link先を確認
Xun Ji, Qin Liu, Shang Huang, Andi Chen, Shengjun Wu, (参考訳) スパース符号化は、重要なデータ(情報)を簡潔に効率的にキャプチャし、表現するための汎用的なフレームワークを提供し、データ圧縮、特徴抽出、一般的な信号処理など、様々なコンピュータ科学分野において重要な役割を果たす。 本研究では,スパース符号化と復号化アルゴリズムを実現するための対称量子ニューラルネットワークを提案する。 我々のネットワークは、光回路に自然に適合する多層2レベルユニタリ変換で構成されている。 各ゲートは2つの実パラメータによって記述され、反射率と位相シフトに対応する。 具体的には、2つのネットワークは、同時に、または独立に、量子自然勾配降下アルゴリズムを用いて、効率よく、または別々に訓練することができる。 訓練されたモデルを用いることで、古典的問題におけるバイナリとグレースケールの画像の疎符号化と復号化、および量子問題における複雑な量子状態の分離を実現する。 その結果、画像再構成では98.77\%、量子状態回復では97.68\%の精度が示された。 我々の量子スパース符号化および復号化モデルは、古典的モデルと比較して一般化と堅牢性を向上し、新興量子時代における広範な実用的な応用の基礎を築いた。

Sparse coding provides a versatile framework for efficiently capturing and representing crucial data (information) concisely, which plays an essential role in various computer science fields, including data compression, feature extraction, and general signal processing. In this study, we propose a symmetric quantum neural network for realizing sparse coding and decoding algorithms. Our networks consist of multi-layer, two-level unitary transformations that are naturally suited for optical circuits. Each gate is described by two real parameters, corresponding to reflectivity and phase shift. Specifically, the two networks can be efficiently trained together or separately using a quantum natural gradient descent algorithm, either simultaneously or independently. Utilizing the trained model, we achieve sparse coding and decoding of binary and grayscale images in classical problems, as well as that of complex quantum states in quantum problems separately. The results demonstrate an accuracy of 98.77\% for image reconstruction and a fidelity of 97.68\% for quantum state revivification. Our quantum sparse coding and decoding model offers improved generalization and robustness compared to the classical model, laying the groundwork for widespread practical applications in the emerging quantum era.
翻訳日:2024-06-11 15:06:21 公開日:2024-06-10
# ブロックモデルのためのネットワーク2サンプルテスト

Network two-sample test for block models ( http://arxiv.org/abs/2406.06014v1 )

ライセンス: Link先を確認
Chung Kyong Nguen, Oscar Hernan Madrid Padilla, Arash A. Amini, (参考訳) 2組のネットワークが同じ確率モデルに由来するかどうかを判定することを目的とするネットワークの2サンプルテスト問題について考察する。 頂点対応が無く、ノード数が異なることを仮定すると、単純な隣接行列比較を超越した基本的なネットワークテスト問題に対処する。 確率ブロックモデル(SBM)をネットワーク分布に適用する。 有意義なノードラベルと頂点対応の欠如は、SBMのテストを開発する際のグラフマッチングの問題につながっている。 推定されたネットワークパラメータにマッチする効率的なアルゴリズムを導入し、サンプル内およびサンプル間の情報を適切に組み合わせ、コントラスト化することで、強力なテストを実現する。 マッチングアルゴリズムと全体テストは,ネットワークの疎度とサンプルサイズについて軽度な条件下で整合性を示し,このテストに対してカイ二乗漸近零分布を導出する。 合成データと実世界のデータの両方を用いた実験を含む、理論的洞察と実証的検証の混合を通じて、複雑なネットワークデータに対する頑健な統計的推測を推し進める。

We consider the two-sample testing problem for networks, where the goal is to determine whether two sets of networks originated from the same stochastic model. Assuming no vertex correspondence and allowing for different numbers of nodes, we address a fundamental network testing problem that goes beyond simple adjacency matrix comparisons. We adopt the stochastic block model (SBM) for network distributions, due to their interpretability and the potential to approximate more general models. The lack of meaningful node labels and vertex correspondence translate to a graph matching challenge when developing a test for SBMs. We introduce an efficient algorithm to match estimated network parameters, allowing us to properly combine and contrast information within and across samples, leading to a powerful test. We show that the matching algorithm, and the overall test are consistent, under mild conditions on the sparsity of the networks and the sample sizes, and derive a chi-squared asymptotic null distribution for the test. Through a mixture of theoretical insights and empirical validations, including experiments with both synthetic and real-world data, this study advances robust statistical inference for complex network data.
翻訳日:2024-06-11 15:06:21 公開日:2024-06-10
# モジュラー超伝導アーキテクチャ上でのグラフ状態コンパイルによる耐故障性資源推定

Fault-tolerant resource estimation using graph-state compilation on a modular superconducting architecture ( http://arxiv.org/abs/2406.06015v1 )

ライセンス: Link先を確認
S. N. Saadatmand, Tyler L. Wilson, Mark Field, Madhav Krishnan Vijayan, Thinh P. Le, Jannis Ruh, Arshpreet Singh Maan, Ioana Moflic, Athena Caesura, Alexandru Paler, Mark J. Hodson, Simon J. Devitt, Josh Y. Mutus, (参考訳) フォールトトレラント量子コンピュータ(FTQC)の開発は、量子コンピューティングコミュニティ内で注目を集めている。 デジタル版と同様に、FTQCは誤り訂正と大きな量子ビット数を備えており、人類の大きな課題のいくつかを解決することを約束している。 将来のFTQCシステムにおけるリソース要件の推定は、設計選択と重要な技術開発のための研究開発の優先順位付けに不可欠である。 本稿では、特定の量子アルゴリズムの実行に必要な物理リソースを推定し、それらのグラフ状態にコンパイルし、モジュラー超伝導ハードウェアアーキテクチャ上に配置するリソース推定フレームワークとソフトウェアツールを提案する。 このツールは、システムの物理的レイアウト、熱負荷、モジュール接続性に関する明確な仮定に従って、ユーティリティスケールにアプローチしながら、これらのアルゴリズムのサイズ、消費電力、実行時間を予測できる。 このツールを使用して、提案されたモジュールアーキテクチャ上の全リソースと、モジュール間の接続、レイテンシ、リソース要求の間のトレードオフの影響を調査します。

The development of fault-tolerant quantum computers (FTQCs) is gaining increased attention within the quantum computing community. Like their digital counterparts, FTQCs, equipped with error correction and large qubit numbers, promise to solve some of humanity's grand challenges. Estimates of the resource requirements for future FTQC systems are essential to making design choices and prioritizing R&D efforts to develop critical technologies. Here, we present a resource estimation framework and software tool that estimates the physical resources required to execute specific quantum algorithms, compiled into their graph-state form, and laid out onto a modular superconducting hardware architecture. This tool can predict the size, power consumption, and execution time of these algorithms at as they approach utility-scale according to explicit assumptions about the system's physical layout, thermal load, and modular connectivity. We use this tool to study the total resources on a proposed modular architecture and the impact of tradeoffs between and inter-module connectivity, latency and resource requirements.
翻訳日:2024-06-11 15:06:21 公開日:2024-06-10
# EpiLearn: エピデミックモデリングにおける機械学習のためのPythonライブラリ

EpiLearn: A Python Library for Machine Learning in Epidemic Modeling ( http://arxiv.org/abs/2406.06016v1 )

ライセンス: Link先を確認
Zewen Liu, Yunxiao Li, Mingyang Wei, Guancheng Wan, Max S. Y. Lau, Wei Jin, (参考訳) EpiLearnは、疫病データをモデリング、シミュレーション、分析するために開発されたPythonツールキットである。 流行モデルにも対処するパッケージがいくつか存在するが、機械モデルや伝統的な統計ツールに制限されることが多い。 機械学習が世界を形作るにつれ、これらのパッケージと最新のモデルの間のギャップが大きくなる。 EpiLearnは、このギャップを埋めて、疫病モデルにおける革新的な研究を刺激するために、機械学習に基づく疫病モデルの評価のサポートを提供するだけでなく、シミュレーション、可視化、変換などの疫病データを分析する包括的なツールも組み込んでいる。 疫学者とデータ科学者の双方の便宜のために、私たちは2つのタスクにおける疫学モデルのトレーニングと評価のための統合されたフレームワークを提供する:予測とソース検出。 新しいモデルの開発を容易にするために、EpiLearnはモジュラー設計に従っており、柔軟性と使いやすくしている。 また、実世界やシミュレートされた疫病データを可視化するインタラクティブなWebアプリケーションも開発されている。 私たちのパッケージはhttps://github.com/Emory-Melody/EpiLearn.comから入手可能です。

EpiLearn is a Python toolkit developed for modeling, simulating, and analyzing epidemic data. Although there exist several packages that also deal with epidemic modeling, they are often restricted to mechanistic models or traditional statistical tools. As machine learning continues to shape the world, the gap between these packages and the latest models has become larger. To bridge the gap and inspire innovative research in epidemic modeling, EpiLearn not only provides support for evaluating epidemic models based on machine learning, but also incorporates comprehensive tools for analyzing epidemic data, such as simulation, visualization, transformations, etc. For the convenience of both epidemiologists and data scientists, we provide a unified framework for training and evaluation of epidemic models on two tasks: Forecasting and Source Detection. To facilitate the development of new models, EpiLearn follows a modular design, making it flexible and easy to use. In addition, an interactive web application is also developed to visualize the real-world or simulated epidemic data. Our package is available at https://github.com/Emory-Melody/EpiLearn.
翻訳日:2024-06-11 14:56:31 公開日:2024-06-10
# Neuro-TransUNet : 変圧器を用いたMRIにおける脳梗塞の分節

Neuro-TransUNet: Segmentation of stroke lesion in MRI using transformers ( http://arxiv.org/abs/2406.06017v1 )

ライセンス: Link先を確認
Muhammad Nouman, Mohamed Mabrok, Essam A. Rashed, (参考訳) MRI(MRI)による脳卒中病変の正確な分画は、脳の複雑な解剖と病変の異なる性質が原因で困難を伴う。 本研究では,U-Netの空間的特徴抽出とSwinUNETRのグローバルな文脈的処理能力を併用するNeuro-TransUNetフレームワークについて述べる。 包括的なデータ前処理パイプラインは、リサンプリング、バイアス補正、データの標準化を含むフレームワークの効率を改善し、データ品質と一貫性を向上させる。 アブレーション研究は、U-NetとSwinUNETRとデータ前処理パイプラインとの高度な統合がパフォーマンスに与える影響を確認し、モデルの有効性を実証する。 提案したNeuro-TransUNetモデルは、ATLAS v2.0 \emph{training}データセットでトレーニングされ、既存のディープラーニングアルゴリズムを上回っ、脳卒中病変セグメンテーションの新しいベンチマークを確立する。

Accurate segmentation of the stroke lesions using magnetic resonance imaging (MRI) is associated with difficulties due to the complicated anatomy of the brain and the different properties of the lesions. This study introduces the Neuro-TransUNet framework, which synergizes the U-Net's spatial feature extraction with SwinUNETR's global contextual processing ability, further enhanced by advanced feature fusion and segmentation synthesis techniques. The comprehensive data pre-processing pipeline improves the framework's efficiency, which involves resampling, bias correction, and data standardization, enhancing data quality and consistency. Ablation studies confirm the significant impact of the advanced integration of U-Net with SwinUNETR and data pre-processing pipelines on performance and demonstrate the model's effectiveness. The proposed Neuro-TransUNet model, trained with the ATLAS v2.0 \emph{training} dataset, outperforms existing deep learning algorithms and establishes a new benchmark in stroke lesion segmentation.
翻訳日:2024-06-11 14:56:31 公開日:2024-06-10
# ジャイアンツの肩:NLP研究におけるオープンネスの度重と実用性

Shoulders of Giants: A Look at the Degree and Utility of Openness in NLP Research ( http://arxiv.org/abs/2406.06021v1 )

ライセンス: Link先を確認
Surangika Ranathunga, Nisansa de Silva, Dilith Jayakody, Aloka Fernando, (参考訳) ACLアンソロジーにアーカイブされたNLP研究論文のサンプルを,NLPコミュニティにおけるオープンネスの程度と,そのようなオープンカルチャーのメリットを定量化する試みとして分析した。 異なるNLP会場で公開された論文は, 人工物再利用に関する異なるパターンを示す。 また、分析した論文の30%以上は、その成果を公表していない。 さらに,NLP関連アーティファクトの言語的差異も広く見られる。

We analysed a sample of NLP research papers archived in ACL Anthology as an attempt to quantify the degree of openness and the benefit of such an open culture in the NLP community. We observe that papers published in different NLP venues show different patterns related to artefact reuse. We also note that more than 30% of the papers we analysed do not release their artefacts publicly, despite promising to do so. Further, we observe a wide language-wise disparity in publicly available NLP-related artefacts.
翻訳日:2024-06-11 14:56:30 公開日:2024-06-10
# GraphStorm:業界アプリケーションのためのオールインワングラフ機械学習フレームワーク

GraphStorm: all-in-one graph machine learning framework for industry applications ( http://arxiv.org/abs/2406.06022v1 )

ライセンス: Link先を確認
Da Zheng, Xiang Song, Qi Zhu, Jian Zhang, Theodore Vasiloudis, Runjie Ma, Houyu Zhang, Zichen Wang, Soji Adeshina, Israt Nisa, Alejandro Mottini, Qingjun Cui, Huzefa Rangwala, Belinda Zeng, Christos Faloutsos, George Karypis, (参考訳) グラフ機械学習(GML)は多くのビジネスアプリケーションで有効である。 しかし、巨大なデータセットを持つ業界アプリケーションにGMLを簡単に使用し、適用できるようにすることは、依然として困難である。 スケーラブルなグラフ構築、グラフモデルトレーニング、推論のためのエンドツーエンドソリューションを提供するGraphStormを開発しました。 GraphStormには次のような望ましいプロパティがある。 (a)使いやすく、単一のコマンドでグラフ構築とモデルトレーニングと推論を実行できます。 b) エキスパートフレンドリな: GraphStormには、複雑なグラフデータを処理するための高度なGMLモデリング技術が数多く含まれています。 (c) スケーラブル: GraphStormのすべてのコンポーネントは数十億のノードを持つグラフで操作でき、コードを変更することなく、モデルのトレーニングと推論を異なるハードウェアにスケールすることができる。 GraphStormは、2023年5月にリリースされて以来、数十億以上の業界アプリケーションで使われ、デプロイされてきた。 Githubで公開されている。 https://github.com/awslabs/graphstorm。

Graph machine learning (GML) is effective in many business applications. However, making GML easy to use and applicable to industry applications with massive datasets remain challenging. We developed GraphStorm, which provides an end-to-end solution for scalable graph construction, graph model training and inference. GraphStorm has the following desirable properties: (a) Easy to use: it can perform graph construction and model training and inference with just a single command; (b) Expert-friendly: GraphStorm contains many advanced GML modeling techniques to handle complex graph data and improve model performance; (c) Scalable: every component in GraphStorm can operate on graphs with billions of nodes and can scale model training and inference to different hardware without changing any code. GraphStorm has been used and deployed for over a dozen billion-scale industry applications after its release in May 2023. It is open-sourced in Github: https://github.com/awslabs/graphstorm.
翻訳日:2024-06-11 14:56:30 公開日:2024-06-10
# RepoQA: 長いコンテキストコードの理解を評価する

RepoQA: Evaluating Long Context Code Understanding ( http://arxiv.org/abs/2406.06025v1 )

ライセンス: Link先を確認
Jiawei Liu, Jia Le Tian, Vijay Daita, Yuxiang Wei, Yifeng Ding, Yuhan Katherine Wang, Jun Yang, Lingming Zhang, (参考訳) 近年,Large Language Models (LLM) のコンテキストウィンドウの改善が進んでいる。 LLMの実際の長期コンテキスト能力を定量化するために、Haystackの一般的なニードルのような評価器が開発され、大量の原テキスト上でLSMをテストする。 現在の評価では、LLMが長いコンテキストコード、すなわちリポジトリでどのように動作するかという洞察を見落としている。 この目的のために、長いコンテキストのコード理解においてLLMを評価するためにRepoQAベンチマークを開始する。 従来のニードルテスターは、LLMに、必要な深い理解なしに、文脈から直接回答を取得するように要求する。 RepoQAでは、LLMを自然言語で記述した関数を検索するために、SNF(Searching Needle Function)という初期タスクを構築しました。 RepoQAは多言語で包括的であり、5つのモダンプログラミング言語にまたがる50の人気のあるリポジトリから収集された500のコード検索タスクを含んでいる。 RepoQA上での26の一般およびコード固有LCMの評価により、その有効性を示す。 (i)最高のオープンモデルとプロプライエタリモデルの間にはまだ小さなギャップがあります。 (ii)異なるモデルは異なる言語に適しており、そして (iii) モデルはコメントなしでコードをよりよく理解することができる。

Recent advances have been improving the context windows of Large Language Models (LLMs). To quantify the real long-context capabilities of LLMs, evaluators such as the popular Needle in a Haystack have been developed to test LLMs over a large chunk of raw texts. While effective, current evaluations overlook the insight of how LLMs work with long-context code, i.e., repositories. To this end, we initiate the RepoQA benchmark to evaluate LLMs on long-context code understanding. Traditional needle testers ask LLMs to directly retrieve the answer from the context without necessary deep understanding. In RepoQA, we built our initial task, namely Searching Needle Function (SNF), which exercises LLMs to search functions given their natural-language description, i.e., LLMs cannot find the desired function if they cannot understand the description and code. RepoQA is multilingual and comprehensive: it includes 500 code search tasks gathered from 50 popular repositories across 5 modern programming languages. By evaluating 26 general and code-specific LLMs on RepoQA, we show (i) there is still a small gap between the best open and proprietary models; (ii) different models are good at different languages; and (iii) models may understand code better without comments.
翻訳日:2024-06-11 14:56:30 公開日:2024-06-10
# HOLMES: LLMを用いたマルチホップ質問応答のためのハイパーリレーショナル知識グラフ

HOLMES: Hyper-Relational Knowledge Graphs for Multi-hop Question Answering using LLMs ( http://arxiv.org/abs/2406.06027v1 )

ライセンス: Link先を確認
Pranoy Panda, Ankush Agarwal, Chaitanya Devaguptapu, Manohar Kaul, Prathosh A P, (参考訳) 構造化されていないテキストが与えられた場合、LLM(Large Language Models)は単純な(シングルホップ)質問に答えるのに適しています。 しかし,質問の複雑さが増すにつれ,LLMの性能は低下する。 これは、複雑な質問の理解に伴うオーバーヘッドと、未構造化情報の原文へのフィルタリングと集約によるものであると考えています。 近年の手法では、構造化知識三重項を原文に統合し、情報処理を簡略化する構造的概要を提供することにより、この負担を軽減しようとしている。 しかし、この単純なアプローチはクエリ非依存であり、抽出された事実は文脈を欠いているため曖昧である。 これらの欠点に対処し、LLMが複雑な(マルチホップ)質問に簡単に答えられるようにするために、我々は、コンテキスト認識で、クエリ関連情報を含むように蒸留された知識グラフ(KG)を使うことを提案する。 圧縮蒸留KGをLLMへの入力として使用することにより, 支援文書に含まれるクエリ関連情報を表すために, 67 %$ のトークンを最大で利用し, 最先端(SoTA)法と比較した。 我々の実験は、人気のある2つのベンチマークデータセット(HotpotQAとMuSiQue)上で、いくつかのメトリクス(EM、F1、BERTScore、Human Eval)にわたるSoTAに対する一貫した改善を示している。

Given unstructured text, Large Language Models (LLMs) are adept at answering simple (single-hop) questions. However, as the complexity of the questions increase, the performance of LLMs degrade. We believe this is due to the overhead associated with understanding the complex question followed by filtering and aggregating unstructured information in the raw text. Recent methods try to reduce this burden by integrating structured knowledge triples into the raw text, aiming to provide a structured overview that simplifies information processing. However, this simplistic approach is query-agnostic and the extracted facts are ambiguous as they lack context. To address these drawbacks and to enable LLMs to answer complex (multi-hop) questions with ease, we propose to use a knowledge graph (KG) that is context-aware and is distilled to contain query-relevant information. The use of our compressed distilled KG as input to the LLM results in our method utilizing up to $67\%$ fewer tokens to represent the query relevant information present in the supporting documents, compared to the state-of-the-art (SoTA) method. Our experiments show consistent improvements over the SoTA across several metrics (EM, F1, BERTScore, and Human Eval) on two popular benchmark datasets (HotpotQA and MuSiQue).
翻訳日:2024-06-11 14:56:30 公開日:2024-06-10
# ReCon1M:リモートセンシング画像における関係理解のための大規模ベンチマークデータセット

ReCon1M:A Large-scale Benchmark Dataset for Relation Comprehension in Remote Sensing Imagery ( http://arxiv.org/abs/2406.06028v1 )

ライセンス: Link先を確認
Xian Sun, Qiwei Yan, Chubo Deng, Chenglong Liu, Yi Jiang, Zhongyan Hou, Wanxuan Lu, Fanglong Yao, Xiaoyu Liu, Lingxiang Hao, Hongfeng Yu, (参考訳) SGG(Scene Graph Generation)は、画像から実体とそれらの相互関係を抽出することを目的とした、高度な視覚的理解と推論のタスクである。 近年、自然画像におけるSGGの研究で顕著な進展が見られるが、リモートセンシング画像の領域での探索は非常に限られている。 リモートセンシング画像の複雑な特徴は、自然な画像と比較して、アノテーションの時間と手作業による解釈コストを高くする必要がある。 大規模な公共SGGベンチマークの欠如は、航空画像におけるSGG関連研究の進展の大きな障害である。 本稿では,ReCon1Mと命名されたリモートセンシング画像の分野で,初めて一般公開された大規模・百万レベルの関係データセットを紹介する。 具体的には、データセットはFair1M上に構築され、21,392枚の画像で構成されています。 60のカテゴリにまたがる855,751のオブジェクトバウンディングボックスと、64のカテゴリにまたがる1,149,342のリレーショナルトリップレットのアノテーションが含まれている。 本稿では,データセットの特徴と統計情報の詳細な説明を行う。 本データセットでは,2つのオブジェクト検出タスクと3つのサブタスクをSGG内で実施し,これらのタスクにおける主流手法の性能を評価した。

Scene Graph Generation (SGG) is a high-level visual understanding and reasoning task aimed at extracting entities (such as objects) and their interrelationships from images. Significant progress has been made in the study of SGG in natural images in recent years, but its exploration in the domain of remote sensing images remains very limited. The complex characteristics of remote sensing images necessitate higher time and manual interpretation costs for annotation compared to natural images. The lack of a large-scale public SGG benchmark is a major impediment to the advancement of SGG-related research in aerial imagery. In this paper, we introduce the first publicly available large-scale, million-level relation dataset in the field of remote sensing images which is named as ReCon1M. Specifically, our dataset is built upon Fair1M and comprises 21,392 images. It includes annotations for 859,751 object bounding boxes across 60 different categories, and 1,149,342 relation triplets across 64 categories based on these bounding boxes. We provide a detailed description of the dataset's characteristics and statistical information. We conducted two object detection tasks and three sub-tasks within SGG on this dataset, assessing the performance of mainstream methods on these tasks.
翻訳日:2024-06-11 14:56:30 公開日:2024-06-10
# 大衆のカース: 言語モデルから知識を削除した場合、ポピュラーなエンティティは破滅的な副作用をもたらす

The Curse of Popularity: Popular Entities have Catastrophic Side Effects when Deleting Knowledge from Language Models ( http://arxiv.org/abs/2406.06032v1 )

ライセンス: Link先を確認
Ryosuke Takahashi, Go Kamoda, Benjamin Heinzerling, Keisuke Sakaguchi, Kentaro Inui, (参考訳) 言語モデル(LM)は、トレーニングを通じて世界的知識を内部パラメータにエンコードする。 しかし、LMはトレーニングデータから個人情報や機密情報を学習し、データ漏洩などのプライバシー上の懸念につながる可能性がある。 したがって、LMからの知識削除の研究は不可欠である。 本研究は, LMに格納されている知識に着目し, 知識削除の副作用と知識に関連するエンティティとの関係を解析する。 以上の結果から,一般的なエンティティに関する知識の削除は破滅的な副作用をもたらす可能性が示唆された。 さらに, 本研究は, 合成知識グラフを用いた学習モデルにおいて, 知識の削除を初めて分析し, 制御実験の新たな方向性を示すものである。

Language models (LMs) encode world knowledge in their internal parameters through training. However, LMs may learn personal and confidential information from the training data, leading to privacy concerns such as data leakage. Therefore, research on knowledge deletion from LMs is essential. This study focuses on the knowledge stored in LMs and analyzes the relationship between the side effects of knowledge deletion and the entities related to the knowledge. Our findings reveal that deleting knowledge related to popular entities can have catastrophic side effects. Furthermore, this research is the first to analyze knowledge deletion in models trained on synthetic knowledge graphs, indicating a new direction for controlled experiments.
翻訳日:2024-06-11 14:56:30 公開日:2024-06-10
# Shesha: 次世代Intelプロセッサのマルチヘッドマイクロアーキテクチャ漏洩発見

Shesha: Multi-head Microarchitectural Leakage Discovery in new-generation Intel Processors ( http://arxiv.org/abs/2406.06034v1 )

ライセンス: Link先を確認
Anirban Chakraborty, Nimish Mishra, Debdeep Mukhopadhyay, (参考訳) 過渡的実行攻撃は、SpectreとMeltdownの発見以来、広く研究されてきたマイクロアーキテクチャサイドチャネルの1つである。 しかし、研究の多くは、よく知られた投機的な出来事を通じて、新しい過渡的な経路を手動で発見することによって進められている。 過渡的漏洩発見の自動化に関する文献ではいくつかの試みがあるが、そのようなツールは既知の過渡的攻撃の変種を発見し、命令セットの小さなサブセットを探索することに焦点を当てている。 さらに、探索空間の複雑さが増大するにつれてスケールしないランダムなファジィングアプローチを採っている。 本研究では,不測の探索空間を等価クラスに分割し,この観測結果を用いて,過渡的実行攻撃の自動検出のための最先端ファジリング技術よりも高速な収束率を示すParticle Swarm OptimizationにインスパイアされたSheshaというフレームワークを開発した。 次に、シェシャを使って、x86インストラクション・セット・アーキテクチャ(ISE)の拡張の広大な領域を探索する。 そこで我々は,Intelプロセッサの命令セット拡張(ISE)において,これまで報告されていない5つの実行パスを報告した。 次に、過渡的な実行パスのそれぞれに対して広範なリバースエンジニアリングを行い、根本原因分析を行う。 検出した過渡的実行経路を用いて、悪用可能な過渡的ウィンドウを示すアタックビルディングブロックを開発する。 最後に、SIMDバッファによるFused Multiply-Add命令からのデータの漏洩を実証し、様々な暗号化実装から被害者データを抽出する。

Transient execution attacks have been one of the widely explored microarchitectural side channels since the discovery of Spectre and Meltdown. However, much of the research has been driven by manual discovery of new transient paths through well-known speculative events. Although a few attempts exist in literature on automating transient leakage discovery, such tools focus on finding variants of known transient attacks and explore a small subset of instruction set. Further, they take a random fuzzing approach that does not scale as the complexity of search space increases. In this work, we identify that the search space of bad speculation is disjointedly fragmented into equivalence classes, and then use this observation to develop a framework named Shesha, inspired by Particle Swarm Optimization, which exhibits faster convergence rates than state-of-the-art fuzzing techniques for automatic discovery of transient execution attacks. We then use Shesha to explore the vast search space of extensions to the x86 Instruction Set Architecture (ISEs), thereby focusing on previously unexplored avenues of bad speculation. As such, we report five previously unreported transient execution paths in Instruction Set Extensions (ISEs) on new generation of Intel processors. We then perform extensive reverse engineering of each of the transient execution paths and provide root-cause analysis. Using the discovered transient execution paths, we develop attack building blocks to exhibit exploitable transient windows. Finally, we demonstrate data leakage from Fused Multiply-Add instructions through SIMD buffer and extract victim data from various cryptographic implementations.
翻訳日:2024-06-11 14:56:30 公開日:2024-06-10
# ビジョンベース強化学習における一般化のための事前学習対象の検討

Investigating Pre-Training Objectives for Generalization in Vision-Based Reinforcement Learning ( http://arxiv.org/abs/2406.06037v1 )

ライセンス: Link先を確認
Donghu Kim, Hojoon Lee, Kyungmin Lee, Dongyoon Hwang, Jaegul Choo, (参考訳) 近年,視覚に基づく強化学習(Reinforcement Learning, RL)において, 様々な事前学習手法が導入されている。 しかし、その一般化能力は、分布内環境や統一されていない実験装置に限られているため、いまだに不明である。 そこで本研究では,50のAtariゲームから1000万のトランジションに対して,ResNet-50モデルを事前トレーニングするAtari-PB(Atari-PB)を導入し,多様な環境分布で評価する。 実験の結果,タスクに依存しない特徴(物体の識別や時間的ダイナミクスの理解など)の学習に焦点を当てた事前学習が,様々な環境における一般化を促進することがわかった。 対照的に、タスク固有の知識(例えば、エージェントの識別、報酬関数の適合など)の学習に焦点を当てた目的は、事前学習データセットと同様の環境におけるパフォーマンスを改善するが、様々なものではない。 コード、データセット、モデルチェックポイントをhttps://github.com/dojeon-ai/Atari-PB.comで公開しています。

Recently, various pre-training methods have been introduced in vision-based Reinforcement Learning (RL). However, their generalization ability remains unclear due to evaluations being limited to in-distribution environments and non-unified experimental setups. To address this, we introduce the Atari Pre-training Benchmark (Atari-PB), which pre-trains a ResNet-50 model on 10 million transitions from 50 Atari games and evaluates it across diverse environment distributions. Our experiments show that pre-training objectives focused on learning task-agnostic features (e.g., identifying objects and understanding temporal dynamics) enhance generalization across different environments. In contrast, objectives focused on learning task-specific knowledge (e.g., identifying agents and fitting reward functions) improve performance in environments similar to the pre-training dataset but not in varied ones. We publicize our codes, datasets, and model checkpoints at https://github.com/dojeon-ai/Atari-PB.
翻訳日:2024-06-11 14:56:30 公開日:2024-06-10
# 水中への潜水:海水塩分セグメンテーションと大規模データセットをガイドしたセグメンテーションモデル

Diving into Underwater: Segment Anything Model Guided Underwater Salient Instance Segmentation and A Large-scale Dataset ( http://arxiv.org/abs/2406.06039v1 )

ライセンス: Link先を確認
Shijie Lian, Ziyi Zhang, Hua Li, Wenjie Li, Laurence Tianruo Yang, Sam Kwong, Runmin Cong, (参考訳) 大規模モデルのブレークスルーにより、Segment Anything Model (SAM)とその拡張はコンピュータビジョンの様々なタスクに適用しようと試みられている。 水中の健全なインスタンスセグメンテーションは、複雑な水中状況とモデルの適応能力のために、しばしばセグメンテーションの精度が低い水中視覚タスクの基礎的かつ重要なステップである。 さらに,画素レベルの有能なインスタンスアノテーションを備えた大規模データセットの欠如は,この分野での機械学習技術の発達を阻害している。 これらの課題に対処するため, 様々な水中シーンから, 画素レベルのアノテーションを持つ10,632個の水中画像を含む, 初の大規模水中塩水インスタンスセグメンテーションデータセット (USIS10K) を構築した。 そこで本研究では,水中ドメインに特有なセグメンテーションモデル(USIS-SAM)に基づく水中塩分インスタンスセグメンテーションアーキテクチャを提案する。 我々は,水中領域の視覚的プロンプトをセグメントネットワークに組み込むために,水中適応型視覚変換器(UA-ViT)エンコーダを考案した。 さらに,前景点や箱をSAMのプロンプトとして明示的に提供するのではなく,自動でサリアントプロンプタを生成するために,水中のサリアント・フィーチャー・プロンプタ・ジェネレータ(SFPG)を設計する。 総合的な実験結果から,USIS-SAM法は最先端の手法と比較して,USIS10Kデータセット上で優れた性能が得られることが示された。 データセットとコードはhttps://github.com/LiamLian0727/USIS10Kで公開されている。

With the breakthrough of large models, Segment Anything Model (SAM) and its extensions have been attempted to apply in diverse tasks of computer vision. Underwater salient instance segmentation is a foundational and vital step for various underwater vision tasks, which often suffer from low segmentation accuracy due to the complex underwater circumstances and the adaptive ability of models. Moreover, the lack of large-scale datasets with pixel-level salient instance annotations has impeded the development of machine learning techniques in this field. To address these issues, we construct the first large-scale underwater salient instance segmentation dataset (USIS10K), which contains 10,632 underwater images with pixel-level annotations in 7 categories from various underwater scenes. Then, we propose an Underwater Salient Instance Segmentation architecture based on Segment Anything Model (USIS-SAM) specifically for the underwater domain. We devise an Underwater Adaptive Visual Transformer (UA-ViT) encoder to incorporate underwater domain visual prompts into the segmentation network. We further design an out-of-the-box underwater Salient Feature Prompter Generator (SFPG) to automatically generate salient prompters instead of explicitly providing foreground points or boxes as prompts in SAM. Comprehensive experimental results show that our USIS-SAM method can achieve superior performance on USIS10K datasets compared to the state-of-the-art methods. Datasets and codes are released on https://github.com/LiamLian0727/USIS10K.
翻訳日:2024-06-11 14:56:30 公開日:2024-06-10
# Vript:ビデオは何千もの単語の価値がある

Vript: A Video Is Worth Thousands of Words ( http://arxiv.org/abs/2406.06040v1 )

ライセンス: Link先を確認
Dongjie Yang, Suyuan Huang, Chengqiang Lu, Xiaodong Han, Haoxin Zhang, Yan Gao, Yao Hu, Hai Zhao, (参考訳) マルチモーダル学習の進歩、特にビデオ理解と生成は、モデル性能を改善するために高品質なビデオテキストデータセットを必要とする。 Vriptは12Kの高解像度ビデオの微妙な注釈付きコーパスでこの問題に対処し、詳細で密度が高く、スクリプト風のキャプションを420Kのクリップで提供する。 各クリップには約145ワードのキャプションがあり、ほとんどのビデオテキストデータセットの10倍以上の長さである。 従来のデータセットで静的なコンテンツのみを文書化するキャプションとは異なり、ビデオキャプションは、コンテンツだけでなく、ショットタイプ(ミアムショット、クローズアップなど)やカメラの動き(パンニング、傾きなど)を含むカメラ操作も記録することで、ビデオスクリプティングに拡張する。 Vriptを利用することで、クリップキャプションペアではなく、より多くのテキストをビデオモダリティと整合させる3つのトレーニングパラダイムを探索する。 これにより、GPT-4Vのパフォーマンスに匹敵する、オープンソースのモデルの中で最高のパフォーマンスの動画キャプションモデルであるVriptorが得られる。 Vriptorはまた、ロングビデオ用の高密度で詳細なキャプションをエンドツーエンドに生成できる強力なモデルである。 さらに、Vript-HALは、既存のベンチマークよりも難しい3つのビデオ理解タスクからなるベンチマークであるVript-Hardを紹介した。Vript-HALは、ビデオLLMにおけるアクションとオブジェクトの幻覚を評価する最初のベンチマークであり、Vript-RRは、長いビデオQAにおける質問のあいまいさを検索と組み合わせ、Vript-EROは、以前のビデオでのアクションではなく、長いビデオにおけるイベントの時間的理解を評価するための新しいタスクである。 すべてのコード、モデル、データセットはhttps://github.com/mutonix/Vript.comで入手できる。

Advancements in multimodal learning, particularly in video understanding and generation, require high-quality video-text datasets for improved model performance. Vript addresses this issue with a meticulously annotated corpus of 12K high-resolution videos, offering detailed, dense, and script-like captions for over 420K clips. Each clip has a caption of ~145 words, which is over 10x longer than most video-text datasets. Unlike captions only documenting static content in previous datasets, we enhance video captioning to video scripting by documenting not just the content, but also the camera operations, which include the shot types (medium shot, close-up, etc) and camera movements (panning, tilting, etc). By utilizing the Vript, we explore three training paradigms of aligning more text with the video modality rather than clip-caption pairs. This results in Vriptor, a top-performing video captioning model among open-source models, comparable to GPT-4V in performance. Vriptor is also a powerful model capable of end-to-end generation of dense and detailed captions for long videos. Moreover, we introduce Vript-Hard, a benchmark consisting of three video understanding tasks that are more challenging than existing benchmarks: Vript-HAL is the first benchmark evaluating action and object hallucinations in video LLMs, Vript-RR combines reasoning with retrieval resolving question ambiguity in long-video QAs, and Vript-ERO is a new task to evaluate the temporal understanding of events in long videos rather than actions in short videos in previous works. All code, models, and datasets are available in https://github.com/mutonix/Vript.
翻訳日:2024-06-11 14:56:30 公開日:2024-06-10
# マルコフゲームとマルチエージェント強化学習におけるリスク感性:システムレビュー

Risk Sensitivity in Markov Games and Multi-Agent Reinforcement Learning: A Systematic Review ( http://arxiv.org/abs/2406.06041v1 )

ライセンス: Link先を確認
Hafez Ghaemi, Shirin Jamshidi, Mohammad Mashreghi, Majid Nili Ahmadabadi, Hamed Kebriaei, (参考訳) マルコフゲーム(MG)とマルチエージェント強化学習(MARL)を用いて,マルチエージェントシステムにおける意思決定をモデル化する。 従来、MGとMARLの目標はリスク中立であり、エージェントは自分自身や他のエージェントの主観的または認知的嗜好を考慮せずに、期待されるリターンのようなパフォーマンス指標を最適化することが前提とされた。 しかし、そのような選好を無視すると、金融、事業研究、行動経済学における現実のシナリオの多くにおいて、不正確な意思決定モデルが生じる。 したがって、これらの選好が存在する場合には、リスクの適切な尺度をエージェントの最適化目標に組み込む必要があるため、MGやMARLへの扉を開く必要がある。 本稿では,近年成長しているMGとMARLのリスク感度に関する文献を,強化学習やゲーム理論の分野とともに体系的にレビューする。 MG と MARL で使用されるさまざまなリスク尺度を定義し,数学的に記述し,各尺度について個別に論じる。 最後に,理論および応用研究の最近の動向を明らかにし,今後の研究の方向性について論じる。

Markov games (MGs) and multi-agent reinforcement learning (MARL) are studied to model decision making in multi-agent systems. Traditionally, the objective in MG and MARL has been risk-neutral, i.e., agents are assumed to optimize a performance metric such as expected return, without taking into account subjective or cognitive preferences of themselves or of other agents. However, ignoring such preferences leads to inaccurate models of decision making in many real-world scenarios in finance, operations research, and behavioral economics. Therefore, when these preferences are present, it is necessary to incorporate a suitable measure of risk into the optimization objective of agents, which opens the door to risk-sensitive MG and MARL. In this paper, we systemically review the literature on risk sensitivity in MG and MARL that has been growing in recent years alongside other areas of reinforcement learning and game theory. We define and mathematically describe different risk measures used in MG and MARL and individually for each measure, discuss articles that incorporate it. Finally, we identify recent trends in theoretical and applied works in the field and discuss possible directions of future research.
翻訳日:2024-06-11 14:56:30 公開日:2024-06-10
# FRAG:拡散ビデオ編集のための周波数適応グループ

FRAG: Frequency Adapting Group for Diffusion Video Editing ( http://arxiv.org/abs/2406.06044v1 )

ライセンス: Link先を確認
Sunjae Yoon, Gwanhyeong Koo, Geonwoo Kim, Chang D. Yoo, (参考訳) ビデオ編集において、品質編集の目印は、一貫性と控えめな調整にある。 修正は、統合されると滑らかで微妙で、自然の流れを保ち、元のビジョンとシームレスに整合しなければなりません。 したがって、我々の主な焦点は、高品質な編集における現在の課題を克服することであり、各編集が意図した本質を損なうことなく最終製品を強化することを保証することである。 しかし,近年の拡散ビデオ編集システムでは,ぼかしやフリッカリングなどの品質劣化が日常的に見られる。 拡散モデルでは, ノイズ発生過程における高周波成分の正確な合成に失敗する。 そこで我々は,周波数適応群(FRAG)を考案し,高周波数成分を保存するための新しい受容野分岐を導入することにより,一貫性と忠実度の観点から映像品質を向上させる。 FRAGは、追加のトレーニングなしでモデルに依存しない方法で実行され、ビデオ編集ベンチマーク(TGVE、DAVIS)の有効性を検証する。

In video editing, the hallmark of a quality edit lies in its consistent and unobtrusive adjustment. Modification, when integrated, must be smooth and subtle, preserving the natural flow and aligning seamlessly with the original vision. Therefore, our primary focus is on overcoming the current challenges in high quality edit to ensure that each edit enhances the final product without disrupting its intended essence. However, quality deterioration such as blurring and flickering is routinely observed in recent diffusion video editing systems. We confirm that this deterioration often stems from high-frequency leak: the diffusion model fails to accurately synthesize high-frequency components during denoising process. To this end, we devise Frequency Adapting Group (FRAG) which enhances the video quality in terms of consistency and fidelity by introducing a novel receptive field branch to preserve high-frequency components during the denoising process. FRAG is performed in a model-agnostic manner without additional training and validates the effectiveness on video editing benchmarks (i.e., TGVE, DAVIS).
翻訳日:2024-06-11 14:56:30 公開日:2024-06-10
# 人物再同定事前学習のための拡散モデルを用いた効率的なデータの合成

Synthesizing Efficient Data with Diffusion Models for Person Re-Identification Pre-Training ( http://arxiv.org/abs/2406.06045v1 )

ライセンス: Link先を確認
Ke Niu, Haiyang Yu, Xuelin Qian, Teng Fu, Bin Li, Xiangyang Xue, (参考訳) 既存の人物再識別(Re-ID)メソッドは、主にモデル初期化のためのImageNet-1Kデータセットをデプロイする。 重要な課題の1つは、大規模な人物Re-IDデータセットの構築が時間を要することだ。 以前の取り組みでは、インターネットから人物画像(例えばLUPerson)を集めることでこの問題に対処していたが、ラベルのない、制御不能でノイズの多いデータから学ぶのに苦労している。 本稿では,データ収集やアノテーションのコストを必要とせずに,既知の同一性に基づく多様な画像の効率向上と生成を行う,新しいパラダイムDiffusion-ReIDを提案する。 技術的には、このパラダイムは生成とフィルタリングの2段階に展開する。 生成段階では,入力画像シーケンスと生成された画像とのID一貫性を確保するために,Language Prompts Enhancement (LPE)を提案する。 拡散過程において,属性の多様性を高めるため,ダイバーシティ・インジェクション(DI)モジュールを提案する。 生成したデータを高品質にするために、低画質の画像をさらに除去するためにRe-ID信頼しきい値フィルタを適用する。 提案したパラダイムに適合して,まず,5,183個のIDから777K以上の画像で構成された,大規模なRe-IDデータセットDiff-Personを新たに作成する。 次に、Diff-Personで事前訓練された強力なRe-IDバックボーンを構築します。 大規模な実験は4人のRe-IDベンチマークで実施され、6つの広く利用されている。 他の事前学習や自己管理の競合と比較すると,我々のアプローチは大きな優位性を示している。

Existing person re-identification (Re-ID) methods principally deploy the ImageNet-1K dataset for model initialization, which inevitably results in sub-optimal situations due to the large domain gap. One of the key challenges is that building large-scale person Re-ID datasets is time-consuming. Some previous efforts address this problem by collecting person images from the internet e.g., LUPerson, but it struggles to learn from unlabeled, uncontrollable, and noisy data. In this paper, we present a novel paradigm Diffusion-ReID to efficiently augment and generate diverse images based on known identities without requiring any cost of data collection and annotation. Technically, this paradigm unfolds in two stages: generation and filtering. During the generation stage, we propose Language Prompts Enhancement (LPE) to ensure the ID consistency between the input image sequence and the generated images. In the diffusion process, we propose a Diversity Injection (DI) module to increase attribute diversity. In order to make the generated data have higher quality, we apply a Re-ID confidence threshold filter to further remove the low-quality images. Benefiting from our proposed paradigm, we first create a new large-scale person Re-ID dataset Diff-Person, which consists of over 777K images from 5,183 identities. Next, we build a stronger person Re-ID backbone pre-trained on our Diff-Person. Extensive experiments are conducted on four person Re-ID benchmarks in six widely used settings. Compared with other pre-training and self-supervised competitors, our approach shows significant superiority.
翻訳日:2024-06-11 14:56:30 公開日:2024-06-10
# MATES:データ影響モデルによる効率的な事前学習のためのモデル認識データ選択

MATES: Model-Aware Data Selection for Efficient Pretraining with Data Influence Models ( http://arxiv.org/abs/2406.06046v1 )

ライセンス: Link先を確認
Zichun Yu, Spandan Das, Chenyan Xiong, (参考訳) 事前学習データの選択は、大量のWebデータコーパスから高品質なデータを活用することにより、言語モデルの事前学習効率を向上させる可能性がある。 手作りのルールやより大きな参照モデルに依存する現在のデータ選択方法は、静的に行われ、事前訓練中に進化するデータ優先をキャプチャしない。 本稿では、データ影響モデル(MATES)を用いたモデル認識データ選択について紹介し、データ影響モデルが事前学習モデルの進化するデータ嗜好に継続的に適応し、次に、現在の事前学習の進行に最も有効なデータを選択する。 具体的には、局所的に事前学習モデルを探索して収集したオラクルデータ嗜好信号を近似するために、小さなデータの影響モデルを微調整し、次の事前学習段階に応じてデータを選択する。 PythiaとC4データセットの実験では、MATESは、ゼロショットと少数ショットの両方の設定で、広範囲な下流タスクにおけるランダムなデータ選択を著しく上回っている。 これは、より大規模な参照モデルを活用する最近のデータ選択アプローチによって達成された利益を2倍にし、特定のパフォーマンスに到達するのに必要な合計FLOPを半分に減らします。 さらなる分析により、事前学習モデルのデータ嗜好の変化と、それらをキャプチャするためのデータ影響モデルの有効性が検証される。 私たちのコードはhttps://github.com/cxcscmu/MATES.comでオープンソース化されています。

Pretraining data selection has the potential to improve language model pretraining efficiency by utilizing higher-quality data from massive web data corpora. Current data selection methods, which rely on either hand-crafted rules or larger reference models, are conducted statically and do not capture the evolving data preferences during pretraining. In this paper, we introduce model-aware data selection with data influence models (MATES), where a data influence model continuously adapts to the evolving data preferences of the pretraining model and then selects the data most effective for the current pretraining progress. Specifically, we fine-tune a small data influence model to approximate oracle data preference signals collected by locally probing the pretraining model and to select data accordingly for the next pretraining stage. Experiments on Pythia and the C4 dataset demonstrate that MATES significantly outperforms random data selection on extensive downstream tasks in both zero- and few-shot settings. It doubles the gains achieved by recent data selection approaches that leverage larger reference models and reduces the total FLOPs required to reach certain performances by half. Further analysis validates the ever-changing data preferences of pretraining models and the effectiveness of our data influence models to capture them. Our code is open-sourced at https://github.com/cxcscmu/MATES.
翻訳日:2024-06-11 14:46:46 公開日:2024-06-10
# 画像テキスト分類のためのロバスト遅延表現調整

Robust Latent Representation Tuning for Image-text Classification ( http://arxiv.org/abs/2406.06048v1 )

ライセンス: Link先を確認
Hao Sun, Yu Song, (参考訳) 大規模モデルはコンピュータビジョンと自然言語処理において例外的な一般化能力を示した。 近年の取り組みは、これらのモデルをマルチモーダル処理能力で強化することに重点を置いている。 しかし、1つのモダリティが欠如しているシナリオによって引き起こされる課題に対処することは、依然として大きなハードルである。 そこで本研究では,大規模モデルに対する頑健な潜在表現チューニング手法を提案する。 具体的には,モダリティ間の相関を最大化するために,モダリティ潜在翻訳モジュールを導入する。 その後、モジュール間の情報交換を容易にするために、新しく設計された融合モジュールが使用される。 このフレームワークでは、トレーニング中に洗練される一般的な意味論だけでなく、1つのモダリティが存在しない場合にも堅牢な表現が得られる。 重要なことは、大規模な事前学習によって得られた能力を維持するために、画像とテキストの基礎モデルの凍結状態を維持することである。 いくつかの公開データセットで実験を行い,提案手法の有効性を実証した。

Large models have demonstrated exceptional generalization capabilities in computer vision and natural language processing. Recent efforts have focused on enhancing these models with multimodal processing abilities. However, addressing the challenges posed by scenarios where one modality is absent remains a significant hurdle. In response to this issue, we propose a robust latent representation tuning method for large models. Specifically, our approach introduces a modality latent translation module to maximize the correlation between modalities. Following this, a newly designed fusion module is employed to facilitate information interaction between the modalities. In this framework, not only are common semantics refined during training, but the method also yields robust representations in the absence of one modality. Importantly, our method maintains the frozen state of the image and text foundation models to preserve their abilities acquired through large-scale pretraining. We conduct experiments on several public datasets, and the results underscore the effectiveness of our proposed method.
翻訳日:2024-06-11 14:46:46 公開日:2024-06-10
# サプライチェーンにおける食品安全性の向上:カンピロバクター汚染防止における大規模言語モデルの可能性

Enhancing Food Safety in Supply Chains: The Potential Role of Large Language Models in Preventing Campylobacter Contamination ( http://arxiv.org/abs/2406.06049v1 )

ライセンス: Link先を確認
Asaf Tzachor, (参考訳) 食中毒は、主に細菌感染によって引き起こされる、世界的な公衆衛生上の課題となる。 その中にはCampylobacter sppがある。 毎年9千5百万件の患者を 引き起こしています これに対し、食品安全管理フレームワークであるハザード分析・臨界制御ポイント(HACCP)システムは、サプライチェーン全体を通じて、細菌汚染防止を含む食品の安全性リスクを体系的に管理するための最も効果的なアプローチであると考えられている。 有効性にもかかわらず、HACCPの採用は食品産業の様々な分野において不完全であることが多い。 この制限された実装は、認識の欠如、複雑なガイドライン、混乱した用語、HACCPシステムの実装に関する不十分なトレーニングなどによるものである。 本研究では, 大規模言語モデル (LLMs) , 特に生成前訓練トランスフォーマー (GPTs) が, サプライチェーンの4つの典型的段階(プライマリ生産, 食品加工, 流通, 小売, および, 準備と消費)において, カンピロバクター汚染を緩和する可能性について検討した。 LLMと食品の安全性の相互作用は有望な可能性を秘めているが、ほとんど探索されていない。 FAO の HACCP ツールボックスと HACCP 実装の 12 ステップで訓練されたオープンアクセスカスタマイズ GPT を,この領域における LLM の適用性を実証し,市販食品準備の文脈で試行する。 また、サプライチェーンの各ステップでGPTを実装する上での重要な障壁についても検討し、これらの障害を克服するための初期措置を提案する。

Foodborne diseases pose a significant global public health challenge, primarily driven by bacterial infections. Among these, Campylobacter spp. is notable, causing over 95 million cases annually. In response, the Hazard Analysis and Critical Control Points (HACCP) system, a food safety management framework, has been developed and is considered the most effective approach for systematically managing foodborne safety risks, including the prevention of bacterial contaminations, throughout the supply chain. Despite its efficacy, the adoption of HACCP is often incomplete across different sectors of the food industry. This limited implementation can be attributed to factors such as a lack of awareness, complex guidelines, confusing terminology, and insufficient training on the HACCP system's implementation. This study explores the potential of large language models (LLMs), specifically generative pre-trained transformers (GPTs), to mitigate Campylobacter contamination across four typical stages of the supply chain: primary production, food processing, distribution and retail, and preparation and consumption. While the interaction between LLMs and food safety presents a promising potential, it remains largely underexplored. To demonstrate the possible applications of LLMs in this domain, we further configure an open-access customized GPT trained on the FAO's HACCP toolbox and the 12 steps of HACCP implementation, and test it in the context of commercial food preparation. The study also considers critical barriers to implementing GPTs at each step of the supply chain and proposes initial measures to overcome these obstacles.
翻訳日:2024-06-11 14:46:46 公開日:2024-06-10
# 単一視点画像からの一般人ガウス

Generalizable Human Gaussians from Single-View Image ( http://arxiv.org/abs/2406.06050v1 )

ライセンス: Link先を確認
Jinnan Chen, Chen Li, Jianfeng Zhang, Hanlin Chen, Buzhen Huang, Gim Hee Lee, (参考訳) 本研究では,1つの画像から一般化可能な3次元ガウシアンを学習する作業に取り組む。 このタスクの主な課題は、特に観測されていない領域において、詳細な幾何学と外観を回復することである。 この目的のために, 単一画像からの3次元人体モデリングのための拡散誘導フレームワークであるHGM(Single-view Generalizable Human Gaussian Model)を提案する。 本研究では, 拡散モデルを用いて, 粗い人間のガウスモデルから表現された新しいビュー画像を洗練するための拡散に基づく粗いパイプラインを設計する。 次に、洗練された画像と入力画像とを併用して、洗練された人間のガウスモデルを学ぶ。 観察されていない視点を幻覚させる効果はあるが、このアプローチは監督の欠如により非現実的な人間のポーズや形を生み出す可能性がある。 SMPLモデルから幾何学的先行情報をさらにエンコードすることでこの問題を回避する。 具体的には,SMPL体積の幾何学的特徴を,スパース畳み込みとアテンション機構によって予測されたガウシアンに伝達する。 公開データセットに対する我々のアプローチを検証し、PSNRとSSIMの点で最先端の手法を大幅に上回っていることを示す。 さらに,本手法では,画像の高精細化を図っている。

In this work, we tackle the task of learning generalizable 3D human Gaussians from a single image. The main challenge for this task is to recover detailed geometry and appearance, especially for the unobserved regions. To this end, we propose single-view generalizable Human Gaussian model (HGM), a diffusion-guided framework for 3D human modeling from a single image. We design a diffusion-based coarse-to-fine pipeline, where the diffusion model is adapted to refine novel-view images rendered from a coarse human Gaussian model. The refined images are then used together with the input image to learn a refined human Gaussian model. Although effective in hallucinating the unobserved views, the approach may generate unrealistic human pose and shapes due to the lack of supervision. We circumvent this problem by further encoding the geometric priors from SMPL model. Specifically, we propagate geometric features from SMPL volume to the predicted Gaussians via sparse convolution and attention mechanism. We validate our approach on publicly available datasets and demonstrate that it significantly surpasses state-of-the-art methods in terms of PSNR and SSIM. Additionally, our method exhibits strong generalization for in-the-wild images.
翻訳日:2024-06-11 14:46:46 公開日:2024-06-10
# 人間とAIのコラボレーションにおけるAI行動に関する人間的信念に対する会計の実用性について

On the Utility of Accounting for Human Beliefs about AI Behavior in Human-AI Collaboration ( http://arxiv.org/abs/2406.06051v1 )

ライセンス: Link先を確認
Guanghui Yu, Robert Kasumba, Chien-Ju Ho, William Yeoh, (参考訳) 効果的な人間とAIのコラボレーションを実現するには、人間を無視しながらAIのパフォーマンスを最適化するだけでは不十分である。 近年の研究では、人間の行動を考慮したAIエージェントの設計が、人間とAIのコラボレーションのパフォーマンスを向上させることが示されている。 しかしながら、既存のほとんどのアプローチの制限は、人間の振る舞いはAIの振る舞いに関係なく静的である、という仮定である。 現実には、人間はAI行動の観察に基づいて行動計画を調整することができる。 本稿では、協調的なAIエージェントが人間のパートナーの信念、すなわち、人間のパートナーがAIエージェントが何をしているかを考慮し、人間のパートナーとのコラボレーションを容易にするためのアクションプランを設計することで、この制限に対処する。 具体的には、AIパートナーの行動について人間がどのように考えるかを説明する、人間の信念のモデルを開発した。 この信念モデルに基づいて、人間の行動と人間の信念の両方を考慮したAIエージェントを開発し、その戦略を考案した。 我々の信念モデルがAI行動に関する人間の信念をより正確に予測できることを実証した。 さらに,人間の信念を考慮したAIエージェントの設計により,人間とAIのコラボレーションにおけるパフォーマンスが向上することを示した。

To enable effective human-AI collaboration, merely optimizing AI performance while ignoring humans is not sufficient. Recent research has demonstrated that designing AI agents to account for human behavior leads to improved performance in human-AI collaboration. However, a limitation of most existing approaches is their assumption that human behavior is static, irrespective of AI behavior. In reality, humans may adjust their action plans based on their observations of AI behavior. In this paper, we address this limitation by enabling a collaborative AI agent to consider the beliefs of its human partner, i.e., what the human partner thinks the AI agent is doing, and design its action plan to facilitate easier collaboration with its human partner. Specifically, we developed a model of human beliefs that accounts for how humans reason about the behavior of their AI partners. Based on this belief model, we then developed an AI agent that considers both human behavior and human beliefs in devising its strategy for working with humans. Through extensive real-world human-subject experiments, we demonstrated that our belief model more accurately predicts humans' beliefs about AI behavior. Moreover, we showed that our design of AI agents that accounts for human beliefs enhances performance in human-AI collaboration.
翻訳日:2024-06-11 14:46:46 公開日:2024-06-10
# 社会科学応用による語彙意味変化評価のための多次元フレームワーク

A Multidimensional Framework for Evaluating Lexical Semantic Change with Social Science Applications ( http://arxiv.org/abs/2406.06052v1 )

ライセンス: Link先を確認
Naomi Baes, Nick Haslam, Ekaterina Vylomova, (参考訳) 歴史的言語学者は語彙的意味変化の複数の形態を特定してきた。 本稿では,これらの形式を統合するための3次元フレームワークと,それらを並列に評価するための統一的な計算手法を提案する。 次元は意味の増大または減少を表す 1)感情, 2)幅、及び 3) 強度。 これらの次元は、対象単語の頻度の変化と、そのコロケーションの主題的内容を評価することで補うことができる。 このフレームワークは、語彙的意味変化を経済的・体系的にマッピングし、計算社会科学に応用することができる。 本研究では,2つのコーパスにおいて,心的健康と精神疾患のセマンティック・シフトを図示的に分析し,同時代の病因化,スティグマ,概念のクリープを照らした意味変化のパターンを示す。

Historical linguists have identified multiple forms of lexical semantic change. We present a three-dimensional framework for integrating these forms and a unified computational methodology for evaluating them concurrently. The dimensions represent increases or decreases in semantic 1) sentiment, 2) breadth, and 3) intensity. These dimensions can be complemented by the evaluation of shifts in the frequency of the target words and the thematic content of its collocates. This framework enables lexical semantic change to be mapped economically and systematically and has applications in computational social science. We present an illustrative analysis of semantic shifts in mental health and mental illness in two corpora, demonstrating patterns of semantic change that illuminate contemporary concerns about pathologization, stigma, and concept creep.
翻訳日:2024-06-11 14:46:46 公開日:2024-06-10
# 熱電的クーパー対スプリッタにおける定常状態ダイナミクスと非局所相関

Steady-state dynamics and non-local correlations in thermoelectric Cooper pair splitters ( http://arxiv.org/abs/2406.06053v1 )

ライセンス: Link先を確認
Arnav Arora, Siddhant Midha, Alexander Zyuzin, Pertti Hakonen, Bhaskaran Muralidharan, (参考訳) 超伝導体-量子ドットハイブリッドを用いたクーパーペアスプリッターの最近の実験は、超伝導領域のサブギャッププロセスの工学により、固体の絡み合いを発生させる。 熱電式クーパー対分割器(Nat. Comm. 12, 21, (2021))を試作機として,観測された輸送信号の詳細な解析を行い,アンドレーフ過程から生じる相関関係の非局所的性質を解明する。 衝撃的な結果として、量子ドットの離散エネルギースペクトルの接触誘起レベルの拡大と超伝導セグメントとのハイブリッド化により、熱電流のパリティ反転とアンドレーフ過程のシフト共鳴が生じる。 我々は、量子不協和を持つ明確なネクサスを作ることにより、非局所相関の存在を確定的に確立する。 そこで我々は,超伝導-ハイブリッド・クーパー対スプリッタのゲート電圧制御について詳細な解析を行った。

Recent experiments on Cooper pair splitters using superconductor-quantum dot hybrids have embarked on creating entanglement in the solid-state, by engineering the sub-gap processes in the superconducting region. Using the thermoelectric Cooper pair splitter setup [Nat. Comm., 12, 21, (2021)] as a prototype, we develop a detailed analysis of the observed transport signal to bring out vital insights into the regimes of operation and establish the non-local nature of the correlations arising from the crossed Andreev processes. As a striking consequence, contact induced level broadening of the quantum dot's discrete energy spectrum and its hybridization with the superconducting segment, results in a parity reversal of the thermoelectric current along with shifted resonances of the crossed Andreev processes. We conclusively establish the presence of non-local correlations by making a clear nexus with quantum discord. Our detailed analysis thereby provides insights into the gate voltage control of the entanglement generation in superconducting-hybrid Cooper pair splitters.
翻訳日:2024-06-11 14:46:46 公開日:2024-06-10
# Synth-SBDH: 臨床テキストのための社会的および行動決定因子の合成データセット

Synth-SBDH: A Synthetic Dataset of Social and Behavioral Determinants of Health for Clinical Text ( http://arxiv.org/abs/2406.06056v1 )

ライセンス: Link先を確認
Avijit Mitra, Emily Druhl, Raelene Goodwin, Hong Yu, (参考訳) 社会的および行動的健康決定因子(SBDH)は、健康結果において重要な役割を担い、臨床文献に頻繁に記録されている。 臨床テキストから自動的にSBDH情報を抽出することは、公開されている高品質なデータセットに依存している。 しかし、既存のSBDHデータセットは、可用性とカバレッジにかなりの制限がある。 本研究では,Synth-SBDHについて述べる。Synth-SBDHはSBDHアノテーションを詳細に記述した新しい合成データセットである。 そこで我々は,Synth-SBDHの2つの異なる病院環境から得られた実世界の臨床データセットを用いて,その汎用性,一般化性,蒸留能力の3つのタスクにおける有用性を示す。 Synth-SBDHで訓練されたモデルは、Synth-SBDHトレーニングなしで一貫して性能を上回り、最大62.5%のマクロF改善を実現した。 さらに、Synth-SBDHは希少なSBDHカテゴリやアンダーリソース制約に対して有効であることを示す。 人間による評価は、71.06%のHuman-LLMアライメントを示し、将来の改良のための領域を明らかにする。

Social and behavioral determinants of health (SBDH) play a crucial role in health outcomes and are frequently documented in clinical text. Automatically extracting SBDH information from clinical text relies on publicly available good-quality datasets. However, existing SBDH datasets exhibit substantial limitations in their availability and coverage. In this study, we introduce Synth-SBDH, a novel synthetic dataset with detailed SBDH annotations, encompassing status, temporal information, and rationale across 15 SBDH categories. We showcase the utility of Synth-SBDH on three tasks using real-world clinical datasets from two distinct hospital settings, highlighting its versatility, generalizability, and distillation capabilities. Models trained on Synth-SBDH consistently outperform counterparts with no Synth-SBDH training, achieving up to 62.5% macro-F improvements. Additionally, Synth-SBDH proves effective for rare SBDH categories and under-resource constraints. Human evaluation demonstrates a Human-LLM alignment of 71.06% and uncovers areas for future refinements.
翻訳日:2024-06-11 14:46:46 公開日:2024-06-10
# メッセージパッシング変換器を用いた物理シミュレーションの学習

Learning Physical Simulation with Message Passing Transformer ( http://arxiv.org/abs/2406.06060v1 )

ライセンス: Link先を確認
Zeyi Xu, Yifei Li, (参考訳) 近年,物理シミュレーションのための機械学習手法が大きな成功を収めている。 本稿では,グラフニューラルネットワークに基づく新しいユニバーサルアーキテクチャを提案する。メッセージパッシングフレームワークを組み込んだメッセージパッシングトランスフォーマーは,Encoder-Processor-Decoder構造を採用し,グラフフーリエロスをモデル最適化の損失関数として適用する。 本稿では,プロセッサ内のノード属性を更新するHadamard-Product Attentionを提案する。Hadamard-Product AttentionはDot-Product Attentionの亜種であり,よりきめ細かなセマンティクスに焦点を当て,各特徴次元に対する注意重みの割り当てに重点を置いている。 さらに、高エネルギーと低エネルギーのコンポーネントのバランスをとるために、グラフフーリエ損失(GFL)を導入します。 時間性能を向上させるため,学習前にグラフのラプラシアン固有ベクトルを事前計算する。 我々のアーキテクチャは、ラグランジアンおよびユーレリア力学系の長期ロールアウトにおいて、現在の方法よりも大幅に精度が向上する。

Machine learning methods for physical simulation have achieved significant success in recent years. We propose a new universal architecture based on Graph Neural Network, the Message Passing Transformer, which incorporates a Message Passing framework, employs an Encoder-Processor-Decoder structure, and applies Graph Fourier Loss as loss function for model optimization. To take advantage of the past message passing state information, we propose Hadamard-Product Attention to update the node attribute in the Processor, Hadamard-Product Attention is a variant of Dot-Product Attention that focuses on more fine-grained semantics and emphasizes on assigning attention weights over each feature dimension rather than each position in the sequence relative to others. We further introduce Graph Fourier Loss (GFL) to balance high-energy and low-energy components. To improve time performance, we precompute the graph's Laplacian eigenvectors before the training process. Our architecture achieves significant accuracy improvements in long-term rollouts for both Lagrangian and Eulerian dynamical systems over current methods.
翻訳日:2024-06-11 14:46:46 公開日:2024-06-10
# Greedy SLIM: SLIM-based Approach for Preference Elicitation

Greedy SLIM: A SLIM-Based Approach For Preference Elicitation ( http://arxiv.org/abs/2406.06061v1 )

ライセンス: Link先を確認
Claudius Proissl, Amel Vatic, Helmut Waldschmidt, (参考訳) 優先推論は、推薦システムのコールドスタート問題に取り組むためのアクティブな学習手法である。 大まかに言えば、新しいユーザーは、適切なレコメンデーションを計算するために、慎重に選択された項目を評価するよう求められている。 我々はまず,トップNレコメンデーションのための最先端技術であるSLIMをベースとした選好選好手法を提案する。 本手法は主に,Greedy SLIMと呼ばれるSLIMの新しいトレーニング技術から成り立っている。 本手法は,SLIM損失を最小限に抑えるため,トレーニング項目を反復的に選択する。 我々は,本手法の性能を評価するために,オフライン実験とユーザスタディを実施している。 結果は、特にユーザスタディに関して、目覚ましい。 We conclusion that Greedy SLIM is suitable for preference elicitation than widely use method based on latent factor model。

Preference elicitation is an active learning approach to tackle the cold-start problem of recommender systems. Roughly speaking, new users are asked to rate some carefully selected items in order to compute appropriate recommendations for them. To the best of our knowledge, we are the first to propose a method for preference elicitation that is based on SLIM , a state-of-the-art technique for top-N recommendation. Our approach mainly consists of a new training technique for SLIM, which we call Greedy SLIM. This technique iteratively selects items for the training in order to minimize the SLIM loss greedily. We conduct offline experiments as well as a user study to assess the performance of this new method. The results are remarkable, especially with respect to the user study. We conclude that Greedy SLIM seems to be more suitable for preference elicitation than widely used methods based on latent factor models.
翻訳日:2024-06-11 14:46:46 公開日:2024-06-10
# ProcessPainter: シーケンスデータからペイントプロセスを学ぶ

ProcessPainter: Learn Painting Process from Sequence Data ( http://arxiv.org/abs/2406.06062v1 )

ライセンス: Link先を確認
Yiren Song, Shijie Huang, Chen Yao, Xiaojun Ye, Hai Ci, Jiaming Liu, Yuxuan Zhang, Mike Zheng Shou, (参考訳) 画家の絵画の過程は本質的に段階的に変化しており、異なる画家や様式によって大きく異なる。 詳細なステップ・バイ・ステップの絵画プロセスの生成は、美術教育や研究には不可欠であるが、ほとんど未調査のままである。 従来のストロークベースのレンダリング手法は、画像をブラシストロークのシーケンスに分解するが、基本的なブラシストロークの修正に制限があるため、アーティストの真のプロセスの複製には不足している。 拡散過程を利用したテキスト・ツー・イメージ・モデルは反復的デノゲーションを通じて画像を生成するが、アーティストの絵画プロセスとは大きく異なる。 これらの課題に対処するために、私たちは、最初に合成データに基づいて事前訓練され、その後、LoRAモデルを使用してアーティストの絵画シーケンスのセットで微調整されたテキスト・ビデオモデルであるProcessPainterを紹介した。 このアプローチは、テキストプロンプトから描画過程を初めて生成する。 さらに,任意のフレーム入力を受理可能なArtwork Replication Networkを導入し,絵のプロセスの制御,絵のシーケンスへの分解,半完成品の完成などを行う。 本稿では,芸術教育と画像生成技術の進歩に向けた新たな視点とツールを提供する。

The painting process of artists is inherently stepwise and varies significantly among different painters and styles. Generating detailed, step-by-step painting processes is essential for art education and research, yet remains largely underexplored. Traditional stroke-based rendering methods break down images into sequences of brushstrokes, yet they fall short of replicating the authentic processes of artists, with limitations confined to basic brushstroke modifications. Text-to-image models utilizing diffusion processes generate images through iterative denoising, also diverge substantially from artists' painting process. To address these challenges, we introduce ProcessPainter, a text-to-video model that is initially pre-trained on synthetic data and subsequently fine-tuned with a select set of artists' painting sequences using the LoRA model. This approach successfully generates painting processes from text prompts for the first time. Furthermore, we introduce an Artwork Replication Network capable of accepting arbitrary-frame input, which facilitates the controlled generation of painting processes, decomposing images into painting sequences, and completing semi-finished artworks. This paper offers new perspectives and tools for advancing art education and image generation technology.
翻訳日:2024-06-11 14:46:46 公開日:2024-06-10
# 量子コンピュータにおける大規模・高精度流体シミュレーションの実現

Enabling Large-Scale and High-Precision Fluid Simulations on Near-Term Quantum Computers ( http://arxiv.org/abs/2406.06063v1 )

ライセンス: Link先を確認
Zhao-Yun Chen, Teng-Yang Ma, Chuang-Chao Ye, Liang Xu, Ming-Yang Tan, Xi-Ning Zhuang, Xiao-Fan Xu, Yun-Jie Wang, Tai-Ping Sun, Yong Chen, Lei Du, Liang-Liang Guo, Hai-Feng Zhang, Hao-Ran Tao, Tian-Le Wang, Xiao-Yan Yang, Ze-An Zhao, Peng Wang, Sheng Zhang, Chi Zhang, Ren-Ze Zhao, Zhi-Long Jia, Wei-Cheng Kong, Meng-Han Dou, Jun-Chao Wang, Huan-Yu Liu, Cheng Xue, Peng-Jun-Yi Zhang, Sheng-Hong Huang, Peng Duan, Yu-Chun Wu, Guo-Ping Guo, (参考訳) 量子計算流体力学(QCFD)は、量子アルゴリズムを高効率に活用することにより、古典計算流体力学(CFD)に代わる有望な代替手段を提供する。 本稿では, 超伝導量子コンピュータ上に実装された総合QCFD法を提案し, 定常ポアゼイユ流と非定常音波伝搬のシミュレーションに成功した。 ポワゼイユ流シミュレーションは相対誤差が0.2 %以下に達し、非定常音響波シミュレーションは5043次元行列を解き、これまでで最大の量子コンピュータシミュレーションとなった。 我々のアプローチは量子コンピューティングと古典コンピューティングを橋渡しし、量子ハードウェアの制約に適応し、大規模CFD問題に対するスケーラブルなソリューションを提供する。

Quantum computational fluid dynamics (QCFD) offers a promising alternative to classical computational fluid dynamics (CFD) by leveraging quantum algorithms for higher efficiency. This paper introduces a comprehensive QCFD method implemented on a superconducting quantum computer, demonstrating successful simulations of steady Poiseuille flow and unsteady acoustic wave propagation. The Poiseuille flow simulation achieved a relative error of less than $0.2\%$, and the unsteady acoustic wave simulation solved a 5043-dimension matrix, marking the largest simulation on a quantum computer to date. Our approach bridges quantum and classical computing, adapting to quantum hardware constraints and offering scalable solutions for large-scale CFD problems, which paves the way for practical applications of near-term quantum computers in computational science.
翻訳日:2024-06-11 14:46:46 公開日:2024-06-10
# ポイントABM:ポイントクラウド解析のためのマルチヘッド自己注意による双方向状態空間モデルの構築

PointABM:Integrating Bidirectional State Space Model with Multi-Head Self-Attention for Point Cloud Analysis ( http://arxiv.org/abs/2406.06069v1 )

ライセンス: Link先を確認
Jia-wei Chen, Yu-jie Xiong, Yong-bin Gao, (参考訳) 状態空間モデル(SSM)に基づくMambaは、線形複雑性と分類における大きな成功により、3Dポイントクラウド解析においてその優位性を提供する。 それ以前、Transformerはポイントクラウド分析の最も顕著で成功したアーキテクチャの1つとして登場した。 本稿では,3Dポイントクラウド解析の性能向上のために,ローカル機能を強化するために,MambaアーキテクチャとTransformerアーキテクチャを統合したハイブリッドモデルであるPointABMを提案する。 グローバルな特徴の抽出を促進するため,従来のトークンフォワードSSMと革新的なバックワードSSMを組み合わせた双方向SSM(bi-SSM)フレームワークを導入する。 双方向マンバが要求するシーケンス関係を乱すことなく,より包括的な特徴を捕捉できる双方向SSMの能力を高めるために,Transformerを導入し,その自己認識機構を利用してポイントクラウドを処理した。 大規模な実験結果から、MambaとTransformerを統合することで、3Dポイントクラウドの分析能力が大幅に向上することが示された。

Mamba, based on state space model (SSM) with its linear complexity and great success in classification provide its superiority in 3D point cloud analysis. Prior to that, Transformer has emerged as one of the most prominent and successful architectures for point cloud analysis. We present PointABM, a hybrid model that integrates the Mamba and Transformer architectures for enhancing local feature to improve performance of 3D point cloud analysis. In order to enhance the extraction of global features, we introduce a bidirectional SSM (bi-SSM) framework, which comprises both a traditional token forward SSM and an innovative backward SSM. To enhance the bi-SSM's capability of capturing more comprehensive features without disrupting the sequence relationships required by the bidirectional Mamba, we introduce Transformer, utilizing its self-attention mechanism to process point clouds. Extensive experimental results demonstrate that integrating Mamba with Transformer significantly enhance the model's capability to analysis 3D point cloud.
翻訳日:2024-06-11 14:46:46 公開日:2024-06-10
# 符号反転次アレスト近傍相互作用を持つ混合場イジングモデルの表面臨界性

Surface criticality in the mixed-field Ising model with sign-inverted next-nearest-neighbor interaction ( http://arxiv.org/abs/2406.06070v1 )

ライセンス: Link先を確認
Yuki Nakamura, Ryui Kaneko, Ippei Danshita, (参考訳) 光ツイーザーアレイのリドバーグ原子は、縦方向と横方向の磁場を持つスピン=1/2$反強磁性イジングモデルの量子シミュレータとして使われている。 我々は、ライドバーグ原子系の隣り合うものとは反対の符号を持つ次のアレスト近傍相互作用(NNN)を実装する方法について提案する。 これは、一方のRydberg状態と他方のRydberg状態との弱い結合によって達成できることを示す。 さらに,符号反転NNN相互作用により生じる反強磁性相と常磁性相の1次量子相転移に伴う表面臨界性について検討する。 微視的モデルから、遷移近くの反強磁性秩序パラメータの静的および動的性質を記述するギンズバーグ・ランダウ方程式(GL)を導出した。 平均場理論に基づく解析的GL理論と数値的手法の両方を用いて, システムの境界近傍における順序パラメータを計算し, 順序パラメータの治癒長が対数的に分散し, 表面臨界度を信号することを示す。

Rydberg atoms in an optical tweezer array have been used as a quantum simulator of the spin-$1/2$ antiferromagnetic Ising model with longitudinal and transverse fields. We suggest how to implement the next-nearest-neighbor (NNN) interaction whose sign is opposite to that of the nearest neighbor one in the Rydberg atom systems. We show that this can be achieved by weakly coupling one Rydberg state with another Rydberg state. We further study the surface criticality associated with the first-order quantum phase transition between the antiferromagnetic and paramagnetic phases, which emerges due to the sign-inverted NNN interaction. From the microscopic model, we derive a Ginzburg-Landau (GL) equation, which describes static and dynamic properties of the antiferromagnetic order parameter near the transition. Using both analytical GL theory and numerical method based on a mean-field theory, we calculate the order parameter in the proximity of a boundary of the system in order to show that the healing length of the order parameter logarithmically diverges, signaling the surface criticality.
翻訳日:2024-06-11 14:46:46 公開日:2024-06-10
# Visuo-Motor 制御のためのコンボリューションインジェクタによる事前学習型 ViT の適応

Adapting Pretrained ViTs with Convolution Injector for Visuo-Motor Control ( http://arxiv.org/abs/2406.06072v1 )

ライセンス: Link先を確認
Dongyoon Hwang, Byungkun Lee, Hojoon Lee, Hyunseung Kim, Jaegul Choo, (参考訳) 視覚変換器(ViT)は、大規模な事前学習と組み合わせると、主に誘導バイアスの弱いため、様々なコンピュータビジョンタスクにおいて顕著な性能を示す。 しかし、このような弱い誘導バイアスは事前学習のスケーラビリティを助長するが、制御中心の誘導バイアスが欠如していることから、ビジュオモータ制御タスクに対するViTsの効果的な適応を妨げる可能性がある。 このような帰納バイアスの欠如には、空間的局所性や、畳み込みが自然にもたらす変換同値バイアスが含まれる。 そこで本研究では, 局所性や等分散バイアスに富んだ畳み込みをプリトレーニングしたViTに注入し, ビジュオモータ制御に有効適応するアドオンモジュールであるConvolution Injector (CoIn)を紹介する。 我々は、CoInを3つの異なるドメイン(Adroit、MetaWorld、DMC)内の12の異なる制御タスク(CLIP、MVP、VC-1)で評価し、CoInは、実験されたすべての環境やモデルにおける制御タスクのパフォーマンスを一貫して向上させ、制御中心のバイアスを伴う事前学習されたViTを提供することの有効性を検証した。

Vision Transformers (ViT), when paired with large-scale pretraining, have shown remarkable performance across various computer vision tasks, primarily due to their weak inductive bias. However, while such weak inductive bias aids in pretraining scalability, this may hinder the effective adaptation of ViTs for visuo-motor control tasks as a result of the absence of control-centric inductive biases. Such absent inductive biases include spatial locality and translation equivariance bias which convolutions naturally offer. To this end, we introduce Convolution Injector (CoIn), an add-on module that injects convolutions which are rich in locality and equivariance biases into a pretrained ViT for effective adaptation in visuo-motor control. We evaluate CoIn with three distinct types of pretrained ViTs (CLIP, MVP, VC-1) across 12 varied control tasks within three separate domains (Adroit, MetaWorld, DMC), and demonstrate that CoIn consistently enhances control task performance across all experimented environments and models, validating the effectiveness of providing pretrained ViTs with control-centric biases.
翻訳日:2024-06-11 14:46:46 公開日:2024-06-10
# 動的検索による効率的なk-Nearest-Neighbor機械翻訳

Efficient k-Nearest-Neighbor Machine Translation with Dynamic Retrieval ( http://arxiv.org/abs/2406.06073v1 )

ライセンス: Link先を確認
Yan Gao, Zhiwei Cao, Zhongjian Miao, Baosong Yang, Shiyu Liu, Min Zhang, Jinsong Su, (参考訳) 非パラメトリックNMTドメイン適応を実現するために、$k$-Nearest-Neighbor Machine Translation$k$NN-MT)は、ドメイン固有の翻訳知識を保存するために外部データストアを構築し、$k$NNディストリビューションを導出し、線形補間係数$\lambda$を介してNMTモデルの予測分布を補間する。 その成功にもかかわらず、各時点における$k$NNの検索は、かなりの時間的オーバーヘッドをもたらす。 この問題に対処するために、支配的な研究は、適応検索付き$k$NN-MT(k$NN-MT-AR)を利用し、$\lambda$を動的に推定し、$\lambda$が固定しきい値以下であれば$k$NN検索をスキップする。 残念なことに$k$NN-MT-ARは満足な結果を出さない。 本稿では,まず,$k$NN-MT-ARの2つの重要な限界を明らかにするための予備的研究を行う。 1)最適化ギャップは、$k$NN検索スキップを決定するために$\lambda$の不正確な推定につながる。 2) 固定しきい値の使用は、異なる時間ステップで$k$NN検索の動的要求を満たすのに失敗する。 これらの制限を緩和するため、動的検索(k$NN-MT-DR)を備えた$k$NN-MTを提案し、バニラ$k$NN-MTを2つの面で大幅に拡張する。 まず,MLPをベースとした分類器に$k$NN-MTを装備し,各時刻に$k$NN検索をスキップするかどうかを判定する。 特に,分類器の潜在能力を十分に発揮するために,慎重に設計されたスカラー特徴について検討する。 次に,そのしきい値を動的に生成する時間ステップ対応しきい値調整手法を提案する。 広範に利用されているデータセットの実験結果から,本モデルの有効性と汎用性を示す。 \footnote{Our code is available at \url{https://github.com/DeepLearnXMU/knn-mt-dr}.

To achieve non-parametric NMT domain adaptation, $k$-Nearest-Neighbor Machine Translation ($k$NN-MT) constructs an external datastore to store domain-specific translation knowledge, which derives a $k$NN distribution to interpolate the prediction distribution of the NMT model via a linear interpolation coefficient $\lambda$. Despite its success, $k$NN retrieval at each timestep leads to substantial time overhead. To address this issue, dominant studies resort to $k$NN-MT with adaptive retrieval ($k$NN-MT-AR), which dynamically estimates $\lambda$ and skips $k$NN retrieval if $\lambda$ is less than a fixed threshold. Unfortunately, $k$NN-MT-AR does not yield satisfactory results. In this paper, we first conduct a preliminary study to reveal two key limitations of $k$NN-MT-AR: 1) the optimization gap leads to inaccurate estimation of $\lambda$ for determining $k$NN retrieval skipping, and 2) using a fixed threshold fails to accommodate the dynamic demands for $k$NN retrieval at different timesteps. To mitigate these limitations, we then propose $k$NN-MT with dynamic retrieval ($k$NN-MT-DR) that significantly extends vanilla $k$NN-MT in two aspects. Firstly, we equip $k$NN-MT with a MLP-based classifier for determining whether to skip $k$NN retrieval at each timestep. Particularly, we explore several carefully-designed scalar features to fully exert the potential of the classifier. Secondly, we propose a timestep-aware threshold adjustment method to dynamically generate the threshold, which further improves the efficiency of our model. Experimental results on the widely-used datasets demonstrate the effectiveness and generality of our model.\footnote{Our code is available at \url{https://github.com/DeepLearnXMU/knn-mt-dr}.
翻訳日:2024-06-11 14:37:02 公開日:2024-06-10
# SNNによる無線周波数干渉検出

Supervised Radio Frequency Interference Detection with SNNs ( http://arxiv.org/abs/2406.06075v1 )

ライセンス: Link先を確認
Nicholas J. Pritchard, Andreas Wicenec, Mohammed Bennamoun, Richard Dodson, (参考訳) 電波干渉(Radio Frequency Interference、RFI)は、地上や天体からの電波天文学において重要な課題であり、電波望遠鏡による観測を妨害している。 RFIに対処するには、複雑なヒューリスティックアルゴリズム、手動検査、そしてますます多くの機械学習手法が含まれる。 電波天文学観測の動的・時間的性質を考えると、スパイキングニューラルネットワーク(SNN)は有望なアプローチとして出現する。 本研究では,RFI検出を教師付き多変量時系列分割問題として用いた。 特に,SNN推論における電波可視性データの符号化について,レート,レイテンシ,デルタ変調,ステップフォワードアルゴリズムの3つのバリエーションについて検討した。 我々は、Hydrogen Epoch of Reionization Array (HERA) 望遠鏡から得られたシミュレーションデータに基づいて、小さな2層SNNをトレーニングし、広範囲なハイパーパラメータ最適化を行う。 その結果、レイテンシ符号化は優れた性能を示し、画素あたりの精度は98.8%、f1スコアは0.761であることがわかった。 注目すべきは、これらのメトリクスは、提案したネットワークアーキテクチャの単純さとコンパクトさに拘わらず、現代のRFI検出アルゴリズムにアプローチすることである。 本研究は、SNN研究者のベンチマーク問題としてのRFI検出の可能性を強調し、電波天文学における複雑な時系列分割タスクに対処するSNNの有効性を強調した。

Radio Frequency Interference (RFI) poses a significant challenge in radio astronomy, arising from terrestrial and celestial sources, disrupting observations conducted by radio telescopes. Addressing RFI involves intricate heuristic algorithms, manual examination, and, increasingly, machine learning methods. Given the dynamic and temporal nature of radio astronomy observations, Spiking Neural Networks (SNNs) emerge as a promising approach. In this study, we cast RFI detection as a supervised multi-variate time-series segmentation problem. Notably, our investigation explores the encoding of radio astronomy visibility data for SNN inference, considering six encoding schemes: rate, latency, delta-modulation, and three variations of the step-forward algorithm. We train a small two-layer fully connected SNN on simulated data derived from the Hydrogen Epoch of Reionization Array (HERA) telescope and perform extensive hyper-parameter optimization. Results reveal that latency encoding exhibits superior performance, achieving a per-pixel accuracy of 98.8% and an f1-score of 0.761. Remarkably, these metrics approach those of contemporary RFI detection algorithms, notwithstanding the simplicity and compactness of our proposed network architecture. This study underscores the potential of RFI detection as a benchmark problem for SNN researchers, emphasizing the efficacy of SNNs in addressing complex time-series segmentation tasks in radio astronomy.
翻訳日:2024-06-11 14:37:02 公開日:2024-06-10
# 潜在表現事項:一発描画作業における人間のようなスケッチ

Latent Representation Matters: Human-like Sketches in One-shot Drawing Tasks ( http://arxiv.org/abs/2406.06079v1 )

ライセンス: Link先を確認
Victor Boutin, Rishav Mukherji, Aditya Agrawal, Sabine Muzellec, Thomas Fel, Thomas Serre, Rufin VanRullen, (参考訳) 人間は1つの模範から新しいカテゴリーを熱心に描き出すことができる。 しかし、このギャップは近年の拡散モデルの発展とともに閉ざされ始めている。 このワンショット描画タスクは、体系的に研究されていない強力な帰納的バイアスを必要とする。 本稿では, 遅延拡散モデル (LDM) の潜在空間を, 異なる帰納バイアスがいかに形成するかを考察する。 標準 LDM 正規化器 (KL とベクトル量子化) とともに、教師付き正規化 (分類とプロトタイプベース表現を含む) と対照的な帰納バイアス (SimCLR と冗長化目標) を探索する。 筆者らは, 冗長性の低下とプロトタイプベース正規化によるLCDが, ほぼ人間に近い図面(サンプルの認識性と独創性の両方を考慮)を生成し, 人間の知覚を模倣する(精神物理学的に評価される)ことを実証した。 全体としては、単発描画における人間と機械のギャップはほぼ閉ざされていることを示唆している。

Humans can effortlessly draw new categories from a single exemplar, a feat that has long posed a challenge for generative models. However, this gap has started to close with recent advances in diffusion models. This one-shot drawing task requires powerful inductive biases that have not been systematically investigated. Here, we study how different inductive biases shape the latent space of Latent Diffusion Models (LDMs). Along with standard LDM regularizers (KL and vector quantization), we explore supervised regularizations (including classification and prototype-based representation) and contrastive inductive biases (using SimCLR and redundancy reduction objectives). We demonstrate that LDMs with redundancy reduction and prototype-based regularizations produce near-human-like drawings (regarding both samples' recognizability and originality) -- better mimicking human perception (as evaluated psychophysically). Overall, our results suggest that the gap between humans and machines in one-shot drawings is almost closed.
翻訳日:2024-06-11 14:37:02 公開日:2024-06-10
# マルチモーダル気候変化を考慮した作物収量予測のためのオープンかつ大規模データセット

An Open and Large-Scale Dataset for Multi-Modal Climate Change-aware Crop Yield Predictions ( http://arxiv.org/abs/2406.06081v1 )

ライセンス: Link先を確認
Fudong Lin, Kaleb Guillot, Summer Crawford, Yihe Zhang, Xu Yuan, Nian-Feng Tzeng, (参考訳) 正確な収穫予測は、食料の安全と持続可能な農業慣行を保証するために国家的に重要である。 AI-for-scienceアプローチは、薬物発見や降水流キャストなど、多くの科学的問題を解決する上で有望な成果を示したが、作物収量を予測するディープラーニングモデルの開発は、十分な情報を満たすために、複数のモダリティを持つオープンで大規模なディープラーニング対応データセットが欠如していることによって、常に妨げられている。 これを改善するために,米国(アメリカ合衆国)大陸の気候変化を考慮した収量予測を対象とする,最初のテラバイト規模の,公開可能なマルチモーダルデータセットであるCropNetデータセットを紹介した。 私たちのCropNetデータセットは、3つのデータ、すなわちSentinel-2 Imagery、WRF-HRRR Computed Dataset、USDA Crop Datasetで構成されており、6年間にわたる2200以上の米国郡(2017-2022年)で、短期間に成長する季節変動と長期気候変動の両方が収穫量に与える影響を考慮し、タイムリーかつ正確に郡レベルでの収穫量を予測するための多目的ディープラーニングモデルの開発を促進することが期待されている。 さらに、CropNetパッケージを開発し、3種類のAPIを提供し、研究者が興味のある時間と領域でCropNetデータをダウンロードしやすくし、正確な収量予測のためのディープラーニングモデルを柔軟に構築する。 気候変化を考慮した作物収量予測におけるCropNetデータセットの適用性と有効性を検証した。

Precise crop yield predictions are of national importance for ensuring food security and sustainable agricultural practices. While AI-for-science approaches have exhibited promising achievements in solving many scientific problems such as drug discovery, precipitation nowcasting, etc., the development of deep learning models for predicting crop yields is constantly hindered by the lack of an open and large-scale deep learning-ready dataset with multiple modalities to accommodate sufficient information. To remedy this, we introduce the CropNet dataset, the first terabyte-sized, publicly available, and multi-modal dataset specifically targeting climate change-aware crop yield predictions for the contiguous United States (U.S.) continent at the county level. Our CropNet dataset is composed of three modalities of data, i.e., Sentinel-2 Imagery, WRF-HRRR Computed Dataset, and USDA Crop Dataset, for over 2200 U.S. counties spanning 6 years (2017-2022), expected to facilitate researchers in developing versatile deep learning models for timely and precisely predicting crop yields at the county-level, by accounting for the effects of both short-term growing season weather variations and long-term climate change on crop yields. Besides, we develop the CropNet package, offering three types of APIs, for facilitating researchers in downloading the CropNet data on the fly over the time and region of interest, and flexibly building their deep learning models for accurate crop yield predictions. Extensive experiments have been conducted on our CropNet dataset via employing various types of deep learning solutions, with the results validating the general applicability and the efficacy of the CropNet dataset in climate change-aware crop yield predictions.
翻訳日:2024-06-11 14:37:02 公開日:2024-06-10
# GAIA:AI生成ビデオのアクション品質アセスメントを再考

GAIA: Rethinking Action Quality Assessment for AI-Generated Videos ( http://arxiv.org/abs/2406.06087v1 )

ライセンス: Link先を確認
Zijian Chen, Wei Sun, Yuan Tian, Jun Jia, Zicheng Zhang, Jiarui Wang, Ru Huang, Xiongkuo Min, Guangtao Zhai, Wenjun Zhang, (参考訳) アクション品質を評価することは、AI生成ビデオ(AIGV)内のアクションの本質的に曖昧な性質によってさらに複雑になる、AI生成ビデオの品質に重大な影響を与えるため、命令的かつ困難である。 現在のアクション品質評価(AQA)アルゴリズムは、主に実際の特定のシナリオからのアクションに焦点を当て、規範的なアクション機能で事前訓練されているため、AIGVでは適用できない。 これらの問題に対処するために、新しい因果推論に基づく大規模主観評価を行うことにより、ジェネリックAI生成アクションデータセットであるGAIAを構築し、9180対のビデオアクションペアのうち971,244が評価された。 GAIAに基づいて、視覚的に合理的なアクションを生成する能力に基づいて、人気のテキスト・ツー・ビデオ(T2V)モデル群を評価し、異なるカテゴリのアクションに対して、その長所と短所を明らかにする。 また,既存の自動評価手法のAQA能力をベンチマークするために,GAIAをテストベッドとして拡張する。 その結果、従来のAQA手法、最近のT2Vベンチマークにおける行動関連指標、主流ビデオ品質手法は人間の意見と相関が低く、AIGVにおける現在のモデルと人間の行動知覚パターンとの間に大きなギャップがあることが示唆された。 本研究は, AIGV研究のユニークな視点として, 行動品質の重要性を浮き彫りにし, AIGVにおけるAQAの能力向上に資する手法の進歩を推察するものである。

Assessing action quality is both imperative and challenging due to its significant impact on the quality of AI-generated videos, further complicated by the inherently ambiguous nature of actions within AI-generated video (AIGV). Current action quality assessment (AQA) algorithms predominantly focus on actions from real specific scenarios and are pre-trained with normative action features, thus rendering them inapplicable in AIGVs. To address these problems, we construct GAIA, a Generic AI-generated Action dataset, by conducting a large-scale subjective evaluation from a novel causal reasoning-based perspective, resulting in 971,244 ratings among 9,180 video-action pairs. Based on GAIA, we evaluate a suite of popular text-to-video (T2V) models on their ability to generate visually rational actions, revealing their pros and cons on different categories of actions. We also extend GAIA as a testbed to benchmark the AQA capacity of existing automatic evaluation methods. Results show that traditional AQA methods, action-related metrics in recent T2V benchmarks, and mainstream video quality methods correlate poorly with human opinions, indicating a sizable gap between current models and human action perception patterns in AIGVs. Our findings underscore the significance of action quality as a unique perspective for studying AIGVs and can catalyze progress towards methods with enhanced capacities for AQA in AIGVs.
翻訳日:2024-06-11 14:37:02 公開日:2024-06-10
# テクスチャ再スケーリング可能なユニバーサル対向摂動

Texture Re-scalable Universal Adversarial Perturbation ( http://arxiv.org/abs/2406.06089v1 )

ライセンス: Link先を確認
Yihao Huang, Qing Guo, Felix Juefei-Xu, Ming Hu, Xiaojun Jia, Xiaochun Cao, Geguang Pu, Yang Liu, (参考訳) UAP(Universal adversarial perturbation)は、任意の画像に対して高い確率で分類器を騙し、現実世界の深層モデルを攻撃するためにより実用的な固定された摂動マップである。 以前のUAP手法では、すべての画像に対して、スケール固定された、テクスチャ固定された摂動マップが作成され、画像内のマルチスケールオブジェクトを無視し、通常、愚かな比率が低くなる。 広く使われている畳み込みニューラルネットワークは、局所的なテクスチャに格納された意味情報に基づいてオブジェクトを分類する傾向があるため、局所的なコンテンツを効果的に活用する観点から、UAPを改善するための合理的で直感的な方法であると考えられる。 本研究では,小型のUPAマップに制約を加えると,画像領域全体を満たすために縦横に繰り返すことで,愚かな比率が著しく増加することを見出した。 そこで本研究では,深層モデルをより簡単に騙すことのできる,カテゴリ固有の局所的なテクスチャを持つUAPを自動生成する,シンプルで効果的なUAP拡張手法であるテクスチャスケール制約付きUAP(TSC-UAP)を提案する。 TSC-UAPは、テクスチャスケールを制限する低コストな操作により、データ依存UAP法とデータフリーUAP法の両方において、不正率と攻撃伝達性を大幅に改善する。 最新の2つのUAP手法,8つのCNNモデル,および4つの古典的データセットによる実験は,TSC-UAPの顕著な性能を示している。

Universal adversarial perturbation (UAP), also known as image-agnostic perturbation, is a fixed perturbation map that can fool the classifier with high probabilities on arbitrary images, making it more practical for attacking deep models in the real world. Previous UAP methods generate a scale-fixed and texture-fixed perturbation map for all images, which ignores the multi-scale objects in images and usually results in a low fooling ratio. Since the widely used convolution neural networks tend to classify objects according to semantic information stored in local textures, it seems a reasonable and intuitive way to improve the UAP from the perspective of utilizing local contents effectively. In this work, we find that the fooling ratios significantly increase when we add a constraint to encourage a small-scale UAP map and repeat it vertically and horizontally to fill the whole image domain. To this end, we propose texture scale-constrained UAP (TSC-UAP), a simple yet effective UAP enhancement method that automatically generates UAPs with category-specific local textures that can fool deep models more easily. Through a low-cost operation that restricts the texture scale, TSC-UAP achieves a considerable improvement in the fooling ratio and attack transferability for both data-dependent and data-free UAP methods. Experiments conducted on two state-of-the-art UAP methods, eight popular CNN models and four classical datasets show the remarkable performance of TSC-UAP.
翻訳日:2024-06-11 14:37:02 公開日:2024-06-10
# StreamAtt: 意図に基づく音声履歴選択による直接音声テキスト翻訳

StreamAtt: Direct Streaming Speech-to-Text Translation with Attention-based Audio History Selection ( http://arxiv.org/abs/2406.06097v1 )

ライセンス: Link先を確認
Sara Papi, Marco Gaido, Matteo Negri, Luisa Bentivogli, (参考訳) Streaming Speech-to-text Translation (StreamST)は、音声ストリームをインクリメンタルに受信しながら自動的に音声を翻訳するタスクである。 事前セグメンテーションされた音声を扱う同時ST(SimulST)とは異なり、StreamSTは連続的および非有界なオーディオストリームを扱うという課題に直面している。 これは、待ち時間と計算の制約によって完全に維持できない、以前の履歴の保持に関する追加的な決定を必要とする。 リアルタイムSTの現実的な需要にもかかわらず、ストリーミング翻訳の研究は依然として限られており、既存の研究はSimulSTのみに焦点を当てている。 このギャップを埋めるために、最初のStreamSTポリシーであるStreamAttを導入し、SimulSTの既存のメトリクスに匹敵するように設計された最初のStreamSTレイテンシメトリックであるStreamLAALを提案します。 MuST-C v1.0の8言語すべてにわたる大規模な実験では、ストリーミングベースラインと関連する最先端のSimulSTポリシーと比較してStreamAttの有効性が示され、StreamST研究の第一歩となった。

Streaming speech-to-text translation (StreamST) is the task of automatically translating speech while incrementally receiving an audio stream. Unlike simultaneous ST (SimulST), which deals with pre-segmented speech, StreamST faces the challenges of handling continuous and unbounded audio streams. This requires additional decisions about what to retain of the previous history, which is impractical to keep entirely due to latency and computational constraints. Despite the real-world demand for real-time ST, research on streaming translation remains limited, with existing works solely focusing on SimulST. To fill this gap, we introduce StreamAtt, the first StreamST policy, and propose StreamLAAL, the first StreamST latency metric designed to be comparable with existing metrics for SimulST. Extensive experiments across all 8 languages of MuST-C v1.0 show the effectiveness of StreamAtt compared to a naive streaming baseline and the related state-of-the-art SimulST policy, providing a first step in StreamST research.
翻訳日:2024-06-11 14:37:02 公開日:2024-06-10
# ソフトウェア定義ネットワークにおける侵入検出のための逐次バイナリ分類

Sequential Binary Classification for Intrusion Detection in Software Defined Networks ( http://arxiv.org/abs/2406.06099v1 )

ライセンス: Link先を確認
Ishan Chokshi, Shrihari Vasudevan, Nachiappan Sundaram, Raaghul Ranganathan, (参考訳) Software-Defined Networks (SDN) は、ネットワークデプロイメントの標準アーキテクチャである。 侵入検知システム(IDS)は、ネットワークが新たな高度な攻撃に対してより脆弱になるにつれて、この技術の重要な部分である。 機械学習(ML)ベースのIDSは、この問題に対処するための最も効果的なアプローチとして、ますます見られている。 しかし、IDSデータセットは高いクラス不均衡に悩まされ、標準MLモデルの性能に影響を及ぼす。 この問題に対処する多クラス分類アルゴリズムとして,SBC(Sequential Binary Classification)を提案する。 SBCは基底分類器の階層的なカスケードであり、それぞれが任意の一般バイナリ分類器でモデル化できる。 さまざまなシナリオ下でSBCのパフォーマンスを評価するベンチマークデータセットに、大規模な実験が報告されている。

Software-Defined Networks (SDN) are the standard architecture for network deployment. Intrusion Detection Systems (IDS) are a pivotal part of this technology as networks become more vulnerable to new and sophisticated attacks. Machine Learning (ML)-based IDS are increasingly seen as the most effective approach to handle this issue. However, IDS datasets suffer from high class imbalance, which impacts the performance of standard ML models. We propose Sequential Binary Classification (SBC) - an algorithm for multi-class classification to address this issue. SBC is a hierarchical cascade of base classifiers, each of which can be modelled on any general binary classifier. Extensive experiments are reported on benchmark datasets that evaluate the performance of SBC under different scenarios.
翻訳日:2024-06-11 14:37:02 公開日:2024-06-10
# 依存観測によるカーネル手法の整合性について

On the Consistency of Kernel Methods with Dependent Observations ( http://arxiv.org/abs/2406.06101v1 )

ライセンス: Link先を確認
Pierre-François Massiani, Sebastian Trimpe, Friedrich Solowjow, (参考訳) 学習方法の整合性は通常、観測が独立で同一に分布した(d.d.)混合過程の実現であるという仮定のもとに確立される。 しかし、サポートベクトルマシン(SVM)、ガウス過程(英語版)、条件付きカーネル平均埋め込み(CKME)といったカーネルメソッドは、データが動的システムから来る場合など、明らかに非単位のサンプリングスキームの下で優れた性能を与える。 本稿では,カーネル手法の現象を説明する一般的な仮定として,経験的弱収束(EWC)の概念を提案する。 これは無作為な漸近データ分布の存在を仮定し、フィールドにおける以前の仮定を厳格に弱めるものである。 我々の主な成果は、SVMの整合性、カーネルの平均埋め込み、そして一般的なヒルベルト空間は、EWCデータによる実証的な期待値を確立した。 我々の解析は、統計的学習の古典的な結果が後者の場合にまで拡張されるにつれて、有限次元および無限次元の出力の両方に当てはまる。 特にCKMEにも適用できる。 総合的に,本研究は統計学習に新たなプロセスのクラスを開放し,i.d.以上の学習理論と混合の基礎として機能する。

The consistency of a learning method is usually established under the assumption that the observations are a realization of an independent and identically distributed (i.i.d.) or mixing process. Yet, kernel methods such as support vector machines (SVMs), Gaussian processes, or conditional kernel mean embeddings (CKMEs) all give excellent performance under sampling schemes that are obviously non-i.i.d., such as when data comes from a dynamical system. We propose the new notion of empirical weak convergence (EWC) as a general assumption explaining such phenomena for kernel methods. It assumes the existence of a random asymptotic data distribution and is a strict weakening of previous assumptions in the field. Our main results then establish consistency of SVMs, kernel mean embeddings, and general Hilbert-space valued empirical expectations with EWC data. Our analysis holds for both finite- and infinite-dimensional outputs, as we extend classical results of statistical learning to the latter case. In particular, it is also applicable to CKMEs. Overall, our results open new classes of processes to statistical learning and can serve as a foundation for a theory of learning beyond i.i.d. and mixing.
翻訳日:2024-06-11 14:37:02 公開日:2024-06-10
# 補助的応用における適応制御 -上肢可動性に制限のあるユーザによる共有制御の評価-

Adaptive Control in Assistive Application -- A Study Evaluating Shared Control by Users with Limited Upper Limb Mobility ( http://arxiv.org/abs/2406.06103v1 )

ライセンス: Link先を確認
Felix Ferdinand Goldau, Max Pascher, Annalies Baumeister, Patrizia Tolle, Jens Gerken, Udo Frese, (参考訳) 補助ロボットにおける共有制御は、人間の自律性とコンピュータ支援を融合させ、身体障害者の複雑なタスクを単純化する。 本研究では,上肢障害者を対象とした適応的自由度制御法について検討した。 24人の被験者によるオブジェクト間の分析を採用し、3つの異なる入力デバイスに対して81のトライアルを実施し、現実的な日々のタスク設定で実施する。 個人差による統計的比較において、脆弱なターゲット人口の多様な能力と既知の課題を考えると、主に主観的質的データに焦点を当てている。 その結果, 入力装置によらず, 試験完了時の成功率が常に高いことが明らかとなった。 参加者は研究プロセスへの関与を高く評価し、肯定的な見通しを示し、制御システムへの迅速な適応性を示した。 特に、各参加者は、与えられたタスクを短時間で効果的に管理した。

Shared control in assistive robotics blends human autonomy with computer assistance, thus simplifying complex tasks for individuals with physical impairments. This study assesses an adaptive Degrees of Freedom control method specifically tailored for individuals with upper limb impairments. It employs a between-subjects analysis with 24 participants, conducting 81 trials across three distinct input devices in a realistic everyday-task setting. Given the diverse capabilities of the vulnerable target demographic and the known challenges in statistical comparisons due to individual differences, the study focuses primarily on subjective qualitative data. The results reveal consistently high success rates in trial completions, irrespective of the input device used. Participants appreciated their involvement in the research process, displayed a positive outlook, and quick adaptability to the control system. Notably, each participant effectively managed the given task within a short time frame.
翻訳日:2024-06-11 14:37:02 公開日:2024-06-10
# 検証可能な多項閾値関数の学習

Testably Learning Polynomial Threshold Functions ( http://arxiv.org/abs/2406.06106v1 )

ライセンス: Link先を確認
Lucas Slot, Stefan Tiegel, Manuel Wiedmer, (参考訳) Rubinfeld & Vasilyan氏は最近、古典的不可知モデルの拡張として、テスト可能な学習のフレームワークを紹介した。 テスターが効率的にチェックできる条件によって検証が難しい分布仮定を緩和する。 テスタは、データが元の仮定を真に満足するたびに受け入れ、学習者は、テスタが受け入れるたびに成功する必要がある。 我々は、テスターが標準のガウスデータを受け入れる必要がある設定に焦点を当てる。 そこでは、ハーフスペースのような基本的な概念クラスは、(分布固有の)非依存モデルと同様の時間的複雑さで検証可能であることが知られている。 本研究では、より複雑な概念クラスを実証的に学習する費用がかかるかどうかを問う。 特に、半空間を自然に一般化する多項式しきい値関数(PTF)を考える。 任意の定数次数の PTF が過剰な誤差$\varepsilon > 0$ in time $n^{\mathrm{poly}(1/\varepsilon)}$ まで証明できることを示す。 これは無知モデルにおける最もよく知られた保証と定性的に一致する。 私たちの結果は、テスト可能な学習と愚かさの関連の上に構築されます。 特に、少なくとも$\mathrm{poly}(1/\varepsilon)$モーメントにほぼ一致する分布は、標準ガウスの愚かな等級 PTF のモーメントである(誤差$\varepsilon$まで)。 二次的な結果として、ハーフスペースでうまく使われたテスト可能な学習(愚かさを伴わない)の直接的アプローチは、PTFでは働けないことが証明された。

Rubinfeld & Vasilyan recently introduced the framework of testable learning as an extension of the classical agnostic model. It relaxes distributional assumptions which are difficult to verify by conditions that can be checked efficiently by a tester. The tester has to accept whenever the data truly satisfies the original assumptions, and the learner has to succeed whenever the tester accepts. We focus on the setting where the tester has to accept standard Gaussian data. There, it is known that basic concept classes such as halfspaces can be learned testably with the same time complexity as in the (distribution-specific) agnostic model. In this work, we ask whether there is a price to pay for testably learning more complex concept classes. In particular, we consider polynomial threshold functions (PTFs), which naturally generalize halfspaces. We show that PTFs of arbitrary constant degree can be testably learned up to excess error $\varepsilon > 0$ in time $n^{\mathrm{poly}(1/\varepsilon)}$. This qualitatively matches the best known guarantees in the agnostic model. Our results build on a connection between testable learning and fooling. In particular, we show that distributions that approximately match at least $\mathrm{poly}(1/\varepsilon)$ moments of the standard Gaussian fool constant-degree PTFs (up to error $\varepsilon$). As a secondary result, we prove that a direct approach to show testable learning (without fooling), which was successfully used for halfspaces, cannot work for PTFs.
翻訳日:2024-06-11 14:37:02 公開日:2024-06-10
# EXPIL: ゲームにおける学習のための説明的述語発明

EXPIL: Explanatory Predicate Invention for Learning in Games ( http://arxiv.org/abs/2406.06107v1 )

ライセンス: Link先を確認
Jingyuan Sha, Hikaru Shindo, Quentin Delfosse, Kristian Kersting, Devendra Singh Dhami, (参考訳) 強化学習(Reinforcement Learning, RL)は、様々なゲームで優れたエージェントを訓練するための強力なツールであることが証明されている。 しかしながら、ニューラルネットワークモデルのブラックボックスの性質は、エージェントのアクションの背後にある推論を理解する能力を妨げていることが多い。 最近の研究は、事前訓練されたニューラルネットワークエージェントのガイダンスを使用してロジックベースのポリシーをエンコードし、解釈可能な決定を可能にすることでこの問題に対処しようとしている。 このようなアプローチの欠点は、多くの事前定義された背景知識を述語形式で要求することであり、適用性とスケーラビリティを制限している。 本研究では,ゲームにおける学習のための説明的述語発明(Explanatory Predicate Invention for Learning in Games,EXPIL)を提案する。 各種ゲームにおける実験により,論理エージェントにおける説明可能な動作を実現する上でのEXPILの有効性を実証し,背景知識の低減を図った。

Reinforcement learning (RL) has proven to be a powerful tool for training agents that excel in various games. However, the black-box nature of neural network models often hinders our ability to understand the reasoning behind the agent's actions. Recent research has attempted to address this issue by using the guidance of pretrained neural agents to encode logic-based policies, allowing for interpretable decisions. A drawback of such approaches is the requirement of large amounts of predefined background knowledge in the form of predicates, limiting its applicability and scalability. In this work, we propose a novel approach, Explanatory Predicate Invention for Learning in Games (EXPIL), that identifies and extracts predicates from a pretrained neural agent, later used in the logic-based agents, reducing the dependency on predefined background knowledge. Our experimental evaluation on various games demonstrate the effectiveness of EXPIL in achieving explainable behavior in logic agents while requiring less background knowledge.
翻訳日:2024-06-11 14:37:02 公開日:2024-06-10
# リカレントコンテキスト圧縮: LLMのコンテキストウィンドウを効率的に拡張する

Recurrent Context Compression: Efficiently Expanding the Context Window of LLM ( http://arxiv.org/abs/2406.06110v1 )

ライセンス: Link先を確認
Chensen Huang, Guibo Zhu, Xuepeng Wang, Yifei Luo, Guojing Ge, Haoran Chen, Dong Yi, Jinqiao Wang, (参考訳) Transformer-based large language model (LLMs) のコンテキスト長を拡張し、理解能力を向上させるために、計算資源とメモリ容量の制限に直面していることが多い。 この研究は、制約された記憶空間内のLLMのコンテキストウィンドウ長を効率的に拡張するために、Recurrent Context Compression (RCC) と呼ばれる手法を導入する。 また、下流タスクにおいて、命令と文脈の両方が圧縮された場合のモデル応答不良の問題についても検討し、この問題を緩和するための命令再構成手法を提案する。 我々は,複数のタスクに対するアプローチの有効性を検証し,BLEU4スコアが0.95に近いテキスト再構成タスクにおいて最大32倍の圧縮率を達成し,シーケンス長1Mのパスキー検索タスクにおいて100倍近い精度を達成した。 最後に,提案手法は,非圧縮手法と比較して長文問合せタスクにおける競合性能を示し,長文推論タスクにおける記憶資源の大幅な削減を図った。 私たちのコード、モデル、デモはhttps://github.com/WUHU-G/RCC_Transformerで公開されています。

To extend the context length of Transformer-based large language models (LLMs) and improve comprehension capabilities, we often face limitations due to computational resources and bounded memory storage capacity. This work introduces a method called Recurrent Context Compression (RCC), designed to efficiently expand the context window length of LLMs within constrained storage space. We also investigate the issue of poor model responses when both instructions and context are compressed in downstream tasks, and propose an instruction reconstruction method to mitigate this problem. We validated the effectiveness of our approach on multiple tasks, achieving a compression rate of up to 32x on text reconstruction tasks with a BLEU4 score close to 0.95, and nearly 100\% accuracy on a passkey retrieval task with a sequence length of 1M. Finally, our method demonstrated competitive performance in long-text question-answering tasks compared to non-compressed methods, while significantly saving storage resources in long-text inference tasks. Our code, models, and demo are available at https://github.com/WUHU-G/RCC_Transformer
翻訳日:2024-06-11 14:37:02 公開日:2024-06-10
# JenGAN:GAN音声合成におけるスタックシフトフィルタ

JenGAN: Stacked Shifted Filters in GAN-Based Speech Synthesis ( http://arxiv.org/abs/2406.06111v1 )

ライセンス: Link先を確認
Hyunjae Cho, Junhyeok Lee, Wonbin Jung, (参考訳) 非自己回帰的なGANベースのニューラルボコーダは、高速な推論速度と高い知覚品質のために広く使用されている。 しかし、彼らは生成した結果の中で音素人工物のような可聴人工物に悩まされることが多い。 そこで我々は,シフト-等価性を保証するため,シフトシフトローパスフィルタを積み重ねる新たなトレーニング戦略であるJenGANを提案する。 この方法は、推論時に使用されるモデル構造を保持しながら、アーティファクトのエイリアス化と削減を支援する。 実験評価において,JenGANはボコーダモデルの性能を一貫して向上させ,評価指標の多数で有意に優れたスコアを得た。

Non-autoregressive GAN-based neural vocoders are widely used due to their fast inference speed and high perceptual quality. However, they often suffer from audible artifacts such as tonal artifacts in their generated results. Therefore, we propose JenGAN, a new training strategy that involves stacking shifted low-pass filters to ensure the shift-equivariant property. This method helps prevent aliasing and reduce artifacts while preserving the model structure used during inference. In our experimental evaluation, JenGAN consistently enhances the performance of vocoder models, yielding significantly superior scores across the majority of evaluation metrics.
翻訳日:2024-06-11 14:37:02 公開日:2024-06-10
# 不完全多言語学習に関する調査研究 : 最近の進歩と今後の展望

A Survey on Incomplete Multi-label Learning: Recent Advances and Future Trends ( http://arxiv.org/abs/2406.06119v1 )

ライセンス: Link先を確認
Xiang Li, Jiexi Liu, Xinrui Wang, Songcan Chen, (参考訳) 実際、データは複数のラベルとの関連を示すことが多く、マルチラベル学習(MLL)が顕著な研究トピックとなっている。 過去20年にわたって、完全かつ正確な監視情報から欠かせないMLLの成功を目撃してきた。 しかし、そのような情報を実際に入手することは常に困難であり、時には不可能である。 このジレンマを回避するために、不完全多ラベル学習(InMLL)が出現し、不完全ラベル付きデータから学習することを目指している。 現在まで、InMLLの体系的なレビューは行われていないが、完全なMLLでパフォーマンスギャップを狭めるための膨大なInMLL作業が提案されている。 本稿では, 漆を埋めるだけでなく, 革新的な研究の道を切り拓こうとしている。 具体的には、InMLLの起源を振り返り、InMLLの課題を分析し、それぞれデータ指向とアルゴリズム指向の観点からInMLLの分類を作成する。 また,様々な領域におけるInMLLの実際の応用について述べる。 さらに,InMLLの分野における新たな研究方向の展開に新たな光を当てる可能性がある,InMLLの課題に対処する上で,実践とより整合した4つのオープンな問題と,未調査の3つのテクニックを取り上げる。

In reality, data often exhibit associations with multiple labels, making multi-label learning (MLL) become a prominent research topic. The last two decades have witnessed the success of MLL, which is indispensable from complete and accurate supervised information. However, obtaining such information in practice is always laborious and sometimes even impossible. To circumvent this dilemma, incomplete multi-label learning (InMLL) has emerged, aiming to learn from incomplete labeled data. To date, enormous InMLL works have been proposed to narrow the performance gap with complete MLL, whereas a systematic review for InMLL is still absent. In this paper, we not only attempt to fill the lacuna but also strive to pave the way for innovative research. Specifically, we retrospect the origin of InMLL, analyze the challenges of InMLL, and make a taxonomy of InMLL from the data-oriented and algorithm-oriented perspectives, respectively. Besides, we also present real applications of InMLL in various domains. More importantly, we highlight several potential future trends, including four open problems that are more in line with practice and three under-explored/unexplored techniques in addressing the challenges of InMLL, which may shed new light on developing novel research directions in the field of InMLL.
翻訳日:2024-06-11 14:37:02 公開日:2024-06-10
# 曲面背景上の2次元CFTにおけるホーキング・ページと絡み合い相転移

Hawking-Page and entanglement phase transition in 2d CFT on curved backgrounds ( http://arxiv.org/abs/2406.06121v1 )

ライセンス: Link先を確認
Akihiro Miyata, Masahiro Nozaki, Kotaro Tamaoka, Masataka Watanabe, (参考訳) 曲面背景上の2次元共形場理論(2$d CFTs)の熱力学と絡み合い特性について検討した。 共形写像を用いて、変形したハミルトニアンによって支配される平坦な空間上の同値系を研究し、これは包絡関数によって変調されるハミルトニアン密度の空間積分である。 ホログラフィックCFTに着目して,背景距離が変化するにつれて熱と絡み合いのエントロピーに対するホーキング・ページのような相転移を観察する。 また,曲面時空の部分間の情報理論的相関を研究するために,相互情報も計算する。 曲面背景上の2次元CFTの重力双対についても論じる。

The thermodynamics and the entanglement properties of two-dimensional conformal field theories ($2$d CFTs) on curved backgrounds are studied. By means of conformal mapping we study the equivalent system on flat space governed by the deformed Hamiltonian, which is a spatial integral of the Hamiltonian density modulated by an enveloping function. Focusing on holographic CFTs, we observe Hawking-Page like phase transition for the thermal and the entanglement entropy as we vary the background metric. We also compute the mutual information to study the information theoretic correlation between parts of the curved spacetime. The gravity dual of 2d CFTs on curved background is also discussed.
翻訳日:2024-06-11 14:27:16 公開日:2024-06-10
# W-Net:ディープニューラルネットワークを用いたワンショット任意スタイル漢字生成

W-Net: One-Shot Arbitrary-Style Chinese Character Generation with Deep Neural Networks ( http://arxiv.org/abs/2406.06122v1 )

ライセンス: Link先を確認
Haochuan Jiang, Guanyu Yang, Kaizhu Huang, Rui Zhang, (参考訳) 膨大なカテゴリ数、様々な筆跡や急進音の洗練された組み合わせ、自由な筆跡や活字などにより、多様な漢字を生成することは、常に難しい課題であると考えられている。 本稿では,ワンショット任意スタイルの漢字生成タスクに対して,W-Netという,効率的で一般化されたディープ・フレームワークを導入する。 具体的には、特定のスタイル(例えば、印刷フォントまたは手書きスタイル)の単一文字(ワンショット)が与えられた場合、提案したW-Netモデルは、与えられた単一文字に似たスタイルを共有する任意の文字を学習し、生成することができる。 このような魅力は文学ではほとんど見られなかった。 提案するW-Netフレームワークを,他の競合手法と比較した。 実験結果から, 提案手法は単発設定において有意に優れていることがわかった。

Due to the huge category number, the sophisticated combinations of various strokes and radicals, and the free writing or printing styles, generating Chinese characters with diverse styles is always considered as a difficult task. In this paper, an efficient and generalized deep framework, namely, the W-Net, is introduced for the one-shot arbitrary-style Chinese character generation task. Specifically, given a single character (one-shot) with a specific style (e.g., a printed font or hand-writing style), the proposed W-Net model is capable of learning and generating any arbitrary characters sharing the style similar to the given single character. Such appealing property was rarely seen in the literature. We have compared the proposed W-Net framework to many other competitive methods. Experimental results showed the proposed method is significantly superior in the one-shot setting.
翻訳日:2024-06-11 14:27:16 公開日:2024-06-10
# 階層的集約木を用いた検索拡張生成のための長期記憶の強化

Enhancing Long-Term Memory using Hierarchical Aggregate Tree for Retrieval Augmented Generation ( http://arxiv.org/abs/2406.06124v1 )

ライセンス: Link先を確認
Aadharsh Aadhithya A, Sachin Kumar S, Soman K. P, (参考訳) 大規模言語モデルはコンテキストキャパシティが限られており、長い会話に対する推論を妨げる。 条件付き木トラバーサルを通して,関係する対話コンテキストを再帰的に集約する階層的集約木メモリ構造を提案する。 HATは子どものノードから情報をカプセル化し、奥行き制御で広い範囲をカバーできる。 最適な木トラバーサルとして最適コンテキストを定式化する。 実験により,HATは,指数的パラメータ成長を伴わないマルチターン推論の手法の有効性を実証し,ベースラインコンテキストよりもダイアログのコヒーレンスと要約品質を改善した。 このメモリ拡張により、LLMからのより一貫性があり、接地されたロングフォームの会話が可能になる

Large language models have limited context capacity, hindering reasoning over long conversations. We propose the Hierarchical Aggregate Tree memory structure to recursively aggregate relevant dialogue context through conditional tree traversals. HAT encapsulates information from children nodes, enabling broad coverage with depth control. We formulate finding best context as optimal tree traversal. Experiments show HAT improves dialog coherence and summary quality over baseline contexts, demonstrating the techniques effectiveness for multi turn reasoning without exponential parameter growth. This memory augmentation enables more consistent, grounded longform conversations from LLMs
翻訳日:2024-06-11 14:27:16 公開日:2024-06-10
# サブステンスレベル微細粒状サイテーションによる検証可能生成

Verifiable Generation with Subsentence-Level Fine-Grained Citations ( http://arxiv.org/abs/2406.06125v1 )

ライセンス: Link先を確認
Shuyang Cao, Lu Wang, (参考訳) 検証可能な生成には、出力をサポートするソースドキュメントを引用するために大きな言語モデル(LLM)が必要であるため、出力の透明性と信頼性が向上する。 しかし、従来の研究は主に文レベルの引用の生成を目標としており、引用された資料によって文のどの部分が裏付けられているかの特異性が欠如している。 本研究は, サブ文レベルのきめ細かな引用による生成を検証し, 引用元が支持する生成コンテンツのより正確な位置を推定する。 まず、サブ文レベルの引用を含む10万のWikipedia節からなるデータセットSCiFiを提示する。 各段落は、引用のための候補ソース文書のセットと、段落内容の生成をトリガーするクエリとがペアリングされる。 SCiFi 上では、最先端の LLM の性能と、これらのモデル用に設計された長い文書を処理するための戦略を評価する。 実験結果から,モデルにアクセスできるソース文書のコンテキストの拡張や,特殊なモデルチューニングの実装など,引用の質を高める重要な要因が明らかになった。

Verifiable generation requires large language models (LLMs) to cite source documents supporting their outputs, thereby improve output transparency and trustworthiness. Yet, previous work mainly targets the generation of sentence-level citations, lacking specificity about which parts of a sentence are backed by the cited sources. This work studies verifiable generation with subsentence-level fine-grained citations for more precise location of generated content supported by the cited sources. We first present a dataset, SCiFi, comprising 10K Wikipedia paragraphs with subsentence-level citations. Each paragraph is paired with a set of candidate source documents for citation and a query that triggers the generation of the paragraph content. On SCiFi, we evaluate the performance of state-of-the-art LLMs and strategies for processing long documents designed for these models. Our experiment results reveals key factors that could enhance the quality of citations, including the expansion of the source documents' context accessible to the models and the implementation of specialized model tuning.
翻訳日:2024-06-11 14:27:16 公開日:2024-06-10
# タスク指向対話システムにおけるデータ拡張手法の比較

Comparing Data Augmentation Methods for End-to-End Task-Oriented Dialog Systems ( http://arxiv.org/abs/2406.06127v1 )

ライセンス: Link先を確認
Christos Vlachos, Themos Stafylakis, Ion Androutsopoulos, (参考訳) 効果的で信頼性の高いタスク指向対話システム(ToDS)の作成は、これらのシステムの複雑な構造のためだけでなく、トレーニングデータの不足、特に複数のモジュールを個別にトレーニングする必要がある場合、それぞれに独自のインプット/アウトプットトレーニング例があるため、困難である。 データ強化(DA)は、トレーニングデータに合成トレーニングサンプルを追加することで、他のNLPシステムで成功しているが、ToDSでは広く研究されていない。 エンド・ツー・エンドのToDS設定におけるDA手法の有効性を実証的に評価し,ユーザ入力からシステム出力まで,単一のシステムが全ての処理段階を処理するように訓練する。 2つのデータセット(MultiWOZ, KVRET)で2つのToDS(UBAR, GALAXY)を実験した。 本研究では,3種類のDA手法(単語レベル,文レベル,ダイアログレベル)を,ToDSや他のNLPシステムにおいて有望な結果を示す8つのDA手法と比較する。 考慮されたすべてのDAメソッドが有用であることを示し、ベストプラクティスを強調し、実践者にアドバイスを提供する。 また、より挑戦的なクロスドメインのToDS設定を導入し、同様の結論に達しました。

Creating effective and reliable task-oriented dialog systems (ToDSs) is challenging, not only because of the complex structure of these systems, but also due to the scarcity of training data, especially when several modules need to be trained separately, each one with its own input/output training examples. Data augmentation (DA), whereby synthetic training examples are added to the training data, has been successful in other NLP systems, but has not been explored as extensively in ToDSs. We empirically evaluate the effectiveness of DA methods in an end-to-end ToDS setting, where a single system is trained to handle all processing stages, from user inputs to system outputs. We experiment with two ToDSs (UBAR, GALAXY) on two datasets (MultiWOZ, KVRET). We consider three types of DA methods (word-level, sentence-level, dialog-level), comparing eight DA methods that have shown promising results in ToDSs and other NLP systems. We show that all DA methods considered are beneficial, and we highlight the best ones, also providing advice to practitioners. We also introduce a more challenging few-shot cross-domain ToDS setting, reaching similar conclusions.
翻訳日:2024-06-11 14:27:16 公開日:2024-06-10
# ビルディングブリッジ: ジェンダーとフェアの機械翻訳をドイツ語で評価するためのデータセット

Building Bridges: A Dataset for Evaluating Gender-Fair Machine Translation into German ( http://arxiv.org/abs/2406.06131v1 )

ライセンス: Link先を確認
Manuel Lardelli, Giuseppe Attanasio, Anne Lauscher, (参考訳) ジェンダーニュートラルな人物参照用語(例えば、学生)の翻訳は、しばしば非自明である。 英語からドイツ語への翻訳は興味深い事例であり、ドイツ語では、人を参照する名詞は通常性特化されており、参照者の性別が未知または多様である場合、一般的な男性(ディー・スチューデン(英語版)(m.))が一般的に用いられる。 しかし、この解決策は、女性や非バイナリーの人々のような他の性別の可視性を低下させる。 性別差別に対抗するために、ジェンダーフェア言語を用いた社会運動が存在する(例えば、新システムを採用することにより)。 しかし、現在ジェンダーフェアドイツ語は機械翻訳(MT)ではほとんどサポートされておらず、後編集や手動翻訳を必要とする。 具体的には、コミュニティが作成したジェンダーフェア言語辞書と、百科事典のテキストと議会のスピーチから多文テストのサンプルを濃縮する。 これらの新しい資源を用いて、2つの商用システムと6つのニューラルMTモデルを用いて、単語を独立に翻訳し、2つのドメインにまたがる自然な文脈で翻訳する最初のベンチマーク研究を行う。 以上の結果から,ほとんどのシステムでは男性型が中心であり,性別ニュートラルな変化は稀であり,今後の研究の必要性が浮かび上がっている。 コードとデータはhttps://github.com/g8a9/build-bridges-gender-fair-german-mtで公開しています。

The translation of gender-neutral person-referring terms (e.g., the students) is often non-trivial. Translating from English into German poses an interesting case -- in German, person-referring nouns are usually gender-specific, and if the gender of the referent(s) is unknown or diverse, the generic masculine (die Studenten (m.)) is commonly used. This solution, however, reduces the visibility of other genders, such as women and non-binary people. To counteract gender discrimination, a societal movement towards using gender-fair language exists (e.g., by adopting neosystems). However, gender-fair German is currently barely supported in machine translation (MT), requiring post-editing or manual translations. We address this research gap by studying gender-fair language in English-to-German MT. Concretely, we enrich a community-created gender-fair language dictionary and sample multi-sentence test instances from encyclopedic text and parliamentary speeches. Using these novel resources, we conduct the first benchmark study involving two commercial systems and six neural MT models for translating words in isolation and natural contexts across two domains. Our findings show that most systems produce mainly masculine forms and rarely gender-neutral variants, highlighting the need for future research. We release code and data at https://github.com/g8a9/building-bridges-gender-fair-german-mt.
翻訳日:2024-06-11 14:27:16 公開日:2024-06-10
# ExtraNeRF:拡散モデルを用いたニューラルラジアンス場の可視視点外挿

ExtraNeRF: Visibility-Aware View Extrapolation of Neural Radiance Fields with Diffusion Models ( http://arxiv.org/abs/2406.06133v1 )

ライセンス: Link先を確認
Meng-Li Shih, Wei-Chiu Ma, Aleksander Holynski, Forrester Cole, Brian L. Curless, Janne Kontkanen, (参考訳) ニューラル・レージアンス・フィールド(NeRF)によって処理されるビューの範囲を推定する新しい手法であるExtraNeRFを提案する。 主な考え方は、NeRFをシーン固有の細部までモデル化し、拡散モデルを利用して観測データを超えて外挿することです。 重要な要素は、シーンのどの部分が観察されていないかを特定するために可視性を追跡することであり、拡散モデルでこれらの領域を一貫して再構築することに集中することである。 我々の主な貢献は、入力画像に基づいて微調整された可視的拡散に基づく塗布モジュールで、中等質(しばしばぼやけた)塗布された領域の初期NeRFを生成し、次いで入力画像に基づいて訓練された第2拡散モデルを用いて、第1パスからの塗布された画像の連続的強化、特に鋭くする。 我々は、少数の(典型的には6以下の)入力ビューを外挿し、NeRFを効果的に上回り、また、元の視聴ボリューム内で新たに排除された領域を塗布する、高品質な結果を示す。 我々は,関連研究を定量的かつ質的に比較し,先行技術よりも顕著に向上したことを示す。

We propose ExtraNeRF, a novel method for extrapolating the range of views handled by a Neural Radiance Field (NeRF). Our main idea is to leverage NeRFs to model scene-specific, fine-grained details, while capitalizing on diffusion models to extrapolate beyond our observed data. A key ingredient is to track visibility to determine what portions of the scene have not been observed, and focus on reconstructing those regions consistently with diffusion models. Our primary contributions include a visibility-aware diffusion-based inpainting module that is fine-tuned on the input imagery, yielding an initial NeRF with moderate quality (often blurry) inpainted regions, followed by a second diffusion model trained on the input imagery to consistently enhance, notably sharpen, the inpainted imagery from the first pass. We demonstrate high-quality results, extrapolating beyond a small number of (typically six or fewer) input views, effectively outpainting the NeRF as well as inpainting newly disoccluded regions inside the original viewing volume. We compare with related work both quantitatively and qualitatively and show significant gains over prior art.
翻訳日:2024-06-11 14:27:16 公開日:2024-06-10
# ディフインジェクション:拡散型スタイルインジェクションを用いた合成データ生成によるデビアの再考

DiffInject: Revisiting Debias via Synthetic Data Generation using Diffusion-based Style Injection ( http://arxiv.org/abs/2406.06134v1 )

ライセンス: Link先を確認
Donggeun Ko, Sangwoo Jo, Dongjun Lee, Namjun Park, Jaekwang Kim, (参考訳) データセットバイアスは機械学習において重要な課題であり、画像のテクスチャや色などの特定の属性が意図せずに学習され、有害なパフォーマンスをもたらす。 これを解決するために、従来の取り組みでは、新しいデバイアスアルゴリズムを開発するか、あるいは一般的なデータセットバイアスを軽減するために合成データを生成することによってモデルをデバイアス化することに重点を置いてきた。 しかし、これまでの生成的アプローチは、データセットからのバイアス特異的なサンプルの使用に大きく依存しており、通常は不足している。 そこで本研究では, 事前学習拡散モデルを用いて, 合成バイアス競合サンプルを増大させる, 単純かつ強力な手法であるDiffInjectを提案する。 このアプローチは、遅延空間を操作することにより、デバイアス目的の拡散モデルの使用を大幅に促進する。 私たちのフレームワークでは、バイアスタイプやラベル付けに関する明確な知識は必要ありません。 提案手法は,データセットのバイアスを効果的に低減できることを示す。

Dataset bias is a significant challenge in machine learning, where specific attributes, such as texture or color of the images are unintentionally learned resulting in detrimental performance. To address this, previous efforts have focused on debiasing models either by developing novel debiasing algorithms or by generating synthetic data to mitigate the prevalent dataset biases. However, generative approaches to date have largely relied on using bias-specific samples from the dataset, which are typically too scarce. In this work, we propose, DiffInject, a straightforward yet powerful method to augment synthetic bias-conflict samples using a pretrained diffusion model. This approach significantly advances the use of diffusion models for debiasing purposes by manipulating the latent space. Our framework does not require any explicit knowledge of the bias types or labelling, making it a fully unsupervised setting for debiasing. Our methodology demonstrates substantial result in effectively reducing dataset bias.
翻訳日:2024-06-11 14:27:16 公開日:2024-06-10
# テクスチャ解析における特徴抽出のための視覚変換器の比較検討

A Comparative Survey of Vision Transformers for Feature Extraction in Texture Analysis ( http://arxiv.org/abs/2406.06136v1 )

ライセンス: Link先を確認
Leonardo Scabini, Andre Sacilotti, Kallil M. Zielinski, Lucas C. Ribas, Bernard De Baets, Odemir M. Bruno, (参考訳) 画像における重要な視覚的属性であるテクスチャは、様々な画像認識アプリケーションで広く研究されている。 多くのコンピュータビジョンタスクで成功した畳み込みニューラルネットワーク(CNN)は現在、最高のテクスチャ分析アプローチの1つである。 一方、視覚変換器(ViT)は、オブジェクト認識などのタスクにおけるCNNの性能を上回り、この分野におけるパラダイムシフトを引き起こしている。 しかし、ViTはテクスチャ認識のために精査されていないため、この特定の環境におけるその可能性の適切な評価を妨げている。 このため、この研究は、テクスチャに依存するタスクに移行する際に、事前訓練された様々なViTアーキテクチャを探索する。 テクスチャ回転, スケール, 照明の変化に対するロバスト性の評価, カラーテクスチャ, 素材テクスチャ, テクスチャ特性の識別など, CNN やハンドエンジニアリングモデルとの比較を行った。 本研究の目的は,これらのモデルがテクスチャ認識に直接適用されている場合,主に特徴抽出や線形分類器による評価において,その可能性と相違について理解することである。 また,他の手法とは対照的な主な欠点の一つである効率性も評価する。 以上の結果から,Wits は CNN とハンドエンジニアリングモデルの両方より優れており,特により強力な事前トレーニングや,Wild のテクスチャ(インターネットからのイメージ)に関わるタスクでは特に優れています。 ViT-B with DINO pre-training、BeiTv2、Swinアーキテクチャ、そして低コストの代替手段としてのEfficientFormer。 効率面では、GFLOPとパラメータの数が多いにもかかわらず、ViT-BとBeiT(v2)はResNet50と比較してGPU上の特徴抽出時間を短縮することができる。

Texture, a significant visual attribute in images, has been extensively investigated across various image recognition applications. Convolutional Neural Networks (CNNs), which have been successful in many computer vision tasks, are currently among the best texture analysis approaches. On the other hand, Vision Transformers (ViTs) have been surpassing the performance of CNNs on tasks such as object recognition, causing a paradigm shift in the field. However, ViTs have so far not been scrutinized for texture recognition, hindering a proper appreciation of their potential in this specific setting. For this reason, this work explores various pre-trained ViT architectures when transferred to tasks that rely on textures. We review 21 different ViT variants and perform an extensive evaluation and comparison with CNNs and hand-engineered models on several tasks, such as assessing robustness to changes in texture rotation, scale, and illumination, and distinguishing color textures, material textures, and texture attributes. The goal is to understand the potential and differences among these models when directly applied to texture recognition, using pre-trained ViTs primarily for feature extraction and employing linear classifiers for evaluation. We also evaluate their efficiency, which is one of the main drawbacks in contrast to other methods. Our results show that ViTs generally outperform both CNNs and hand-engineered models, especially when using stronger pre-training and tasks involving in-the-wild textures (images from the internet). We highlight the following promising models: ViT-B with DINO pre-training, BeiTv2, and the Swin architecture, as well as the EfficientFormer as a low-cost alternative. In terms of efficiency, although having a higher number of GFLOPs and parameters, ViT-B and BeiT(v2) can achieve a lower feature extraction time on GPUs compared to ResNet50.
翻訳日:2024-06-11 14:27:16 公開日:2024-06-10
# サンダー : ブラウン橋を用いた1段逆ステップによる一様回帰拡散音声強調

Thunder : Unified Regression-Diffusion Speech Enhancement with a Single Reverse Step using Brownian Bridge ( http://arxiv.org/abs/2406.06139v1 )

ライセンス: Link先を確認
Thanapat Trachu, Chawan Piansaddhayanon, Ekapol Chuangsuwanich, (参考訳) 拡散に基づく音声強調は有望な結果を示したが、推論時間が遅くなる可能性がある。 回帰モデルにより生成された拡張オーディオを用いて拡散過程を初期化することにより、計算ステップを削減することができる。 しかしながら、これらのアプローチはレグレッションモデルを必要とすることが多く、システムの複雑さをさらに高める。 両モードでモデルを動作させることができるブラウン橋プロセスを利用する統一回帰拡散モデルThunderを提案する。 拡散時間ステップを1に設定することで回帰モードにアクセスできる。 しかし、勾配不安定のため、標準的なスコアベース拡散モデリングは、この設定ではうまく機能しない。 この問題を軽減するため、スコア関数の代わりにクリーン音声を予測するために拡散モデルを変更し、よりコンパクトなモデルサイズと少ない逆ステップで競合性能を達成する。

Diffusion-based speech enhancement has shown promising results, but can suffer from a slower inference time. Initializing the diffusion process with the enhanced audio generated by a regression-based model can be used to reduce the computational steps required. However, these approaches often necessitate a regression model, further increasing the system's complexity. We propose Thunder, a unified regression-diffusion model that utilizes the Brownian bridge process which can allow the model to act in both modes. The regression mode can be accessed by setting the diffusion time step closed to 1. However, the standard score-based diffusion modeling does not perform well in this setup due to gradient instability. To mitigate this problem, we modify the diffusion model to predict the clean speech instead of the score function, achieving competitive performance with a more compact model size and fewer reverse steps.
翻訳日:2024-06-11 14:27:16 公開日:2024-06-10
# 何を作るか理解できますか? 大規模言語モデルの自己知識評価

Can I understand what I create? Self-Knowledge Evaluation of Large Language Models ( http://arxiv.org/abs/2406.06140v1 )

ライセンス: Link先を確認
Zhiquan Tan, Lai Wei, Jindong Wang, Xing Xie, Weiran Huang, (参考訳) 言語モデル(LLM)は言語タスクにおいて顕著な進歩を遂げており、その能力と限界を理解するために堅牢な評価フレームワークを必要としている。 Feynman氏の創造を通しての理解の原則に触発されて、実装が容易な自己知識評価フレームワークを導入し、自己生成された質問を理解し、応答する能力に関するモデルを評価します。 その結果,多種多様なタスクにまたがって複数のモデルをテストすることで,モデルの自己認識能力に大きなギャップがあることが判明した。 さらなる分析は、これらのギャップが人間の注意機構との相違による可能性があることを示唆している。 さらに、自己生成型数学タスクの微調整により、モデルの性能が向上し、効率的で洞察に富んだモデル評価のためのフレームワークの可能性を強調し、LLMの改善にも寄与する可能性がある。

Large language models (LLMs) have achieved remarkable progress in linguistic tasks, necessitating robust evaluation frameworks to understand their capabilities and limitations. Inspired by Feynman's principle of understanding through creation, we introduce a self-knowledge evaluation framework that is easy to implement, evaluating models on their ability to comprehend and respond to self-generated questions. Our findings, based on testing multiple models across diverse tasks, reveal significant gaps in the model's self-knowledge ability. Further analysis indicates these gaps may be due to misalignment with human attention mechanisms. Additionally, fine-tuning on self-generated math task may enhance the model's math performance, highlighting the potential of the framework for efficient and insightful model evaluation and may also contribute to the improvement of LLMs.
翻訳日:2024-06-11 14:27:16 公開日:2024-06-10
# 言語モデルのアライメント

Language Models Resist Alignment ( http://arxiv.org/abs/2406.06144v1 )

ライセンス: Link先を確認
Jiaming Ji, Kaile Wang, Tianyi Qiu, Boyuan Chen, Jiayi Zhou, Changye Li, Hantao Lou, Yaodong Yang, (参考訳) 大きな言語モデル(LLM)は望ましくない振る舞いを示す。 近年の取り組みは、有害な発生を防ぐためにこれらのモデルを調整することに重点を置いている。 これらの努力にもかかわらず、よく導かれたアライメントプロセスでさえ、意図的であろうと誤っても容易に回避できることが研究によって示されている。 アライメント微調整はモデルに堅牢な影響をもたらすのか、それとも単に表面的なものなのか? 本研究では, 理論的および経験的両手段を用いて, この疑問に答える。 実験により, 後配向モデルの弾力性, すなわち, 更なる微調整を行う前に, 事前学習時に生じる挙動分布に逆戻りする傾向を示す。 圧縮理論を用いて、そのような微調整過程が事前学習と比較して、おそらくは桁違いの順序でアライメントを損なうことを正式に導いた。 様々な種類や大きさのモデルにまたがって弾性が存在することを確認するための実験的な検証を行う。 具体的には, モデル性能はトレーニング前の分布に戻る前に急速に低下し, その後の低下率は著しく低下することがわかった。 さらに, モデルサイズの増加と事前学習データの拡張と, 弾性が正の相関関係があることを明らかにした。 我々の発見は, LLMの固有弾性性を活用することの重要性を示唆し, LLMのアライメント微調整に対する耐性を克服するものである。

Large language models (LLMs) may exhibit undesirable behaviors. Recent efforts have focused on aligning these models to prevent harmful generation. Despite these efforts, studies have shown that even a well-conducted alignment process can be easily circumvented, whether intentionally or accidentally. Do alignment fine-tuning have robust effects on models, or are merely superficial? In this work, we answer this question through both theoretical and empirical means. Empirically, we demonstrate the elasticity of post-alignment models, i.e., the tendency to revert to the behavior distribution formed during the pre-training phase upon further fine-tuning. Using compression theory, we formally derive that such fine-tuning process \textit{disproportionately} undermines alignment compared to pre-training, potentially by orders of magnitude. We conduct experimental validations to confirm the presence of elasticity across models of varying types and sizes. Specifically, we find that model performance declines rapidly before reverting to the pre-training distribution, after which the rate of decline drops significantly. We further reveal that elasticity positively correlates with increased model size and the expansion of pre-training data. Our discovery signifies the importance of taming the inherent elasticity of LLMs, thereby overcoming the resistance of LLMs to alignment finetuning.
翻訳日:2024-06-11 14:27:16 公開日:2024-06-10
# ニューラル正規微分方程式を用いたデカップリングマーク付き時間点過程

Decoupled Marked Temporal Point Process using Neural Ordinary Differential Equations ( http://arxiv.org/abs/2406.06149v1 )

ライセンス: Link先を確認
Yujee Song, Donghyun Lee, Rui Meng, Won Hwa Kim, (参考訳) MTPP (Marked Temporal Point Process) は、事象時データの集合である確率過程である。 MTPPは、金銭取引、ソーシャルメディア、医療などのような非同期の時間イベントの複雑なダイナミクスを理解するためによく使われます。 近年の研究では、ディープニューラルネットワークを使用して、イベントの複雑な時間的依存関係をキャプチャし、観測されたイベントを適切に表現する埋め込みを生成する。 これまでのほとんどの研究では、イベント間の依存関係とその表現に焦点が当てられていたが、個々のイベントが時間の経過とともに全体的なダイナミクスにどのように影響するかは調査されていない。 本稿では,確率過程の特性を異なる事象からの進化的影響の集合に分解する脱結合型MTPPフレームワークを提案する。 提案手法はニューラル正規微分方程式(Neural Ordinary Differential Equations,Neural ODEs)を用いて,これらの影響のフレキシブルな連続力学を学習し,密度推定や生存率計算といった複数の推論問題に同時に対処する。 我々は,本フレームワークを実生活データセット上での最先端の手法と比較することにより,影響を解消することの重要性を強調し,潜在的なアプリケーションに対するモデル行動の分析を行う。

A Marked Temporal Point Process (MTPP) is a stochastic process whose realization is a set of event-time data. MTPP is often used to understand complex dynamics of asynchronous temporal events such as money transaction, social media, healthcare, etc. Recent studies have utilized deep neural networks to capture complex temporal dependencies of events and generate embedding that aptly represent the observed events. While most previous studies focus on the inter-event dependencies and their representations, how individual events influence the overall dynamics over time has been under-explored. In this regime, we propose a Decoupled MTPP framework that disentangles characterization of a stochastic process into a set of evolving influences from different events. Our approach employs Neural Ordinary Differential Equations (Neural ODEs) to learn flexible continuous dynamics of these influences while simultaneously addressing multiple inference problems, such as density estimation and survival rate computation. We emphasize the significance of disentangling the influences by comparing our framework with state-of-the-art methods on real-life datasets, and provide analysis on the model behavior for potential applications.
翻訳日:2024-06-11 14:27:16 公開日:2024-06-10
# 変分量子回路の物理インフォームドベイズ最適化

Physics-Informed Bayesian Optimization of Variational Quantum Circuits ( http://arxiv.org/abs/2406.06150v1 )

ライセンス: Link先を確認
Kim A. Nicoli, Christopher J. Anders, Lena Funcke, Tobias Hartung, Karl Jansen, Stefan Kühn, Klaus-Robert Müller, Paolo Stornati, Pan Kessel, Shinichi Nakajima, (参考訳) 本稿では,量子ハミルトニアン基底状態を近似するハイブリッド量子古典的プロトコルである変分量子固有解法(VQEs)のベイズ最適化手法を提案する。 具体的には、量子回路に関する重要な事前情報を含むVQEカーネルを導出する: VQEカーネルのカーネル特徴写像は、VQEの目的関数の既知の機能形式と正確に一致するので、後続の不確実性を著しく低減する。 さらに,VQEカーネルの帰納バイアスを間接的に‘オブザーブド’として扱うことで,VQEカーネルの帰納バイアスを積極的に活用するベイズ最適化のための新たな獲得関数であるEMICoReを提案する。 その結果、探索領域内の3点までの観測は、最適化ランドスケープの1次元部分空間全体に沿った完全な目的関数を決定するのに十分である。 我々の数値実験は、我々の手法が最先端のベースラインよりも改善されていることを示す。

In this paper, we propose a novel and powerful method to harness Bayesian optimization for Variational Quantum Eigensolvers (VQEs) -- a hybrid quantum-classical protocol used to approximate the ground state of a quantum Hamiltonian. Specifically, we derive a VQE-kernel which incorporates important prior information about quantum circuits: the kernel feature map of the VQE-kernel exactly matches the known functional form of the VQE's objective function and thereby significantly reduces the posterior uncertainty. Moreover, we propose a novel acquisition function for Bayesian optimization called Expected Maximum Improvement over Confident Regions (EMICoRe) which can actively exploit the inductive bias of the VQE-kernel by treating regions with low predictive uncertainty as indirectly ``observed''. As a result, observations at as few as three points in the search domain are sufficient to determine the complete objective function along an entire one-dimensional subspace of the optimization landscape. Our numerical experiments demonstrate that our approach improves over state-of-the-art baselines.
翻訳日:2024-06-11 14:27:16 公開日:2024-06-10
# ディプレクシックな学生のための暗号入門

Gameful Introduction to Cryptography for Dyslexic Students ( http://arxiv.org/abs/2406.06153v1 )

ライセンス: Link先を確認
Argianto Rahartomo, Harpreet Kaur, Mohammad Ghafari, (参考訳) 暗号はデジタル世界を確保する上で重要な役割を担っている。 それでも、学ぶことは難しいトピックです。 本稿では,その複雑な性質にもかかわらず,読解能力に影響を及ぼす学習障害であるDyslexia$-$aが,暗号の理解を妨げないことを示す。 特に,14人の高校生を対象にゲームフルワークショップを実施し,基本暗号法を指導した。 生徒たちはよく働き、テクニックを学び、訓練を楽しんだ。 我々は、適切なアプローチで、ディプレクシアは暗号などの複雑な主題を学習するのを妨げることができないと結論づける。

Cryptography has a pivotal role in securing our digital world. Nonetheless, it is a challenging topic to learn. In this paper, we show that despite its complex nature, dyslexia$-$a learning disorder that influences reading and writing skills$-$does not hinder one's ability to comprehend cryptography. In particular, we conducted a gameful workshop with 14 high-school dyslexic students and taught them fundamental encryption methods. The students engaged well, learned the techniques, and enjoyed the training. We conclude that with a proper approach, dyslexia cannot hinder learning a complex subject such as cryptography.
翻訳日:2024-06-11 14:27:16 公開日:2024-06-10
# PwDの移動支援のためのリアルタイム分散フィードバックシステムの実現に向けて

Towards a real-time distributed feedback system for the transportation assistance of PwD ( http://arxiv.org/abs/2406.06154v1 )

ライセンス: Link先を確認
Iosif Polenakis, Vasileios Vouronikos, Maria Chroni, Stavros D. Nikolopoulos, (参考訳) 本研究は,IT 技術を活用した都市道路網内における障害者輸送の強化を目的とした統合型分散システムの設計原理を提案する。 本稿では,リアルタイム統合フィードバックシステムに組み込む分散センサネットワークの活用に基づくシステム基盤を提案する。 提案アーキテクチャの主な構成要素は, アクセス不能シティポイントシステム, ライブデータ分析・応答システム, 障害物検出・防止システムである。 これらのサブシステムの導入は、目的地に定義された経路を横断するブロックされたランプについてリアルタイムに通知する移動障害のある個人の移動を支援するリアルタイムフィードバックを提供するとともに、センサーが到達不能な地点を検出する場所におけるアクセシビリティの衝突に関するインシデントに関する当局の情報にも責任を負う。 提案した設計により、モビリティ問題を抱える個人の支援に関するさらなる拡張が可能となり、さらなる実装と改善の基盤となる。 本研究は,提案するアーキテクチャのコンポーネントの相互接続に関する基本的な部分と,提案するアーキテクチャとその都市域での応用に関する潜在的な展開について提供する。

In this work we propose the design principles of an integrated distributed system for the augment of the transportation for people with disabilities inside the road network of a city area utilizing the IT technologies. We propose the basis of our system upon the utilization of a distributed sensor network that will be incorporated by a real-time integrated feedback system. The main components of the proposed architecture include the Inaccessible City Point System, the Live Data Analysis and Response System, and the Obstruction Detection and Prevention System. The incorporation of these subsystems will provide real-time feedback assisting the transportation of individuals with mobility problems informing them on real-time about blocked ramps across the path defined to their destination, being also responsible for the information of the authorities about incidents regarding the collision of accessibility in place where the sensors detect an inaccessible point. The proposed design allows the addition of further extensions regarding the assistance of individuals with mobility problems providing a basis for its further implementation and improvement. In this work we provide the fundamental parts regarding the interconnection of the proposed architecture's components as also its potential deployment regarding the proposed architecture and its application in the area of a city.
翻訳日:2024-06-11 14:17:29 公開日:2024-06-10
# LLMによるより強く、より速く、より安易なログ解析

Stronger, Faster, and Cheaper Log Parsing with LLMs ( http://arxiv.org/abs/2406.06156v1 )

ライセンス: Link先を確認
Yi Xiao, Van-Hoang Le, Hongyu Zhang, (参考訳) ログ解析は、生ログメッセージを構造化フォーマットに変換するプロセスであり、大規模ソフトウェアシステムのログを自動的に解析するための重要な初期ステップである。 伝統的なログパーサーは、しばしばヒューリスティックや手作りの機能に依存しており、多様なログソースをうまく一般化したり、広範囲なモデルチューニングを必要としたりしない。 近年,一部のログパーザは,大規模言語モデル(LLM)の強力な生成機能を活用している。 しかし、それらはデモの例に大きく依存しており、LCMの呼び出しにかなりのオーバーヘッドをもたらした。 これらの問題に対処するために、トレーニングプロセスやラベル付きデータを必要としないコスト効率のよいLCMベースのログパーサであるLogBatcherを提案する。 ログデータの潜時特性を活用し、オーバーヘッドを低減するために、ログをクラスタリングを通じて複数のパーティションに分割する。 次に、以前解析したログテンプレートとログを一致させるキャッシュマッチングプロセスを実行する。 最後に、各パーティションからログのグループをバッチ化することで、ログ解析に特化したプロンプトコンテキストをLLMに提供します。 我々は16の公開ログデータセットの実験を行い、ログ解析にはLogBatcherが効果的で効率的であることを示した。

Log parsing, the process of converting raw log messages into structured formats, is an important initial step for automated analysis of logs of large-scale software systems. Traditional log parsers often rely on heuristics or handcrafted features, which may not generalize well across diverse log sources or require extensive model tuning. Recently, some log parsers have utilized powerful generative capabilities of large language models (LLMs). However, they heavily rely on demonstration examples, resulting in substantial overhead in LLM invocations. To address these issues, we propose LogBatcher, a cost-effective LLM-based log parser that requires no training process or labeled data. To leverage latent characteristics of log data and reduce the overhead, we divide logs into several partitions through clustering. Then we perform a cache matching process to match logs with previously parsed log templates. Finally, we provide LLMs with better prompt context specialized for log parsing by batching a group of logs from each partition. We have conducted experiments on 16 public log datasets and the results show that LogBatcher is effective and efficient for log parsing.
翻訳日:2024-06-11 14:17:29 公開日:2024-06-10
# 正確な解法は、不均衡な初期化が迅速な特徴学習をいかに促すか

Get rich quick: exact solutions reveal how unbalanced initializations promote rapid feature learning ( http://arxiv.org/abs/2406.06158v1 )

ライセンス: Link先を確認
Daniel Kunin, Allan Raventós, Clémentine Dominé, Feng Chen, David Klindt, Andrew Saxe, Surya Ganguli, (参考訳) 現代のニューラルネットワークの印象的な性能は、データからタスク関連の特徴を効率的に抽出する能力に起因することが多いが、このリッチな特徴学習体制の基礎となるメカニズムはいまだ解明されていない。 本研究では,遅延学習とリッチラーニングの間で遷移する最小限のモデルに対して,階層固有の初期化のばらつきと学習速度がいかに特徴学習の度合いを決定するかを正確に解明する。 分析の結果,パラメータや関数空間における学習軌跡の幾何を制約・修正する保存量の集合を通じて,学習体制に影響を及ぼすことが示唆された。 我々は解析を、複数のニューロン、出力層、層を持つより複雑な線形モデルに拡張し、断片的な線形活性化関数を持つ浅い非線形ネットワークに拡張する。 線形ネットワークでは、高速な特徴学習は全ての層が同じ速度で学習するバランスの取れた初期化でのみ発生する。 非線形ネットワークでは、初期の層での学習を高速化するアンバランスな初期化は、リッチラーニングを加速させる。 一連の実験を通じて、この不均衡なリッチレジームが、深い有限幅ネットワークにおける特徴学習を駆動し、CNNの初期層の解釈可能性を促進し、階層データの学習の複雑さを減らし、モジュラー算術の時間を短縮することを示す。 我々の理論は、効率的な特徴学習を強化するために、不均衡な初期化のさらなる探索を動機付けている。

While the impressive performance of modern neural networks is often attributed to their capacity to efficiently extract task-relevant features from data, the mechanisms underlying this rich feature learning regime remain elusive, with much of our theoretical understanding stemming from the opposing lazy regime. In this work, we derive exact solutions to a minimal model that transitions between lazy and rich learning, precisely elucidating how unbalanced layer-specific initialization variances and learning rates determine the degree of feature learning. Our analysis reveals that they conspire to influence the learning regime through a set of conserved quantities that constrain and modify the geometry of learning trajectories in parameter and function space. We extend our analysis to more complex linear models with multiple neurons, outputs, and layers and to shallow nonlinear networks with piecewise linear activation functions. In linear networks, rapid feature learning only occurs with balanced initializations, where all layers learn at similar speeds. While in nonlinear networks, unbalanced initializations that promote faster learning in earlier layers can accelerate rich learning. Through a series of experiments, we provide evidence that this unbalanced rich regime drives feature learning in deep finite-width networks, promotes interpretability of early layers in CNNs, reduces the sample complexity of learning hierarchical data, and decreases the time to grokking in modular arithmetic. Our theory motivates further exploration of unbalanced initializations to enhance efficient feature learning.
翻訳日:2024-06-11 14:17:29 公開日:2024-06-10
# 物質波による長距離量子トンネル

Long-Range Quantum Tunneling via Matter Wave ( http://arxiv.org/abs/2406.06162v1 )

ライセンス: Link先を確認
Yuan-Xing Yang, Si-Yuan Bai, Jun-Hong An, (参考訳) 量子トンネル (quantum tunneling) は、微小物体が障壁を克服するのに十分なエネルギーを持っていなくても潜在的な障壁を通過できる現象である。 これは多くの近代的な応用やナノ技術に繋がった。 一般的な考えでは、量子トンネルは波動-粒子の双対性の顕在化として、障壁の幅がデ・ブロイの波長と等しいか小さい場合にのみ起こる。 ここでは、状態選択型光学格子におけるN$遠い分離トラップ電位中の超低温原子のトンネルの研究を通じて、長距離量子トンネルを実現するメカニズムを発見する。 励起状態原子から放出される伝播物質波の媒介の役割により、原子と物質波によって形成される全系のエネルギースペクトルに境界状態が存在する限り、密閉された原子の遠隔トラップ電位へのコヒーレントトンネルが生じることが判明した。 一般に信じられている量子トンネルの距離制約を突破し、量子トンネルを実現するための別の道を開き、トンネル装置を開発するための指針を与える。

Quantum tunneling refers to a phenomenon that a microscopic object can pass through a potential barrier even it does not have enough energy to overcome the barrier. It has led to many modern applications and nanotechnologies. A general belief is that quantum tunneling, as a manifestation of the wave-particle duality, occurs only when the width of the barrier is comparable to or smaller than the de Broglie's wavelength of the object. Here, via studying the tunneling of an ultracold atom among $N$ far-separated trapping potentials in a state-selective optical lattice, we discover a mechanism to realize a long-range quantum tunneling. It is found that, by the mediation role of the propagating matter wave emitted from the excited-state atom, a coherent tunneling of the tightly confined atom to the remote trapping potentials can occur as long as bound states are present in the energy spectrum of the total system formed by the atom and its matter wave. Breaking through the generally believed distance constraint of quantum tunneling, our result opens another avenue to realize quantum tunneling and gives a guideline to develop tunneling devices.
翻訳日:2024-06-11 14:17:29 公開日:2024-06-10
# 聴覚・時間次元へのセグメンテーションモデルの拡張による聴覚・視覚的セグメンテーション

Extending Segment Anything Model into Auditory and Temporal Dimensions for Audio-Visual Segmentation ( http://arxiv.org/abs/2406.06163v1 )

ライセンス: Link先を確認
Juhyeong Seon, Woobin Im, Sebin Lee, Jumin Lee, Sung-Eui Yoon, (参考訳) オーディオ・ビジュアル・セグメンテーション (AVS) は、音声・視覚対応のピクセルレベルの理解を必要とする、映像シーケンス内の音源のセグメンテーションを目的としている。 SAMモデル(Segment Anything Model)は密集予測問題の広範な分野に強い影響を与えているため、先行研究では音声によるAVSへのSAMの導入をプロンプトの新たなモダリティとして検討している。 しかし、SAMの単一フレーム分割方式に制約されているため、音声・視覚データの複数フレームにわたる時間的コンテキストは依然として十分に利用されていない。 そこで本研究では,フレーム間の文脈的相互関係を解析することにより,SAMの音声・視覚シーンのシーケンスへの拡張について検討する。 そこで本研究では,SAMの画像エンコーダとマスクデコーダの中間部に組み込まれた,時空間双方向オーディオ・ビジュアル・アテンション(ST-BAVA)モジュールを提案する。 ビデオフレームとオーディオストリーム間の時空間対応を伝達するために、オーディオ視覚機能を適応的に更新する。 特に8.3%のmIoUを挑戦的なマルチソースサブセットで獲得することで,提案モデルがAVSベンチマークの最先端手法よりも優れていることを示す。

Audio-visual segmentation (AVS) aims to segment sound sources in the video sequence, requiring a pixel-level understanding of audio-visual correspondence. As the Segment Anything Model (SAM) has strongly impacted extensive fields of dense prediction problems, prior works have investigated the introduction of SAM into AVS with audio as a new modality of the prompt. Nevertheless, constrained by SAM's single-frame segmentation scheme, the temporal context across multiple frames of audio-visual data remains insufficiently utilized. To this end, we study the extension of SAM's capabilities to the sequence of audio-visual scenes by analyzing contextual cross-modal relationships across the frames. To achieve this, we propose a Spatio-Temporal, Bidirectional Audio-Visual Attention (ST-BAVA) module integrated into the middle of SAM's image encoder and mask decoder. It adaptively updates the audio-visual features to convey the spatio-temporal correspondence between the video frames and audio streams. Extensive experiments demonstrate that our proposed model outperforms the state-of-the-art methods on AVS benchmarks, especially with an 8.3% mIoU gain on a challenging multi-sources subset.
翻訳日:2024-06-11 14:17:29 公開日:2024-06-10
# StackOverflowから分離する時間と暗号化のためのChatGPTとのマッチング

Time to Separate from StackOverflow and Match with ChatGPT for Encryption ( http://arxiv.org/abs/2406.06164v1 )

ライセンス: Link先を確認
Ehsan Firouzi, Mohammad Ghafari, (参考訳) 暗号化は開発者にとって難しいトピックとして知られている。 我々は、Java Cryptography Architecture(JCA)を対称暗号化に使用する際に開発者が直面する問題を特定するためにStackOverflowの投稿を調査した。 これらの投稿に散在するセキュリティリスクを調査し,ChatGPTが暗号問題を回避できるかどうかを検討した。 私たちは、開発者がしばしばキーとIV世代、パディングに苦労していることに気付きました。 セキュリティは開発者にとって最大の関心事ですが、セキュリティ問題はコードスニペットに広まっています。 ChatGPTは、開発者が適切に関わったときに効果的に助けることができる。 それでも、それは人間の専門知識の代わりにはならない。

Cryptography is known as a challenging topic for developers. We studied StackOverflow posts to identify the problems that developers encounter when using Java Cryptography Architecture (JCA) for symmetric encryption. We investigated security risks that are disseminated in these posts, and we examined whether ChatGPT helps avoid cryptography issues. We found that developers frequently struggle with key and IV generations, as well as padding. Security is a top concern among developers, but security issues are pervasive in code snippets. ChatGPT can effectively aid developers when they engage with it properly. Nevertheless, it does not substitute human expertise, and developers should remain alert.
翻訳日:2024-06-11 14:17:29 公開日:2024-06-10
# 風車シナリオに適用した損失符号化のための一般化ネスト潜時変動モデル

Generalized Nested Latent Variable Models for Lossy Coding applied to Wind Turbine Scenarios ( http://arxiv.org/abs/2406.06165v1 )

ライセンス: Link先を確認
Raül Pérez-Gonzalo, Andreas Espersen, Antonio Agudo, (参考訳) ニューラルネットワークによる速度歪みの最適化は、圧縮効率と画質の競争的な結果を得た。 この学習ベースのアプローチは、重要情報を自動的に抽出して保持することで、圧縮率と再構成された画質の妥協を最小限に抑えつつ、より重要度の低い詳細を破棄する。 成功したテクニックは、2レベルネストされた潜伏変数モデル内で動作し、複雑なデータ依存関係をキャプチャすることで圧縮を強化するディープハイパープライヤの導入である。 本稿では,マルコフ連鎖構造を持つ一般化Lレベルネスト生成モデルを設計することによって,この概念を拡張した。 トレーニング可能な先行変数が有害であることをLが示すとともに、圧縮性能を高めるために異なる潜伏変数に沿った共通次元を探索する。 この構造化されたフレームワークは自己回帰型コーダを表現できるため、計算コストを大幅に削減しつつ、ハイパープライアモデルより優れ、最先端の性能を実現する。 風力タービンのシナリオによる実験的評価を行い, その視覚検査への応用について検討した。

Rate-distortion optimization through neural networks has accomplished competitive results in compression efficiency and image quality. This learning-based approach seeks to minimize the compromise between compression rate and reconstructed image quality by automatically extracting and retaining crucial information, while discarding less critical details. A successful technique consists in introducing a deep hyperprior that operates within a 2-level nested latent variable model, enhancing compression by capturing complex data dependencies. This paper extends this concept by designing a generalized L-level nested generative model with a Markov chain structure. We demonstrate as L increases that a trainable prior is detrimental and explore a common dimensionality along the distinct latent variables to boost compression performance. As this structured framework can represent autoregressive coders, we outperform the hyperprior model and achieve state-of-the-art performance while reducing substantially the computational cost. Our experimental evaluation is performed on wind turbine scenarios to study its application on visual inspections
翻訳日:2024-06-11 14:17:29 公開日:2024-06-10
# 時系列における異常検出(TADA)のトポロジー解析

Topological Analysis for Detecting Anomalies (TADA) in Time Series ( http://arxiv.org/abs/2406.06168v1 )

ライセンス: Link先を確認
Frédéric Chazal, Martin Royer, Clément Levrard, (参考訳) 本稿では,多変量時系列における異常検出のためのトポロジカルデータ解析の分野に基づく新しい手法を提案する。 提案手法は大規模データセットを扱うのに十分なリーンであり、既存の手法よりも相関構造のグローバルな変化を検出するのに適しているという直感を裏付ける広範な数値実験である。 依存時間列に基づく量子化アルゴリズムの理論的保証も提供される。

This paper introduces new methodology based on the field of Topological Data Analysis for detecting anomalies in multivariate time series, that aims to detect global changes in the dependency structure between channels. The proposed approach is lean enough to handle large scale datasets, and extensive numerical experiments back the intuition that it is more suitable for detecting global changes of correlation structures than existing methods. Some theoretical guarantees for quantization algorithms based on dependent time sequences are also provided.
翻訳日:2024-06-11 14:17:29 公開日:2024-06-10
# 安定化状態の波動関数とWehrl予想

The wave function of stabilizer states and the Wehrl conjecture ( http://arxiv.org/abs/2406.06173v1 )

ライセンス: Link先を確認
Fabio Nicola, (参考訳) 我々はヒルベルト空間$L^2(A)$で表される量子系に焦点を当て、$A$はコンパクトな開部分群を含む局所コンパクトなアベリア群である。 ワイル・ハイゼンベルク作用素に関する2つの相互接続問題について検討する。 まず、量子情報理論において生じる問題である波動関数の観点から安定化状態を記述する問題に対して、完全かつエレガントな解を提供する。 その後、安定化状態がWehrlエントロピー函数の極小値であることを示し、任意の群に対するWehrl予想の類似を解消する。 さらに、安定化状態の集合、すなわちこの集合のパラメータ化のためのモジュライ空間を構築し、それを自然な代数的構造で包含し、$A$が有限であるときの安定化状態の数に対する公式を導出する。 特に、これらの結果は有限アーベル群に対しても新規である。

We focus on quantum systems represented by a Hilbert space $L^2(A)$, where $A$ is a locally compact Abelian group that contains a compact open subgroup. We examine two interconnected issues related to Weyl-Heisenberg operators. First, we provide a complete and elegant solution to the problem of describing the stabilizer states in terms of their wave functions, an issue that arises in quantum information theory. Subsequently, we demonstrate that the stabilizer states are precisely the minimizers of the Wehrl entropy functional, thereby resolving the analog of the Wehrl conjecture for any such group. Additionally, we construct a moduli space for the set of stabilizer states, that is, a parameterization of this set, that endows it with a natural algebraic structure, and we derive a formula for the number of stabilizer states when $A$ is finite. Notably, these results are novel even for finite Abelian groups.
翻訳日:2024-06-11 14:17:29 公開日:2024-06-10
# 深層学習による多スペクトル画像から同定された北アフリカにおけるガス火花からの黒色カーボンプラム

Black carbon plumes from gas flaring in North Africa identified from multi-spectral imagery with deep learning ( http://arxiv.org/abs/2406.06183v1 )

ライセンス: Link先を確認
Tuel Alexandre, Kerdreux Thomas, Thiry Louis, (参考訳) ブラックカーボン (BC) は、ガスフレアを含む多くの人間の活動によって放出される重要な汚染物質エアロゾルである。 不適切な燃焼は大量のBCを放出し、それはヒトの健康に有害であり、温暖化効果が強い。 我々の知る限りでは、衛星画像から直接BCの放射を観測した研究はない。 以前の研究は、衛星画像から推定されるフレア体積に放射係数を適用することで、BCの排出量を間接的に定量化した。 そこで我々は,2022年に北アフリカ上空のSentinel-2画像に深層学習フレームワークを適用し,ガス火花からのBC排出を検出し定量化する。 この地域のBC排出量は約100万tCO$_{2,\mathrm{eq}}$または100万の乗用車であり、その4分の1以上は10のサイトのみによるものである。 この研究は、石油・ガス事業の気候への影響を低減させる効果的な緩和政策を実施するための重要なステップである、火花からのBC排出の運用モニタリングを実証する。

Black carbon (BC) is an important pollutant aerosol emitted by numerous human activities, including gas flaring. Improper combustion in flaring activities can release large amounts of BC, which is harmful to human health and has a strong climate warming effect. To our knowledge, no study has ever directly monitored BC emissions from satellite imagery. Previous works quantified BC emissions indirectly, by applying emission coefficients to flaring volumes estimated from satellite imagery. Here, we develop a deep learning framework and apply it to Sentinel-2 imagery over North Africa during 2022 to detect and quantify BC emissions from gas flaring. We find that BC emissions in this region amount to about 1 million tCO$_{2,\mathrm{eq}}$, or 1 million passenger cars, more than a quarter of which are due to 10 sites alone. This work demonstrates the operational monitoring of BC emissions from flaring, a key step in implementing effective mitigation policies to reduce the climate impact of oil and gas operations.
翻訳日:2024-06-11 14:17:29 公開日:2024-06-10
# 実用性に基づくインフラ整備最適化のための深層多目的強化学習

Deep Multi-Objective Reinforcement Learning for Utility-Based Infrastructural Maintenance Optimization ( http://arxiv.org/abs/2406.06184v1 )

ライセンス: Link先を確認
Jesse van Remmerden, Maurice Kenter, Diederik M. Roijers, Charalampos Andriotis, Yingqian Zhang, Zaharah Bukhsh, (参考訳) 本稿では,MORL(Multi-Objective Deep Centralized Multi-Agent Actor-Critic)手法を提案する。 従来の単目的RL法は、崩壊確率やコストといった複数の目的を、報酬形成を通じて特異な報酬信号に組み合わせている。 対照的に、MO-DCMACはユーティリティ関数が非線形であっても、複数の目的に対して直接ポリシーを最適化することができる。 筆者らは2つのユーティリティ関数を用いてMO-DCMACを評価し, 倒壊確率とコストを入力として用いた。 最初のユーティリティ関数はThresholdユーティリティであり、MO-DCMACはコストを最小化し、崩壊確率がしきい値を超えないようにすべきである。 2つ目は、資産運用者が保守計画を評価するために使用するFMECA(Failure Mode, Effects, and Criticality Analysis)方法論に基づいている。 本研究は,アムステルダムの歴史的岸壁を事例として,MO-DCMACと実用機能を組み合わせた複数保守環境の評価を行った。 MO-DCMACの性能は、現在メンテナンス計画の構築に使われているヒューリスティックに基づく複数のルールベースのポリシーと比較された。 以上の結果から,MO-DCMACは様々な環境やユーティリティ機能にまたがる従来のルールベースのポリシーよりも優れていた。

In this paper, we introduce Multi-Objective Deep Centralized Multi-Agent Actor-Critic (MO- DCMAC), a multi-objective reinforcement learning (MORL) method for infrastructural maintenance optimization, an area traditionally dominated by single-objective reinforcement learning (RL) approaches. Previous single-objective RL methods combine multiple objectives, such as probability of collapse and cost, into a singular reward signal through reward-shaping. In contrast, MO-DCMAC can optimize a policy for multiple objectives directly, even when the utility function is non-linear. We evaluated MO-DCMAC using two utility functions, which use probability of collapse and cost as input. The first utility function is the Threshold utility, in which MO-DCMAC should minimize cost so that the probability of collapse is never above the threshold. The second is based on the Failure Mode, Effects, and Criticality Analysis (FMECA) methodology used by asset managers to asses maintenance plans. We evaluated MO-DCMAC, with both utility functions, in multiple maintenance environments, including ones based on a case study of the historical quay walls of Amsterdam. The performance of MO-DCMAC was compared against multiple rule-based policies based on heuristics currently used for constructing maintenance plans. Our results demonstrate that MO-DCMAC outperforms traditional rule-based policies across various environments and utility functions.
翻訳日:2024-06-11 14:17:29 公開日:2024-06-10
# EARS:音声強調と残響をベンチマークした無響全帯域音声データセット

EARS: An Anechoic Fullband Speech Dataset Benchmarked for Speech Enhancement and Dereverberation ( http://arxiv.org/abs/2406.06185v1 )

ライセンス: Link先を確認
Julius Richter, Yi-Chiao Wu, Steven Krenn, Simon Welker, Bunlong Lay, Shinji Watanabe, Alexander Richard, Timo Gerkmann, (参考訳) 我々は、さまざまな背景から107人の話者からなる高品質な音声データセットEARS(Expressive Anechoic Recordings of Speech)データセットをリリースした。 データセットには、感情的なスピーチ、異なる読み方、非言語音、会話の自由なスピーチなど、幅広い種類の話し方が含まれている。 提案手法は,データセット上での音声強調とデバーベレーションのための様々な手法をベンチマークし,その性能を測定値を用いて評価する。 また、音声強調タスクの参加者20名による聴取テストを行い、生成方法が好まれる。 我々は、アップロードされたデータのオンライン自動評価を可能にするブラインドテストセットを導入する。 データセットダウンロードリンクと自動評価サーバはオンラインで見つけることができる。

We release the EARS (Expressive Anechoic Recordings of Speech) dataset, a high-quality speech dataset comprising 107 speakers from diverse backgrounds, totaling in 100 hours of clean, anechoic speech data. The dataset covers a large range of different speaking styles, including emotional speech, different reading styles, non-verbal sounds, and conversational freeform speech. We benchmark various methods for speech enhancement and dereverberation on the dataset and evaluate their performance through a set of instrumental metrics. In addition, we conduct a listening test with 20 participants for the speech enhancement task, where a generative method is preferred. We introduce a blind test set that allows for automatic online evaluation of uploaded data. Dataset download links and automatic evaluation server can be found online.
翻訳日:2024-06-11 14:17:29 公開日:2024-06-10
# 機械学習に関する調査 : 技術と新たなプライバシリスク

A Survey on Machine Unlearning: Techniques and New Emerged Privacy Risks ( http://arxiv.org/abs/2406.06186v1 )

ライセンス: Link先を確認
Hengzhu Liu, Ping Xiong, Tianqing Zhu, Philip S. Yu, (参考訳) 機械学習の爆発的な成長は、人工知能の時代における重要な基盤となった。 データの広範な使用は、個人のプライバシに重大な脅威をもたらす。 GDPRなどの各国は、個人のデータのプライバシーと忘れられる権利を保護するために、対応する法律を施行している。 これにより、機械学習は近年、プライバシー保護分野における研究ホットスポットとなり、トレーニングされたモデルから個々のデータの貢献と影響を効率的に除去することを目指している。 機械学習に関する学術研究は、その理論基盤を継続的に強化し、様々なアプリケーションシナリオで異なるデータ削除要求をターゲットとする多くの手法が提案されている。 しかし、近年の研究者たちは、機械学習のさまざまなアプローチの潜在的なプライバシー漏洩を発見し、機械学習の領域におけるプライバシー保護が重要なトピックとなっている。 本稿では,機械学習アプローチの現在の脆弱性を示すことを目的とした,機械学習に関する既存の研究の概要と分析を行う。 我々は、定義、実装方法、現実世界のアプリケーションなど、さまざまな面でプライバシーリスクを分析します。 既存のレビューと比較して、プライバシの脅威の観点から、マシンアンラーニングにおける最新の悪意ある攻撃テクニックによって引き起こされる新たな課題を分析します。 この調査が、この新しい新興分野について、初期的だが包括的な議論を提供できることを願っている。

The explosive growth of machine learning has made it a critical infrastructure in the era of artificial intelligence. The extensive use of data poses a significant threat to individual privacy. Various countries have implemented corresponding laws, such as GDPR, to protect individuals' data privacy and the right to be forgotten. This has made machine unlearning a research hotspot in the field of privacy protection in recent years, with the aim of efficiently removing the contribution and impact of individual data from trained models. The research in academia on machine unlearning has continuously enriched its theoretical foundation, and many methods have been proposed, targeting different data removal requests in various application scenarios. However, recently researchers have found potential privacy leakages of various of machine unlearning approaches, making the privacy preservation on machine unlearning area a critical topic. This paper provides an overview and analysis of the existing research on machine unlearning, aiming to present the current vulnerabilities of machine unlearning approaches. We analyze privacy risks in various aspects, including definitions, implementation methods, and real-world applications. Compared to existing reviews, we analyze the new challenges posed by the latest malicious attack techniques on machine unlearning from the perspective of privacy threats. We hope that this survey can provide an initial but comprehensive discussion on this new emerging area.
翻訳日:2024-06-11 14:17:29 公開日:2024-06-10
# 高精度なマルチラベル動作検出手法

An Effective-Efficient Approach for Dense Multi-Label Action Detection ( http://arxiv.org/abs/2406.06187v1 )

ライセンス: Link先を確認
Faegheh Sardari, Armin Mustafa, Philip J. B. Jackson, Adrian Hilton, (参考訳) ビデオの各タイムスタンプで1つのアクションが発生するスパースラベルアクション検出タスクとは異なり、密集したマルチラベルシナリオでは、アクションが重複する可能性がある。 この課題に対処するには,同時に学ぶ必要がある (一)時間的依存関係及び (二)共起行動関係 近年のアプローチは階層型トランスフォーマーネットワークによるマルチスケール特徴抽出による時間情報のモデル化である。 しかし、変圧器の自己保持機構は本質的に時間的位置情報を失う。 我々はこれを階層設計における複数のサブサンプリングプロセスと組み合わせることで、位置情報のさらなる喪失につながると論じている。 この情報を保存することは、正確な行動検出に不可欠である。 本稿では,新しい変圧器ネットワークを提案することでこの問題に対処する。 (a)異なる時間的依存関係の範囲をモデル化する場合、非階層構造を用いる。 b) 相対的な位置エンコーディングをトランス層に埋め込む。 さらに、共起アクション関係をモデル化するために、現在のメソッドは、クラス関係をトランスフォーマーネットワークに明示的に埋め込む。 しかしながら、これらのアプローチは、ネットワークが全ての可能なペアアクションクラス関係を計算する必要があるため、計算的に効率的ではない。 また,ネットワークが時間的共起行動依存を明示的にモデル化することで,推論時に追加の計算コストを課すことなく,新たな学習パラダイムを導入することで,この課題を克服する。 提案手法を2つの高密度なマルチラベル・ベンチマーク・データセットに対して評価し,提案手法が現在の技術結果を改善することを示す。

Unlike the sparse label action detection task, where a single action occurs in each timestamp of a video, in a dense multi-label scenario, actions can overlap. To address this challenging task, it is necessary to simultaneously learn (i) temporal dependencies and (ii) co-occurrence action relationships. Recent approaches model temporal information by extracting multi-scale features through hierarchical transformer-based networks. However, the self-attention mechanism in transformers inherently loses temporal positional information. We argue that combining this with multiple sub-sampling processes in hierarchical designs can lead to further loss of positional information. Preserving this information is essential for accurate action detection. In this paper, we address this issue by proposing a novel transformer-based network that (a) employs a non-hierarchical structure when modelling different ranges of temporal dependencies and (b) embeds relative positional encoding in its transformer layers. Furthermore, to model co-occurrence action relationships, current methods explicitly embed class relations into the transformer network. However, these approaches are not computationally efficient, as the network needs to compute all possible pair action class relations. We also overcome this challenge by introducing a novel learning paradigm that allows the network to benefit from explicitly modelling temporal co-occurrence action dependencies without imposing their additional computational costs during inference. We evaluate the performance of our proposed approach on two challenging dense multi-label benchmark datasets and show that our method improves the current state-of-the-art results.
翻訳日:2024-06-11 14:17:29 公開日:2024-06-10
# AI Cat Narrator: 猫と共有された世界とソーシャルなつながりを探索するAIツールを設計する

AI Cat Narrator: Designing an AI Tool for Exploring the Shared World and Social Connection with a Cat ( http://arxiv.org/abs/2406.06192v1 )

ライセンス: Link先を確認
Zhenchi Lai, Janet Yi-Ching Huang, Rung-Huei Liang, (参考訳) テクノロジーの進歩が進むにつれ、人間と猫の相互作用はますます多様化しつつある。 私たちの研究は、人間と猫の共有生活にユニークな視点を提供するAI Cat Narratorと呼ばれる新しいツールを紹介します。 我々は,猫の目を通して見る現実のデータをネコ文学の抜粋と融合させるために,不明瞭化戦略を用いて,エスノグラフィーの手法と架空のストーリーテリングを併用した。 この組み合わせは、AIキャットナレーターに代替の物語を作るよう指示するデータベースの基礎となる。 本研究は,学習目的に不慣れなデータを使用することによって,より共感的かつ個性的な文字の発達に寄与することが示唆された。 私たちの研究の貢献は2つあります。 1) 猫と一緒に生きることの再評価を促す革新的なアプローチを提案すること。 2)人間,猫,AIが共同で開発した,共同で探索的なツールの確立。

As technology continues to advance, the interaction between humans and cats is becoming more diverse. Our research introduces a new tool called the AI Cat Narrator, which offers a unique perspective on the shared lives of humans and cats. We combined the method of ethnography with fictional storytelling, using a defamiliarization strategy to merge real-world data seen through the eyes of cats with excerpts from cat literature. This combination serves as the foundation for a database to instruct the AI Cat Narrator in crafting alternative narrative. Our findings indicate that using defamiliarized data for training purposes significantly contributes to the development of characters that are both more empathetic and individualized. The contributions of our study are twofold: 1) proposing an innovative approach to prompting a reevaluation of living alongside cats; 2) establishing a collaborative, exploratory tool developed by humans, cats, and AI together.
翻訳日:2024-06-11 14:17:29 公開日:2024-06-10
# 生成ニューラルネットワークによるスピン鎖のレニー絡みエントロピー

Rényi entanglement entropy of spin chain with Generative Neural Networks ( http://arxiv.org/abs/2406.06193v1 )

ライセンス: Link先を確認
Piotr Białas, Piotr Korcyl, Tomasz Stebel, Dawid Zapolski, (参考訳) 本稿では,スピン系のR'enyiエンタングルメントエントロピーを推定する手法について述べる。 任意のスピン系や格子場理論に拡張することができる。 一次元量子イジングスピン鎖上での本手法の実証を行う。 生成モデルとして、自己回帰ネットワークの階層を使い、最大32スピンをシミュレートできる。 本稿では,第2次R'enyiエントロピーとその導関数を計算し,エントロピーの数値評価と文献で利用できる結果の相互チェックを行う。

We describe a method to estimate R\'enyi entanglement entropy of a spin system, which is based on the replica trick and generative neural networks with explicit probability estimation. It can be extended to any spin system or lattice field theory. We demonstrate our method on a one-dimensional quantum Ising spin chain. As the generative model, we use a hierarchy of autoregressive networks, allowing us to simulate up to 32 spins. We calculate the second R\'enyi entropy and its derivative and cross-check our results with the numerical evaluation of entropy and results available in the literature.
翻訳日:2024-06-11 14:07:44 公開日:2024-06-10
# lingOLY: 低リソースおよび外部言語におけるオリンピアス・レベル言語推論パズルのベンチマーク

LINGOLY: A Benchmark of Olympiad-Level Linguistic Reasoning Puzzles in Low-Resource and Extinct Languages ( http://arxiv.org/abs/2406.06196v1 )

ライセンス: Link先を確認
Andrew M. Bean, Simi Hellsten, Harry Mayne, Jabez Magomere, Ethan A. Chi, Ryan Chi, Scott A. Hale, Hannah Rose Kirk, (参考訳) 本稿では,LingOlyベンチマークを提案する。LingOlyベンチマークは,大規模言語モデルにおける高度な推論能力のベンチマークである。 難解な言語オリンピアードパズルを用いて評価する 一 極低資源又は絶滅した言語における言語パターンの文脈内識別及び一般化の能力及び (ii)複雑なタスク指示に従う能力。 LingOlyベンチマークは90以上の低リソース言語をカバーし、データ汚染の問題を最小化している。 直接精度と非文脈ベースラインとの比較により,暗記を暗記する性能を評価する。 11の最先端LCMのスコアは、このベンチマークが困難であることを示し、モデルがより高い難易度問題に対して不十分であることを示している。 難しい問題では、トップモデルでさえ35.3%の精度しか達成せず、非コンテキストベースラインよりも21.7%改善した。 大型のクローズドモデルは一般にオープンモデルよりも優れており、一般に、言語が高いほどスコアが良くなる。 これらの結果は、記憶がなければ、真のマルチステップのドメイン外推論は、現在の言語モデルにとって依然として課題であることを示している。

In this paper, we present the LingOly benchmark, a novel benchmark for advanced reasoning abilities in large language models. Using challenging Linguistic Olympiad puzzles, we evaluate (i) capabilities for in-context identification and generalisation of linguistic patterns in very low-resource or extinct languages, and (ii) abilities to follow complex task instructions. The LingOly benchmark covers more than 90 mostly low-resource languages, minimising issues of data contamination, and contains 1,133 problems across 6 formats and 5 levels of human difficulty. We assess performance with both direct accuracy and comparison to a no-context baseline to penalise memorisation. Scores from 11 state-of-the-art LLMs demonstrate the benchmark to be challenging, and models perform poorly on the higher difficulty problems. On harder problems, even the top model only achieved 35.3% accuracy, 21.7% improvement over the no-context baseline. Large closed models typically outperform open models, and in general, the higher resource the language, the better the scores. These results indicate, in absence of memorisation, true multi-step out-of-domain reasoning remains a challenge for current language models.
翻訳日:2024-06-11 14:07:44 公開日:2024-06-10
# 適応時間進化量子アルゴリズムのための効果的なハミルトニアンの学習

Learning effective Hamiltonians for adaptive time-evolution quantum algorithms ( http://arxiv.org/abs/2406.06198v1 )

ライセンス: Link先を確認
Hongzheng Zhao, Ao Chen, Shu-Wei Liu, Marin Bukov, Markus Heyl, Roderich Moessner, (参考訳) 多重体力学のディジタル量子シミュレーションは、ターゲットの時間進化を一定時間離散化で動作する基本量子ゲートに分解するために、トロッター化に依存する。 近年, 局所可観測関数と相関関数のダイナミックスにおいて, 制御誤差が認められたため, より効率的な適応トロッタープロトコルを実現するプロトコルの概要が示されている。 しかし、実際の動力学生成器の誤差、すなわち標的多体ハミルトニアンの誤差がどの程度制御されているかは、まだ明らかになっていない。 本稿では,量子ハミルトニアン学習を用いて実効ハミルトニアンを数値的に取得し,最近導入されたADA-Trotterアルゴリズムに応用することを提案する。 私たちのキーとなる観察は、ターゲットジェネレータからの偏差が全てのシミュレーション時間に束縛されていることです。 この結果は、ADA-Trotterが局所力学の信頼性の高いデジタル量子シミュレーションを生成するだけでなく、ターゲットシステムの大域量子状態を制御的に近似していることを示唆している。 我々の提案は十分に一般的なものであり、他の適応時間進化アルゴリズムにも容易に適用できる。

Digital quantum simulation of many-body dynamics relies on Trotterization to decompose the target time evolution into elementary quantum gates operating at a fixed equidistant time discretization. Recent advances have outlined protocols enabling more efficient adaptive Trotter protocols, which have been shown to exhibit a controlled error in the dynamics of local observables and correlation functions. However, it has remained open to which extent the errors on the actual generator of the dynamics, i.e., the target many-body Hamiltonian, remain controlled. Here, we propose to use quantum Hamiltonian learning to numerically obtain the effective Hamiltonian and apply it on the recently introduced ADA-Trotter algorithm as a concrete demonstration. Our key observation is that deviations from the target generator remain bounded on all simulation times. This result suggests that the ADA-Trotter not only generates reliable digital quantum simulation of local dynamics, but also controllably approximates the global quantum state of the target system. Our proposal is sufficiently general and readily applicable to other adaptive time-evolution algorithms.
翻訳日:2024-06-11 14:07:44 公開日:2024-06-10
# 社会規模AIリスクの公衆認識におけるガバナンスの意義

Implications for Governance in Public Perceptions of Societal-scale AI Risks ( http://arxiv.org/abs/2406.06199v1 )

ライセンス: Link先を確認
Ross Gruetzemacher, Toby D. Pilditch, Huigang Liang, Christy Manning, Vael Gates, David Moss, James W. B. Elsey, Willem W. A. Sleegers, Kyle Kilian, (参考訳) AIの社会的リスクに対する懸念が高まっている中で、文明的な崩壊から誤情報や体系的な偏見まで、この研究は18の特定のAIリスクの可能性と影響について、AI専門家と米国一般の有権者の認識と、これらのリスクを管理するためのポリシーの優先事項を調査している。 有権者はAIのリスクを専門家よりも可能性が高く、影響も大きいと認識し、AI開発の遅さを主張しています。 具体的には、政策介入は、社会規模リスクのあらゆるクラスにおける緩和努力をより慎重にバランスさせ、AIリスクに関するほぼ長期にわたる議論を効果的に無効化しようとする場合に、集団的関心を喚起する可能性があることを示唆している。 より広範に、私たちの結果は、AIリスクを予防し緩和するためのより実質的な政策議論を可能にするだけでなく、効果的な政策実装のためのコンセンサス構築の課題を明らかにするためにも役立ちます。

Amid growing concerns over AI's societal risks--ranging from civilizational collapse to misinformation and systemic bias--this study explores the perceptions of AI experts and the general US registered voters on the likelihood and impact of 18 specific AI risks, alongside their policy preferences for managing these risks. While both groups favor international oversight over national or corporate governance, our survey reveals a discrepancy: voters perceive AI risks as both more likely and more impactful than experts, and also advocate for slower AI development. Specifically, our findings indicate that policy interventions may best assuage collective concerns if they attempt to more carefully balance mitigation efforts across all classes of societal-scale risks, effectively nullifying the near-vs-long-term debate over AI risks. More broadly, our results will serve not only to enable more substantive policy discussions for preventing and mitigating AI risks, but also to underscore the challenge of consensus building for effective policy implementation.
翻訳日:2024-06-11 14:07:44 公開日:2024-06-10
# 2DP-2MRC:マルチモーダルモーメント検索のための2次元ポインタベース機械読解法

2DP-2MRC: 2-Dimensional Pointer-based Machine Reading Comprehension Method for Multimodal Moment Retrieval ( http://arxiv.org/abs/2406.06201v1 )

ライセンス: Link先を確認
Jiajun He, Tomoki Toda, (参考訳) モーメント検索は、与えられた自然言語クエリに基づいて、トリミングされていないビデオの中で最も関連性の高い瞬間を見つけることを目的としている。 既存のソリューションは、モーメントベースの方法とクリップベースの方法に大まかに分類することができる。 前者は重い計算を伴うことが多いが、後者は粗い情報を見渡すため、通常モーメントベースモデルに比べて性能が劣る。 そこで本研究では, モーメント検索選択のための2次元ポインターベース機械読解包括モデルを提案し, モーメントベース手法よりも計算量が少なく, クリップベース手法における不正確な局所化の問題に対処する。 具体的には、粗粒度情報と映像レベルを瞬間的にキャプチャするAVエンコーダを導入する。 さらに、2Dポインタエンコーダモジュールを導入し、目標モーメントの境界検出をさらに強化する。 HiRESTデータセットに関する大規模な実験は、2DP-2MRCが既存のベースラインモデルを大幅に上回っていることを示している。

Moment retrieval aims to locate the most relevant moment in an untrimmed video based on a given natural language query. Existing solutions can be roughly categorized into moment-based and clip-based methods. The former often involves heavy computations, while the latter, due to overlooking coarse-grained information, typically underperforms compared to moment-based models. Hence, this paper proposes a novel 2-Dimensional Pointer-based Machine Reading Comprehension for Moment Retrieval Choice (2DP-2MRC) model to address the issue of imprecise localization in clip-based methods while maintaining lower computational complexity than moment-based methods. Specifically, we introduce an AV-Encoder to capture coarse-grained information at moment and video levels. Additionally, a 2D pointer encoder module is introduced to further enhance boundary detection for target moment. Extensive experiments on the HiREST dataset demonstrate that 2DP-2MRC significantly outperforms existing baseline models.
翻訳日:2024-06-11 14:07:44 公開日:2024-06-10
# 食品研究におけるフェデレートラーニング

Federated learning in food research ( http://arxiv.org/abs/2406.06202v1 )

ライセンス: Link先を確認
Zuzanna Fendor, Bas H. M. van der Velden, Xinxin Wang, Andrea Jr. Carnoli, Osman Mutlu, Ali Hürriyetoğlu, (参考訳) 食品分野の研究は、データ所有やプライバシー要件、規制といったデータ共有の障害によって制限されることもある。 重要なことではあるが、これらの障害は機械学習のようなデータ駆動の手法を制限することができる。 フェデレートラーニング(Federated Learning)とは、ローカルに保持されたデータに基づいてモデルをトレーニングし、学習パラメータのみを共有する手法である。 本稿では,食品分野におけるフェデレートラーニングの利用,フェデレーションラーニングフレームワークに含まれる構造,知識ギャップの強調,潜在的な応用の可能性について検討する。 計41件の論文がレビューに掲載された。 現在のアプリケーションには、水と牛乳の品質評価のソリューション、水処理のサイバーセキュリティ、殺虫剤残留リスク分析、雑草検出、不正検出などが含まれており、中央集権的な水平連邦学習に重点を置いている。 見つかったギャップの1つは、垂直ないし移行型の学習と分散アーキテクチャの欠如であった。

Research in the food domain is at times limited due to data sharing obstacles, such as data ownership, privacy requirements, and regulations. While important, these obstacles can restrict data-driven methods such as machine learning. Federated learning, the approach of training models on locally kept data and only sharing the learned parameters, is a potential technique to alleviate data sharing obstacles. This systematic review investigates the use of federated learning within the food domain, structures included papers in a federated learning framework, highlights knowledge gaps, and discusses potential applications. A total of 41 papers were included in the review. The current applications include solutions to water and milk quality assessment, cybersecurity of water processing, pesticide residue risk analysis, weed detection, and fraud detection, focusing on centralized horizontal federated learning. One of the gaps found was the lack of vertical or transfer federated learning and decentralized architectures.
翻訳日:2024-06-11 14:07:44 公開日:2024-06-10
# 陰に潜む:個人化されたフェデレーションラーニングに対する頑固なバックドア攻撃を解き明かす

Lurking in the shadows: Unveiling Stealthy Backdoor Attacks against Personalized Federated Learning ( http://arxiv.org/abs/2406.06207v1 )

ライセンス: Link先を確認
Xiaoting Lyu, Yufei Han, Wei Wang, Jingkai Liu, Yongsheng Zhu, Guangquan Xu, Jiqiang Liu, Xiangliang Zhang, (参考訳) Federated Learning(FL)は、複数のクライアントが中央サーバと連携して、プライベートデータを共有せずにグローバルモデルをトレーニングする、コラボレーティブな機械学習技術である。 しかし、クライアントの非IIDデータセット間の分散シフトは、グローバルモデルが各クライアントのユニークなローカルデータに効果的に適応する能力を阻害するこの1モデルフィットの手法に挑戦する。 この課題を反映するために、パーソナライズされたFL(PFL)は、各クライアントがプライベートデータに合わせてパーソナライズされたローカルモデルを作成するように設計されている。 FLのバックドアリスクは広範囲に調査されているが、PFLの応用では未調査のままである。 本研究では,バックドア攻撃に対するPFLの脆弱性を深く掘り下げる。 私たちの分析は2つの都市の物語を示している。 一方、PFLのパーソナライズプロセスは、パーソナライズされたローカルモデルに注入されたバックドア中毒効果を減弱することができる。 さらに、PFLシステムはサーバエンドとクライアントエンドの両方の防御機構を展開でき、バックドア攻撃に対する障壁を強化することができる。 一方,本研究は,これらの防御法で強化されたPFLが,セキュリティの誤った感覚を与える可能性を示唆している。 PFLシステムに適用可能なステルスで効果的なバックドア攻撃戦略である「textit{PFedBA}」を提案する。 \textit{PFedBA}は、トリガ生成プロセスを最適化することにより、バックドア学習タスクをPFLのメイン学習タスクと巧みに整合させる。 我々の総合的な実験は、パーソナライズされたローカルモデルにシームレスにトリガを埋め込む方法における \textit{PFedBA} の有効性を実証した。 \textit{PFedBA} は10の最先端のPFLアルゴリズムに対して優れた攻撃性能を示し、既存の6つの防御機構を破る。 我々の研究は、PFLシステムに対する微妙ながら強力なバックドアの脅威に光を当て、新たなバックドアの課題に対する防衛を強化するようコミュニティに促している。

Federated Learning (FL) is a collaborative machine learning technique where multiple clients work together with a central server to train a global model without sharing their private data. However, the distribution shift across non-IID datasets of clients poses a challenge to this one-model-fits-all method hindering the ability of the global model to effectively adapt to each client's unique local data. To echo this challenge, personalized FL (PFL) is designed to allow each client to create personalized local models tailored to their private data. While extensive research has scrutinized backdoor risks in FL, it has remained underexplored in PFL applications. In this study, we delve deep into the vulnerabilities of PFL to backdoor attacks. Our analysis showcases a tale of two cities. On the one hand, the personalization process in PFL can dilute the backdoor poisoning effects injected into the personalized local models. Furthermore, PFL systems can also deploy both server-end and client-end defense mechanisms to strengthen the barrier against backdoor attacks. On the other hand, our study shows that PFL fortified with these defense methods may offer a false sense of security. We propose \textit{PFedBA}, a stealthy and effective backdoor attack strategy applicable to PFL systems. \textit{PFedBA} ingeniously aligns the backdoor learning task with the main learning task of PFL by optimizing the trigger generation process. Our comprehensive experiments demonstrate the effectiveness of \textit{PFedBA} in seamlessly embedding triggers into personalized local models. \textit{PFedBA} yields outstanding attack performance across 10 state-of-the-art PFL algorithms, defeating the existing 6 defense mechanisms. Our study sheds light on the subtle yet potent backdoor threats to PFL systems, urging the community to bolster defenses against emerging backdoor challenges.
翻訳日:2024-06-11 14:07:44 公開日:2024-06-10
# 量子アーキテクチャ検索: サーベイ

Quantum Architecture Search: A Survey ( http://arxiv.org/abs/2406.06210v1 )

ライセンス: Link先を確認
Darya Martyniuk, Johannes Jung, Adrian Paschke, (参考訳) 近年、量子コンピューティングは大きな進歩を遂げており、研究所だけでなく様々な産業でも大きな関心を集めている。 しかし、現実の問題を解決する量子コンピューティングの応用は、ハードウェアの制限や量子アルゴリズムの比較的未探索の状況、特に古典的コンピューティングの広範な発展に比較した場合など、多くの課題によっていまだに妨げられている。 量子回路の設計、特に古典的手法で最適化された学習可能なパラメータを含むパラメータ化量子回路(PQC)は、専門知識を必要とする非自明で時間を要するタスクである。 その結果、量子アーキテクチャサーチ(QAS)として知られるPQCの自動生成の研究が注目されている。 QASは、量子ハードウェアの特定の問題や特性に合わせたPQCを生成するために、機械学習と最適化駆動技術の使用に焦点を当てている。 本稿では,本研究の分野における研究成果を整理し,QAS手法の概要について述べる。 我々は、最適なPQCの自動探索の設計と実行における主な課題について論じ、今後の研究を容易にするためにそれらに対処する方法を調査する。

Quantum computing has made significant progress in recent years, attracting immense interest not only in research laboratories but also in various industries. However, the application of quantum computing to solve real-world problems is still hampered by a number of challenges, including hardware limitations and a relatively under-explored landscape of quantum algorithms, especially when compared to the extensive development of classical computing. The design of quantum circuits, in particular parameterized quantum circuits (PQCs), which contain learnable parameters optimized by classical methods, is a non-trivial and time-consuming task requiring expert knowledge. As a result, research on the automated generation of PQCs, known as quantum architecture search (QAS), has gained considerable interest. QAS focuses on the use of machine learning and optimization-driven techniques to generate PQCs tailored to specific problems and characteristics of quantum hardware. In this paper, we provide an overview of QAS methods by examining relevant research studies in the field. We discuss main challenges in designing and performing an automated search for an optimal PQC, and survey ways to address them to ease future research.
翻訳日:2024-06-11 14:07:44 公開日:2024-06-10
# iMotion-LLM:モーション予測インストラクションチューニング

iMotion-LLM: Motion Prediction Instruction Tuning ( http://arxiv.org/abs/2406.06211v1 )

ライセンス: Link先を確認
Abdulwahab Felemban, Eslam Mohamed Bakr, Xiaoqian Shen, Jian Ding, Abduallah Mohamed, Mohamed Elhoseiny, (参考訳) iMotion-LLM: a Multimodal Large Language Models (LLM) with trajectory prediction, tailored to guide interactive multi-agent scenarios。 従来の動作予測手法とは違って,iMotion-LLMは文脈に関連のある軌道を生成するための重要な入力としてテキスト命令を利用する。 このデータセットを活用して、iMotion-LLMは、LoRAで微調整されたトレーニング済みのLLMを統合し、シーン特徴をLLM入力空間に変換する。 iMotion-LLMは従来の動き予測モデルよりも大きな利点がある。 第一に、もしそれが実現可能な方向であれば、提供された命令と整合する軌道を生成することができる。 第二に、不可能な方向が与えられると、命令を拒否でき、安全性が向上する。 これらの発見は、自律航法システムがマルチエージェント環境の力学を解釈し、予測する上でのマイルストーンとして機能し、この分野における将来の進歩の基盤となる。

We introduce iMotion-LLM: a Multimodal Large Language Models (LLMs) with trajectory prediction, tailored to guide interactive multi-agent scenarios. Different from conventional motion prediction approaches, iMotion-LLM capitalizes on textual instructions as key inputs for generating contextually relevant trajectories.By enriching the real-world driving scenarios in the Waymo Open Dataset with textual motion instructions, we created InstructWaymo. Leveraging this dataset, iMotion-LLM integrates a pretrained LLM, fine-tuned with LoRA, to translate scene features into the LLM input space. iMotion-LLM offers significant advantages over conventional motion prediction models. First, it can generate trajectories that align with the provided instructions if it is a feasible direction. Second, when given an infeasible direction, it can reject the instruction, thereby enhancing safety. These findings act as milestones in empowering autonomous navigation systems to interpret and predict the dynamics of multi-agent environments, laying the groundwork for future advancements in this field.
翻訳日:2024-06-11 14:07:44 公開日:2024-06-10
# 正規化に基づく連続学習の統計的理論

A Statistical Theory of Regularization-Based Continual Learning ( http://arxiv.org/abs/2406.06213v1 )

ライセンス: Link先を確認
Xuyang Zhao, Huiyuan Wang, Weiran Huang, Wei Lin, (参考訳) 線形回帰タスクの列における正規化に基づく連続学習の統計的解析を行い、正規化条件の違いがモデル性能に与える影響を強調した。 まず、全てのデータが同時に利用可能であるかのように得られたオラクル推定器の収束率を導出する。 次に、最小ノルム推定器と連続尾根回帰を含む行列値ハイパーパラメータによってインデックス付けされた一般化された$\ell_2$-regularizationアルゴリズムの族を考える。 より多くのタスクが導入されるにつれて、一般化された$\ell_2$-regularized estimatorの推定誤差に対して反復的な更新式が導出され、そこから最適なアルゴリズムとなるハイパーパラメータが決定される。 興味深いことに、ハイパーパラメータの選択は、前方と後方の知識伝達の間のトレードオフを効果的にバランスさせ、データの不均一性を調整することができる。 さらに、最適アルゴリズムの推定誤差は、オラクル推定器と同じ順序で明示的に導出される。 対照的に、最小ノルム推定器と連続尾根回帰に対する下限は、それらの亜最適性を示す。 我々の理論解析の副産物は、早期停止と連続学習における$\ell_2$-regularizationの一般化の等価性であり、これは独立した関心を持つかもしれない。 最後に、我々の理論を補完する実験を行う。

We provide a statistical analysis of regularization-based continual learning on a sequence of linear regression tasks, with emphasis on how different regularization terms affect the model performance. We first derive the convergence rate for the oracle estimator obtained as if all data were available simultaneously. Next, we consider a family of generalized $\ell_2$-regularization algorithms indexed by matrix-valued hyperparameters, which includes the minimum norm estimator and continual ridge regression as special cases. As more tasks are introduced, we derive an iterative update formula for the estimation error of generalized $\ell_2$-regularized estimators, from which we determine the hyperparameters resulting in the optimal algorithm. Interestingly, the choice of hyperparameters can effectively balance the trade-off between forward and backward knowledge transfer and adjust for data heterogeneity. Moreover, the estimation error of the optimal algorithm is derived explicitly, which is of the same order as that of the oracle estimator. In contrast, our lower bounds for the minimum norm estimator and continual ridge regression show their suboptimality. A byproduct of our theoretical analysis is the equivalence between early stopping and generalized $\ell_2$-regularization in continual learning, which may be of independent interest. Finally, we conduct experiments to complement our theory.
翻訳日:2024-06-11 14:07:44 公開日:2024-06-10
# 3DGSによる暗黒の照明:HDRビュー合成のための高速トレーニングとリアルタイムレンダリング

Lighting Every Darkness with 3DGS: Fast Training and Real-Time Rendering for HDR View Synthesis ( http://arxiv.org/abs/2406.06216v1 )

ライセンス: Link先を確認
Xin Jin, Pengyi Jiao, Zheng-Peng Duan, Xingchao Yang, Chun-Le Guo, Bo Ren, Chongyi Li, (参考訳) NeRFのようなボリュームレンダリングベースの手法は、特に夜間シーンにおいてRAWimagesからのHDRビュー合成に優れる。 一方、長いトレーニング時間に悩まされており、サンプリング要求が密集しているためリアルタイムレンダリングを行うことができない。 3D Gaussian Splatting(3DGS)の登場により、リアルタイムレンダリングと高速なトレーニングが可能になる。 しかし、3DGSを直接利用するRAW画像ベースビュー合成の実装は、固有の欠点のために困難である。 1)夜間のシーンでは、非常に低いSNRは、遠方からの視点でのSfM(Structure-from-motion)推定に繋がる。 2)球面調和関数(SH)の限られた表現能力はRAW線色空間には適さない。 3)不正確なシーン構造は、リフォーカスのような下流のタスクをハマーする。 これらの問題に対処するため、LE3D (Lighting Every Dark with 3DGS)を提案する。 提案手法は,SfMの推定をリッチにするためにコーン散乱初期化を提案し,RAW線形色空間を表すためにSHをカラーMLPに置き換える。 さらに,下流タスクのシーン構造を精度良くするために,深度歪みとニアファスト正規化を導入する。 これらの設計により、LE3Dはリアルタイムのノベルビュー合成、HDRレンダリング、リフォーカス、トーンマッピングなどを行うことができる。 従来のボリュームレンダリングベースの手法と比較して、LE3Dはトレーニング時間を1%に短縮し、2K解像度画像のFPSで最大4,000倍のレンダリング速度を改善する。 コードとビューアはhttps://github.com/Srameo/LE3D で確認できる。

Volumetric rendering based methods, like NeRF, excel in HDR view synthesis from RAWimages, especially for nighttime scenes. While, they suffer from long training times and cannot perform real-time rendering due to dense sampling requirements. The advent of 3D Gaussian Splatting (3DGS) enables real-time rendering and faster training. However, implementing RAW image-based view synthesis directly using 3DGS is challenging due to its inherent drawbacks: 1) in nighttime scenes, extremely low SNR leads to poor structure-from-motion (SfM) estimation in distant views; 2) the limited representation capacity of spherical harmonics (SH) function is unsuitable for RAW linear color space; and 3) inaccurate scene structure hampers downstream tasks such as refocusing. To address these issues, we propose LE3D (Lighting Every darkness with 3DGS). Our method proposes Cone Scatter Initialization to enrich the estimation of SfM, and replaces SH with a Color MLP to represent the RAW linear color space. Additionally, we introduce depth distortion and near-far regularizations to improve the accuracy of scene structure for downstream tasks. These designs enable LE3D to perform real-time novel view synthesis, HDR rendering, refocusing, and tone-mapping changes. Compared to previous volumetric rendering based methods, LE3D reduces training time to 1% and improves rendering speed by up to 4,000 times for 2K resolution images in terms of FPS. Code and viewer can be found in https://github.com/Srameo/LE3D .
翻訳日:2024-06-11 14:07:44 公開日:2024-06-10
# 地球観測におけるデータ拡張:拡散モデルによるアプローチ

Data Augmentation in Earth Observation: A Diffusion Model Approach ( http://arxiv.org/abs/2406.06218v1 )

ライセンス: Link先を確認
Tiago Sousa, Benoît Ries, Nicolas Guelfi, (参考訳) 高品質な地球観測(EO)画像の不足は、様々な分野において正確な分析と情報決定を可能にする上で重要な役割を担っているにもかかわらず、大きな課題となっている。 この不足は主に、大気条件、季節変動、地理的範囲の制限によるものであり、EOにおける人工知能(AI)の適用を複雑にしている。 データ拡張(Data Augmentation)は、パラメータ化された画像変換を中心に追加データを生成するAIで広く使用されているテクニックで、データのボリュームと多様性を高めるために使用されている。 しかし、この方法はキーセマンティック軸間の十分な多様性が得られず、EOアプリケーションの精度に悪影響を及ぼすことが多い。 そこで本研究では,拡散モデルの統合による拡張データの多様性向上を目的とした,新しい4段階のアプローチを提案する。 提案手法では,メタプロンプトを用いた命令生成,リッチキャプション生成のための汎用視覚言語モデル,地球観測拡散モデルによる微調整,反復的なデータ拡張を行う。 提案手法は,4つの異なるデータ拡張手法を用いて広範囲にわたる実験を行い,改良を一貫して実証し,確立された拡張手法より優れ,意味的にリッチで多様なEO画像を生成する上での有効性を明らかにした。

The scarcity of high-quality Earth Observation (EO) imagery poses a significant challenge, despite its critical role in enabling precise analysis and informed decision-making across various sectors. This scarcity is primarily due to atmospheric conditions, seasonal variations, and limited geographical coverage, which complicates the application of Artificial Intelligence (AI) in EO. Data augmentation, a widely used technique in AI that involves generating additional data mainly through parameterized image transformations, has been employed to increase the volume and diversity of data. However, this method often falls short in generating sufficient diversity across key semantic axes, adversely affecting the accuracy of EO applications. To address this issue, we propose a novel four-stage approach aimed at improving the diversity of augmented data by integrating diffusion models. Our approach employs meta-prompts for instruction generation, harnesses general-purpose vision-language models for generating rich captions, fine-tunes an Earth Observation diffusion model, and iteratively augments data. We conducted extensive experiments using four different data augmentation techniques, and our approach consistently demonstrated improvements, outperforming the established augmentation methods, revealing its effectiveness in generating semantically rich and diverse EO images.
翻訳日:2024-06-11 14:07:44 公開日:2024-06-10
# Label-Looping: トランスデューサのための高効率デコーディング

Label-Looping: Highly Efficient Decoding for Transducers ( http://arxiv.org/abs/2406.06220v1 )

ライセンス: Link先を確認
Vladimir Bataev, Hainan Xu, Daniel Galvez, Vitaly Lavrukhin, Boris Ginsburg, (参考訳) 本稿では,Transducer推論のための高効率なグリーディ復号アルゴリズムを提案する。 本稿では,CUDAテンソルを用いた並列化仮説演算をサポートするバッチ内の部分仮説を表現する新しいデータ構造を提案する。 復号中は、内部ループがすべての空白予測を消費し、非ブランク予測が外ループで処理されるネストループ設計を採用することにより、GPU並列性を最大化する。 本アルゴリズムは汎用的であり,従来のトランスデューサとToken-and-Durationトランスデューサの両方で動作する。 実験により、ラベルループアルゴリズムは、バッチサイズ32を使用する場合の従来のバッチデコードアルゴリズムと比較して2.0倍のスピードアップを実現し、他のコンパイラやGPUコール関連技術と組み合わせて、高速化を実現することができる。 我々は、研究コミュニティに利益をもたらすために、私たちの実装をオープンソースにします。

This paper introduces a highly efficient greedy decoding algorithm for Transducer inference. We propose a novel data structure using CUDA tensors to represent partial hypotheses in a batch that supports parallelized hypothesis manipulations. During decoding, our algorithm maximizes GPU parallelism by adopting a nested-loop design, where the inner loop consumes all blank predictions, while non-blank predictions are handled in the outer loop. Our algorithm is general-purpose and can work with both conventional Transducers and Token-and-Duration Transducers. Experiments show that the label-looping algorithm can bring a speedup up to 2.0X compared to conventional batched decoding algorithms when using batch size 32, and can be combined with other compiler or GPU call-related techniques to bring more speedup. We will open-source our implementation to benefit the research community.
翻訳日:2024-06-11 14:07:44 公開日:2024-06-10
# 最適資源を用いた隠れたまたは部分的に未知の量子演算子のリモート実装:一般化された視点

Remote Implementation of Hidden or Partially Unknown Quantum Operators using Optimal Resources: A Generalized View ( http://arxiv.org/abs/2406.06223v1 )

ライセンス: Link先を確認
Satish Kumar, Anirban Pathak, (参考訳) 2つのプロトコルは、特定の形式の量子作用素のリモート実装の2つの密接なリンクを持つ異なる変種に対して提案される。 第1のプロトコルは単一量子ビット隠れ量子演算子のリモート実装のために設計され、第2のプロトコルは部分的に未知の単一量子ビット量子演算子のリモート実装のために設計されている。 どちらの場合も、空間的自由度で絡み合う2ビットの最大絡み合い状態が用いられる。 ここで使われる量子資源は、初期の研究で使われたマルチパーティまたはマルチモードの絡み合った状態と比較して、最適で容易に実現および維持することができる。 提案したプロトコルは, 制御された, 双方向, 循環的, 循環的, 制御された双方向バージョンにも一般化され, 制御されたケースにおいて, ベル状態単独でもベル状態の製品でも, 制御されたケースにのみ古典的なコミュニケーションを施すだけで, それらのタスクを実行するのに十分であることを示す。 これは、大きな絡み合った状態を必要とする以前の提案とは対照的である。 さらに、複数のコントローラや/または複数のプレイヤーを含む隠れたまたは部分的に未知のオペレータのリモート実装は、ベル状態とその製品よりも複雑な量子チャネルを必要とすることに注意されたい。 このような量子チャネルの明示的な形式も提供される。

Two protocols are proposed for two closely linked but different variants of remote implementation of quantum operators of specific forms. The first protocol is designed for the remote implementation of the single qubit hidden quantum operator, whereas the second one is designed for the remote implementation of the partially unknown single qubit quantum operator. In both cases two-qubit maximally entangled state, which is entangled in the spatial degree of freedom is used. The quantum resources used here are optimal and easy to realize and maintain in comparison to the multi-partite or multi-mode entangled states used in earlier works. The proposed protocols are also generalized to their controlled, bidirectional, cyclic, controlled cyclic, and controlled bidirectional versions and it is shown that either Bell state alone or products of Bell states will be sufficient to perform these tasks with some additional classical communications in the controlled cases only. This is in sharp contrast to the earlier proposals that require large entangled states. In addition, it's noted that remote implementation of hidden or partially unknown operators involving multiple controllers and/or multiple players who jointly apply the desired operator(s) would require quantum channels more complex than the Bell states and their products. Explicit forms of such quantum channels are also provided.
翻訳日:2024-06-11 14:07:44 公開日:2024-06-10
# Siren -- 偽装と適応分析によるサイバーセキュリティの強化

Siren -- Advancing Cybersecurity through Deception and Adaptive Analysis ( http://arxiv.org/abs/2406.06225v1 )

ライセンス: Link先を確認
Girish Kulathumani, Samruth Ananthanarayanan, Ganesh Narayanan, (参考訳) Sirenは、詐欺、機械学習、積極的な脅威分析の戦略的統合によるサイバーセキュリティの強化を目的とした、先駆的な研究活動である。 このプロジェクトは神話的なサイレンからインスピレーションを得て、制御された環境に潜在的な脅威を引き出すための洗練された手法を採用している。 このシステムは、リアルタイム分析と分類のための動的機械学習モデルを備え、新興のサイバー脅威に対する継続的な適応性を保証する。 アーキテクチャフレームワークには、リンク監視プロキシ、動的リンク分析のための汎用機械学習モデル、および脅威のエンゲージメントを強化するために、シミュレーションされたユーザインタラクションに富んだハニーポットが含まれている。 ハニーポット内のデータ保護は確率暗号で強化されている。 さらに、シミュレートされたユーザアクティビティが組み込まれたことで、ユーザ離脱後も攻撃者を捕捉し、学習する能力が拡張される。 Siren氏は、サイバーセキュリティのパラダイムシフトを導入し、従来の防衛メカニズムを、潜在的な敵から積極的に関与し学習する積極的なシステムに変換する。 この研究は、サイバーセキュリティの脅威の進化に反応して、継続的な改善のための貴重な洞察を得ながら、ユーザー保護を強化することを目指している。

Siren represents a pioneering research effort aimed at fortifying cybersecurity through strategic integration of deception, machine learning, and proactive threat analysis. Drawing inspiration from mythical sirens, this project employs sophisticated methods to lure potential threats into controlled environments. The system features a dynamic machine learning model for real-time analysis and classification, ensuring continuous adaptability to emerging cyber threats. The architectural framework includes a link monitoring proxy, a purpose-built machine learning model for dynamic link analysis, and a honeypot enriched with simulated user interactions to intensify threat engagement. Data protection within the honeypot is fortified with probabilistic encryption. Additionally, the incorporation of simulated user activity extends the system's capacity to capture and learn from potential attackers even after user disengagement. Siren introduces a paradigm shift in cybersecurity, transforming traditional defense mechanisms into proactive systems that actively engage and learn from potential adversaries. The research strives to enhance user protection while yielding valuable insights for ongoing refinement in response to the evolving landscape of cybersecurity threats.
翻訳日:2024-06-11 14:07:44 公開日:2024-06-10
# 分類における再校正のためのPACベイズ解析

PAC-Bayes Analysis for Recalibration in Classification ( http://arxiv.org/abs/2406.06227v1 )

ライセンス: Link先を確認
Masahiro Fujisawa, Futoshi Futami, (参考訳) ビンニングによる非パラメトリック推定は、機械学習モデルの校正誤差評価と再校正に広く用いられている。 近年, この推定手法によるバイアスの理論的解析が盛んに行われているが, キャリブレーション誤差の未知データへの一般化の理解は依然として限られている。 また、多くの再校正アルゴリズムが提案されているが、その一般化性能には理論的保証がない。 この問題に対処するため、我々は、おそらくほぼ正しい(PAC)ベイズフレームワークの下でキャリブレーション誤差の一般化解析を行う。 このアプローチにより、キャリブレーションコンテキストにおける一般化誤差に対して、第1の最適化可能な上限を導出できる。 次に,一般化理論に基づく一般化対応再校正アルゴリズムを提案する。 数値実験により,提案アルゴリズムはガウス過程に基づく様々なベンチマークデータセットやモデル上での校正性能を向上させることが示された。

Nonparametric estimation with binning is widely employed in the calibration error evaluation and the recalibration of machine learning models. Recently, theoretical analyses of the bias induced by this estimation approach have been actively pursued; however, the understanding of the generalization of the calibration error to unknown data remains limited. In addition, although many recalibration algorithms have been proposed, their generalization performance lacks theoretical guarantees. To address this problem, we conduct a generalization analysis of the calibration error under the probably approximately correct (PAC) Bayes framework. This approach enables us to derive a first optimizable upper bound for the generalization error in the calibration context. We then propose a generalization-aware recalibration algorithm based on our generalization theory. Numerical experiments show that our algorithm improves the Gaussian-process-based recalibration performance on various benchmark datasets and models.
翻訳日:2024-06-11 13:58:00 公開日:2024-06-10
# UEMM-Air:無人航空機物体検出のための合成マルチモーダルデータセット

UEMM-Air: A Synthetic Multi-modal Dataset for Unmanned Aerial Vehicle Object Detection ( http://arxiv.org/abs/2406.06230v1 )

ライセンス: Link先を確認
Fan Liu, Liang Yao, Shengxiang Xu, Chuanyi Zhang, Xinlei Zhang, Ting Wu, (参考訳) 無人航空機(UAV)のマルチモーダル物体検出の開発は、通常、大量のピクセル配列のマルチモーダル画像データに依存している。 しかし、既存のデータセットは、制限されたモダリティ、高い建設コスト、不正確なアノテーションといった課題に直面している。 そこで本研究では,UAVをベースとした複合型オブジェクト検出データセットUEMM-Airを提案する。 具体的には,Unreal Engine (UE) を用いて,様々なUAV飛行シナリオとオブジェクトタイプをシミュレートする。 次に、UAVの飛行ロジックを設計し、さまざまなシナリオ、視点、高度からデータを自動的に収集します。 最後に,新しいヒューリスティックな自動アノテーションアルゴリズムを提案し,正確なオブジェクト検出ラベルを生成する。 UEMM-Airは5つのモダリティと正確なアノテーションを備えた20万枚の画像で構成されています。 さらに、多数の実験を行い、データセット上で新しいベンチマーク結果を確立する。 UEMM-Airで事前訓練したモデルでは、他の類似したデータセットと比較して下流タスクの性能が向上することがわかった。 データセットは公開されており(https://github.com/1e12Leon/UEMM-Air)、マルチモーダルUAVオブジェクト検出モデルの研究をサポートする。

The development of multi-modal object detection for Unmanned Aerial Vehicles (UAVs) typically relies on a large amount of pixel-aligned multi-modal image data. However, existing datasets face challenges such as limited modalities, high construction costs, and imprecise annotations. To this end, we propose a synthetic multi-modal UAV-based object detection dataset, UEMM-Air. Specially, we simulate various UAV flight scenarios and object types using the Unreal Engine (UE). Then we design the UAV's flight logic to automatically collect data from different scenarios, perspectives, and altitudes. Finally, we propose a novel heuristic automatic annotation algorithm to generate accurate object detection labels. In total, our UEMM-Air consists of 20k pairs of images with 5 modalities and precise annotations. Moreover, we conduct numerous experiments and establish new benchmark results on our dataset. We found that models pre-trained on UEMM-Air exhibit better performance on downstream tasks compared to other similar datasets. The dataset is publicly available (https://github.com/1e12Leon/UEMM-Air) to support the research of multi-modal UAV object detection models.
翻訳日:2024-06-11 13:58:00 公開日:2024-06-10
# 未知のサンプルサイズを持つプライバタイズデータの統計的推測

Statistical Inference for Privatized Data with Unknown Sample Size ( http://arxiv.org/abs/2406.06231v1 )

ライセンス: Link先を確認
Jordan Awan, Andres Felipe Barrientos, Nianqiao Ju, (参考訳) 我々は,プライバシ保護を必要とする機密量であるサンプルサイズであっても,非有界差分プライバシー(DP)における民営化データを解析するための理論とアルゴリズムを開発した。 非有界DPと有界DPのサンプリング分布間の距離は、サンプルサイズ$n$が無限大となるにつれてゼロとなることを示し、$n$を民営化する雑音が適切な速度で発生すること、ABC型後続分布が同様の仮定で収束することを証明した。 我々はさらに、$n$のプライバシー予算がゼロになる体制において漸近的な結果を与え、サンプリング分布の類似性を確立し、非有界設定のMLEが有界-DP MLEに収束することを示す。 非有界DP設定における民営化データの有限サンプルベイズ推論を容易にするために,Ju et al (2022)のデータ拡張MCMCを拡張する可逆ジャンプMCMCアルゴリズムを提案する。 また,制限付きDPと非有界DPの両方において,民生データからMLEを計算するモンテカルロEMアルゴリズムを提案する。 我々は,線形回帰モデルと,ディリクレ分布を用いてモデル化した2019年のアメリカン・タイム・ユース・サーベイ・マイクロデータファイルを分析するために,本手法を適用した。

We develop both theory and algorithms to analyze privatized data in the unbounded differential privacy(DP), where even the sample size is considered a sensitive quantity that requires privacy protection. We show that the distance between the sampling distributions under unbounded DP and bounded DP goes to zero as the sample size $n$ goes to infinity, provided that the noise used to privatize $n$ is at an appropriate rate; we also establish that ABC-type posterior distributions converge under similar assumptions. We further give asymptotic results in the regime where the privacy budget for $n$ goes to zero, establishing similarity of sampling distributions as well as showing that the MLE in the unbounded setting converges to the bounded-DP MLE. In order to facilitate valid, finite-sample Bayesian inference on privatized data in the unbounded DP setting, we propose a reversible jump MCMC algorithm which extends the data augmentation MCMC of Ju et al. (2022). We also propose a Monte Carlo EM algorithm to compute the MLE from privatized data in both bounded and unbounded DP. We apply our methodology to analyze a linear regression model as well as a 2019 American Time Use Survey Microdata File which we model using a Dirichlet distribution.
翻訳日:2024-06-11 13:58:00 公開日:2024-06-10
# コヒーレンスを伴う量子熱力学:共変ギブス保存操作は自由エネルギーによって特徴づけられる

Quantum thermodynamics with coherence: Covariant Gibbs-preserving operation is characterized by the free energy ( http://arxiv.org/abs/2406.06234v1 )

ライセンス: Link先を確認
Naoto Shiraishi, (参考訳) 共変ギブス保存操作を用いた資源理論について検討した。 相関触媒の助けを借りて、任意のコヒーレント状態の状態変換性は、量子相対エントロピーで定義される自由エネルギーによって完全に特徴づけられることを証明した。 一般資源理論に共変条件を課すことで、初期状態がコヒーレントで蒸留可能である限り、状態変換性は変化しないという形で、この結果を一般的な資源理論にまで拡張することができる。 これは、エネルギー保存の法則からの付加的な制約が相関触媒の枠組みに無関係であることを意味する。

The resource theory with covariant Gibbs-preserving operations, also called enhanced thermal operations, is investigated. We prove that with the help of a correlated catalyst, the state convertibility for any coherent state is fully characterized by the free energy defined with the quantum relative entropy. We can extend this result to general resource theories in the form that imposing the covariant condition to a general resource theory does not change the state convertibility as long as the initial state is coherent and distillable. This means that the additional constraint from the law of energy conservation is irrelevant in the correlated-catalytic framework.
翻訳日:2024-06-11 13:58:00 公開日:2024-06-10
# UnSupDLA: 教師なしドキュメントレイアウト分析を目指して

UnSupDLA: Towards Unsupervised Document Layout Analysis ( http://arxiv.org/abs/2406.06236v1 )

ライセンス: Link先を確認
Talha Uddin Sheikh, Tahira Shehzadi, Khurram Azeem Hashmi, Didier Stricker, Muhammad Zeshan Afzal, (参考訳) 文書レイアウト分析は文書研究において重要な領域であり、テキストマイニングやビジュアル分析のような技術を含んでいる。 レイアウト解析に対処するために様々な手法が開発されたが、重要ではあるがしばしば見落とされがちな問題は、分析に必要なラベル付きデータの不足である。 インターネットの普及に伴い、膨大な数の文書がオンラインで入手できるようになり、研究目的のために正確にラベル付けするプロセスはますます難しくなり、労働集約化が進んでいる。 さらに、オンライン文書の多様性は、これらのラベルの品質と一貫性を維持する上で、ユニークな課題の集合を示し、デジタル時代の文書レイアウト解析をさらに複雑にしている。 そこで我々は,ラベルを使わずにネットワークをトレーニングするために設計された文書レイアウトを,視覚に基づく手法を用いて分析する。 代わりに、未ラベルのドキュメントイメージから、最初は単純なオブジェクトマスクを生成する事前トレーニングに重点を置いています。 これらのマスクは検出器の訓練に使用され、物体の検出とセグメンテーション性能を向上させる。 モデルの有効性は、教師なしのトレーニングイテレーションを通じてさらに増幅され、そのパフォーマンスを継続的に改善する。 このアプローチは文書レイアウト解析、特に精度と効率をラベルなしで大幅に向上させる。

Document layout analysis is a key area in document research, involving techniques like text mining and visual analysis. Despite various methods developed to tackle layout analysis, a critical but frequently overlooked problem is the scarcity of labeled data needed for analyses. With the rise of internet use, an overwhelming number of documents are now available online, making the process of accurately labeling them for research purposes increasingly challenging and labor-intensive. Moreover, the diversity of documents online presents a unique set of challenges in maintaining the quality and consistency of these labels, further complicating document layout analysis in the digital era. To address this, we employ a vision-based approach for analyzing document layouts designed to train a network without labels. Instead, we focus on pre-training, initially generating simple object masks from the unlabeled document images. These masks are then used to train a detector, enhancing object detection and segmentation performance. The model's effectiveness is further amplified through several unsupervised training iterations, continuously refining its performance. This approach significantly advances document layout analysis, particularly precision and efficiency, without labels.
翻訳日:2024-06-11 13:58:00 公開日:2024-06-10
# 推論時間デコードによる効率的なニューラル圧縮

Efficient Neural Compression with Inference-time Decoding ( http://arxiv.org/abs/2406.06237v1 )

ライセンス: Link先を確認
C. Metz, O. Bichler, A. Dupret, (参考訳) 本稿では,メモリフットプリント最小化のためのニューラルネットワーク量子化とエントロピー符号化の組み合わせについて検討する。 量子化モデルのエッジ展開は、精度とビット幅のトレードオフの厳しいパレートフロンティアによって妨げられ、一定のビット幅以下で劇的に精度が低下する。 この精度損失は、混合精度量子化により軽減され、より柔軟なビット幅割り当てが可能となる。 しかし、1ビットのフロンティアのため、標準的な混合精度の利点は依然として限られており、各パラメータは少なくとも1ビットのデータでエンコードされなければならない。 本稿では、1ビットフロンティアを超えてResnetsの圧縮境界を押し上げるために、混合精度、ゼロポイント量子化、エントロピー符号化を組み合わせたアプローチを提案する。 実装の観点からは、コンパクトデコーダアーキテクチャは遅延を低減し、推論互換のデコードを可能にする。

This paper explores the combination of neural network quantization and entropy coding for memory footprint minimization. Edge deployment of quantized models is hampered by the harsh Pareto frontier of the accuracy-to-bitwidth tradeoff, causing dramatic accuracy loss below a certain bitwidth. This accuracy loss can be alleviated thanks to mixed precision quantization, allowing for more flexible bitwidth allocation. However, standard mixed precision benefits remain limited due to the 1-bit frontier, that forces each parameter to be encoded on at least 1 bit of data. This paper introduces an approach that combines mixed precision, zero-point quantization and entropy coding to push the compression boundary of Resnets beyond the 1-bit frontier with an accuracy drop below 1% on the ImageNet benchmark. From an implementation standpoint, a compact decoder architecture features reduced latency, thus allowing for inference-compatible decoding.
翻訳日:2024-06-11 13:58:00 公開日:2024-06-10
# I-MPN:モバイルアイトラッキングデータの効果的かつ効率的なヒューマン・イン・ザ・ループアノテーションのためのインダクティブメッセージパッシングネットワーク

I-MPN: Inductive Message Passing Network for Effective and Efficient Human-in-the-Loop Annotation of Mobile Eye Tracking Data ( http://arxiv.org/abs/2406.06239v1 )

ライセンス: Link先を確認
Hoang H. Le, Duy M. H. Nguyen, Omair Shahzad Bhatti, Laszlo Kopacsi, Thinh P. Ngo, Binh T. Nguyen, Michael Barz, Daniel Sonntag, (参考訳) 動的環境における人間の視覚的処理を理解することは、心理学と人間中心の相互作用設計に不可欠である。 エゴ中心のビデオと視線信号を組み合わせたモバイルアイトラッキングシステムは、貴重な洞察を提供する。 しかし、これらの記録を手動で分析することは時間集約的である。 本研究では,移動眼球追跡設定における物体の自動認識のための新しい人中心学習アルゴリズムを提案する。 提案手法は,ノードプロファイル情報や位置などのノード特徴を利用する誘導型メッセージパッシングネットワーク技術(I-MPN)とオブジェクト検出器をシームレスに統合する。 この統合により,新しいオブジェクトアングルビューに一般化可能な埋め込み関数の学習が可能となり,ユーザが環境をナビゲートする際の動的コンテキストの迅速な適応と効率的な推論が容易になる。 3つの異なるビデオシーケンスで行った実験を通じて,ユーザのフィードバックによって収集されたより小さな注釈付きサンプルをトレーニングした場合においても,固定トレーニング/テストアルゴリズムよりも大幅に性能が向上することを示した。 さらに、データアノテーションプロセスにおいて例外的な効率性を示し、完全なオブジェクト検出器を使用するアプローチを超越し、検出器を畳み込みネットワークと組み合わせたり、インタラクティブなビデオセグメンテーションを利用する。

Understanding human visual processing in dynamic environments is essential for psychology and human-centered interaction design. Mobile eye-tracking systems, combining egocentric video and gaze signals, offer valuable insights. However, manual analysis of these recordings is time-intensive. In this work, we present a novel human-centered learning algorithm designed for automated object recognition within mobile eye-tracking settings. Our approach seamlessly integrates an object detector with an inductive message-passing network technique (I-MPN), harnessing node features such as node profile information and positions. This integration enables our algorithm to learn embedding functions capable of generalizing to new object angle views, thereby facilitating rapid adaptation and efficient reasoning in dynamic contexts as users navigate through their environment. Through experiments conducted on three distinct video sequences, our \textit{interactive-based method} showcases significant performance improvements over fixed training/testing algorithms, even when trained on considerably smaller annotated samples collected through user feedback. Furthermore, we showcase exceptional efficiency in data annotation processes, surpassing approaches that use complete object detectors, combine detectors with convolutional networks, or employ interactive video segmentation.
翻訳日:2024-06-11 13:58:00 公開日:2024-06-10
# ニューラルネットワークによるデータ効率向上学習

Data-Efficient Learning with Neural Programs ( http://arxiv.org/abs/2406.06246v1 )

ライセンス: Link先を確認
Alaia Solko-Breslin, Seewon Choi, Ziyang Li, Neelay Velingker, Rajeev Alur, Mayur Naik, Eric Wong, (参考訳) 多くの計算タスクはDNNの合成として自然に表現され、その後に従来のプログラミング言語で書かれたプログラムやLLMへのAPI呼び出しが続く。 このようなコンポジットを「ニューラルプログラム」と呼び、トレーニングデータが合成のためのエンドツーエンドの入力出力ラベルで構成されている場合、DNNパラメータを学習する問題に焦点を当てる。 プログラムが微分可能な論理プログラム言語で書かれた場合、ニューロシンボリック学習の技法が適用できるが、一般的には、ニューラルネットワークの学習はブラックボックス成分の勾配を推定する必要がある。 我々は,ブラックボックスコンポーネントの入力出力サンプルのみに依存する,ISEDと呼ばれるニューラルプログラムの学習アルゴリズムを提案する。 評価のために, GPT-4 などの近代 LLM へのコールを含む新しいベンチマークを導入するとともに, ニューロシンボリック学習文献からのベンチマークも検討する。 後者のベンチマークでは,ISEDは最先端のニューロシンボリック・フレームワークに匹敵する性能を示した。 前者に対しては,ブラックボックス成分の勾配近似に関する先行研究をベースラインとして使用し,ISEDの精度は同等だが,よりデータ効率とサンプル効率のよい方法を示す。

Many computational tasks can be naturally expressed as a composition of a DNN followed by a program written in a traditional programming language or an API call to an LLM. We call such composites "neural programs" and focus on the problem of learning the DNN parameters when the training data consist of end-to-end input-output labels for the composite. When the program is written in a differentiable logic programming language, techniques from neurosymbolic learning are applicable, but in general, the learning for neural programs requires estimating the gradients of black-box components. We present an algorithm for learning neural programs, called ISED, that only relies on input-output samples of black-box components. For evaluation, we introduce new benchmarks that involve calls to modern LLMs such as GPT-4 and also consider benchmarks from the neurosymolic learning literature. Our evaluation shows that for the latter benchmarks, ISED has comparable performance to state-of-the-art neurosymbolic frameworks. For the former, we use adaptations of prior work on gradient approximations of black-box components as a baseline, and show that ISED achieves comparable accuracy but in a more data- and sample-efficient manner.
翻訳日:2024-06-11 13:58:00 公開日:2024-06-10
# Compute Better Spent: 構造化マトリクスで高密度層をリプレース

Compute Better Spent: Replacing Dense Layers with Structured Matrices ( http://arxiv.org/abs/2406.06248v1 )

ライセンス: Link先を確認
Shikai Qiu, Andres Potapczynski, Marc Finzi, Micah Goldblum, Andrew Gordon Wilson, (参考訳) 密度線形層は基礎モデルにおいて支配的な計算ボトルネックである。 より効率的な高密度行列の代替を同定することは、画像領域における畳み込みネットワークの成功によって実証されるように、より計算効率の良いモデルを構築する大きな可能性を秘めている。 本研究では,高密度行列の代替として構造化行列を体系的に探索する。 異なる構造は、特にモデルスケールにおいて、パフォーマンスに不可欠な、非常に異なる初期化尺度と学習率を必要とすることがよく示される。 最大更新パラメーター化からの洞察を用いて、これらの非伝統的なレイヤの初期化と学習率の最適スケーリングを決定する。 最後に、異なる構造のスケーリング法則を測定し、それらの性能が計算によってどれだけ早く向上するかを比較する。 本稿では,モナール行列を含む新しい行列族BTT(Block Tensor-Train)を提案する。 拡張したCIFAR-10/100では、BTTは、MLPとViTのトレーニングにおいて、密度よりも指数関数的に低いトレーニング損失を達成する。 BTTはImageNet-1kの高密度なViT-S/32性能と3.8倍の計算量で一致し、小さなGPT-2言語モデルのトレーニングに高効率である。

Dense linear layers are the dominant computational bottleneck in foundation models. Identifying more efficient alternatives to dense matrices has enormous potential for building more compute-efficient models, as exemplified by the success of convolutional networks in the image domain. In this work, we systematically explore structured matrices as replacements for dense matrices. We show that different structures often require drastically different initialization scales and learning rates, which are crucial to performance, especially as models scale. Using insights from the Maximal Update Parameterization, we determine the optimal scaling for initialization and learning rates of these unconventional layers. Finally, we measure the scaling laws of different structures to compare how quickly their performance improves with compute. We propose a novel matrix family containing Monarch matrices, the Block Tensor-Train (BTT), which we show performs better than dense matrices for the same compute on multiple tasks. On CIFAR-10/100 with augmentation, BTT achieves exponentially lower training loss than dense when training MLPs and ViTs. BTT matches dense ViT-S/32 performance on ImageNet-1k with 3.8 times less compute and is more efficient than dense for training small GPT-2 language models.
翻訳日:2024-06-11 13:58:00 公開日:2024-06-10
# 効率的な微調整による音声生成における微粒化制御の学習

Learning Fine-Grained Controllability on Speech Generation via Efficient Fine-Tuning ( http://arxiv.org/abs/2406.06251v1 )

ライセンス: Link先を確認
Chung-Ming Chien, Andros Tjandra, Apoorv Vyas, Matt Le, Bowen Shi, Wei-Ning Hsu, (参考訳) 生成モデルの規模が拡大するにつれて、事前訓練されたモデルの効率的な再利用と適応が重要な考慮事項となっている。 そこで本研究では,音声ボックス・アダプタ(Voicebox Adapter)を提案する。これは,微粒な条件を,クロスアテンション・モジュールを用いて事前学習した音声ボックス音声生成モデルに統合する手法である。 新たに追加されたモジュールと事前訓練したモジュールのスムーズな統合を保証するため、様々な効率的な微調整アプローチを探索する。 音声品質を損なうことなく、制御性を向上させるため、バイアス調整構成のLoRAが最高の性能を発揮することを示す。 3つのきめ細かい条件生成タスクにまたがって,Voicebox Adapterの有効性と資源効率を実証する。 フォローアップ実験は、さまざまなデータ設定におけるVoicebox Adapterの堅牢性をさらに強調する。

As the scale of generative models continues to grow, efficient reuse and adaptation of pre-trained models have become crucial considerations. In this work, we propose Voicebox Adapter, a novel approach that integrates fine-grained conditions into a pre-trained Voicebox speech generation model using a cross-attention module. To ensure a smooth integration of newly added modules with pre-trained ones, we explore various efficient fine-tuning approaches. Our experiment shows that the LoRA with bias-tuning configuration yields the best performance, enhancing controllability without compromising speech quality. Across three fine-grained conditional generation tasks, we demonstrate the effectiveness and resource efficiency of Voicebox Adapter. Follow-up experiments further highlight the robustness of Voicebox Adapter across diverse data setups.
翻訳日:2024-06-11 13:58:00 公開日:2024-06-10
# UWBにおけるリモートリダクション攻撃に対するランダム・タイムホッピング・セキュア・ランキング戦略

Random Time-hopping Secure Ranging Strategy Against Distance-Reduction Attacks in UWB ( http://arxiv.org/abs/2406.06252v1 )

ライセンス: Link先を確認
Wenlong Gou, Chuanhang Yu, Gang Wu, (参考訳) 本稿では,UWB帯における距離低減攻撃を緩和するために,冗長な信号処理のオーバーヘッドを伴わないランダムな時間ホッピング機構に基づく安全な測位方式を提案する。 さらにセキュアなレンジ戦略は、IEEE 802.15.4a/zのような既存の標準と後方互換性を持ち、攻撃検出スキームと組み合わせて設計されている。 提案手法の有効性と有効性は,Patrick Leuらによるゴーストピーク攻撃のシミュレーションと実験結果の両方で実証され,ランダムなタイムホッピング機構により,距離減少攻撃の成功率を0.01%未満に低減し,UWB範囲の安全性を著しく向上させることができることが確認された。

In order to mitigate the distance reduction attack in Ultra-Wide Band (UWB) ranging, this paper proposes a secure ranging scheme based on a random time-hopping mechanism without redundant signaling overhead. Additionally, a secure ranging strategy is designed for backward compatibility with existing standards such as IEEE 802.15.4a/z, combined with an attack detection scheme. The effectiveness and feasibility of the proposed strategy are demonstrated through both simulation and experimental results in the case of the Ghost Peak attack, as demonstrated by Patrick Leu et al. The random time-hopping mechanism is verified to be capable of reducing the success rate of distance reduction attacks to less than 0.01%, thereby significantly enhancing the security of UWB ranging.
翻訳日:2024-06-11 13:58:00 公開日:2024-06-10
# 求人投稿重複検出のための埋め込みとドメイン知識の組み合わせ

Combining Embeddings and Domain Knowledge for Job Posting Duplicate Detection ( http://arxiv.org/abs/2406.06257v1 )

ライセンス: Link先を確認
Matthias Engelbach, Dennis Klau, Maximilien Kintz, Alexander Ulrich, (参考訳) 求人説明は、企業ウェブサイト、求人掲示板、ソーシャルメディアプラットフォームなど、多くのオンラインチャンネルに掲載されている。 これらの記述は、通常、各プラットフォームの要件や異なるオーディエンスをターゲットにして、同じ仕事のために様々なテキストで発行される。 しかし、これらのテキストを扱う人々の自動採用や支援を目的として、プラットフォーム間での求人情報を集約し、同一のジョブを参照する重複記述を検出することが有用である。 本研究では,ジョブ記述中の重複を検知する手法を提案する。 重みに基づく文字類似性とテキスト埋め込みとキーワードマッチング法を組み合わせることで、説得力のある結果が得られることを示す。 特に,文字列比較と深層テキスト埋め込みの組み合わせ,および特定のスキルに対する重み付き検索リストの使用などにより,個別に満足度を達成できるアプローチは存在しないものの,全体的なパフォーマンスが著しく向上することを示す。 実運用では,本手法をベースとしたツールが使用されており,実運用からのフィードバックが評価を裏付けている。

Job descriptions are posted on many online channels, including company websites, job boards or social media platforms. These descriptions are usually published with varying text for the same job, due to the requirements of each platform or to target different audiences. However, for the purpose of automated recruitment and assistance of people working with these texts, it is helpful to aggregate job postings across platforms and thus detect duplicate descriptions that refer to the same job. In this work, we propose an approach for detecting duplicates in job descriptions. We show that combining overlap-based character similarity with text embedding and keyword matching methods lead to convincing results. In particular, we show that although no approach individually achieves satisfying performance, a combination of string comparison, deep textual embeddings, and the use of curated weighted lookup lists for specific skills leads to a significant boost in overall performance. A tool based on our approach is being used in production and feedback from real-life use confirms our evaluation.
翻訳日:2024-06-11 13:58:00 公開日:2024-06-10
# ビュー・イテレーティブ・セルフアテンション制御によるチューニング不要な視覚カスタマイズ

Tuning-Free Visual Customization via View Iterative Self-Attention Control ( http://arxiv.org/abs/2406.06258v1 )

ライセンス: Link先を確認
Xiaojie Li, Chenghao Gu, Shuzhao Xie, Yunpeng Bai, Weixiang Zhang, Zhi Wang, (参考訳) 微調整拡散モデルにより、様々な視覚的モダリティに関する幅広いパーソナライズされた生成および編集アプリケーションを実現できる。 Low-Rank Adaptation (LoRA)は微調整プロセスを加速するが、複数の参照イメージと時間を要するため、大規模およびリアルタイムアプリケーションではスケーラビリティが制限される。 本稿では,この課題に対処するために, <textit{View Iterative Self-Attention Control (VisCtrl) を提案する。 具体的には、VisCtrlは、モデルの微調整を必要とする以前のアプローチとは異なり、ターゲット画像中の別の被写体にユーザ特定被写体の外観と構造を注入する、トレーニング不要な方法である。 まず、DDIMのインバージョンにより、参照画像とターゲット画像の両方に対する初期ノイズを得る。 そして、復調段階では、自己認識機構を介して、基準画像から特徴を目標画像に注入する。 特に,この特徴注入を反復的に行うことにより,対象画像に参照画像の特徴が徐々に統合されることが保証される。 このアプローチは、数ステップで1つの参照イメージだけで、一貫性があり調和的な編集をもたらす。 さらに,プラグイン・アンド・プレイのアーキテクチャ設計と,マルチビュー編集のための機能グラデュアル・サンプリング・ストラテジーにより,複雑な視覚領域の編集を容易に行えるようにした。 大規模な実験は、画像、ビデオ、および3Dシーンのパーソナライズされた編集を含む、さまざまなタスクにおけるVisCtrlの有効性を示している。

Fine-Tuning Diffusion Models enable a wide range of personalized generation and editing applications on diverse visual modalities. While Low-Rank Adaptation (LoRA) accelerates the fine-tuning process, it still requires multiple reference images and time-consuming training, which constrains its scalability for large-scale and real-time applications. In this paper, we propose \textit{View Iterative Self-Attention Control (VisCtrl)} to tackle this challenge. Specifically, VisCtrl is a training-free method that injects the appearance and structure of a user-specified subject into another subject in the target image, unlike previous approaches that require fine-tuning the model. Initially, we obtain the initial noise for both the reference and target images through DDIM inversion. Then, during the denoising phase, features from the reference image are injected into the target image via the self-attention mechanism. Notably, by iteratively performing this feature injection process, we ensure that the reference image features are gradually integrated into the target image. This approach results in consistent and harmonious editing with only one reference image in a few denoising steps. Moreover, benefiting from our plug-and-play architecture design and the proposed Feature Gradual Sampling strategy for multi-view editing, our method can be easily extended to edit in complex visual domains. Extensive experiments show the efficacy of VisCtrl across a spectrum of tasks, including personalized editing of images, videos, and 3D scenes.
翻訳日:2024-06-11 13:58:00 公開日:2024-06-10
# PHUZZとは何か:PHP Webアプリケーションで脆弱性を見つけるためのカバレッジ誘導ファズー

What All the PHUZZ Is About: A Coverage-guided Fuzzer for Finding Vulnerabilities in PHP Web Applications ( http://arxiv.org/abs/2406.06261v1 )

ライセンス: Link先を確認
Sebastian Neef, Lorenz Kleissner, Jean-Pierre Seifert, (参考訳) カバレッジ誘導型ファジテストは、バイナリアプリケーションに強く焦点を置き、Webアプリケーションのような他のターゲットを非常に無視する研究コミュニティから大きな注目を集めている。 世界ワイドウェブの重要性は、現在までPHPで多くのウェブアプリケーションが開発されている。 本稿では,PHP Webアプリケーションにカバレッジ誘導ファジングを適用する上での課題に対処し,PHP Webアプリケーション用のモジュール型ファジングフレームワークであるPHUZZを紹介する。 PHUZZは、SQLインジェクション、リモートコマンドインジェクション、安全でないデシリアライゼーション、パストラバース、外部エンティティインジェクション、クロスサイトスクリプティング、オープンリダイレクトなど、最先端の作業よりもクライアントサイドおよびサーバサイドの脆弱性クラスを検出する新しいアプローチを使用している。 我々はPHUZZを未知の脆弱性を持つ多種多様な人工および現実世界のWebアプリケーション上で評価し、様々な最先端のファズーと比較した。 PHUZZの有効性を示すために、最も人気のあるWordPressプラグイン115の1000以上のAPIエンドポイントをファズして、20以上のセキュリティ問題と2つの新しいCVE-IDを生み出しました。 最後に、このフレームワークを公開して、Webアプリケーションファジテストに関するさらなる研究を動機づけ、奨励します。

Coverage-guided fuzz testing has received significant attention from the research community, with a strong focus on binary applications, greatly disregarding other targets, such as web applications. The importance of the World Wide Web in everyone's life cannot be overstated, and to this day, many web applications are developed in PHP. In this work, we address the challenges of applying coverage-guided fuzzing to PHP web applications and introduce PHUZZ, a modular fuzzing framework for PHP web applications. PHUZZ uses novel approaches to detect more client-side and server-side vulnerability classes than state-of-the-art related work, including SQL injections, remote command injections, insecure deserialization, path traversal, external entity injection, cross-site scripting, and open redirection. We evaluate PHUZZ on a diverse set of artificial and real-world web applications with known and unknown vulnerabilities, and compare it against a variety of state-of-the-art fuzzers. In order to show PHUZZ' effectiveness, we fuzz over 1,000 API endpoints of the 115 most popular WordPress plugins, resulting in over 20 security issues and 2 new CVE-IDs. Finally, we make the framework publicly available to motivate and encourage further research on web application fuzz testing.
翻訳日:2024-06-11 13:58:00 公開日:2024-06-10
# 階層型ネットワークのモジュール成長--効率的,汎用,ロバストなカリキュラム学習

Modular Growth of Hierarchical Networks: Efficient, General, and Robust Curriculum Learning ( http://arxiv.org/abs/2406.06262v1 )

ライセンス: Link先を確認
Mani Hamidi, Sina Khajehabdollahi, Emmanouil Giannakakis, Tim Schäfer, Anna Levina, Charley M. Wu, (参考訳) 構造的モジュラリティは、いくつかの機能的および計算上の利点に結びついている、生物学的ニューラルネットワークの広汎な特徴である。 しかし、人工知能におけるモジュラーアーキテクチャの使用は、初期の成功にもかかわらず比較的限られている。 本稿では,反復的成長カリキュラムを用いて,メモリタスクで学習したモジュールネットワークの性能と機能について考察する。 与えられた古典的非モジュラーリカレントニューラルネットワーク(RNN)では、トレーニング時間、一般化可能性、いくつかの摂動に対する堅牢性など、同等のモジュラーネットワークが複数のメトリクスにわたってより優れたパフォーマンスを発揮することが分かっています。 さらに,モジュールネットワークの接続性の違いが,その計算能力に与える影響について検討する。 次に,モジュール間の接続が固定され,モジュール間の接続のみが訓練された場合でも,モジュールトポロジによって引き起こされる帰納的バイアスがネットワークに十分な性能を示すことを示す。 我々の研究結果は、RNNの段階的なモジュラー成長が、進化の時間スケールでますます複雑なタスクを学習する利点をもたらし、よりスケーラブルで圧縮可能な人工ネットワークを構築するのに役立つことを示唆している。

Structural modularity is a pervasive feature of biological neural networks, which have been linked to several functional and computational advantages. Yet, the use of modular architectures in artificial neural networks has been relatively limited despite early successes. Here, we explore the performance and functional dynamics of a modular network trained on a memory task via an iterative growth curriculum. We find that for a given classical, non-modular recurrent neural network (RNN), an equivalent modular network will perform better across multiple metrics, including training time, generalizability, and robustness to some perturbations. We further examine how different aspects of a modular network's connectivity contribute to its computational capability. We then demonstrate that the inductive bias introduced by the modular topology is strong enough for the network to perform well even when the connectivity within modules is fixed and only the connections between modules are trained. Our findings suggest that gradual modular growth of RNNs could provide advantages for learning increasingly complex tasks on evolutionary timescales, and help build more scalable and compressible artificial networks.
翻訳日:2024-06-11 13:58:00 公開日:2024-06-10
# MaskLID:イテレーティブ・マスキングによるコードスイッチング言語識別

MaskLID: Code-Switching Language Identification through Iterative Masking ( http://arxiv.org/abs/2406.06263v1 )

ライセンス: Link先を確認
Amir Hossein Kargaran, François Yvon, Hinrich Schütze, (参考訳) 本稿では,単純で効果的なコードスイッチング (CS) 言語識別 (LID) 手法である MaskLID を提案する。 MaskLIDはいかなる訓練も必要とせず、現在の高性能の文レベルLIDを補完するように設計されている。 文レベルのLIDは、単一のラベルを提供するために単言語テキストで訓練された分類器であり、通常はスコアを確率に変換するためにソフトマックス層を使用する。 しかし、ある文がL1言語とL2言語の両方で構成されている場合、LID分類器はしばしば支配的なラベルL1のみを返す。 この制限に対処するため、MaskLIDはL1に関連するテキスト機能をマスクする戦略を採用しており、LIDは次のラウンドでL2としてテキストを分類することができる。 この方法は、LID自体を使用して、マスクを必要とする機能を特定し、外部リソースに依存しない。 本稿では,FastTextアーキテクチャをベースとした2つのオープンソース LID (GlotLID と OpenLID) に対する MaskLID の利用について検討する。 コードとデモはhttps://github.com/cisnlp/MaskLID.comで公開されている。

We present MaskLID, a simple, yet effective, code-switching (CS) language identification (LID) method. MaskLID does not require any training and is designed to complement current high-performance sentence-level LIDs. Sentence-level LIDs are classifiers trained on monolingual texts to provide single labels, typically using a softmax layer to turn scores into probabilities. However, in cases where a sentence is composed in both L1 and L2 languages, the LID classifier often only returns the dominant label L1. To address this limitation, MaskLID employs a strategy to mask text features associated with L1, allowing the LID to classify the text as L2 in the next round. This method uses the LID itself to identify the features that require masking and does not rely on any external resource. In this work, we explore the use of MaskLID for two open-source LIDs (GlotLID and OpenLID), that are both based on the FastText architecture. Code and demo are available at https://github.com/cisnlp/MaskLID.
翻訳日:2024-06-11 13:48:16 公開日:2024-06-10
# DualAD: エンド・ツー・エンド運転のダイナミックで静的な世界

DualAD: Disentangling the Dynamic and Static World for End-to-End Driving ( http://arxiv.org/abs/2406.06264v1 )

ライセンス: Link先を確認
Simon Doll, Niklas Hanselmann, Lukas Schneider, Richard Schulz, Marius Cordts, Markus Enzweiler, Hendrik P. A. Lensch, (参考訳) 自律運転のための最先端のアプローチは、全体運転タスクの複数のサブタスクを単一のパイプラインに統合し、異なるモジュール間で遅延表現を渡すことでエンドツーエンドでトレーニングすることができる。 シーンの信念状態を表現するために統一グリッドを使った従来のアプローチとは対照的に,動的エージェントと静的シーン要素を分離する専用表現を提案する。 これにより、連続する時間ステップ間で、エゴと物体の動きの両方の効果を明示的に補償し、時間を通して柔軟に信念状態を伝播することができる。 さらに、動的オブジェクトは入力されたカメラ画像だけでなく、新しい動的静的なクロスアテンションを通じて、推論された静的なシーン構造から直接恩恵を受けることができる。 挑戦的なnuScenesベンチマークに関する大規模な実験は、提案したデュアルストリーム設計の利点、特に現場で高度に動的にエージェントをモデル化する際の利点を実証し、我々のアプローチの時間的整合性の向上を強調している。 DualADという題名の手法は、独立に訓練されたシングルタスクネットワークを上回るだけでなく、従来の最先端のエンド・ツー・エンドモデルよりも、運転の関数的連鎖に沿った全てのタスクにおいて大きなマージンで改善する。

State-of-the-art approaches for autonomous driving integrate multiple sub-tasks of the overall driving task into a single pipeline that can be trained in an end-to-end fashion by passing latent representations between the different modules. In contrast to previous approaches that rely on a unified grid to represent the belief state of the scene, we propose dedicated representations to disentangle dynamic agents and static scene elements. This allows us to explicitly compensate for the effect of both ego and object motion between consecutive time steps and to flexibly propagate the belief state through time. Furthermore, dynamic objects can not only attend to the input camera images, but also directly benefit from the inferred static scene structure via a novel dynamic-static cross-attention. Extensive experiments on the challenging nuScenes benchmark demonstrate the benefits of the proposed dual-stream design, especially for modelling highly dynamic agents in the scene, and highlight the improved temporal consistency of our approach. Our method titled DualAD not only outperforms independently trained single-task networks, but also improves over previous state-of-the-art end-to-end models by a large margin on all tasks along the functional chain of driving.
翻訳日:2024-06-11 13:48:16 公開日:2024-06-10
# 交流場センサとしての境界時間結晶の量子増進とエントロピック制約

Quantum enhancements and entropic constraints to Boundary Time Crystals as sensors of AC fields ( http://arxiv.org/abs/2406.06273v1 )

ライセンス: Link先を確認
Dominic Gribben, Anna Sanpera, Rosario Fazio, Jamir Marino, Fernando Iemini, (参考訳) 本稿では,交流場センサとしてのバウンダリ時間結晶(BTC)について検討する。 境界時間結晶は、多体系のマクロな分画が時間変換対称性を破る環境に接触する物質の非平衡相である。 量子フィッシャー情報(QFI)によって定量化されるように、印加された交流場とスピンが共鳴する場合、BTCの感度が向上する。 この状態のQFIダイナミクスは、初期のパワーロー成長とラストタイム指数崩壊からなる比較的単純なアンザッツによって捉えられることが示されている。 本研究では、アンザッツパラメータのリソース(符号化時間とスピン数)によるスケーリングについて検討し、古典的QFI境界との比較により、センサ性能の適度な量子化を同定する。 この性能の正確な情報源を調べると、長いコヒーレンス時間と多部相関(量子距離論のアドバンテージ特性)にもかかわらず、BTCのエントロピーコスト(熱力学限界で無限に増大する)が交流場情報の最適復号を妨げていることが分かる。 この結果は、オープンシステムにおける量子センサーの将来的な候補に影響を及ぼし、量子力学におけるエントロピーの役割について将来の研究を後押しすることを願っている。

We investigate the use of a boundary time crystals (BTCs) as sensors of AC fields. Boundary time crystals are non-equilibrium phases of matter in contact to an environment, for which a macroscopic fraction of the many-body system breaks the time translation symmetry. We find an enhanced sensitivity of the BTC when its spins are resonant with the applied AC field, as quantified by the quantum Fisher information (QFI). The QFI dynamics in this regime is shown to be captured by a relatively simple ansatz consisting of an initial power-law growth and late-time exponential decay. We study the scaling of the ansatz parameters with resources (encoding time and number of spins) and identify a moderate quantum enhancement in the sensor performance through comparison with classical QFI bounds. Investigating the precise source of this performance, we find that despite of its long coherence time and multipartite correlations (advantageous properties for quantum metrology), the entropic cost of the BTC (which grows indefinitely in the thermodynamic limit) hinders an optimal decoding of the AC field information. This result has implications for future candidates of quantum sensors in open system and we hope it will encourage future study into the role of entropy in quantum metrology.
翻訳日:2024-06-11 13:48:16 公開日:2024-06-10
# マルチプロンピングデコーダは、よりよい言語理解を支援する

Multi-Prompting Decoder Helps Better Language Understanding ( http://arxiv.org/abs/2406.06279v1 )

ライセンス: Link先を確認
Zifeng Cheng, Zhaoling Chen, Zhiwei Jiang, Yafeng Yin, Shiping Ge, Yuliang Liu, Qing Gu, (参考訳) 最近の事前訓練された言語モデル(PLM)は、通常、ユーザに対して推論API、すなわち新興のModel-as-a-Service(MaaS)設定を提供するだけである。 MaaS PLMをパラメータや勾配にアクセスすることなく下流タスクに適応させるため、既存の手法ではPLMの出力側適応に焦点を当て、PLMをエンコーダとみなし、PLMの出力隠蔽状態とクラススコアを復号するためのタスク固有のデコーダを最適化する。 これらの手法の有効性にもかかわらず、彼らは1つのプロンプトのみを使用してPLMをデコードし、採用したプロンプトの品質に大きく依存する。 本稿では,MaaS適応のためのMPD(Multi-Prompting Decoder)フレームワークを提案する。 中心となる考え方は、サンプル毎に複数の異なるプロンプトでPLMをクエリし、複数の出力隠蔽状態とその後の復号のためのクラススコアを取得することである。 このようなマルチプロンプトデコーディングのパラダイムは、単一のプロンプトの品質への依存を同時に軽減し、数ショット設定でデータ不足の問題を緩和し、PLMから抽出したより豊かな知識を提供する。 具体的には,隠蔽状態に対する最適トランスポートを用いたマルチプロンプトデコーディングと,クラススコアに対する校正デコーディングの2つの方法を提案する。 広範にわたる実験により,本手法は,複数の自然言語理解データセットに対して,数ショット設定で最新の結果が得られることを示した。

Recent Pre-trained Language Models (PLMs) usually only provide users with the inference APIs, namely the emerging Model-as-a-Service (MaaS) setting. To adapt MaaS PLMs to downstream tasks without accessing their parameters and gradients, some existing methods focus on the output-side adaptation of PLMs, viewing the PLM as an encoder and then optimizing a task-specific decoder for decoding the output hidden states and class scores of the PLM. Despite the effectiveness of these methods, they only use a single prompt to query PLMs for decoding, leading to a heavy reliance on the quality of the adopted prompt. In this paper, we propose a simple yet effective Multi-Prompting Decoder (MPD) framework for MaaS adaptation. The core idea is to query PLMs with multiple different prompts for each sample, thereby obtaining multiple output hidden states and class scores for subsequent decoding. Such multi-prompting decoding paradigm can simultaneously mitigate reliance on the quality of a single prompt, alleviate the issue of data scarcity under the few-shot setting, and provide richer knowledge extracted from PLMs. Specifically, we propose two decoding strategies: multi-prompting decoding with optimal transport for hidden states and calibrated decoding for class scores. Extensive experiments demonstrate that our method achieves new state-of-the-art results on multiple natural language understanding datasets under the few-shot setting.
翻訳日:2024-06-11 13:48:16 公開日:2024-06-10
# 量子コンピュータにおけるオープンシステムシミュレーションの応用と資源推定

Applications and resource estimates for open system simulation on a quantum computer ( http://arxiv.org/abs/2406.06281v1 )

ライセンス: Link先を確認
Evgeny Mozgunov, (参考訳) 完全制御可能なオープンシステム量子シミュレータの応用について検討する。 普遍量子コンピュータはそのようなシミュレータを実現することができ、いくつかの古典的手法もそれを近似することができる。 2つの具体的な計算問題を導入し、その解の発見が直接科学的または工業的有用性を持つことを示した。 この科学的効用は、高価なMagLab実験で研究されているCa$_3$Co$_2$O$_6$の非平衡挙動の計算によって実証される。 具体的には、MagLabに送信する前に、手頃な価格の量子コンピュータシミュレーションを使用して材料をスクリーニングする場合、材料当たり200万ドルを節約できる。 産業利用のために,先進技術の経済価値を継続的に推定する手法を開発した。 次に,金属絶縁体遷移を用いた材料への応用について述べる。 これらの材料はまだ商業的に使われていないが、代替トランジスタ、ニューロモルフィックコンピューティング、スマートウインドウなど、量子コンピュータ上で実行される物質探索全体の合計で合計で2000万ドルにのぼる多くの潜在的な応用がある。 超伝導量子ビットハードウェア上での両アルゴリズムの0階次資源推定を行い、長寿命非平衡効果のシミュレーションが量子シミュレータに新たな課題をもたらすことを発見した。 最後に、将来の量子デバイスの性能をテストするために、植民されたソリューション問題とその難解なバージョンを紹介する。 これらの問題の意図された利用は、アプリケーションベンチマークのサイズを一致させることで、一方の解決がもう一方の解決能力を保証することである。

We study applications of a fully controllable open system quantum simulator. A universal quantum computer can realize such a simulator, and some classical methods can also approximate it. We introduce two concrete computational problems, such that finding their solution would have direct scientific or industrial utility. The scientific utility is exemplified by a computation of nonequilibrium behavior of Ca$_3$Co$_2$O$_6$, which has been studied in the costly MagLab experiments. Specifically, an order of \$2M per material can be saved if an affordable quantum computer simulation is used to screen the materials before sending them to MagLab. For industrial utility, we develop a methodology that allows researchers of various backgrounds to estimate the economic value of an emerging technology consistently. We then apply our approach to the applications of materials with a Metal-Insulator Transition. These materials have not been used commercially yet, but many potential applications, including alternative transistors, neuromorphic computing, and smart windows, amount in total to \$20M for the entire material search performed on a quantum computer. We provide zeroth-order resource estimates for both algorithms on superconducting qubit hardware, finding that simulating long-lifetime nonequilibrium effects presents a new challenge for quantum simulators. Finally, we introduce planted solution problems and their obfuscated versions to test the capabilities of the future quantum device. The intended use of those problems is to match the size of application benchmarks so that solving one guarantees the ability to solve the other.
翻訳日:2024-06-11 13:48:16 公開日:2024-06-10
# PowerInfer-2:スマートフォン上での高速大言語モデル推論

PowerInfer-2: Fast Large Language Model Inference on a Smartphone ( http://arxiv.org/abs/2406.06282v1 )

ライセンス: Link先を確認
Zhenliang Xue, Yixin Song, Zeyu Mi, Le Chen, Yubin Xia, Haibo Chen, (参考訳) 本稿では,スマートフォン上での大規模言語モデル(LLM)の高速推論のためのフレームワークであるPowerInfer-2を紹介する。 PowerInfer-2の重要な洞察は、従来の行列計算をきめ細かいニューロンクラスタ計算に分解することで、スマートフォンの異種計算、メモリ、I/Oリソースを活用することである。 具体的には、PowerInfer-2はLLM推論の様々な段階の計算戦略に適応する多形ニューロンエンジンを備えている。 さらに、セグメント化されたニューロンキャッシングときめ細かいニューロンクラスターレベルのパイプライニングを導入し、I/O操作によるオーバーヘッドを効果的に最小化し、隠蔽する。 PowerInfer-2の実装と評価は、2つのスマートフォンで幅広いLLMモデルをサポートする能力を示し、最先端のフレームワークと比較して29.2倍の速度向上を実現した。 特にPowerInfer-2は、TurboSparse-Mixtral-47Bモデルに1秒あたり11.68トークンを生成する最初のシステムである。 完全にメモリに収まるモデルでは、PowerInfer-2 は llama.cpp や MLC-LLM に匹敵する推論速度を維持しながら、メモリ使用量の約40%の削減を実現している。 デモビデオを含む詳細については、www.powerinfer.ai/v2のプロジェクトサイトを参照してください。

This paper introduces PowerInfer-2, a framework designed for high-speed inference of Large Language Models (LLMs) on smartphones, particularly effective for models whose sizes exceed the device's memory capacity. The key insight of PowerInfer-2 is to utilize the heterogeneous computation, memory, and I/O resources in smartphones by decomposing traditional matrix computations into fine-grained neuron cluster computations. Specifically, PowerInfer-2 features a polymorphic neuron engine that adapts computational strategies for various stages of LLM inference. Additionally, it introduces segmented neuron caching and fine-grained neuron-cluster-level pipelining, which effectively minimize and conceal the overhead caused by I/O operations. The implementation and evaluation of PowerInfer-2 demonstrate its capability to support a wide array of LLM models on two smartphones, achieving up to a 29.2x speed increase compared with state-of-the-art frameworks. Notably, PowerInfer-2 is the first system to serve the TurboSparse-Mixtral-47B model with a generation rate of 11.68 tokens per second on a smartphone. For models that fit entirely within the memory, PowerInfer-2 can achieve approximately a 40% reduction in memory usage while maintaining inference speeds comparable to llama.cpp and MLC-LLM. For more details, including a demonstration video, please visit the project site at www.powerinfer.ai/v2.
翻訳日:2024-06-11 13:48:16 公開日:2024-06-10
# VS-PINN: 厳格な振る舞いを持つPDEを解くための可変スケーリング法を用いた物理インフォームドニューラルネットワークの高速かつ効率的なトレーニング

VS-PINN: A Fast and efficient training of physics-informed neural networks using variable-scaling methods for solving PDEs with stiff behavior ( http://arxiv.org/abs/2406.06287v1 )

ライセンス: Link先を確認
Seungchan Ko, Sang Hyeon Park, (参考訳) 物理インフォームドニューラルネットワーク(PINN)は、ディープニューラルネットワークを用いて偏微分方程式(PDE)の解を計算するための有望な方法として最近登場した。 しかし、様々な分野で大きな成功を収めたにもかかわらず、PDEの解が硬い挙動や高い周波数を示す場合、PINNを効果的に訓練する方法は、多くの点で不明である。 本稿では,変数スケーリング技術を用いたPINNのトレーニング手法を提案する。 この方法は単純であり、急速に変化する解を持つPDEを含む幅広い問題に適用できる。 様々な数値実験を通じて,提案手法の有効性を実証し,PINNのトレーニング効率と性能を大幅に向上させることができることを確認した。 さらに,ニューラル・タンジェント・カーネル (NTK) の解析に基づき,この現象の理論的証拠を提供し,本手法がPINNの性能を向上させることを示す。

Physics-informed neural networks (PINNs) have recently emerged as a promising way to compute the solutions of partial differential equations (PDEs) using deep neural networks. However, despite their significant success in various fields, it remains unclear in many aspects how to effectively train PINNs if the solutions of PDEs exhibit stiff behaviors or high frequencies. In this paper, we propose a new method for training PINNs using variable-scaling techniques. This method is simple and it can be applied to a wide range of problems including PDEs with rapidly-varying solutions. Throughout various numerical experiments, we will demonstrate the effectiveness of the proposed method for these problems and confirm that it can significantly improve the training efficiency and performance of PINNs. Furthermore, based on the analysis of the neural tangent kernel (NTK), we will provide theoretical evidence for this phenomenon and show that our methods can indeed improve the performance of PINNs.
翻訳日:2024-06-11 13:48:16 公開日:2024-06-10
# NISQフレンドリーなHHLアルゴリズムのボットネックの同定

Identifying Bottlenecks of NISQ-friendly HHL algorithms ( http://arxiv.org/abs/2406.06288v1 )

ライセンス: Link先を確認
Marc Andreu Marfany, Alona Sakhnenko, Jeanette Miriam Lorenz, (参考訳) 量子コンピューティングは、ハードウェアスタックが成熟すると、例えばHHLアルゴリズムによる大規模線形方程式システムのような、大きな問題インスタンスの解決を可能にすることを約束する。 将来の量子コンピューティングは、ノイズなどのハードウェアの欠陥をアルゴリズムが考慮する必要があるいわゆるNISQ時代のままである。 本研究は,HHLアルゴリズムの最も資源を消費するコンポーネントであるQPEとそのNISQ適応反復QPEのスケーリング特性と直接的ノイズレジリエンスをテストするための実証的研究である。 そこで我々は,これらのアルゴリズムにおける雑音低減手法の有効性について検討し,入力に間隔制約を課すことでゲート数を低く抑えることができるか,Qiskitパッケージが提供する回路最適化手法を用いて検討する。 この結果から,現在利用可能なQiskitreadoutやM Threereadoutパッケージなどのノイズ低減技術は,ここでテストした小さなインスタンスにおいても,結果の回復には不十分であることが示唆された。 さらに,本研究の結果から,これらのアルゴリズムの精度向上に伴うスケーリングが,最も重大な障害であることが示唆された。 これらの知見により、QPEと同様の時間進化を考慮したアルゴリズムの近似ボトルネックを導出することができた。 このような観測は、NISQデバイスにおけるそのようなアルゴリズムの弱点の証拠を提供し、有意義な将来の研究方向性を定式化するのに役立ちます。

Quantum computing promises enabling solving large problem instances, e.g. large linear equation systems with HHL algorithm, once the hardware stack matures. For the foreseeable future quantum computing will remain in the so-called NISQ era, in which the algorithms need to account for the flaws of the hardware such as noise. In this work, we perform an empirical study to test scaling properties and directly related noise resilience of the the most resources-intense component of the HHL algorithm, namely QPE and its NISQ-adaptation Iterative QPE. We explore the effectiveness of noise mitigation techniques for these algorithms and investigate whether we can keep the gate number low by enforcing sparsity constraints on the input or using circuit optimization techniques provided by Qiskit package. Our results indicate that currently available noise mitigation techniques, such as Qiskit readout and Mthree readout packages, are insufficient for enabling results recovery even in the small instances tested here. Moreover, our results indicate that the scaling of these algorithms with increase in precision seems to be the most substantial obstacle. These insights allowed us to deduce an approximate bottleneck for algorithms that consider a similar time evolution as QPE. Such observations provide evidence of weaknesses of such algorithms on NISQ devices and help us formulate meaningful future research directions.
翻訳日:2024-06-11 13:48:16 公開日:2024-06-10
# リカレントニューラルネットワークにおける幾何学的スパーシフィケーション

Geometric sparsification in recurrent neural networks ( http://arxiv.org/abs/2406.06290v1 )

ライセンス: Link先を確認
Wyatt Mackey, Ioannis Schizas, Jared Deighton, David L. Boothe, Jr., Vasileios Maroulas, (参考訳) 大きなニューラルモデルを実行する際の計算コストを向上するための一般的なテクニックは、スパース化(sprsification)またはトレーニング中のニューラル接続の除去である。 スパースモデルは、より類似したモデルのコストで機能しながら、最先端のモデルの精度を維持することができる。 しかし、スパースアーキテクチャの根底にある構造は、よく理解されておらず、異なる訓練されたモデルとスパースフィケーションスキームの間には整合性がない。 本稿では,リカレントニューラルネット(RNN)のスペーサー化手法を提案する。 モジュラー正則化は、リカレント構造によって誘導される力学系を利用して、RNNの隠れ状態にあるニューロン間の幾何学的関係を誘導する。 規則化用語を明示的に幾何学的にすることで、ニューラルネットワークの望ましいスパースアーキテクチャの事前記述として、まず第一に、私たちの知識を提供する。 ナビゲーションおよび自然言語処理RNNにおける提案手法の有効性を検証する。 ナビゲーションは、既知のモジュライ空間が存在する構造的幾何学的タスクであり、適切なモジュライ空間に応じて係数が選択された場合にのみ、モデル性能を維持しながら、正規化を90%の範囲に到達させることができることを示す。 しかし、自然言語処理には計算を行うためのモジュライ空間がない。 それにもかかわらず、モジュラー正則化は様々なモジュラー正則化器を持つより安定したリカレントニューラルネットを誘導し、98%の間隔で高忠実度モデルを達成することを示す。

A common technique for ameliorating the computational costs of running large neural models is sparsification, or the removal of neural connections during training. Sparse models are capable of maintaining the high accuracy of state of the art models, while functioning at the cost of more parsimonious models. The structures which underlie sparse architectures are, however, poorly understood and not consistent between differently trained models and sparsification schemes. In this paper, we propose a new technique for sparsification of recurrent neural nets (RNNs), called moduli regularization, in combination with magnitude pruning. Moduli regularization leverages the dynamical system induced by the recurrent structure to induce a geometric relationship between neurons in the hidden state of the RNN. By making our regularizing term explicitly geometric, we provide the first, to our knowledge, a priori description of the desired sparse architecture of our neural net. We verify the effectiveness of our scheme for navigation and natural language processing RNNs. Navigation is a structurally geometric task, for which there are known moduli spaces, and we show that regularization can be used to reach 90% sparsity while maintaining model performance only when coefficients are chosen in accordance with a suitable moduli space. Natural language processing, however, has no known moduli space in which computations are performed. Nevertheless, we show that moduli regularization induces more stable recurrent neural nets with a variety of moduli regularizers, and achieves high fidelity models at 98% sparsity.
翻訳日:2024-06-11 13:48:15 公開日:2024-06-10
# 異方性ディックモデルにおける量子幾何学的テンソルと臨界メトロロジー

Quantum Geometric Tensor and Critical Metrology in the Anisotropic Dicke Model ( http://arxiv.org/abs/2406.06301v1 )

ライセンス: Link先を確認
Xin Zhu, Jia-Hao Lü, Wen Ning, Li-Tuo Shen, Fan Wu, Zhen-Biao Yang, (参考訳) 我々は、基底状態の量子幾何学的テンソルを調べることにより、異方性ディックモデルの量子相転移を研究する。 この分析では、2つの異なる古典的極限が固有の異方性特性を示す。 古典的なスピン極限は回転波のカップリングの好みを示すが、古典的な振動子極限はバイアスのカップリング強度の対称性を示す。 古典的スピン極限の異方的特徴は有限スケールで持続する。 さらに, 異方性比, スピン長, 周波数比の相互作用により, 臨界挙動が一括的に向上することが観察された。 これらの要因間のトレードオフのないこの重要な拡張は、量子精度測定の柔軟な方法を提供する。

We investigate the quantum phase transition in the anisotropic Dicke model through an examination of the quantum geometric tensor of the ground state. In this analysis, two distinct classical limits exhibit their unique anisotropic characteristics. The classical spin limit demonstrates a preference for the rotating-wave coupling, whereas the classical oscillator limit exhibits symmetry in the coupling strength of the bias. The anisotropic features of the classical spin limit persist at finite scales. Furthermore, we observe that the interplay among the anisotropic ratio, spin length, and frequency ratio can collectively enhance the critical behaviors. This critical enhancement without trade-off between these factors provides a flexible method for quantum precision measurement.
翻訳日:2024-06-11 13:48:15 公開日:2024-06-10
# GPT-4oの安全性の確保--ジェイルブレイク攻撃を用いた実証的研究

Unveiling the Safety of GPT-4o: An Empirical Study using Jailbreak Attacks ( http://arxiv.org/abs/2406.06302v1 )

ライセンス: Link先を確認
Zonghao Ying, Aishan Liu, Xianglong Liu, Dacheng Tao, (参考訳) GPT-4oの最近のリリースは、その強力な汎用能力のために広く注目を集めている。 その印象的な性能は広く認められているが、その安全性の側面は十分に調査されていない。 GPT-4oのような高度な生成AIが生み出すリスクのあるコンテンツの潜在的社会的影響を考えると、その安全性を厳格に評価することが重要である。 そこで本研究では,初めてGPT-4oのジェイルブレイク攻撃に対する厳密な評価を行った。 具体的には、4000以上の初期テキストクエリの最適化と、GPT-4oにおける8,000以上の応答の解析と統計的評価を含む3つのモダリティ(動画、テキスト、音声、画像)を含む4つの一般的なベンチマークに対して、一連のマルチモーダルおよびユニモーダル・ジェイルブレイク攻撃を採用する。 1) GPT-4oはテキスト・モダリティ・ジェイルブレイクの文脈で安全性を高め、(2) GPT-4oに対するジェイルブレイク攻撃の新たな攻撃ベクトルを開放し、(3) 既存のブラックボックス・マルチモーダル・ジェイルブレイク攻撃法はGPT-4oやGPT-4Vに対してほとんど効果がない。 これらの知見は, GPT-4oの安全性に関する重要な知見を与え, 大型モデルにおけるロバストアライメントガードレールの必要性を浮き彫りにした。 我々のコードは \url{https://github.com/NY1024/Jailbreak_GPT4o} で利用可能です。

The recent release of GPT-4o has garnered widespread attention due to its powerful general capabilities. While its impressive performance is widely acknowledged, its safety aspects have not been sufficiently explored. Given the potential societal impact of risky content generated by advanced generative AI such as GPT-4o, it is crucial to rigorously evaluate its safety. In response to this question, this paper for the first time conducts a rigorous evaluation of GPT-4o against jailbreak attacks. Specifically, this paper adopts a series of multi-modal and uni-modal jailbreak attacks on 4 commonly used benchmarks encompassing three modalities (\ie, text, speech, and image), which involves the optimization of over 4,000 initial text queries and the analysis and statistical evaluation of nearly 8,000+ response on GPT-4o. Our extensive experiments reveal several novel observations: (1) In contrast to the previous version (such as GPT-4V), GPT-4o has enhanced safety in the context of text modality jailbreak; (2) The newly introduced audio modality opens up new attack vectors for jailbreak attacks on GPT-4o; (3) Existing black-box multimodal jailbreak attack methods are largely ineffective against GPT-4o and GPT-4V. These findings provide critical insights into the safety implications of GPT-4o and underscore the need for robust alignment guardrails in large models. Our code is available at \url{https://github.com/NY1024/Jailbreak_GPT4o}.
翻訳日:2024-06-11 13:48:15 公開日:2024-06-10
# NeuroMoCo: スパイクニューラルネットワークのためのニューロモルファスモーメントコントラスト学習法

NeuroMoCo: A Neuromorphic Momentum Contrast Learning Method for Spiking Neural Networks ( http://arxiv.org/abs/2406.06305v1 )

ライセンス: Link先を確認
Yuqi Ma, Huamin Wang, Hangchi Shen, Xuemei Chen, Shukai Duan, Shiping Wen, (参考訳) 近年、脳にインスパイアされたスパイクニューラルネットワーク(SNN)は、その固有の生体解釈性、事象トリガー特性、時空間情報の強力な知覚など、イベントベースのニューロモルフィックデータセットを扱うのに有益な研究の注目を集めている。 従来の静的画像データセットとは対照的に、イベントベースのニューロモルフィックデータセットは、特徴的時系列と空間特性により特徴抽出の複雑さが高くなり、分類精度に影響を及ぼす。 この課題を克服するために,SNNに対するニューロモーフィック・モメンタム・コントラスト・ラーニング(NeuroMoCo)と呼ばれる新しいアプローチを導入する。 SNNにおいて、モーメントコントラスト学習に基づく自己教師型学習(SSL)が実現されたのはこれが初めてである。 さらに,神経形データセットの分類精度をさらに高めるため,その時間的特性に合わせてMixInfoNCEという新たな損失関数を考案し,厳密なアブレーション実験により検証した。 最後に、DVS-CIFAR10、DVS128Gesture、N-Caltech101の実験により、NeuroMoCoは、それぞれ83.6%(Spikformer-2-256)、98.62%(Spikformer-2-256)、84.4%(SEW-ResNet-18)という新しい最先端(SOTA)ベンチマークを確立した。

Recently, brain-inspired spiking neural networks (SNNs) have attracted great research attention owing to their inherent bio-interpretability, event-triggered properties and powerful perception of spatiotemporal information, which is beneficial to handling event-based neuromorphic datasets. In contrast to conventional static image datasets, event-based neuromorphic datasets present heightened complexity in feature extraction due to their distinctive time series and sparsity characteristics, which influences their classification accuracy. To overcome this challenge, a novel approach termed Neuromorphic Momentum Contrast Learning (NeuroMoCo) for SNNs is introduced in this paper by extending the benefits of self-supervised pre-training to SNNs to effectively stimulate their potential. This is the first time that self-supervised learning (SSL) based on momentum contrastive learning is realized in SNNs. In addition, we devise a novel loss function named MixInfoNCE tailored to their temporal characteristics to further increase the classification accuracy of neuromorphic datasets, which is verified through rigorous ablation experiments. Finally, experiments on DVS-CIFAR10, DVS128Gesture and N-Caltech101 have shown that NeuroMoCo of this paper establishes new state-of-the-art (SOTA) benchmarks: 83.6% (Spikformer-2-256), 98.62% (Spikformer-2-256), and 84.4% (SEW-ResNet-18), respectively.
翻訳日:2024-06-11 13:48:15 公開日:2024-06-10
# 古典的臨床データセットのための連続量子古典ベイズニューラルネットワークの構築

Building Continuous Quantum-Classical Bayesian Neural Networks for a Classical Clinical Dataset ( http://arxiv.org/abs/2406.06307v1 )

ライセンス: Link先を確認
Alona Sakhnenko, Julian Sikora, Jeanette Miriam Lorenz, (参考訳) 本研究では,古典医学データセットの不確実性を考慮した分類を行う量子古典ベイズニューラルネットワーク(QCBNN)を提案する。 このモデルは、ベイズ学習フレームワーク内で、超音速画像処理を行う古典的畳み込みNNと、その確率重みを生成する量子回路の共生である。 医療セクターにおける将来的な展開の可能性について、このアイデアの有用性をテストするために、予測性能とモデルの不確実性の両方を捉える複数の行動指標を追跡します。 より不確実性を意識した方法でサンプルを分類し、これらのモデルの信頼性を向上し、業界でそれらを活用するための一歩を踏み出すことができるハイブリッドモデルを作ることは、私たちの野望です。 このタスクのために、量子回路の複数のセットアップをテストし、最良のアーキテクチャは、予測性能のわずかな低下を犠牲にして、従来のベンチマークよりも、正しく、正しく特定されたサンプル間の大きな不確実性ギャップを示す。 本論文の革新は,(1) 量子回路からの確率重み付けを継続し,そのモデルがアプリケーション駆動型データセットを分類できるようにするための異なるアプローチを組み合わせること,(2) これらのモデルの作成または破壊を行う量子回路のアーキテクチャ特性を研究すること,そして,より詳細なアーキテクチャ設計のさらなる研究への道を開くこと,の2つである。

In this work, we are introducing a Quantum-Classical Bayesian Neural Network (QCBNN) that is capable to perform uncertainty-aware classification of classical medical dataset. This model is a symbiosis of a classical Convolutional NN that performs ultra-sound image processing and a quantum circuit that generates its stochastic weights, within a Bayesian learning framework. To test the utility of this idea for the possible future deployment in the medical sector we track multiple behavioral metrics that capture both predictive performance as well as model's uncertainty. It is our ambition to create a hybrid model that is capable to classify samples in a more uncertainty aware fashion, which will advance the trustworthiness of these models and thus bring us step closer to utilizing them in the industry. We test multiple setups for quantum circuit for this task, and our best architectures display bigger uncertainty gap between correctly and incorrectly identified samples than its classical benchmark at an expense of a slight drop in predictive performance. The innovation of this paper is two-fold: (1) combining of different approaches that allow the stochastic weights from the quantum circuit to be continues thus allowing the model to classify application-driven dataset; (2) studying architectural features of quantum circuit that make-or-break these models, which pave the way into further investigation of more informed architectural designs.
翻訳日:2024-06-11 13:48:15 公開日:2024-06-10
# オフライン強化学習のための分類プラグ・アンド・プレイによる価値関数の推定は可能か?

Is Value Functions Estimation with Classification Plug-and-play for Offline Reinforcement Learning? ( http://arxiv.org/abs/2406.06309v1 )

ライセンス: Link先を確認
Denis Tarasov, Kirill Brilliantov, Dmitrii Kharlapenko, (参考訳) 深層強化学習(RL)では、値関数は一般的にディープニューラルネットワークを用いて近似され、真値関数に適合するように平均2乗誤差回帰目標を用いて訓練される。 近年の研究では,RLアルゴリズムの性能向上と拡張性を示すクロスエントロピー分類の目的を活かした代替手法が提案されている。 しかし、既存の研究では、この置換が様々な領域にまたがる影響を広範囲にベンチマークしていないため、その主な目的は、深い分析をすることなく、幅広いタスクにまたがる概念の有効性を実証することであった。 我々の研究は、オフラインのRLセットアップにおけるこのような代替がパフォーマンスに与える影響を実証的に調査し、異なる側面がパフォーマンスに与える影響を分析することを目的としている。 様々なアルゴリズムを用いて多種多様なタスクにまたがる大規模な実験を行うことで、このアプローチがもたらす影響についてより深い洞察を得ることを目指している。 以上の結果から,この変更を組み込むことによって,特定のタスクにおいて,特定のタスクにおける最先端のソリューションよりも優れたパフォーマンスが得られる一方で,他のタスクにおいて同等のパフォーマンスレベルを維持することができるが,他のアルゴリズムでは,この変更により,劇的なパフォーマンス低下につながる可能性がある。 この発見は、研究および実践的なタスクにおける分類アプローチのさらなる適用に不可欠である。

In deep Reinforcement Learning (RL), value functions are typically approximated using deep neural networks and trained via mean squared error regression objectives to fit the true value functions. Recent research has proposed an alternative approach, utilizing the cross-entropy classification objective, which has demonstrated improved performance and scalability of RL algorithms. However, existing study have not extensively benchmarked the effects of this replacement across various domains, as the primary objective was to demonstrate the efficacy of the concept across a broad spectrum of tasks, without delving into in-depth analysis. Our work seeks to empirically investigate the impact of such a replacement in an offline RL setup and analyze the effects of different aspects on performance. Through large-scale experiments conducted across a diverse range of tasks using different algorithms, we aim to gain deeper insights into the implications of this approach. Our results reveal that incorporating this change can lead to superior performance over state-of-the-art solutions for some algorithms in certain tasks, while maintaining comparable performance levels in other tasks, however for other algorithms this modification might lead to the dramatic performance drop. This findings are crucial for further application of classification approach in research and practical tasks.
翻訳日:2024-06-11 13:48:15 公開日:2024-06-10
# Proct: DNNのレジリエンスを高めるハイブリッドクラップ活性化関数のプログレッシブトレーニング

ProAct: Progressive Training for Hybrid Clipped Activation Function to Enhance Resilience of DNNs ( http://arxiv.org/abs/2406.06313v1 )

ライセンス: Link先を確認
Seyedhamidreza Mousavi, Mohammad Hasan Ahmadilivani, Jaan Raik, Maksim Jenihhin, Masoud Daneshtalab, (参考訳) ディープニューラルネットワーク(DNN)は、ハードウェアの信頼性を保証することが主な関心事である安全クリティカルなアプリケーションに広く採用されている。 ハードウェア故障に対するDNNの信頼性を高めるため、アクティベーション制限技術は、アクティベーションアーキテクチャに関係なく、DNN構造レベルでの障害効果を著しく軽減する。 State-of-the-artメソッドは、ニューロンワイドまたは層ワイドクリッピングアクティベーション機能を提供する。 彼らはヒューリスティックと学習に基づくアプローチを用いて最適なクリッピングしきい値を決定する。 層単位で切断されたアクティベーション関数はDNNのレジリエンスを高いビット誤り率で保持することはできない。 一方、ニューロンワイドクリッピングアクティベーション機能では、パラメータの追加によるメモリオーバーヘッドが大幅に増加し、障害に対する脆弱性が増大する。 さらに、ヒューリスティックに基づく最適化手法は、探索プロセス中に多数の障害注入を必要とし、時間を要するしきい値の同定を行う。 一方、階層全体のしきい値を同時にトレーニングする学習ベースの技術は、しばしば準最適結果をもたらす。 本研究は、まず、DNNのすべての層にニューロンの活性化機能を組み込むことが不可欠ではないことを示す。 そこで本研究では,DNNの最後の層にのみニューロンワイド・クリッピングを適用する階層ワイド・レイヤワイド・メソッドを統合するハイブリッド・クリッピング・アクティベーション機能を提案する。 さらに,クリッピング活性化関数の最適しきい値を達成するために,プログレッシブトレーニング手法であるProActを導入する。 このアプローチは、各層で最適な閾値を個別に取得することを目的として、各層ごとに閾値を反復的にトレーニングする。

Deep Neural Networks (DNNs) are extensively employed in safety-critical applications where ensuring hardware reliability is a primary concern. To enhance the reliability of DNNs against hardware faults, activation restriction techniques significantly mitigate the fault effects at the DNN structure level, irrespective of accelerator architectures. State-of-the-art methods offer either neuron-wise or layer-wise clipping activation functions. They attempt to determine optimal clipping thresholds using heuristic and learning-based approaches. Layer-wise clipped activation functions cannot preserve DNNs resilience at high bit error rates. On the other hand, neuron-wise clipping activation functions introduce considerable memory overhead due to the addition of parameters, which increases their vulnerability to faults. Moreover, the heuristic-based optimization approach demands numerous fault injections during the search process, resulting in time-consuming threshold identification. On the other hand, learning-based techniques that train thresholds for entire layers concurrently often yield sub-optimal results. In this work, first, we demonstrate that it is not essential to incorporate neuron-wise activation functions throughout all layers in DNNs. Then, we propose a hybrid clipped activation function that integrates neuron-wise and layer-wise methods that apply neuron-wise clipping only in the last layer of DNNs. Additionally, to attain optimal thresholds in the clipping activation function, we introduce ProAct, a progressive training methodology. This approach iteratively trains the thresholds on a layer-by-layer basis, aiming to obtain optimal threshold values in each layer separately.
翻訳日:2024-06-11 13:48:15 公開日:2024-06-10
# Tx-LLM: 治療のための大規模言語モデル

Tx-LLM: A Large Language Model for Therapeutics ( http://arxiv.org/abs/2406.06316v1 )

ライセンス: Link先を確認
Juan Manuel Zambrano Chaves, Eric Wang, Tao Tu, Eeshit Dhaval Vaishnav, Byron Lee, S. Sara Mahdavi, Christopher Semturs, David Fleet, Vivek Natarajan, Shekoofeh Azizi, (参考訳) 治療薬の開発は、多くの異なる基準の満足度を必要とする長く高価なプロセスであり、プロセスの迅速化が可能なAIモデルは、貴重なものになるだろう。 しかしながら、現在のAIアプローチの大半は、特定のドメイン内を囲む、狭義のタスクセットにのみ対応している。 このギャップを埋めるために,多種多様な治療的モダリティに関する知識を符号化した汎用大規模言語モデル(LLM)であるTx-LLMを導入する。 Tx-LLMは、ドラッグディスカバリパイプラインのさまざまなステージにまたがる66タスクをターゲットとする709データセットのコレクションを使用して、トレーニングされている。 1組の重量を用いて、Tx-LLMは、様々な化学的または生物学的実体(小分子、タンパク質、核酸、細胞株、疾患)を自由テキストでインターリーブし、66のタスクのうち43のタスクでSOTAのパフォーマンスと競合し、22のタスクでSOTAを超えた幅広い特性を予測できる。 これらのうち、Tx-LLMは特に強力で、分子SMILES表現と細胞名や病名などのテキストを組み合わせたタスクにおいて、平均クラスで最高のパフォーマンスを保っている。 薬物の種類が多様であるタスク(例えば、小分子を含むタスクやタンパク質を含むタスク)間の正の伝達の証拠を観察し、モデルサイズ、ドメインの微調整、およびパフォーマンスに対する戦略の促進について検討した。 我々は、Tx-LLMが生化学知識をコードするLLMへの重要な一歩であり、医薬品発見開発パイプラインにおけるエンドツーエンドツールとしての役割を担っていると信じている。

Developing therapeutics is a lengthy and expensive process that requires the satisfaction of many different criteria, and AI models capable of expediting the process would be invaluable. However, the majority of current AI approaches address only a narrowly defined set of tasks, often circumscribed within a particular domain. To bridge this gap, we introduce Tx-LLM, a generalist large language model (LLM) fine-tuned from PaLM-2 which encodes knowledge about diverse therapeutic modalities. Tx-LLM is trained using a collection of 709 datasets that target 66 tasks spanning various stages of the drug discovery pipeline. Using a single set of weights, Tx-LLM simultaneously processes a wide variety of chemical or biological entities(small molecules, proteins, nucleic acids, cell lines, diseases) interleaved with free-text, allowing it to predict a broad range of associated properties, achieving competitive with state-of-the-art (SOTA) performance on 43 out of 66 tasks and exceeding SOTA on 22. Among these, Tx-LLM is particularly powerful and exceeds best-in-class performance on average for tasks combining molecular SMILES representations with text such as cell line names or disease names, likely due to context learned during pretraining. We observe evidence of positive transfer between tasks with diverse drug types (e.g.,tasks involving small molecules and tasks involving proteins), and we study the impact of model size, domain finetuning, and prompting strategies on performance. We believe Tx-LLM represents an important step towards LLMs encoding biochemical knowledge and could have a future role as an end-to-end tool across the drug discovery development pipeline.
翻訳日:2024-06-11 13:38:29 公開日:2024-06-10
# ブロックチェーンはドライブを学ぶべきか?Hyperledger Fabricの研究

Should my Blockchain Learn to Drive? A Study of Hyperledger Fabric ( http://arxiv.org/abs/2406.06318v1 )

ライセンス: Link先を確認
Jeeta Ann Chacko, Ruben Mayer, Hans-Arno Jacobsen, (参考訳) 他のトランザクション処理フレームワークと同様に、さまざまなワークロードやネットワーク条件の変更に対応するために、ブロックチェーンシステムは動的に再構成される必要がある。 しかし、さまざまな設定可能なパラメータを持つブロックチェーンスタックの複雑さのため、最適な再設定を実現することは特に難しい。 本稿では、人間の介入なしにワークロードの変化を予測し、最適なパフォーマンスのために自分自身を再構成する可能性を秘めている自動運転ブロックチェーンの概念について考察する。 既存のデータベース研究と比較し、ブロックチェーン特有の側面を強調します。 私たちは、自律的な適応に適した一般的なパーミッションブロックチェーンシステムであるHyperledger Fabricの特定のパラメータとコンポーネントを特定し、関連する課題に対する潜在的なソリューションを提供します。 さらに、ブロックチェーンスタックの異なるレイヤをターゲットにした3つの実証的なローカル自律システムを実装し、その可能性を理解するために実験を実施します。 私たちの実験では、スループットが最大11%向上し、レイテンシが30%削減されたことが示されています。

Similar to other transaction processing frameworks, blockchain systems need to be dynamically reconfigured to adapt to varying workloads and changes in network conditions. However, achieving optimal reconfiguration is particularly challenging due to the complexity of the blockchain stack, which has diverse configurable parameters. This paper explores the concept of self-driving blockchains, which have the potential to predict workload changes and reconfigure themselves for optimal performance without human intervention. We compare and contrast our discussions with existing research on databases and highlight aspects unique to blockchains. We identify specific parameters and components in Hyperledger Fabric, a popular permissioned blockchain system, that are suitable for autonomous adaptation and offer potential solutions for the challenges involved. Further, we implement three demonstrative locally autonomous systems, each targeting a different layer of the blockchain stack, and conduct experiments to understand the feasibility of our findings. Our experiments indicate up to 11% improvement in success throughput and a 30% decrease in latency, making this a significant step towards implementing a fully autonomous blockchain system in the future.
翻訳日:2024-06-11 13:38:29 公開日:2024-06-10
# 惑星画像からの車両ベクトルと交通パターン

Vehicle Vectors and Traffic Patterns from Planet Imagery ( http://arxiv.org/abs/2406.06320v1 )

ライセンス: Link先を確認
Adam Van Etten, (参考訳) 我々はプラネット画像中の自動車を検知し、物体を動かすための大規模ベクトル場を構築する方法を探究する。 プラネットは高解像度のSkySat衛星と高解像度のSuperDove衛星の2つの異なる星座を運営している。 静止車と移動車の両方が高解像度のSkySat画像で確実に識別可能であることを示す。 移動物体のバンド間変位(またはレインボー効果)を利用して移動車両の速度と進路を推定できる。 中高解像度のSuperDove画像における車やトラックの識別ははるかに難しいが、これらの衛星では同様の虹効果が観測されており、移動車両の検出とベクトル化を可能にしている。 プラネット衛星の頻繁な再検討により、自動車とトラックの活動パターンを幅広い関心と長い時間枠で分類することができる。

We explore methods to detect automobiles in Planet imagery and build a large scale vector field for moving objects. Planet operates two distinct constellations: high-resolution SkySat satellites as well as medium-resolution SuperDove satellites. We show that both static and moving cars can be identified reliably in high-resolution SkySat imagery. We are able to estimate the speed and heading of moving vehicles by leveraging the inter-band displacement (or "rainbow" effect) of moving objects. Identifying cars and trucks in medium-resolution SuperDove imagery is far more difficult, though a similar rainbow effect is observed in these satellites and enables moving vehicles to be detected and vectorized. The frequent revisit of Planet satellites enables the categorization of automobile and truck activity patterns over broad areas of interest and lengthy timeframes.
翻訳日:2024-06-11 13:38:29 公開日:2024-06-10
# フォールトトレラント量子コンピュータを用いた非圧縮性流体力学シミュレーションの高速化の可能性

Feasibility of accelerating incompressible computational fluid dynamics simulations with fault-tolerant quantum computers ( http://arxiv.org/abs/2406.06323v1 )

ライセンス: Link先を確認
John Penuel, Amara Katabarwa, Peter D. Johnson, Collin Farquhar, Yudong Cao, Michael C. Garrett, (参考訳) 業界全体では、伝統的な設計とエンジニアリングのワークフローがシミュレーション駆動のプロセスにアップグレードされている。 多くのワークフローには計算流体力学(CFD)がある。 乱流のシミュレーションは、高い計算コストと精度を損なう近似手法に依存することで有名である。 CFD計算の高速化と精度の向上は、計算コストを削減し、実験的なテストの必要性をなくすことで、設計ワークフローコストを削減できる可能性がある。 本研究では, 耐故障性量子コンピュータによる非圧縮性あるいは弱い圧縮性体制下でのCFDシミュレーションの高速化と精度向上の実現可能性について検討する。 シミュレーション駆動型船舶設計の例では,定常流れの抗力を計算するためのシミュレーションを検討し,経済性や古典的硬さの分析を行う。 選択した量子アプローチの実現可能性を評価するための道筋として、球面上のドラッグ力の単純な場合に必要な量子資源を推定する。 論理キュービットの積を$\times$$T$ゲートから10^{22}$から10^{28}$まで見積もる。 これらの高い初期推定は、将来の量子コンピュータは、重要なアルゴリズムの進歩や代替の量子アプローチが開発されない限り、圧縮不能なCFDアプリケーションにユーティリティを提供する可能性は低いことを示唆している。 成熟した量子化学の応用により、量子資源削減の最も有望な次のステップは、球面からより複雑な幾何学によるユーティリティスケールの問題へのスケールアップである。

Across industries, traditional design and engineering workflows are being upgraded to simulation-driven processes. Many workflows include computational fluid dynamics (CFD). Simulations of turbulent flow are notorious for high compute costs and reliance on approximate methods that compromise accuracy. Improvements in the speed and accuracy of CFD calculations would potentially reduce design workflow costs by reducing computational costs and eliminating the need for experimental testing. This study explores the feasibility of using fault-tolerant quantum computers to improve the speed and accuracy of CFD simulations in the incompressible or weakly compressible regime. For the example of simulation-driven ship design, we consider simulations for calculating the drag force in steady-state flows, and provide analysis on economic utility and classical hardness. As a waypoint toward assessing the feasibility of our chosen quantum approach, we estimate the quantum resources required for the simpler case of drag force on a sphere. We estimate the product of logical qubits $\times$ $T$ gates to range from $10^{22}$ to $10^{28}$. These high initial estimates suggest that future quantum computers are unlikely to provide utility for incompressible CFD applications unless significant algorithmic advancements or alternative quantum approaches are developed. Encouraged by applications in quantum chemistry that have realized orders-of-magnitude improvements as they matured, we identify the most promising next steps for quantum resource reduction as we work to scale up our estimates from spheres to utility-scale problems with more complex geometry.
翻訳日:2024-06-11 13:38:29 公開日:2024-06-10
# セルフチューニング: 自己学習を通じて新たな知識を効果的に獲得するLLMの指導

Self-Tuning: Instructing LLMs to Effectively Acquire New Knowledge through Self-Teaching ( http://arxiv.org/abs/2406.06326v1 )

ライセンス: Link先を確認
Xiaoying Zhang, Baolin Peng, Ye Tian, Jingyan Zhou, Yipeng Zhang, Haitao Mi, Helen Meng, (参考訳) 大規模言語モデル(LLM)は、一度のトレーニングと常に進化する世界の性質のために、最新の情報の提供に苦慮することが多い。 LLMの現在の状態を維持するために、既存のアプローチは、通常、新しいドキュメントの事前トレーニングを継続する。 しかし、それらは記憶された知識の抽出にしばしば困難に直面している。 効率的なヒューマンラーニングにおけるFeynman Techniqueの顕著な成功に感銘を受けて,LLMが生文書から新たな知識を効果的に獲得する能力を向上させるための学習フレームワークであるSelf-Tuningを紹介した。 具体的には、記憶、理解、自己反省という3つの重要な側面に焦点をあて、自己監督的な方法で作成された知識集約的なタスクのセットで文書を増強する自己学習戦略を開発する。 さらに,3つのWiki-Newpages-2023-QAデータセットを導入し,記憶,抽出,推論に関するLLMの知識獲得能力を詳細に分析する。 Llama2ファミリーモデルに対する大規模な実験結果から、自己チューニングはすべての知識獲得タスクに対して一貫して優れた性能を示し、過去の知識の保存に優れることが明らかになった。

Large language models (LLMs) often struggle to provide up-to-date information due to their one-time training and the constantly evolving nature of the world. To keep LLMs current, existing approaches typically involve continued pre-training on new documents. However, they frequently face difficulties in extracting stored knowledge. Motivated by the remarkable success of the Feynman Technique in efficient human learning, we introduce Self-Tuning, a learning framework aimed at improving an LLM's ability to effectively acquire new knowledge from raw documents through self-teaching. Specifically, we develop a Self-Teaching strategy that augments the documents with a set of knowledge-intensive tasks created in a self-supervised manner, focusing on three crucial aspects: memorization, comprehension, and self-reflection. Additionally, we introduce three Wiki-Newpages-2023-QA datasets to facilitate an in-depth analysis of an LLM's knowledge acquisition ability concerning memorization, extraction, and reasoning. Extensive experimental results on Llama2 family models reveal that Self-Tuning consistently exhibits superior performance across all knowledge acquisition tasks and excels in preserving previous knowledge.
翻訳日:2024-06-11 13:38:29 公開日:2024-06-10
# 多言語ASRのためのパラメータ効率のよい言語拡張フレームワーク

A Parameter-efficient Language Extension Framework for Multilingual ASR ( http://arxiv.org/abs/2406.06329v1 )

ライセンス: Link先を確認
Wei Liu, Jingyong Hou, Dong Yang, Muyong Cao, Tan Lee, (参考訳) 多言語音声認識モデル(MASR)で全言語をカバーすることは極めて困難である。 既存のMASR上で言語拡張を実行することが望ましい選択である。 本研究では,MASR連続学習問題を言語同一性予測(LP)と言語間適応(XLA)サブプロブレムに確率的に分解する。 そこで我々は,言語拡張のためのアーキテクチャベースのフレームワークを提案する。 PELEはパラメータ効率が高く、新しい言語に適応するためにアドオンモジュールを漸進的に組み込むように設計されている。 具体的には、パラメータ効率の異なる細調整(PEFT)モジュールとその変種をXLAの実行候補として検討する。 さまざまな低リソースのデータサイズを持つ5つの新しい言語で実験を行う。 最も優れたPEFT候補は、すべての言語で満足な性能を達成でき、連続的な共同学習環境における5言語のうち3言語で優位性を示す。 特に、重みパラメータや入力特徴に着目したPEFT法は、Adapterのような層間において軽量モジュールを挿入するよりも、性能が著しく劣っていることが明らかとなった。

Covering all languages with a multilingual speech recognition model (MASR) is very difficult. Performing language extension on top of an existing MASR is a desirable choice. In this study, the MASR continual learning problem is probabilistically decomposed into language identity prediction (LP) and cross-lingual adaptation (XLA) sub-problems. Based on this, we propose an architecture-based framework for language extension that can fundamentally solve catastrophic forgetting, debudded as PELE. PELE is designed to be parameter-efficient, incrementally incorporating an add-on module to adapt to a new language. Specifically, different parameter-efficient fine-tuning (PEFT) modules and their variants are explored as potential candidates to perform XLA. Experiments are carried out on 5 new languages with a wide range of low-resourced data sizes. The best-performing PEFT candidate can achieve satisfactory performance across all languages and demonstrates superiority in three of five languages over the continual joint learning setting. Notably, PEFT methods focusing on weight parameters or input features are revealed to be limited in performance, showing significantly inferior extension capabilities compared to inserting a lightweight module in between layers such as an Adapter.
翻訳日:2024-06-11 13:38:29 公開日:2024-06-10
# MedExQA: 複数説明付きベンチマークで回答する医療質問

MedExQA: Medical Question Answering Benchmark with Multiple Explanations ( http://arxiv.org/abs/2406.06331v1 )

ライセンス: Link先を確認
Yunsoo Kim, Jinge Wu, Yusuf Abdulle, Honghan Wu, (参考訳) 本稿では,医学的質問応答の新たなベンチマークであるMedExQAを紹介し,説明を通じて医学的知識に対する大規模言語モデル(LLM)の理解を評価する。 現在の5つの専門分野にまたがるデータセットを構築し,各問合せペアに複数の説明を組み込むことで,LCMの詳細な診断能力が欠如している現状のQAベンチマークにおいて大きなギャップを解消する。 本研究は,医学 LLM における説明可能性の重要性を強調し,分類精度以上のモデルを評価する効果的な方法論を提案し,GPT4 を含む現在の LLM の理解が不十分な特定の領域である音声言語病理に光を当てる。 その結果,複数説明による生成評価は人的評価とよく一致し,LLMのより堅牢な自動理解評価の機会が浮かび上がった。 オープンソースの医療用LLM(現在はLlama2)を多角化するために、Phi-2 (2.7B) に基づいた新しい医療モデル MedPhi-2 を提案する。 このモデルはLlama2-70Bをベースとした医療用LLMよりも優れており,資源制約された医療領域での有効性が示された。 ベンチマークデータセットとトレーニングされたモデルを共有します。

This paper introduces MedExQA, a novel benchmark in medical question-answering, to evaluate large language models' (LLMs) understanding of medical knowledge through explanations. By constructing datasets across five distinct medical specialties that are underrepresented in current datasets and further incorporating multiple explanations for each question-answer pair, we address a major gap in current medical QA benchmarks which is the absence of comprehensive assessments of LLMs' ability to generate nuanced medical explanations. Our work highlights the importance of explainability in medical LLMs, proposes an effective methodology for evaluating models beyond classification accuracy, and sheds light on one specific domain, speech language pathology, where current LLMs including GPT4 lack good understanding. Our results show generation evaluation with multiple explanations aligns better with human assessment, highlighting an opportunity for a more robust automated comprehension assessment for LLMs. To diversify open-source medical LLMs (currently mostly based on Llama2), this work also proposes a new medical model, MedPhi-2, based on Phi-2 (2.7B). The model outperformed medical LLMs based on Llama2-70B in generating explanations, showing its effectiveness in the resource-constrained medical domain. We will share our benchmark datasets and the trained model.
翻訳日:2024-06-11 13:38:29 公開日:2024-06-10
# フォールトトレラント量子コンピュータによる等質触媒発見の加速の可能性

Feasibility of accelerating homogeneous catalyst discovery with fault-tolerant quantum computers ( http://arxiv.org/abs/2406.06335v1 )

ライセンス: Link先を確認
Nicole Bellonzi, Alexander Kunitsa, Joshua T. Cantin, Jorge A. Campos-Gonzalez-Angulo, Maxwell D. Radin, Yanbing Zhou, Peter D. Johnson, Luis A. Martínez-Martínez, Mohammad Reza Jangrouei, Aritra Sankar Brahmachari, Linjun Wang, Smik Patel, Monika Kodrycka, Ignacio Loaiza, Robert A. Lang, Alán Aspuru-Guzik, Artur F. Izmaylov, Jhonathan Romero Fontalvo, Yudong Cao, (参考訳) 化学品の工業生産は、かなりの量のエネルギーと原料を消費する。 原則として、新しい触媒の開発は化学製造の効率を大幅に改善する可能性がある。 しかし, 有効触媒の発見は, 実験的に合成・特性化することなく, 候補の有効性を知ることが困難であるため, 極めて困難である。 本研究では, 産業的に重要な化学プロセスである窒素固定のための均一触媒の発見を加速するために, フォールトトレラント量子コンピュータの利用の可能性を検討する。 等質触媒の発見に必要な計算を代表とした基底状態エネルギー推定問題を導入し、経済性、古典的硬度、量子資源要求の3次元で解析する。 また, 耐故障性超伝導デバイス上での2段階の位相推定は, 保守的仮定では139,000 QPU時間と推定される。 等価なDMRG計算の計算コストは、およそ40,000CPU時間と推定される。 これらの結果は、引き続き発展を続けることで、フォールトトレラント量子コンピュータが均質触媒の発見を加速することは可能であることを示唆している。

The industrial manufacturing of chemicals consumes a significant amount of energy and raw materials. In principle, the development of new catalysts could greatly improve the efficiency of chemical production. However, the discovery of viable catalysts can be exceedingly challenging because it is difficult to know the efficacy of a candidate without experimentally synthesizing and characterizing it. This study explores the feasibility of using fault-tolerant quantum computers to accelerate the discovery of homogeneous catalysts for nitrogen fixation, an industrially important chemical process. It introduces a set of ground-state energy estimation problems representative of calculations needed for the discovery of homogeneous catalysts and analyzes them on three dimensions: economic utility, classical hardness, and quantum resource requirements. For the highest utility problem considered, two steps of a catalytic cycle for the generation of cyanate anion from dinitrogen, the economic utility of running these computations is estimated to be $200,000, and the required runtime for double-factorized phase estimation on a fault-tolerant superconducting device is estimated under conservative assumptions to be 139,000 QPU-hours. The computational cost of an equivalent DMRG calculation is estimated to be about 400,000 CPU-hours. These results suggest that, with continued development, it will be feasible for fault-tolerant quantum computers to accelerate the discovery of homogeneous catalysts.
翻訳日:2024-06-11 13:38:29 公開日:2024-06-10
# 統計的不均一性変動下におけるフェデレーション学習設定の最適化

Optimisation of federated learning settings under statistical heterogeneity variations ( http://arxiv.org/abs/2406.06340v1 )

ライセンス: Link先を確認
Basem Suleiman, Muhammad Johan Alibasa, Rizka Widyarini Purwanto, Lewis Jeffries, Ali Anaissi, Jacky Song, (参考訳) フェデレートラーニング(FL)は、中央アグリゲータと定期的にモデルパラメータを共有することで、ローカルデバイスが共有予測モデルを協調的に学習することを可能にする。 しかし、FLは各ローカルデバイスデータ分布の多様性によって生成される統計的不均一性により不均一になり、独立性および独立性(IID)データのレベルが異なる。 さらに、FLパラメータの異なる組み合わせを最適化し、最適なアグリゲーションを選択すると、これはさらに複雑になる。 本稿では,3つのデータセット上での統計的不均一性の異なるFLトレーニングパラメータとアグリゲータについて,実験的検討を行った。 統計的不均一性の異なるレベルをシミュレートするための体系的なデータ分割戦略と、IDDのレベルを測定するための指標を提案する。 さらに,異なる特徴を持つデータセットに対して,最適なFLモデルと鍵パラメータを実証的に同定する。 これらに基づいて、異なるIDレベルと異なるデータセットでモデル性能を最適化するためのFLパラメータとアグリゲータの推奨ガイドラインを提案する。

Federated Learning (FL) enables local devices to collaboratively learn a shared predictive model by only periodically sharing model parameters with a central aggregator. However, FL can be disadvantaged by statistical heterogeneity produced by the diversity in each local devices data distribution, which creates different levels of Independent and Identically Distributed (IID) data. Furthermore, this can be more complex when optimising different combinations of FL parameters and choosing optimal aggregation. In this paper, we present an empirical analysis of different FL training parameters and aggregators over various levels of statistical heterogeneity on three datasets. We propose a systematic data partition strategy to simulate different levels of statistical heterogeneity and a metric to measure the level of IID. Additionally, we empirically identify the best FL model and key parameters for datasets of different characteristics. On the basis of these, we present recommended guidelines for FL parameters and aggregators to optimise model performance under different levels of IID and with different datasets
翻訳日:2024-06-11 13:38:29 公開日:2024-06-10
# データ駆動・知識に基づく音声からの心臓活動予測

Predicting Heart Activity from Speech using Data-driven and Knowledge-based features ( http://arxiv.org/abs/2406.06341v1 )

ライセンス: Link先を確認
Gasser Elbanna, Zohreh Mostaani, Mathew Magimai. -Doss, (参考訳) 心臓活動やその他の生物学的信号の正確な予測は、診断とモニタリングに不可欠である。 音声が複数の生理システムの結果であることを考えると、心臓活動の音響的相関を研究対象とした研究が盛んである。 近年,従来の音響手法と比較して,自己教師付きモデルは音声関連作業に優れている。 しかし、心臓活動の予測におけるデータ駆動表現の堅牢性は未解明のままであった。 本研究では,自己教師型音声モデルが心臓活動パラメータの予測において音響特性より優れていることを示す。 また、モデル一般化性に対する個人変数の影響も強調する。 これらの知見は、このようなタスクにおけるデータ駆動表現の価値と、話者に関連する課題を軽減するために、より多くの音声ベースの生理的データが必要であることを明らかにする。

Accurately predicting heart activity and other biological signals is crucial for diagnosis and monitoring. Given that speech is an outcome of multiple physiological systems, a significant body of work studied the acoustic correlates of heart activity. Recently, self-supervised models have excelled in speech-related tasks compared to traditional acoustic methods. However, the robustness of data-driven representations in predicting heart activity remained unexplored. In this study, we demonstrate that self-supervised speech models outperform acoustic features in predicting heart activity parameters. We also emphasize the impact of individual variability on model generalizability. These findings underscore the value of data-driven representations in such tasks and the need for more speech-based physiological data to mitigate speaker-related challenges.
翻訳日:2024-06-11 13:38:29 公開日:2024-06-10
# 大規模逆問題に対する確率的最適化の一指針

A Guide to Stochastic Optimisation for Large-Scale Inverse Problems ( http://arxiv.org/abs/2406.06342v1 )

ライセンス: Link先を確認
Matthias J. Ehrhardt, Zeljko Kereta, Jingwei Liang, Junqi Tang, (参考訳) 確率最適化アルゴリズムは、大量のデータを持つ機械学習のデファクトスタンダードである。 各最適化ステップで利用可能なデータのサブセットのみを扱うことは、解に対する大きな進歩を保ちながら、イテレーションごとの計算コストを劇的に削減する。 大規模な最適化問題を可能な限り効率的に解決する必要があるため、過去10年間、この分野で研究が爆発的に活発化してきた。 機械学習と逆問題の間の並列性を活用することで、この研究波のパワーを利用して逆問題を解決することができる。 本稿では,逆問題の観点から,確率的最適化における最先端の総合的な説明を行う。 本稿では,問題ランダム化の多様性をもつアルゴリズムを提案し,分散低減,加速度,高次法,その他のアルゴリズム修正の役割について論じ,理論的結果と実践的振る舞いを比較した。 我々は,逆画像問題に特有の確率的最適化の可能性と課題に焦点をあてる。 本稿では,新しい世代のアルゴリズムが逆問題にもたらす利点とデメリットを検討するために,画像問題から図示的な例を用いて調査を締めくくる。

Stochastic optimisation algorithms are the de facto standard for machine learning with large amounts of data. Handling only a subset of available data in each optimisation step dramatically reduces the per-iteration computational costs, while still ensuring significant progress towards the solution. Driven by the need to solve large-scale optimisation problems as efficiently as possible, the last decade has witnessed an explosion of research in this area. Leveraging the parallels between machine learning and inverse problems has allowed harnessing the power of this research wave for solving inverse problems. In this survey, we provide a comprehensive account of the state-of-the-art in stochastic optimisation from the viewpoint of inverse problems. We present algorithms with diverse modalities of problem randomisation and discuss the roles of variance reduction, acceleration, higher-order methods, and other algorithmic modifications, and compare theoretical results with practical behaviour. We focus on the potential and the challenges for stochastic optimisation that are unique to inverse imaging problems and are not commonly encountered in machine learning. We conclude the survey with illustrative examples from imaging problems to examine the advantages and disadvantages that this new generation of algorithms bring to the field of inverse problems.
翻訳日:2024-06-11 13:38:29 公開日:2024-06-10
# 因果グラフ分割による高次元構造仮説空間上の因果発見

Causal Discovery over High-Dimensional Structured Hypothesis Spaces with Causal Graph Partitioning ( http://arxiv.org/abs/2406.06348v1 )

ライセンス: Link先を確認
Ashka Shah, Adela DePavia, Nathaniel Hudson, Ian Foster, Rick Stevens, (参考訳) 多くの科学における目的は、初期仮説から始まる、観測された変数の分布を過小評価するメカニズムを理解することである。 因果発見(Causal discovery)は、特定のドメインに調整することなく、一般的な方法で、原因と効果の関係のセットとしてメカニズムを推論することを可能にする。 因果探索アルゴリズムは、有向非巡回グラフの集合によって定義される構造化された仮説空間を探索し、データを最もよく説明するグラフを見つける。 しかし、高次元問題では、この探索は難解になり、因果探索のためのスケーラブルなアルゴリズムがギャップを埋めるために必要となる。 本稿では,因果グラフの分割を理論的保証付きで分割・畳み込みによる因果グラフの発見を可能にする新しい因果グラフ分割を定義する。 我々は、学習または既存の仮説の集合である超構造の概念を活用して、探索空間を分割する。 我々は、因果グラフ分割を用いた学習が真の因果グラフのマルコフ同値類を常に得るという一定の仮定の下で証明する。 提案アルゴリズムは,生物学的に調整された合成ネットワークやネットワークに対して,最大${10^4}$変数までの高速解法を実現する。 そこで本手法は,高次元構造仮説空間を持つ遺伝子制御ネットワーク推論や他の領域に適用可能である。

The aim in many sciences is to understand the mechanisms that underlie the observed distribution of variables, starting from a set of initial hypotheses. Causal discovery allows us to infer mechanisms as sets of cause and effect relationships in a generalized way -- without necessarily tailoring to a specific domain. Causal discovery algorithms search over a structured hypothesis space, defined by the set of directed acyclic graphs, to find the graph that best explains the data. For high-dimensional problems, however, this search becomes intractable and scalable algorithms for causal discovery are needed to bridge the gap. In this paper, we define a novel causal graph partition that allows for divide-and-conquer causal discovery with theoretical guarantees. We leverage the idea of a superstructure -- a set of learned or existing candidate hypotheses -- to partition the search space. We prove under certain assumptions that learning with a causal graph partition always yields the Markov Equivalence Class of the true causal graph. We show our algorithm achieves comparable accuracy and a faster time to solution for biologically-tuned synthetic networks and networks up to ${10^4}$ variables. This makes our method applicable to gene regulatory network inference and other domains with high-dimensional structured hypothesis spaces.
翻訳日:2024-06-11 13:38:29 公開日:2024-06-10
# Hidden-Layer Concatenated Physics Informed Neural Networksを用いたPDE近似の誤差解析と数値アルゴリズム

Error Analysis and Numerical Algorithm for PDE Approximation with Hidden-Layer Concatenated Physics Informed Neural Networks ( http://arxiv.org/abs/2406.06350v1 )

ライセンス: Link先を確認
Yianxia Qian, Yongchao Zhang, Suchuan Dong, (参考訳) 本稿では,隠れ層結合フィードフォワードニューラルネットワーク,改良ブロック時間マーチング戦略,偏微分方程式 (PDE) 近似のための物理情報アプローチを組み合わせたHLConcPINN法を提案する。 パラボリック(熱とバーガースの方程式で例示される)と双曲(波動と非線形クライン=ゴードン方程式で例示される)の2種類のPDEに対して、収束特性を分析し、この手法の誤差境界を確立する。 本手法の近似誤差は, 長期間の地平線を有する動的シミュレーションのトレーニング損失によって効果的に制御できることを示す。 HLConcPINN法は原則として2よりも小さい隠蔽層を任意に数えることができ、理論上は2つ以上の隠蔽層に対して一般的に使用されるスムーズなアクティベーション関数のどれかが有効である。 これは、理論的保証を持つが、ネットワークアーキテクチャと$\tanh$アクティベーション関数の2つの隠された層に制限される、最近のニューラル・ネットワーク・テクニックを一般化する。 これらのPDEに対する適切なトレーニング損失関数の定式化を理論的に行い、標準のPINN定式化とは異なる物理情報ニューラルネットワーク(PINN)型計算アルゴリズムを導いた。 提案手法の有効性を検証し,理論解析の側面を検証するために,提案手法を基礎とした数値実験を行った。

We present the hidden-layer concatenated physics informed neural network (HLConcPINN) method, which combines hidden-layer concatenated feed-forward neural networks, a modified block time marching strategy, and a physics informed approach for approximating partial differential equations (PDEs). We analyze the convergence properties and establish the error bounds of this method for two types of PDEs: parabolic (exemplified by the heat and Burgers' equations) and hyperbolic (exemplified by the wave and nonlinear Klein-Gordon equations). We show that its approximation error of the solution can be effectively controlled by the training loss for dynamic simulations with long time horizons. The HLConcPINN method in principle allows an arbitrary number of hidden layers not smaller than two and any of the commonly-used smooth activation functions for the hidden layers beyond the first two, with theoretical guarantees. This generalizes several recent neural-network techniques, which have theoretical guarantees but are confined to two hidden layers in the network architecture and the $\tanh$ activation function. Our theoretical analyses subsequently inform the formulation of appropriate training loss functions for these PDEs, leading to physics informed neural network (PINN) type computational algorithms that differ from the standard PINN formulation. Ample numerical experiments are presented based on the proposed algorithm to validate the effectiveness of this method and confirm aspects of the theoretical analyses.
翻訳日:2024-06-11 13:38:29 公開日:2024-06-10
# 開集合認識のための未知分類を用いたカスケード未知検出

Cascading Unknown Detection with Known Classification for Open Set Recognition ( http://arxiv.org/abs/2406.06351v1 )

ライセンス: Link先を確認
Daniel Brignac, Abhijit Mahalanobis, (参考訳) ディープラーナーは、クローズド・セットの前提の下で訓練された時にうまく機能するが、オープン・セットの条件下でのデプロイでは苦労する。 このことは、深層学習者に対して、データサンプルがトレーニングされた既知のクラスに属しているか、あるいは周囲の無限世界から来ているかを認識できるようにする、オープンセット認識の分野を動機付けている。 既存の開集合認識法は、既知のクラスを区別するだけでなく、既知のクラスを区別する2つのタスクに対して単一の関数に依存するのが一般的である。 この二重プロセスは、関数がどちらのタスクにも特化されないため、テーブルにパフォーマンスを残します。 本研究では,Cascading Unknown Detection with Known Classification (Cas-DC)を導入し,その代わりに,既知の/未知の検知と,既知の世界の微細クラス分類の両方のために,カスケード方式で特殊関数を学習する。 実験と解析により,AUROCスコアと正の正の正の正の正の正の正の正の正の値と比較した場合,Cas-DCはオープンセット認識における現代的な手法よりも優れていることが示された。

Deep learners tend to perform well when trained under the closed set assumption but struggle when deployed under open set conditions. This motivates the field of Open Set Recognition in which we seek to give deep learners the ability to recognize whether a data sample belongs to the known classes trained on or comes from the surrounding infinite world. Existing open set recognition methods typically rely upon a single function for the dual task of distinguishing between knowns and unknowns as well as making known class distinction. This dual process leaves performance on the table as the function is not specialized for either task. In this work, we introduce Cascading Unknown Detection with Known Classification (Cas-DC), where we instead learn specialized functions in a cascading fashion for both known/unknown detection and fine class classification amongst the world of knowns. Our experiments and analysis demonstrate that Cas-DC handily outperforms modern methods in open set recognition when compared using AUROC scores and correct classification rate at various true positive rates.
翻訳日:2024-06-11 13:38:29 公開日:2024-06-10
# 潜在方向: ジェネレーティブAIにおけるバイアス軽減への簡単な道

Latent Directions: A Simple Pathway to Bias Mitigation in Generative AI ( http://arxiv.org/abs/2406.06352v1 )

ライセンス: Link先を確認
Carolina Lopez Olmos, Alexandros Neophytou, Sunando Sengupta, Dim P. Papadopoulos, (参考訳) 生成的AIにおけるバイアスの緩和、特にテキスト・ツー・イメージのモデルは、社会にその影響が拡大していることを考えると、非常に重要である。 トレーニングに使用されるバイアス付きデータセットは、これらのモデルの責任ある開発を保証する上での課題を生じさせ、ハードプロンプトや埋め込み変更による緩和が、現在最も一般的なソリューションである。 本研究は,拡散過程に提供されるガウスノイズのみを修正し,潜伏空間の方向を学習することにより,多様な包摂的合成画像を実現するための新しいアプローチを提案する。 中立的なプロンプトと非タッチの埋め込みを維持しながら、このアプローチは地理的バイアスのような多様な偏見のシナリオにうまく適応する。 さらに,本研究は,これらの学習された遅延方向を線形に組み合わせて,新たな軽減策を導入し,所望のテキスト埋め込み調整と統合できることを実証する。 さらに、テキスト・ツー・イメージのモデルは、視覚的に検査されない限り、出力のバイアスを評価するための透明性を欠いている。 ですから私たちは,開発者が望むコンセプトを選択できるようにするためのツールを提供しています。 コード付きのプロジェクトページはオンラインで公開されている。

Mitigating biases in generative AI and, particularly in text-to-image models, is of high importance given their growing implications in society. The biased datasets used for training pose challenges in ensuring the responsible development of these models, and mitigation through hard prompting or embedding alteration, are the most common present solutions. Our work introduces a novel approach to achieve diverse and inclusive synthetic images by learning a direction in the latent space and solely modifying the initial Gaussian noise provided for the diffusion process. Maintaining a neutral prompt and untouched embeddings, this approach successfully adapts to diverse debiasing scenarios, such as geographical biases. Moreover, our work proves it is possible to linearly combine these learned latent directions to introduce new mitigations, and if desired, integrate it with text embedding adjustments. Furthermore, text-to-image models lack transparency for assessing bias in outputs, unless visually inspected. Thus, we provide a tool to empower developers to select their desired concepts to mitigate. The project page with code is available online.
翻訳日:2024-06-11 13:38:29 公開日:2024-06-10
# 非ブール関数の解の一般化における最小Degreeバイアスについて

On the Minimal Degree Bias in Generalization on the Unseen for non-Boolean Functions ( http://arxiv.org/abs/2406.06354v1 )

ライセンス: Link先を確認
Denys Pushkin, Raphaël Berthier, Emmanuel Abbe, (参考訳) ランダム特徴量(RF)モデルと変換器の領域外一般化について検討する。 まず,ある領域ではトレーニングデータが完全に見られるが,他の領域ではテストが行われ,小さな特徴状態のRFモデルでは,ブールの場合(Abbe et al ,2023)のように最小限の補間者に対して収束が発生することを証明した。 次に、スパースターゲットレジームを考察し、このレジームが小さな特徴レジームとどのように関係しているかを説明する。 1)データがユニティの根に埋め込まれている場合、(2)データが単に整数として埋め込まれていない場合、RFモデルとTransformerは最小次補間子を学習できない。 このことは、ブール設定とそのユニティ一般化のルーツが、最小次補間子が学習がどのように行われるかの稀な特徴を与える特別なケースであることを示している。 より一般的な整数と実数値の設定については、よりニュアンスな画像が完全に特徴付けられる。

We investigate the out-of-domain generalization of random feature (RF) models and Transformers. We first prove that in the `generalization on the unseen (GOTU)' setting, where training data is fully seen in some part of the domain but testing is made on another part, and for RF models in the small feature regime, the convergence takes place to interpolators of minimal degree as in the Boolean case (Abbe et al., 2023). We then consider the sparse target regime and explain how this regime relates to the small feature regime, but with a different regularization term that can alter the picture in the non-Boolean case. We show two different outcomes for the sparse regime with q-ary data tokens: (1) if the data is embedded with roots of unities, then a min-degree interpolator is learned like in the Boolean case for RF models, (2) if the data is not embedded as such, e.g., simply as integers, then RF models and Transformers may not learn minimal degree interpolators. This shows that the Boolean setting and its roots of unities generalization are special cases where the minimal degree interpolator offers a rare characterization of how learning takes place. For more general integer and real-valued settings, a more nuanced picture remains to be fully characterized.
翻訳日:2024-06-11 13:28:42 公開日:2024-06-10
# 前・後COPD分類のための持続母音

Sustained Vowels for Pre- vs Post-Treatment COPD Classification ( http://arxiv.org/abs/2406.06355v1 )

ライセンス: Link先を確認
Andreas Triantafyllopoulos, Anton Batliner, Wolfgang Mayr, Markus Fendler, Florian Pokorny, Maurice Gerczuk, Shahin Amiriparian, Thomas Berghaus, Björn Schuller, (参考訳) 慢性閉塞性肺疾患(慢性閉塞性肺疾患、COPD)は、世界中の何百万人もの人が発症する重度の炎症性肺疾患である。 肺からの気流が阻害されているため、患者の発声行動にも現れる。 特に重要なのは、急性期を示す増悪エピソードの検出であり、しばしば入院や治療を必要とする。 従来,読み上げ音声の自動解析により,前処理状態と後処理状態の区別が可能であった。 本研究では、持続母音がこれら2つの状態を区別するための補間レンズを提供するかどうかを検討する。 50例のコホートを用いて, 持続母音の含意は, 読み上げ音声を用いた71 %ベースラインから, 79 %非重み付き平均リコールまでの性能を向上させることができることを示した。 さらに,持続母音における COPD の出現を特徴付ける最も重要な音響特徴を同定し,解釈する。

Chronic obstructive pulmonary disease (COPD) is a serious inflammatory lung disease affecting millions of people around the world. Due to an obstructed airflow from the lungs, it also becomes manifest in patients' vocal behaviour. Of particular importance is the detection of an exacerbation episode, which marks an acute phase and often requires hospitalisation and treatment. Previous work has shown that it is possible to distinguish between a pre- and a post-treatment state using automatic analysis of read speech. In this contribution, we examine whether sustained vowels can provide a complementary lens for telling apart these two states. Using a cohort of 50 patients, we show that the inclusion of sustained vowels can improve performance to up to 79\% unweighted average recall, from a 71\% baseline using read speech. We further identify and interpret the most important acoustic features that characterise the manifestation of COPD in sustained vowels.
翻訳日:2024-06-11 13:28:42 公開日:2024-06-10
# Re.Dis.Cover Place with Generative AI: Image-to- Image AIによる都市ウォンダリングの経験と設計を探る

Re.Dis.Cover Place with Generative AI: Exploring the Experience and Design of City Wandering with Image-to-Image AI ( http://arxiv.org/abs/2406.06356v1 )

ライセンス: Link先を確認
Peng-Kai Hung, Janet Yi-Ching Huang, Stephan Wensveen, Rung-Huei Liang, (参考訳) HCI分野は、都市体験を豊かにするために新興技術を活用することへの関心が高まっている。 しかし,AIGT(AI Image Technology, AIGT)の適用経験と設計空間は,広く普及しているにもかかわらず,不十分な研究である。 このギャップを探索するため,アイントホーフェンセンター内をさまよって撮影し,イメージ・ツー・イメージAIと対話した4人の被験者を対象に,探索的研究を行った。 予備的な発見は、彼らの観測、場所への親しみの影響、そしてAIGTが探検家の道具や共同投機具となる方法を示している。 次に,AIGTのプレイフルネス,再想像,再開発を支援する能力について,未熟な都市景観を通じて強調する。 さらに,AIGTを「ツーリスト」としてメタファーを提案し,探索とステレオタイピングのリスクを議論する。 総合的に、私たちの研究は、初期の経験的洞察と設計の考察を提供し、生成的AIで都市的な遊びを作るための将来のHCIの取り組みに刺激を与えます。

The HCI field has demonstrated a growing interest in leveraging emerging technologies to enrich urban experiences. However, insufficient studies investigate the experience and design space of AI image technology (AIGT) applications for playful urban interaction, despite its widespread adoption. To explore this gap, we conducted an exploratory study involving four participants who wandered and photographed within Eindhoven Centre and interacted with an image-to-image AI. Preliminary findings present their observations, the effect of their familiarity with places, and how AIGT becomes an explorer's tool or co-speculator. We then highlight AIGT's capability of supporting playfulness, reimaginations, and rediscoveries of places through defamiliarizing and familiarizing cityscapes. Additionally, we propose the metaphor AIGT as a 'tourist' to discuss its opportunities for engaging explorations and risks of stereotyping places. Collectively, our research provides initial empirical insights and design considerations, inspiring future HCI endeavors for creating urban play with generative AI.
翻訳日:2024-06-11 13:28:42 公開日:2024-06-10
# MASSW:AI支援科学ワークフローのための新しいデータセットとベンチマークタスク

MASSW: A New Dataset and Benchmark Tasks for AI-Assisted Scientific Workflows ( http://arxiv.org/abs/2406.06357v1 )

ライセンス: Link先を確認
Xingjian Zhang, Yutong Xie, Jin Huang, Jinge Ma, Zhaoying Pan, Qijia Liu, Ziyang Xiong, Tolga Ergen, Dongsub Shim, Honglak Lee, Qiaozhu Mei, (参考訳) 科学的革新は詳細なワークフローに依存しており、文学の分析、アイデアの生成、これらのアイデアの検証、結果の解釈、フォローアップ研究のインスピレーションといった重要なステップがある。 しかし、これらのワークフローを文書化する科学出版物は広く、構造化されていない。 これにより、人間の研究者とAIシステムが科学的イノベーションの空間を効果的にナビゲートし探索することが困難になる。 この問題に対処するために、科学ワークフローのマルチアスペクト要約に関する包括的なテキストデータセットであるMASSWを紹介する。 MASSWには過去50年間にわたる17の主要なコンピュータサイエンスカンファレンスから152,000以上の査読論文が含まれている。 LLM(Large Language Models)を使用することで、研究ワークフローにおける5つの重要なステップに対応する、コンテキスト、キーアイデア、メソッド、結果、投影された影響という、これらのパブリッシュから5つの中核的な側面を自動的に抽出します。 これらの構造的な要約は、様々な下流のタスクや分析を促進する。 LLM抽出した要約の質を人間のアノテーションと比較することで検証する。 我々は,この新たなデータセットを用いてベンチマーク可能な,複数の新しい機械学習タスクを通じてMASSWの有用性を実証する。 MASSWは、研究者が科学ワークフローを最適化し、この分野における科学革新を促進するための新しいAIメソッドを作成し、ベンチマークする大きな可能性を秘めている。 我々のデータセットは、 \url{https://github.com/xingjian-zhang/massw}で公開されています。

Scientific innovation relies on detailed workflows, which include critical steps such as analyzing literature, generating ideas, validating these ideas, interpreting results, and inspiring follow-up research. However, scientific publications that document these workflows are extensive and unstructured. This makes it difficult for both human researchers and AI systems to effectively navigate and explore the space of scientific innovation. To address this issue, we introduce MASSW, a comprehensive text dataset on Multi-Aspect Summarization of Scientific Workflows. MASSW includes more than 152,000 peer-reviewed publications from 17 leading computer science conferences spanning the past 50 years. Using Large Language Models (LLMs), we automatically extract five core aspects from these publications -- context, key idea, method, outcome, and projected impact -- which correspond to five key steps in the research workflow. These structured summaries facilitate a variety of downstream tasks and analyses. The quality of the LLM-extracted summaries is validated by comparing them with human annotations. We demonstrate the utility of MASSW through multiple novel machine-learning tasks that can be benchmarked using this new dataset, which make various types of predictions and recommendations along the scientific workflow. MASSW holds significant potential for researchers to create and benchmark new AI methods for optimizing scientific workflows and fostering scientific innovation in the field. Our dataset is openly available at \url{https://github.com/xingjian-zhang/massw}.
翻訳日:2024-06-11 13:28:42 公開日:2024-06-10
# 非マルコフ量子信念伝播

Non-Markov quantum belief propagation ( http://arxiv.org/abs/2406.06360v1 )

ライセンス: Link先を確認
Jack Ceroni, Ian MacCormack, Guillaume Verdon, (参考訳) 我々は、Bilgin と Poulin (Ref. [1]) の業績で概略的に述べられているように、スライドウインドウの量子信念の近似収束の厳密な証明を与える。 特に、この研究で概説された仮説は、信念伝達アルゴリズムの各ステップの近似誤差が、信念伝達が実行される基礎状態が熱的有界性を持つという仮定の下で、スライドウインドウサイズとともに指数関数的に減少する、というものである。

We provide a rigorous proof of the approximate convergence of sliding-window quantum belief-propagation as outlined heuristically in the work of Bilgin and Poulin (Ref. [1]), in the absence of the quantum Markov property. In particular, we confirm the hypothesis outlined in this work that the approximation error of each step in the belief-propagation algorithm decreases exponentially with the sliding-window size, under the assumption that the underlying state on which belief-propagation is being performed possesses a so-called thermal boundedness property: a relaxation of the Markov property required for exact convergence.
翻訳日:2024-06-11 13:28:42 公開日:2024-06-10
# 微分可能な量子力学の挑戦

Challenges with Differentiable Quantum Dynamics ( http://arxiv.org/abs/2406.06361v1 )

ライセンス: Link先を確認
Sri Hari Krisha Narayanan, Michael Perlin, Robert Lewis-Swan, Jeffrey Larson, Matt Menickelly, Jan Hückelheim, Paul Hovland, (参考訳) 微分可能な量子力学では、複素数値の初期値問題の自動微分が必要であり、これは特定の初期条件から通常の微分方程式の系と行列の固有分解を数値的に統合する。 これらのタスクに対するいくつかの自動微分フレームワークについて検討し、アプリケーション要件をネイティブにサポートするフレームワークが存在しないことを発見した。 そこで我々は,科学計算ライブラリにおける複雑で微分可能な数値積分の広範なサポートの必要性を実証する。

Differentiable quantum dynamics require automatic differentiation of a complex-valued initial value problem, which numerically integrates a system of ordinary differential equations from a specified initial condition, as well as the eigendecomposition of a matrix. We explored several automatic differentiation frameworks for these tasks, finding that no framework natively supports our application requirements. We therefore demonstrate a need for broader support of complex-valued, differentiable numerical integration in scientific computing libraries.
翻訳日:2024-06-11 13:28:42 公開日:2024-06-10
# 食品落下の自動化:動的・公正な食品配置のための2つの選択の力

Automating Food Drop: The Power of Two Choices for Dynamic and Fair Food Allocation ( http://arxiv.org/abs/2406.06363v1 )

ライセンス: Link先を確認
Marios Mertzanidis, Alexandros Psomas, Paritosh Verma, (参考訳) 食品廃棄物と食料不安全は、地球規模の問題と密接に関連している。 世界の食品救難団体は、この2つの問題に対処するためのプログラムを運営している。 本稿では,インディアナ州の非営利組織と共同で,廃棄された食品を埋立処分場から食料銀行にリダイレクトするプログラムである \emph{Food Drop} をリードする。 フードバンクの対応決定に対するトラックの負荷は、現在、当社のパートナー組織の従業員によって行われています。 これは非常に時間を要する作業であるのに加えて、人間ベースのマッチング決定から予想されるように、アロケーションはスキューされることが多い。 このパートナーシップの目標は、Food Dropを完全に自動化することにあります。 そのためには、食品を受け取った食品銀行の公正性の確保と、トラック運転手の効率の最適化を両立させるために、リアルタイムな意思決定を行うためのマッチングアルゴリズムが必要である。 本稿では、我々のパートナー組織のために構築し、デプロイしたプラットフォームにおけるアルゴリズムの選択を規定する理論的保証と実験について述べる。 私たちの研究は、ロードバランシングやボールイントゥビンゲームに関する文献にも貢献しています。 具体的には、各球が2つの非一様サンプリングされたランダムなビン選択を持ち、高い確率で保持される上限を任意のビンの最大負荷で証明する、$m$重み付き球を$n$重み付きビンに割り当てることについて検討する。

Food waste and food insecurity are two closely related pressing global issues. Food rescue organizations worldwide run programs aimed at addressing the two problems. In this paper, we partner with a non-profit organization in the state of Indiana that leads \emph{Food Drop}, a program that is designed to redirect rejected truckloads of food away from landfills and into food banks. The truckload to food bank matching decisions are currently made by an employee of our partner organization. In addition to this being a very time-consuming task, as perhaps expected from human-based matching decisions, the allocations are often skewed: a small percentage of the possible recipients receives the majority of donations. Our goal in this partnership is to completely automate Food Drop. In doing so, we need a matching algorithm for making real-time decisions that strikes a balance between ensuring fairness for the food banks that receive the food and optimizing efficiency for the truck drivers. In this paper, we describe the theoretical guarantees and experiments that dictated our choice of algorithm in the platform we built and deployed for our partner organization. Our work also makes contributions to the literature on load balancing and balls-into-bins games, that might be of independent interest. Specifically, we study the allocation of $m$ weighted balls into $n$ weighted bins, where each ball has two non-uniformly sampled random bin choices, and prove upper bounds, that hold with high probability, on the maximum load of any bin.
翻訳日:2024-06-11 13:28:42 公開日:2024-06-10
# BERT言語モデルの効率的な学習のための対称Dot-Product Attention

Symmetric Dot-Product Attention for Efficient Training of BERT Language Models ( http://arxiv.org/abs/2406.06366v1 )

ライセンス: Link先を確認
Martin Courtois, Malte Ostendorff, Leonhard Hennig, Georg Rehm, (参考訳) 当初、機械翻訳モデルとして導入されたTransformerアーキテクチャは、コンピュータビジョンから自然言語処理まで幅広い分野の応用で、現代のディープラーニングアーキテクチャの基礎となっている。 今日では、ますます複雑なタスクに取り組むために、Transformerベースのモデルは巨大なサイズに拡張され、トレーニングデータセットがますます大きくなり、持続不可能な量の計算リソースが必要になる。 トランスフォーマーのユビキタスな性質と、そのコアコンポーネントであるアテンション機構は、効率研究の主要なターゲットである。 本研究では,Transformer アーキテクチャによって導入された自己注意機構の代替互換性関数を提案する。 この整合関数は、伝統的なスケールされたドット積の注意の学習された表現の重なりを生かし、左右の係数のドット積の注意が対称となる。 BERTライクなモデルの事前トレーニングに適用すると、この新しい対称アテンション機構はGLUEベンチマークのスコア79.36に到達し、従来の実装では78.74に到達し、トレーニング可能なパラメータの6%が減少し、収束前に必要となるトレーニングステップの数を半分に減らす。

Initially introduced as a machine translation model, the Transformer architecture has now become the foundation for modern deep learning architecture, with applications in a wide range of fields, from computer vision to natural language processing. Nowadays, to tackle increasingly more complex tasks, Transformer-based models are stretched to enormous sizes, requiring increasingly larger training datasets, and unsustainable amount of compute resources. The ubiquitous nature of the Transformer and its core component, the attention mechanism, are thus prime targets for efficiency research. In this work, we propose an alternative compatibility function for the self-attention mechanism introduced by the Transformer architecture. This compatibility function exploits an overlap in the learned representation of the traditional scaled dot-product attention, leading to a symmetric with pairwise coefficient dot-product attention. When applied to the pre-training of BERT-like models, this new symmetric attention mechanism reaches a score of 79.36 on the GLUE benchmark against 78.74 for the traditional implementation, leads to a reduction of 6% in the number of trainable parameters, and reduces the number of training steps required before convergence by half.
翻訳日:2024-06-11 13:28:42 公開日:2024-06-10
# MVGamba:ステートスペースシーケンスモデリングとして3Dコンテンツ生成を統合する

MVGamba: Unify 3D Content Generation as State Space Sequence Modeling ( http://arxiv.org/abs/2406.06367v1 )

ライセンス: Link先を確認
Xuanyu Yi, Zike Wu, Qiuhong Shen, Qingshan Xu, Pan Zhou, Joo-Hwee Lim, Shuicheng Yan, Xinchao Wang, Hanwang Zhang, (参考訳) 近年の3次元大規模再構成モデル(LRM)は、多視点拡散モデルとスケーラブルな多視点再構成モデルを統合することにより、サブ秒間に高品質な3Dコンテンツを生成することができる。 現在の作業では、視覚的品質とレンダリング効率を改善するために、3Dガウススプラッティングを3D表現として活用している。 しかし,既存のガウス復元モデルは多視点の不整合やぼやけたテクスチャに悩まされることが多い。 これは、強力な計算集約型アーキテクチャ (\eg, Transformers) を採用するために、多視点情報伝達の妥協によるものである。 この問題に対処するために,RNN-like State Space Model (SSM)に基づく多視点ガウス再構成器を備えた汎用軽量ガウス再構成モデルであるMVGambaを紹介する。 我々のガウス構造体は,多視点情報を含む因果関係を伝播し,線形複雑度を持つ細部モデリングのためのガウスの長い列を生成する。 市販のマルチビュー拡散モデルを統合することで、MVGambaは単一の画像、スパース画像、テキストプロンプトから3D生成タスクを統一する。 MVGambaは、すべての3Dコンテンツ生成シナリオにおいて、およそ0.1\times$のモデルサイズで、最先端のベースラインを上回ります。

Recent 3D large reconstruction models (LRMs) can generate high-quality 3D content in sub-seconds by integrating multi-view diffusion models with scalable multi-view reconstructors. Current works further leverage 3D Gaussian Splatting as 3D representation for improved visual quality and rendering efficiency. However, we observe that existing Gaussian reconstruction models often suffer from multi-view inconsistency and blurred textures. We attribute this to the compromise of multi-view information propagation in favor of adopting powerful yet computationally intensive architectures (\eg, Transformers). To address this issue, we introduce MVGamba, a general and lightweight Gaussian reconstruction model featuring a multi-view Gaussian reconstructor based on the RNN-like State Space Model (SSM). Our Gaussian reconstructor propagates causal context containing multi-view information for cross-view self-refinement while generating a long sequence of Gaussians for fine-detail modeling with linear complexity. With off-the-shelf multi-view diffusion models integrated, MVGamba unifies 3D generation tasks from a single image, sparse images, or text prompts. Extensive experiments demonstrate that MVGamba outperforms state-of-the-art baselines in all 3D content generation scenarios with approximately only $0.1\times$ of the model size.
翻訳日:2024-06-11 13:28:42 公開日:2024-06-10
# アノテーションアライメント:LLMと人間の会話安全アノテーションの比較

Annotation alignment: Comparing LLM and human annotations of conversational safety ( http://arxiv.org/abs/2406.06369v1 )

ライセンス: Link先を確認
Rajiv Movva, Pang Wei Koh, Emma Pierson, (参考訳) LLMは安全に対する人間の認識とどの程度一致しているか? 我々は,ユーザとチャットボットの会話の安全性に言及する際に,LLMと人間が同意する範囲について,*アノテーションアライメント*を用いて検討する。 私たちは最近のDICESデータセット(Aroyo et al , 2023)を活用し、350の会話が10のレースジェンダーグループにまたがる112のアノテータによって安全のために評価される。 GPT-4は、平均アノテータのレーティングと$r = 0.59$のピアソン相関を達成し、平均 (r=0.51$) との平均アノテータの相関よりも高い。 我々は、GPT-4が人口統計群とどのように相関するかの相違を示すためには、より大きなデータセットが必要であることを示した。 また、**グループとの相関にはかなりの慣用的変化があり、人種と性別がアライメントの差を完全に捉えていないことを示唆している。 最後に、GPT-4は、ある集団が他の集団よりも会話が安全でないと予測できないことを発見した。

To what extent to do LLMs align with human perceptions of safety? We study this question via *annotation alignment*, the extent to which LLMs and humans agree when annotating the safety of user-chatbot conversations. We leverage the recent DICES dataset (Aroyo et al., 2023), in which 350 conversations are each rated for safety by 112 annotators spanning 10 race-gender groups. GPT-4 achieves a Pearson correlation of $r = 0.59$ with the average annotator rating, higher than the median annotator's correlation with the average ($r=0.51$). We show that larger datasets are needed to resolve whether GPT-4 exhibits disparities in how well it correlates with demographic groups. Also, there is substantial idiosyncratic variation in correlation *within* groups, suggesting that race & gender do not fully capture differences in alignment. Finally, we find that GPT-4 cannot predict when one demographic group finds a conversation more unsafe than another.
翻訳日:2024-06-11 13:28:42 公開日:2024-06-10
# UMAD:無人運転における教師なしマスクレベル異常検出

UMAD: Unsupervised Mask-Level Anomaly Detection for Autonomous Driving ( http://arxiv.org/abs/2406.06370v1 )

ライセンス: Link先を確認
Daniel Bogdoll, Noël Ollick, Tim Joseph, J. Marius Zöllner, (参考訳) 非定型的な交通シナリオへの対処は、自動運転において依然として難しい課題である。 しかし、ほとんどの異常検出アプローチは、生のセンサーデータに基づいて訓練することはできないが、外部データや強力なセマンティックセグメンテーションモデルに曝露する必要がある。 これは正規性の表現をラベル付きデータに制限するが、それはうまくスケールしない。 本研究では,非教師付き異常検出とUMADの更新を行い,生成的世界モデルと教師なし画像セグメンテーションを活用する。 我々の手法は、最先端の教師なし異常検出よりも優れています。

Dealing with atypical traffic scenarios remains a challenging task in autonomous driving. However, most anomaly detection approaches cannot be trained on raw sensor data but require exposure to outlier data and powerful semantic segmentation models trained in a supervised fashion. This limits the representation of normality to labeled data, which does not scale well. In this work, we revisit unsupervised anomaly detection and present UMAD, leveraging generative world models and unsupervised image segmentation. Our method outperforms state-of-the-art unsupervised anomaly detection.
翻訳日:2024-06-11 13:28:42 公開日:2024-06-10
# mHuBERT-147:小型多言語 HuBERT モデル

mHuBERT-147: A Compact Multilingual HuBERT Model ( http://arxiv.org/abs/2406.06371v1 )

ライセンス: Link先を確認
Marcely Zanon Boito, Vivek Iyer, Nikolaos Lagos, Laurent Besacier, Ioan Calapodescu, (参考訳) 我々は90K時間のクリーンでオープンなデータに基づいて訓練された最初の汎用多言語HuBERT音声表現モデルであるmHuBERT-147を提案する。 マルチイテレーションの HuBERT アプローチをスケールアップするために,ファイスベースのクラスタリングを用い,元の手法よりも5.2倍高速なラベル割り当てを実現した。 また、言語とデータセットの多様性の両面を活用した、新しい多言語バッチアップサンプリング戦略を適用します。 3回のトレーニングを繰り返し、わずか95Mのパラメータしか持たないmHuBERT-147は、かなり多くのデータでトレーニングされたより大きなモデルより優れている。 ML-SUPERB 10min/1h のリーダーボードでそれぞれ第2位と第1位にランクされ、全ての LID タスクの SOTA スコアが与えられます。 ASR/LIDタスク全体で、我々のモデルは一貫してXLS-R(300Mパラム、436K時間)を超え、はるかに大きなMSM(1Bパラム、491K時間)に対して強い競争力を示す。 この結果から,mHuBERT-147は多言語音声処理タスクにおいて有望なモデルであり,高い性能とパラメータ効率のバランスを保っていることが示唆された。

We present mHuBERT-147, the first general-purpose massively multilingual HuBERT speech representation model trained on 90K hours of clean, open-license data. To scale up the multi-iteration HuBERT approach, we use faiss-based clustering, achieving 5.2x faster label assignment over the original method. We also apply a new multilingual batching up-sampling strategy, leveraging both language and dataset diversity. After 3 training iterations and with only 95M parameters, mHuBERT-147 outperforms larger models trained on substantially more data. We rank second and first on the ML-SUPERB 10min/1h leaderboards respectively, with SOTA scores for all LID tasks. Across ASR/LID tasks, our model consistently surpasses XLS-R (300M params; 436K hours) and demonstrates strong competitiveness against the much larger MMS (1B params; 491K hours). Our findings suggest that mHuBERT-147 is a promising model for multilingual speech processing tasks, offering an unprecedented balance between high performance and parameter efficiency.
翻訳日:2024-06-11 13:28:42 公開日:2024-06-10
# 重み付けによる深層学習に基づく自動頭蓋欠損再建:画像登録から潜時拡散モデルへ

Improving Deep Learning-based Automatic Cranial Defect Reconstruction by Heavy Data Augmentation: From Image Registration to Latent Diffusion Models ( http://arxiv.org/abs/2406.06372v1 )

ライセンス: Link先を確認
Marek Wodzinski, Kamil Kwarciak, Mateusz Daniol, Daria Hemmerling, (参考訳) パーソナライズされた頭蓋インプラントのモデリングと製造は、頭蓋損傷に悩む患者の待ち時間を減少させる可能性がある重要な研究分野である。 パーソナライズされたインプラントのモデリングは、ディープラーニングベースの手法を用いて部分的に自動化することができる。 しかし, この課題は, 既往の分布から得られたデータへの一般化性の難しさに悩まされ, 実際の臨床現場での研究成果の活用が困難になる。 地味なアノテーションの取得が難しいため、深層ネットワークのトレーニングに使用されるデータセットの不均一性を改善する様々な手法が検討され、導入されなければならない。 本研究では,古典的幾何学的変換,画像登録,変分オートエンコーダ,生成的対角線ネットワークから,近年の潜時拡散モデルの進歩まで,いくつかの拡張手法について大規模に研究する。 その結果,SkullBreakではDice Scoreが0.94以上,SkullFixデータセットでは0.96以上となった。 さらに, 人工的に拡張したネットワークは, 実際の臨床的欠陥を再構築することに成功した。 この研究は、パーソナライズされた頭蓋インプラントの自動モデリングにおける人工知能の分野に多大な貢献をしている。

Modeling and manufacturing of personalized cranial implants are important research areas that may decrease the waiting time for patients suffering from cranial damage. The modeling of personalized implants may be partially automated by the use of deep learning-based methods. However, this task suffers from difficulties with generalizability into data from previously unseen distributions that make it difficult to use the research outcomes in real clinical settings. Due to difficulties with acquiring ground-truth annotations, different techniques to improve the heterogeneity of datasets used for training the deep networks have to be considered and introduced. In this work, we present a large-scale study of several augmentation techniques, varying from classical geometric transformations, image registration, variational autoencoders, and generative adversarial networks, to the most recent advances in latent diffusion models. We show that the use of heavy data augmentation significantly increases both the quantitative and qualitative outcomes, resulting in an average Dice Score above 0.94 for the SkullBreak and above 0.96 for the SkullFix datasets. Moreover, we show that the synthetically augmented network successfully reconstructs real clinical defects. The work is a considerable contribution to the field of artificial intelligence in the automatic modeling of personalized cranial implants.
翻訳日:2024-06-11 13:28:42 公開日:2024-06-10
# 量子電池の絡み合いと操舵

Entanglement and steering in quantum batteries ( http://arxiv.org/abs/2406.06373v1 )

ライセンス: Link先を確認
Dayang Zhang, Shuangquan Ma, Yunxiu Jiang, Youbin Yu, Guangri Jin, Aixi Chen, (参考訳) 量子電池の利点は、充電効率を向上させるために量子資源を使用することである。 利用可能な量子資源は、量子絡み合い(quantum entanglement)と量子コヒーレンス(quantum coherence)である。 本稿では,バッテリに新しい量子リソースとして量子ステアリングを導入する。 本研究では, 量子ステアリング, 量子エンタングルメント, エネルギー貯蔵, 抽出可能な作業の関係を, フィールド量子電池とキャビティ・ハイゼンベルク量子電池の2つのモデルを用いて解析する。 測定可能な範囲では、異なる量子ビットの量子ステアリングは、電池のエネルギー貯蔵に対応する最大または最小値であり、抽出可能な作業は最大値である。 量子絡み合いの最小値の発生は常に、エネルギー貯蔵のようなパラメータの最大値の発生を伴う。 最終的に、システムの純度を用いて、これらの結果の理由を分析した。 そして、比較的一般的な結論として、純度が最大であれば、バッテリーのエネルギー貯蔵などの重要なパラメータも最大になる。

The advantage of quantum batteries is that quantum resources can be used to improve charging efficiency. The quantum resources that are known to be available are: quantum entanglement and quantum coherence. In this paper, we introduce quantum steering as a new quantum resource into batteries for the first time. We analyze the relationship between quantum steering, quantum entanglement, energy storage, and extractable work by considering two models: Field-quantum battery and Cavity-Heisenberg quantum battery. We find that in the steerable range, the quantum steering of different qubits has a maximum or minimum value, which corresponds to the energy storage of the battery, and the extractable work has a maximum value. The occurrence of the minimum value of quantum entanglement is always accompanied by the occurrence of the maximum value of parameters such as energy storage. Ultimately, we analyzed the reasons for these results using the purity of the system. And found a relatively general conclusion: when the purity is at the maximum, important parameters such as the energy storage of the battery are also at the maximum.
翻訳日:2024-06-11 13:28:42 公開日:2024-06-10
# Multicam-SLAM: 間接的な視覚的位置決めとナビゲーションのための非重複マルチカメラSLAM

Multicam-SLAM: Non-overlapping Multi-camera SLAM for Indirect Visual Localization and Navigation ( http://arxiv.org/abs/2406.06374v1 )

ライセンス: Link先を確認
Shenghao Li, Luchao Pang, Xianglong Hu, (参考訳) 本稿では,複数のRGB-Dカメラを用いた視覚的同時ローカライゼーションとマッピング(SLAM)の新たなアプローチを提案する。 提案手法であるMulticam-SLAMは,様々な視点からより包括的な空間情報を取得することにより,SLAMシステムの堅牢性と精度を著しく向上する。 重なり合う視野を必要とせずに、複数のカメラ間のポーズ関係を正確に決定することができる。 提案したMuticam-SLAMには、ユニークなマルチカメラモデル、マルチキーフレーム構造、複数の並列SLAMスレッドが含まれている。 マルチカメラモデルは複数のカメラからのデータの統合を可能にし、マルチキーフレームと並列SLAMスレッドは効率的で正確なポーズ推定とマッピングを保証する。 各種環境における広範囲な実験により,従来の単カメラSLAMシステムと比較して,提案手法の精度とロバスト性が向上した。 この結果は、より複雑で困難なアプリケーションのために提案されているMulticam-SLAMの可能性を強調している。 コードは \url{https://github.com/AlterPang/Multi_ORB_SLAM} で公開されている。

This paper presents a novel approach to visual simultaneous localization and mapping (SLAM) using multiple RGB-D cameras. The proposed method, Multicam-SLAM, significantly enhances the robustness and accuracy of SLAM systems by capturing more comprehensive spatial information from various perspectives. This method enables the accurate determination of pose relationships among multiple cameras without the need for overlapping fields of view. The proposed Muticam-SLAM includes a unique multi-camera model, a multi-keyframes structure, and several parallel SLAM threads. The multi-camera model allows for the integration of data from multiple cameras, while the multi-keyframes and parallel SLAM threads ensure efficient and accurate pose estimation and mapping. Extensive experiments in various environments demonstrate the superior accuracy and robustness of the proposed method compared to conventional single-camera SLAM systems. The results highlight the potential of the proposed Multicam-SLAM for more complex and challenging applications. Code is available at \url{https://github.com/AlterPang/Multi_ORB_SLAM}.
翻訳日:2024-06-11 13:28:42 公開日:2024-06-10
# MOSA:クロスプラットフォーム音楽処理のためのセマンティックアノテーションデータセットを用いた音楽運動

MOSA: Music Motion with Semantic Annotation Dataset for Cross-Modal Music Processing ( http://arxiv.org/abs/2406.06375v1 )

ライセンス: Link先を確認
Yu-Fen Huang, Nikki Moran, Simon Coleman, Jon Kelly, Shun-Hwa Wei, Po-Yin Chen, Yun-Hsin Huang, Tsung-Ping Chen, Yu-Chia Kuo, Yu-Chi Wei, Chih-Hsuan Li, Da-Yu Huang, Hsuan-Kai Kao, Ting-Wei Lin, Li Su, (参考訳) クロスモーダルな音楽処理では、視覚的、聴覚的、意味的なコンテンツ間の翻訳が新たな可能性と課題を開く。 このような変換スキームの構築は、包括的なデータ基盤を持つベンチマークコーパスに依存する。 特に、大規模なクロスモーダルデータセットの組み立てには大きな課題がある。 本稿では,ハイクオリティな3次元モーションキャプチャーデータ,アライメント音声記録,ピッチ,ビート,フレーズ,ダイナミック,調音,ハーモニーを含むMOSAデータセットを提案する。 私たちの知る限り、これはこれまでのノートレベルのアノテーションを備えた、最大のクロスモーダルな音楽データセットです。 そこで我々は,MOSAデータセットの利用を実証するために,音楽音声からのビート,ダウンビート,フレーズ,表現的コンテンツの検出,ビデオ,モーションデータからのミュージシャンの身体の動きの生成など,革新的な音楽情報検索(MIR)と音楽コンテンツ生成タスクを提案する。 データセットとコードは、この出版物と一緒に入手できる(https://github.com/yufenhuang/MOSA-Music-mOtion-and-Semantic-Annotation-dataset)。

In cross-modal music processing, translation between visual, auditory, and semantic content opens up new possibilities as well as challenges. The construction of such a transformative scheme depends upon a benchmark corpus with a comprehensive data infrastructure. In particular, the assembly of a large-scale cross-modal dataset presents major challenges. In this paper, we present the MOSA (Music mOtion with Semantic Annotation) dataset, which contains high quality 3-D motion capture data, aligned audio recordings, and note-by-note semantic annotations of pitch, beat, phrase, dynamic, articulation, and harmony for 742 professional music performances by 23 professional musicians, comprising more than 30 hours and 570 K notes of data. To our knowledge, this is the largest cross-modal music dataset with note-level annotations to date. To demonstrate the usage of the MOSA dataset, we present several innovative cross-modal music information retrieval (MIR) and musical content generation tasks, including the detection of beats, downbeats, phrase, and expressive contents from audio, video and motion data, and the generation of musicians' body motion from given music audio. The dataset and codes are available alongside this publication (https://github.com/yufenhuang/MOSA-Music-mOtion-and-Semantic-Annotation-dataset).
翻訳日:2024-06-11 13:18:57 公開日:2024-06-10
# 絡み合った光子を用いた背景反射型定量的位相顕微鏡

Background resilient quantitative phase microscopy using entangled photons ( http://arxiv.org/abs/2406.06377v1 )

ライセンス: Link先を確認
Yingwen Zhang, Paul-Antoine Moreau, Duncan England, Ebrahim Karimi, Benjamin Sussman, (参考訳) 本研究では、本質的に背景抵抗性があり、干渉計や走査に依存しない位相勾配法による量子ベースの定量的位相顕微鏡手法を提案する。 ここでは、試料の近距離場(NF)における位置測定のための1つの光子セットアップと遠距離場(FF)における運動量測定のためのパートナーとの両光子により透明な試料を照射する。 これにより、絡み合いに固有の空間相関特性により、光子の位置情報と運動量情報の両方を同時に得ることができる。 次に、試料の位相プロファイルを、各NF位置に対するFF運動量平面における光子'のセントロイドシフトを測定した位相勾配測定により推定する。 この手法は、画像解像度 2.76\,$\mu$m は位相精度が少なくとも$\lambda/30$ であり、位相感度は 810\,nm の波長で $\lambda/100$ であることを示す。 さらに,光子対間の時間的相関により,強い動的背景光に対するレジリエンスを示す。 この研究は、一般に量子位相顕微鏡と量子イメージングの能力において重要な進歩であり、古典的な位相顕微鏡で達成可能なものに近づいた画像と位相分解能を示すものである。 この進歩により、量子イメージングは現実の応用に近づき、この分野における新たな可能性を秘めている。

In this work, we introduce a quantum-based quantitative phase microscopy technique using a phase gradient approach that is inherently background resistant and does not rely on interferometry or scanning. Here, a transparent sample is illuminated by both photons of a position-momentum entangled pair with one photon setup for position measurement in the near-field (NF) of the sample and its partner for momentum measurement in the far-field (FF). By virtue of the spatial correlation property inherent to the entanglement, both the position and momentum information of the photons can thus be obtained simultaneously. The phase profile of the sample is then deduced through a phase gradient measurement obtained by measuring the centroid shift of the photons' in the FF momentum plane for each NF position. We show that the technique, while achieving an imaging resolution of 2.76\,$\mu$m, is phase accurate to at least $\lambda/30$ and phase sensitive to $\lambda/100$ at a wavelength of 810\,nm. In addition, through the temporal correlation between the photon pairs, our technique shows resilience to strong dynamic background lights, which can prove difficult to account for in classical phase imaging techniques. We believe this work marks a significant advancement in the capabilities of quantum phase microscopy and quantum imaging in general, it showcases imaging and phase resolutions approaching those attainable with classical phase microscopes. This advancement brings quantum imaging closer to practical real-world applications, heralding new possibilities in the field.
翻訳日:2024-06-11 13:18:57 公開日:2024-06-10
# イジング・ハミルトニアンを用いた一次元フェルミオン系の量子シミュレーション

Quantum simulation of one-dimensional fermionic systems with Ising Hamiltonians ( http://arxiv.org/abs/2406.06378v1 )

ライセンス: Link先を確認
Matthias Werner, Artur García-Sáez, Marta P. Estarellas, (参考訳) 近年、アナログ量子シミュレータは量子ビット数とコヒーレンス時間の両方で前例のない品質に達している。 これらのシミュレータのほとんどは、効率的にシミュレートできるモデルのクラスを制限するIsing-type Hamiltonianをネイティブに実装している。 この制限を克服し、局所横断場を持つ単純なイジング型ハミルトニアンの1次元におけるスピンレスフェルミオン系の時間進化をシミュレートする手法を提案する。 シミュレーションの時間複雑性は逆誤差の平方根でスケールし、従って1次積公式の最悪のケースエラーと比較することが好ましい。 本手法は,強強強強強強磁性結合を用いて実装された磁壁符号化に基づく。 強い$|J|$の極限において、ドメインの壁は1Dのスピンレスフェルミオンのように振る舞う。 イジング・ハミルトニアン(Ising Hamiltonian)は、最も近い隣り合う1次元鎖であり、任意に次の隣り合う相互作用を持つ。 概念実証として,ドメイン壁の進化を用いた各種1次元フェルミオン系の数値シミュレーションを行い,トポロジカルエッジ状態,アンダーソン局在化,量子カオス時間進化,フロケット工学による時間反転対称性の破れなどのシステムの特性を正確に再現する。 提案手法は,Ising型ハミルトニアンの逆場をネイティブに実装したアナログ量子ハードウェア上で,大規模なフェルミオン多体系のシミュレーションを可能にする。

In recent years, analog quantum simulators have reached unprecedented quality, both in qubit numbers and coherence times. Most of these simulators natively implement Ising-type Hamiltonians, which limits the class of models that can be simulated efficiently. We propose a method to overcome this limitation and simulate the time-evolution of a large class of spinless fermionic systems in 1D using simple Ising-type Hamiltonians with local transverse fields. The time complexity of the simulation scales with the square root of the inverse error, and thus favorably compared to the worst-case error of first-order product formulas. Our method is based on domain wall encoding, which is implemented via strong (anti-)ferromagnetic couplings $|J|$. We show that in the limit of strong $|J|$, the domain walls behave like spinless fermions in 1D. The Ising Hamiltonians are one-dimensional chains with nearest-neighbor and, optionally, next-nearest-neighbor interactions. As a proof-of-concept, we perform numerical simulations of various 1D-fermionic systems using domain wall evolution and accurately reproduce the systems' properties, such as topological edge states, Anderson localization, quantum chaotic time evolution and time-reversal symmetry breaking via Floquet-engineering. Our approach makes the simulation of a large class of fermionic many-body systems feasible on analogue quantum hardware that natively implements Ising-type Hamiltonians with transverse fields.
翻訳日:2024-06-11 13:18:57 公開日:2024-06-10
# 拡散-RPO:相対的選好最適化による拡散モデルの調整

Diffusion-RPO: Aligning Diffusion Models through Relative Preference Optimization ( http://arxiv.org/abs/2406.06382v1 )

ライセンス: Link先を確認
Yi Gu, Zhendong Wang, Yueqin Yin, Yujia Xie, Mingyuan Zhou, (参考訳) 言語モデリング研究において,人間の好みによる大規模言語モデルのアラインメントが重要視されている。 しかし、好みの学習をテキスト・ツー・イメージ(T2I)生成モデルに組み込むことは、いまだに比較的未知の領域である。 Diffusion-DPO技術は、特定のテキストプロンプトに適した拡散モデルにおいて、ペアワイズ優先学習を用いることで、最初の一歩を踏み出した。 拡散に基づくT2Iモデルと人間の嗜好をより効率的に整合させる新しい手法であるDiffusion-RPOを紹介する。 このアプローチは、同一のプロンプトを持つプロンプトイメージ対と、様々なモダリティにまたがる意味的に関連のあるコンテンツの両方を活用する。 さらに我々は,人選好アライメントの現在の評価において,高コスト,低再現性,限定的な解釈可能性といった課題を克服することを目的とした,新しい評価基準,スタイルアライメントを開発した。 以上の結果から,Diffusion-RPO は安定拡散バージョン1.5 と XL-1.0 のチューニングにおいて,人間の好みの自動評価とスタイルアライメントの両面で優れた結果が得られ,Supervised Fine-Tuning や Diffusion-DPO などの確立された手法よりも優れていたことが示唆された。 私たちのコードはhttps://github.com/yigu1008/Diffusion-RPOで利用可能です。

Aligning large language models with human preferences has emerged as a critical focus in language modeling research. Yet, integrating preference learning into Text-to-Image (T2I) generative models is still relatively uncharted territory. The Diffusion-DPO technique made initial strides by employing pairwise preference learning in diffusion models tailored for specific text prompts. We introduce Diffusion-RPO, a new method designed to align diffusion-based T2I models with human preferences more effectively. This approach leverages both prompt-image pairs with identical prompts and those with semantically related content across various modalities. Furthermore, we have developed a new evaluation metric, style alignment, aimed at overcoming the challenges of high costs, low reproducibility, and limited interpretability prevalent in current evaluations of human preference alignment. Our findings demonstrate that Diffusion-RPO outperforms established methods such as Supervised Fine-Tuning and Diffusion-DPO in tuning Stable Diffusion versions 1.5 and XL-1.0, achieving superior results in both automated evaluations of human preferences and style alignment. Our code is available at https://github.com/yigu1008/Diffusion-RPO
翻訳日:2024-06-11 13:18:57 公開日:2024-06-10
# 二重キャビティ制御型量子電池

Dual-cavity controllable quantum battery ( http://arxiv.org/abs/2406.06383v1 )

ライセンス: Link先を確認
Dayang Zhang, Shuangquan Ma, Yunxiu Jiang, Youbin Yu, Guangri Jin, Aixi Chen, (参考訳) 量子科学と技術の発展に伴い、量子電池は徐々に発展しつつある。 しかし、量子電池の分野ではまだ未解決の問題がたくさんある。 量子電池の空間利用率を高めるには? 量子電池の充電能力の増大と制御方法 そして、量子バッテリーの電力を減らさずに、より優れた量子バタリーエネルギーストレージを得る方法。 そこで本研究では,制御可能な二重キャビティ量子バッタリーを提案する。 量子バッテリの充電能力は、他の資源を消費することなく原子の数を操作することで向上し、量子バッテリの電力を$N^2$と$N^{2.5}$の間で効果的に調整することができる。 そして、ある程度の規制の利点は、原子間の相互作用力の利点よりも大きい。

With the increasing development of quantum science and technology, quantum batteries are gradually emerging. But there are still many unsolved problems in the field of quantum batteries. Such as: how to increase the space utilization rate of quantum batteries? How to increase and control the charging power of quantum batteries? And how to have better quantum batterie energy storage without reducing the power of quantum batteries. Therefore, we propose a controllable dual-cavity quantum batterie. It can increase the charging power of the quantum batterie by manipulating the number of atoms without consuming other resources, and can make the power of the quantum batterie effectively adjust between $N^2$ and $N^{2.5}$. And the advantage of regulation to a certain extent is greater than the advantage of the interaction force between atoms.
翻訳日:2024-06-11 13:18:57 公開日:2024-06-10
# 解離性表現を伴う糖尿病網膜症における未確認領域への一般化

Generalizing to Unseen Domains in Diabetic Retinopathy with Disentangled Representations ( http://arxiv.org/abs/2406.06384v1 )

ライセンス: Link先を確認
Peng Xia, Ming Hu, Feilong Tang, Wenxue Li, Wenhao Zheng, Lie Ju, Peibo Duan, Huaxiu Yao, Zongyuan Ge, (参考訳) 糖尿病により引き起こされる糖尿病網膜症(DR)は、視覚障害の重大なリスクを負う。 DR補薬の精密かつ効果的なグレーディングは、この状態の治療に有効である。 しかし、既存のモデルはドメインシフトのため、目に見えないドメインで顕著なパフォーマンス劣化を経験します。 従来の手法では、単純な視覚変換を通じてドメインスタイルをシミュレートし、堅牢な表現を学習することでドメインノイズを緩和することでこの問題に対処していた。 しかし、ドメインシフトはイメージスタイル以上のものを含んでいる。 彼らは民族、年齢、診断基準などの暗黙の要因によって引き起こされる偏見を見落としている。 本研究では,異なるドメイン間のペアデータの表現をセマンティックな特徴とドメインノイズに分離する新しいフレームワークを提案する。 結果として得られる拡張表現は、他のドメインからの独自の網膜意味論とドメインノイズを含み、多様なドメインからの豊富な情報を組み込んで、現実の臨床的ニーズに沿った拡張表現を生成することを目的としている。 その後、疎結合表現のロバスト性を改善するために、クラスとドメインのプロトタイプは、非絡み合った表現を補間するために使用され、データ認識重みは、稀なクラスやドメインに焦点を当てるように設計されている。 最後に,特徴から分離された網膜意味論を整合させるために,高解像度の画素レベルのセマンティックアライメント損失を考案し,クラス内多様性と高密度なクラス特徴とのバランスを維持する。 複数のベンチマークによる実験結果から,本手法が未確認領域における有効性を示した。 コードの実装はhttps://github.com/richard-peng-xia/DECOでアクセスできる。

Diabetic Retinopathy (DR), induced by diabetes, poses a significant risk of visual impairment. Accurate and effective grading of DR aids in the treatment of this condition. Yet existing models experience notable performance degradation on unseen domains due to domain shifts. Previous methods address this issue by simulating domain style through simple visual transformation and mitigating domain noise via learning robust representations. However, domain shifts encompass more than image styles. They overlook biases caused by implicit factors such as ethnicity, age, and diagnostic criteria. In our work, we propose a novel framework where representations of paired data from different domains are decoupled into semantic features and domain noise. The resulting augmented representation comprises original retinal semantics and domain noise from other domains, aiming to generate enhanced representations aligned with real-world clinical needs, incorporating rich information from diverse domains. Subsequently, to improve the robustness of the decoupled representations, class and domain prototypes are employed to interpolate the disentangled representations while data-aware weights are designed to focus on rare classes and domains. Finally, we devise a robust pixel-level semantic alignment loss to align retinal semantics decoupled from features, maintaining a balance between intra-class diversity and dense class features. Experimental results on multiple benchmarks demonstrate the effectiveness of our method on unseen domains. The code implementations are accessible on https://github.com/richard-peng-xia/DECO.
翻訳日:2024-06-11 13:18:57 公開日:2024-06-10
# LLMの低域量子化学習

Low-Rank Quantization-Aware Training for LLMs ( http://arxiv.org/abs/2406.06385v1 )

ライセンス: Link先を確認
Yelysei Bondarenko, Riccardo Del Chiaro, Markus Nagel, (参考訳) 大規模言語モデル(LLM)は、一様だが、計算とメモリの需要がますます増大しているため、その実践的な展開は困難である。 量子化は、より計算とメモリを効率的にするための最も効果的な方法の1つである。 量子化対応トレーニング(QAT)法は、一般的に最高の量子化性能を生み出すが、潜在的に長時間のトレーニング時間と過剰なメモリ使用のコストが伴うため、LLMに適用する場合は実用的ではない。 LLMのための軽量かつメモリ効率のQATアルゴリズムであるLR-QATを提案する。 LR-QATは、予測性能を犠牲にすることなく、メモリを保存するためにいくつかのコンポーネントを使用します。 (a)量子化グリッドを意識した低ランク補助重量 (b)固定点または二重パッケージ整数を用いたダウンキャスト演算子 (c)チェックポイント。 ほとんどの関連作品と異なり、我々の方法 i) 推論効率が良く,従来のPTQと比較してオーバーヘッドが増加しない。 (ii)は,一般的な拡張事前訓練フレームワークとみなすことができる。 (iii) は、様々な選択の量子化の粒度、アクティベーションの量子化、多くのPTQ技術とシームレスに結合するなど、幅広い量子化設定に適用できる。 LR-QATをLLaMA-2/3およびMistralモデルファミリーに適用し、複数の下流タスクにおける有効性を検証する。 提案手法は、PTQ(Common-training Quantization)アプローチよりも優れ、メモリ使用率のごく一部でフルモデルQATと同じモデル性能に達する。 具体的には、24GBのメモリを持つ1つのコンシューマグレードGPU上で7B LLMをトレーニングすることができる。

Large language models (LLMs) are omnipresent, however their practical deployment is challenging due to their ever increasing computational and memory demands. Quantization is one of the most effective ways to make them more compute and memory efficient. Quantization-aware training (QAT) methods, generally produce the best quantized performance, however it comes at the cost of potentially long training time and excessive memory usage, making it impractical when applying for LLMs. Inspired by parameter-efficient fine-tuning (PEFT) and low-rank adaptation (LoRA) literature, we propose LR-QAT -- a lightweight and memory-efficient QAT algorithm for LLMs. LR-QAT employs several components to save memory without sacrificing predictive performance: (a) low-rank auxiliary weights that are aware of the quantization grid; (b) a downcasting operator using fixed-point or double-packed integers and (c) checkpointing. Unlike most related work, our method (i) is inference-efficient, leading to no additional overhead compared to traditional PTQ; (ii) can be seen as a general extended pretraining framework, meaning that the resulting model can still be utilized for any downstream task afterwards; (iii) can be applied across a wide range of quantization settings, such as different choices quantization granularity, activation quantization, and seamlessly combined with many PTQ techniques. We apply LR-QAT to the LLaMA-2/3 and Mistral model families and validate its effectiveness on several downstream tasks. Our method outperforms common post-training quantization (PTQ) approaches and reaches the same model performance as full-model QAT at the fraction of its memory usage. Specifically, we can train a 7B LLM on a single consumer grade GPU with 24GB of memory.
翻訳日:2024-06-11 13:18:57 公開日:2024-06-10
# FPN-IAIA-BL:デジタルマンモグラフィーにおけるマスマージン分類のためのマルチスケール解釈可能な深層学習モデル

FPN-IAIA-BL: A Multi-Scale Interpretable Deep Learning Model for Classification of Mass Margins in Digital Mammography ( http://arxiv.org/abs/2406.06386v1 )

ライセンス: Link先を確認
Julia Yang, Alina Jade Barnett, Jon Donnelly, Satvik Kishore, Jerry Fang, Fides Regina Schwartz, Chaofan Chen, Joseph Y. Lo, Cynthia Rudin, (参考訳) 乳がん検出にはデジタルマンモグラフィーが不可欠であり、ディープラーニングはより高速で正確なマンモグラフィー解析のための有望なツールを提供する。 ラジオロジーや他の高感度環境では、解釈不能な(ブラックボックス)ディープラーニングモデルは不適当であり、解釈不能なモデルを作成するためにこれらの分野にコールがある。 コンピュータビジョンを解釈する最近の研究は、ケースベースの説明のためのプロトタイプを活用し、マンモグラフィーなどのアプリケーションで高い精度を達成することによって、これらの以前のブラックボックスに対して透明性を提供する。 しかし、これらのモデルでは、小さな部分だけが関係している場合、画像の大部分を推論する、正確な特徴ローカライゼーションに苦慮している。 本稿では,マンモグラフィ・マス・マージン分類のための新しいマルチスケール解釈可能な深層学習モデルを提案する。 我々の貢献は、ラジオロジストの実践に沿った推論を伴う解釈可能なモデルを提供するだけでなく、ユーザ設定可能なプロトタイプを粗いプロトタイプからきめ細かいプロトタイプまで、コンピュータビジョンのための一般的なアーキテクチャも提供する。

Digital mammography is essential to breast cancer detection, and deep learning offers promising tools for faster and more accurate mammogram analysis. In radiology and other high-stakes environments, uninterpretable ("black box") deep learning models are unsuitable and there is a call in these fields to make interpretable models. Recent work in interpretable computer vision provides transparency to these formerly black boxes by utilizing prototypes for case-based explanations, achieving high accuracy in applications including mammography. However, these models struggle with precise feature localization, reasoning on large portions of an image when only a small part is relevant. This paper addresses this gap by proposing a novel multi-scale interpretable deep learning model for mammographic mass margin classification. Our contribution not only offers an interpretable model with reasoning aligned with radiologist practices, but also provides a general architecture for computer vision with user-configurable prototypes from coarse- to fine-grained prototypes.
翻訳日:2024-06-11 13:18:57 公開日:2024-06-10
# タイムトロニクス:時間印刷回路基板から量子コンピュータへ

Time-tronics: from temporal printed circuit board to quantum computer ( http://arxiv.org/abs/2406.06387v1 )

ライセンス: Link先を確認
Krzysztof Giergiel, Peter Hannaford, Krzysztof Sacha, (参考訳) 時間結晶構造は周期的に駆動されるシステムで生成することができる。 これらは時間的格子であり、アンダーソンの時間的局在化から多体局在化やトポロジカル絶縁体の時間的類似まで様々な凝縮物質挙動を明らかにすることができる。 しかし、時間結晶構造の潜在的な実用的応用はまだ検討されていない。 ここでは、時間的格子が印刷回路基板に似ており、幅広い量子デバイスを実現するためのタイムトロニクスの道を開く。 これらの装置の要素は3以上の次元の構造に対応でき、任意の瞬間に任意の接続や再構成を行うことができる。 さらに,本手法により量子コンピュータの構築が可能となり,全ての量子ビット対に対する量子ゲート演算が可能となった。 本研究により, 従来の空間結晶を用いた建築装置の限界は, 時間内に結晶構造を採用することで克服できることが示唆された。

Time crystalline structures can be created in periodically driven systems. They are temporal lattices which can reveal different condensed matter behaviours ranging from Anderson localization in time to temporal analogues of many-body localization or topological insulators. However, the potential practical applications of time crystalline structures have yet to be explored. Here, we pave the way for time-tronics where temporal lattices are like printed circuit boards for realization of a broad range of quantum devices. The elements of these devices can correspond to structures of dimensions higher than three and can be arbitrarily connected and reconfigured at any moment. Moreover, our approach allows for the construction of a quantum computer, enabling quantum gate operations for all possible pairs of qubits. Our findings indicate that the limitations faced in building devices using conventional spatial crystals can be overcome by adopting crystalline structures in time.
翻訳日:2024-06-11 13:18:57 公開日:2024-06-10
# 大規模言語モデルの生涯学習に向けて:調査

Towards Lifelong Learning of Large Language Models: A Survey ( http://arxiv.org/abs/2406.06391v1 )

ライセンス: Link先を確認
Junhao Zheng, Shengjie Qiu, Chengming Shi, Qianli Ma, (参考訳) 大規模言語モデル(LLM)の応用が多種多様な分野にまたがるにつれて、これらのモデルがデータ、タスク、ユーザの好みの継続的な変化に適応する能力は重要となる。 静的なデータセットに依存する従来のトレーニング手法は、現実の情報の動的な性質に対処する上で、ますます不十分になっている。 生涯学習(英: Lifelong learning)または連続学習(英: Continuousal learning)または漸進学習(英: incremental learning)は、LCMが運用期間を通じて継続的に適応的に学習することを可能にし、学習済みの情報を保持しながら新たな知識を統合し、破滅的な忘れを防ぎながら、この課題に対処する。 この調査は、生涯学習の洗練された風景を掘り下げ、戦略を2つの主要なグループ、内的知識と内的知識に分類する。 内部知識には、連続的な事前訓練と連続的な微調整が含まれ、それぞれが様々なシナリオにおけるLLMの適応性を高める。 外部知識は検索ベースおよびツールベースの生涯学習を含み、コアパラメータを変更することなく、外部データソースと計算ツールを活用してモデルの能力を拡張する。 本研究の主な貢献は,(1)生涯学習の広範な文献を12つのシナリオに分類する新しい分類法の導入,(2)生涯学習シナリオの共通技術を特定し,既存の文献を各シナリオの様々なテクニックグループに分類すること,(3)モデル拡張やデータ選択といった,LLM以前の研究の少ない新たなテクニックのハイライトである。 本研究は,これらのグループとそのカテゴリの詳細な調査を通じて,実世界のアプリケーションにおけるLCMの適応性,信頼性,全体的な性能の向上を目的とする。

As the applications of large language models (LLMs) expand across diverse fields, the ability of these models to adapt to ongoing changes in data, tasks, and user preferences becomes crucial. Traditional training methods, relying on static datasets, are increasingly inadequate for coping with the dynamic nature of real-world information. Lifelong learning, also known as continual or incremental learning, addresses this challenge by enabling LLMs to learn continuously and adaptively over their operational lifetime, integrating new knowledge while retaining previously learned information and preventing catastrophic forgetting. This survey delves into the sophisticated landscape of lifelong learning, categorizing strategies into two primary groups: Internal Knowledge and External Knowledge. Internal Knowledge includes continual pretraining and continual finetuning, each enhancing the adaptability of LLMs in various scenarios. External Knowledge encompasses retrieval-based and tool-based lifelong learning, leveraging external data sources and computational tools to extend the model's capabilities without modifying core parameters. The key contributions of our survey are: (1) Introducing a novel taxonomy categorizing the extensive literature of lifelong learning into 12 scenarios; (2) Identifying common techniques across all lifelong learning scenarios and classifying existing literature into various technique groups within each scenario; (3) Highlighting emerging techniques such as model expansion and data selection, which were less explored in the pre-LLM era. Through a detailed examination of these groups and their respective categories, this survey aims to enhance the adaptability, reliability, and overall performance of LLMs in real-world applications.
翻訳日:2024-06-11 13:18:57 公開日:2024-06-10
# STimage-1K4M:空間転写学のための病理組織像-遺伝子発現データセット

STimage-1K4M: A histopathology image-gene expression dataset for spatial transcriptomics ( http://arxiv.org/abs/2406.06393v1 )

ライセンス: Link先を確認
Jiawen Chen, Muqing Zhou, Wenrong Wu, Jinwei Zhang, Yun Li, Didong Li, (参考訳) マルチモーダルアルゴリズムの最近の進歩は、大規模な画像テキストデータセットの利用可能化によって推進され、推進され、計算病理学を含む様々な分野において大きな進歩をもたらした。 しかし、既存の多くの医用画像テキストデータセットでは、このテキストは典型的には、大きな病理画像内のサブタイル領域を十分に記述していないハイレベルな要約を提供する。 例えば、画像は、がん領域と健康領域を含む広範囲の組織領域をカバーするかもしれないが、付随するテキストは、この画像ががんスライドであることのみを指定し、詳細な分析に必要な詳細を欠いている。 本研究では,サブタイル画像にゲノム機能を提供することで,このギャップを埋める新しいデータセットであるSTimage-1K4Mを紹介する。 STimage-1K4Mは、病的画像内の個々の空間スポットのレベルで遺伝子発現情報をキャプチャする空間転写データから導出された1,149個の画像を含む。 具体的には、データセットの各画像は小さなサブイメージタイルに分解され、各タイルは15,000-30,000次元の遺伝子発現とペアリングされる。 4,293,195対のサブタイル画像と遺伝子発現により、STimage-1K4Mは前例のない粒度を提供し、マルチモーダルデータ解析における幅広い先進的な研究の道を開いた。

Recent advances in multi-modal algorithms have driven and been driven by the increasing availability of large image-text datasets, leading to significant strides in various fields, including computational pathology. However, in most existing medical image-text datasets, the text typically provides high-level summaries that may not sufficiently describe sub-tile regions within a large pathology image. For example, an image might cover an extensive tissue area containing cancerous and healthy regions, but the accompanying text might only specify that this image is a cancer slide, lacking the nuanced details needed for in-depth analysis. In this study, we introduce STimage-1K4M, a novel dataset designed to bridge this gap by providing genomic features for sub-tile images. STimage-1K4M contains 1,149 images derived from spatial transcriptomics data, which captures gene expression information at the level of individual spatial spots within a pathology image. Specifically, each image in the dataset is broken down into smaller sub-image tiles, with each tile paired with 15,000-30,000 dimensional gene expressions. With 4,293,195 pairs of sub-tile images and gene expressions, STimage-1K4M offers unprecedented granularity, paving the way for a wide range of advanced research in multi-modal data analysis an innovative applications in computational pathology, and beyond.
翻訳日:2024-06-11 13:18:57 公開日:2024-06-10
# T細胞受容体発現のコントラスト学習

Contrastive learning of T cell receptor representations ( http://arxiv.org/abs/2406.06397v1 )

ライセンス: Link先を確認
Yuta Nagano, Andrew Pyo, Martina Milighetti, James Henderson, John Shawe-Taylor, Benny Chain, Andreas Tiffeau-Mayer, (参考訳) T細胞受容体(TCR)とリガンドの相互作用の計算学的予測は免疫学における大きな課題である。 高スループットアッセイの進歩にもかかわらず、具体性に欠けるTCRデータは依然として少ない。 他のドメインでは、ラベルのないデータに対する言語モデルの事前トレーニングが、データのボトルネックに対処するためにうまく使われています。 しかし、TCRの特異性予測のために、事前訓練されたタンパク質言語モデルをどのように最適化するかは定かではない。 本稿では,データ効率のよいトランスファー学習が可能なSCEPTR (Simple Contrastive Embedding of the primary sequence of T cell Receptors) というTCR言語モデルを提案する。 本モデルでは,自動コントラスト学習とマスク付き言語モデリングを組み合わせた新しい事前学習戦略を導入し,SCEPTRの最先端性能を実現する。 対照的に、自己コントラスト学習なしで事前訓練された既存のタンパク質言語モデルとSCEPTRの亜種は、配列アライメントに基づく手法により性能が向上する。 コントラスト学習は,TCRの特異性のルールを復号化するための有用なパラダイムとして期待できる。

Computational prediction of the interaction of T cell receptors (TCRs) and their ligands is a grand challenge in immunology. Despite advances in high-throughput assays, specificity-labelled TCR data remains sparse. In other domains, the pre-training of language models on unlabelled data has been successfully used to address data bottlenecks. However, it is unclear how to best pre-train protein language models for TCR specificity prediction. Here we introduce a TCR language model called SCEPTR (Simple Contrastive Embedding of the Primary sequence of T cell Receptors), capable of data-efficient transfer learning. Through our model, we introduce a novel pre-training strategy combining autocontrastive learning and masked-language modelling, which enables SCEPTR to achieve its state-of-the-art performance. In contrast, existing protein language models and a variant of SCEPTR pre-trained without autocontrastive learning are outperformed by sequence alignment-based methods. We anticipate that contrastive learning will be a useful paradigm to decode the rules of TCR specificity.
翻訳日:2024-06-11 13:18:57 公開日:2024-06-10
# 微調整かRAGか? : 対話にLLMを適応させる異なる手法の評価

Should We Fine-Tune or RAG? Evaluating Different Techniques to Adapt LLMs for Dialogue ( http://arxiv.org/abs/2406.06399v1 )

ライセンス: Link先を確認
Simone Alghisi, Massimo Rizzoli, Gabriel Roccabruna, Seyed Mahed Mousavi, Giuseppe Riccardi, (参考訳) 本研究では,人間と機械の対話における応答生成作業におけるLarge Language Models (LLMs) の限界について検討する。 異なる対話型(例えば、Open-Domain)の文献では、いくつかの技術が提案されている。 しかし, これらの手法の評価は, 基本LLM, 対話型, 評価指標の点で制限されている。 本研究では,異なる対話型に適用した場合のLLM適応手法を広範囲に解析する。 Llama-2とMistralの2つの基本LLMと、Open-Domain, Knowledge-Grounded, Task-Oriented, Question Answeringの4つの対話タイプを選択した。 対話型毎に選択されたデータセット間での文脈内学習と微調整技術の性能を評価する。 我々は、検索・拡張世代(RAG)と金知識の両方のシナリオにおいて、外部知識を取り入れて生成を基盤とする影響を評価する。 我々は,自動測定と人的評価プロトコルに対して,一貫した評価基準と説明可能性基準を採用する。 解析の結果,各手法の有効性は基本LPMと特定の対話形式に依存するため,大規模言語モデルに適用するための普遍的なベストプラクティスは存在しないことがわかった。 最後に、最も優れた適応手法の評価には、自動メトリクスから得られる誤った期待と結果を避けるために、人間の評価を含めるべきである。

We study the limitations of Large Language Models (LLMs) for the task of response generation in human-machine dialogue. Several techniques have been proposed in the literature for different dialogue types (e.g., Open-Domain). However, the evaluations of these techniques have been limited in terms of base LLMs, dialogue types and evaluation metrics. In this work, we extensively analyze different LLM adaptation techniques when applied to different dialogue types. We have selected two base LLMs, Llama-2 and Mistral, and four dialogue types Open-Domain, Knowledge-Grounded, Task-Oriented, and Question Answering. We evaluate the performance of in-context learning and fine-tuning techniques across datasets selected for each dialogue type. We assess the impact of incorporating external knowledge to ground the generation in both scenarios of Retrieval-Augmented Generation (RAG) and gold knowledge. We adopt consistent evaluation and explainability criteria for automatic metrics and human evaluation protocols. Our analysis shows that there is no universal best-technique for adapting large language models as the efficacy of each technique depends on both the base LLM and the specific type of dialogue. Last but not least, the assessment of the best adaptation technique should include human evaluation to avoid false expectations and outcomes derived from automatic metrics.
翻訳日:2024-06-11 13:18:57 公開日:2024-06-10
# 大規模言語モデルと社会ロボティクスのインターセクションにおける倫理的考察の特定のための経験的デザインジャスティスアプローチ

An Empirical Design Justice Approach to Identifying Ethical Considerations in the Intersection of Large Language Models and Social Robotics ( http://arxiv.org/abs/2406.06400v1 )

ライセンス: Link先を確認
Alva Markelius, (参考訳) 大規模言語モデル(LLM)の社会ロボティクスへの統合は、ユニークな倫理的課題と社会的影響を示す。 本研究は、これらの2つの技術の設計と開発に生じる倫理的考察を特定することを目的としている。 社会ロボティクスにLLMを使用することは、自然言語のオープンドメイン対話を可能にするなど、メリットを提供する可能性がある。 しかし、これらの2つの技術の交差は、誤情報、非言語的手がかり、感情的破壊、偏見に関する倫理的な懸念を引き起こす。 ロボットの身体的エンボディメントは、幻覚や誤報などのLLMベースの社会AIに関連する倫理的ハザードが、身体的エンボディメントが社会的知覚とコミュニケーションに与える影響により悪化する可能性があるため、複雑さを増す。 これらの課題に対処するために、質的な共同設計と相互作用研究を通じて社会技術的倫理的考察を識別することに焦点を当てた経験的デザインの正義に基づく方法論を用いる。 本研究の目的は,LLMのインタフェースとしてヒューマノイド社会ロボットとの共同設計とインタラクションのプロセスに関連する倫理的考察を同定し,LLMを基盤とした社会ロボティクスを設計する文脈において,デザイン正義の方法論をどのように利用できるかを評価することである。 その結果, 相互作用, 共同設計, サービス条件, 関係性という4つの概念的側面から生じる倫理的考察のマッピングが示され, LLMと社会ロボティクスの交叉において, どのようにしてデザイン正義アプローチを実証的に利用できるかが評価された。

The integration of Large Language Models (LLMs) in social robotics presents a unique set of ethical challenges and social impacts. This research is set out to identify ethical considerations that arise in the design and development of these two technologies in combination. Using LLMs for social robotics may provide benefits, such as enabling natural language open-domain dialogues. However, the intersection of these two technologies also gives rise to ethical concerns related to misinformation, non-verbal cues, emotional disruption, and biases. The robot's physical social embodiment adds complexity, as ethical hazards associated with LLM-based Social AI, such as hallucinations and misinformation, can be exacerbated due to the effects of physical embodiment on social perception and communication. To address these challenges, this study employs an empirical design justice-based methodology, focusing on identifying socio-technical ethical considerations through a qualitative co-design and interaction study. The purpose of the study is to identify ethical considerations relevant to the process of co-design of, and interaction with a humanoid social robot as the interface of a LLM, and to evaluate how a design justice methodology can be used in the context of designing LLMs-based social robotics. The findings reveal a mapping of ethical considerations arising in four conceptual dimensions: interaction, co-design, terms of service and relationship and evaluates how a design justice approach can be used empirically in the intersection of LLMs and social robotics.
翻訳日:2024-06-11 13:18:57 公開日:2024-06-10
# InterSPEECH 2009 Emotion Challenge revisited: 音声感情認識の15年間の進歩のベンチマーク

INTERSPEECH 2009 Emotion Challenge Revisited: Benchmarking 15 Years of Progress in Speech Emotion Recognition ( http://arxiv.org/abs/2406.06401v1 )

ライセンス: Link先を確認
Andreas Triantafyllopoulos, Anton Batliner, Simon Rampp, Manuel Milling, Björn Schuller, (参考訳) 私たちは、最初のスピーチ感情認識(SER)チャレンジであるInterSPEECH 2009 Emotion Challengeを再考し、それ以来のSER研究の大きな進歩を代表する一連のディープラーニングモデルを評価します。 まず、固定されたハイパーパラメータを使って各モデルをトレーニングし、グリッドサーチによってその初期設定の最高のパフォーマンスモデルをさらに微調整する。 結果は、早期停止にのみ使用される別個の検証セットで、公式テストセットで常に報告される。 ほとんどのモデルは公式のベースラインより下または近くで得点し、ハイパーパラメーターチューニングの後、オリジナルのチャレンジ勝者よりわずかに上回っている。 我々の研究は、最近の進歩にもかかわらず、FAU-AIBOは依然として非常に難しいベンチマークであることを示している。 興味深い結論は、新しいメソッドが古いメソッドを一貫して上回り、'解決' SER への進歩が必ずしも単調であるとは限らないことを示すことである。

We revisit the INTERSPEECH 2009 Emotion Challenge -- the first ever speech emotion recognition (SER) challenge -- and evaluate a series of deep learning models that are representative of the major advances in SER research in the time since then. We start by training each model using a fixed set of hyperparameters, and further fine-tune the best-performing models of that initial setup with a grid search. Results are always reported on the official test set with a separate validation set only used for early stopping. Most models score below or close to the official baseline, while they marginally outperform the original challenge winners after hyperparameter tuning. Our work illustrates that, despite recent progress, FAU-AIBO remains a very challenging benchmark. An interesting corollary is that newer methods do not consistently outperform older ones, showing that progress towards `solving' SER is not necessarily monotonic.
翻訳日:2024-06-11 13:18:57 公開日:2024-06-10
# 7000言語以上のメタラーニングテキスト音声合成

Meta Learning Text-to-Speech Synthesis in over 7000 Languages ( http://arxiv.org/abs/2406.06403v1 )

ライセンス: Link先を確認
Florian Lux, Sarina Meyer, Lyonel Behringer, Frank Zalkow, Phat Do, Matt Coler, Emanuël A. P. Habets, Ngoc Thang Vu, (参考訳) 本研究では、7000以上の言語で音声を生成できる単一の音声合成システムを構築するという課題に取り組み、その多くが従来のTS開発に十分なデータを持っていない。 言語表現の近似に多言語事前学習とメタラーニングの新たな統合を活用することにより、利用可能なデータを持たない言語でゼロショット音声合成が可能となる。 多様な言語環境における客観的な測定と人的評価を通じて,システムの性能を検証した。 コードとモデルを公開することにより、限られた言語資源でコミュニティを活性化し、音声技術分野におけるさらなるイノベーションを促進することを目指しています。

In this work, we take on the challenging task of building a single text-to-speech synthesis system that is capable of generating speech in over 7000 languages, many of which lack sufficient data for traditional TTS development. By leveraging a novel integration of massively multilingual pretraining and meta learning to approximate language representations, our approach enables zero-shot speech synthesis in languages without any available data. We validate our system's performance through objective measures and human evaluation across a diverse linguistic landscape. By releasing our code and models publicly, we aim to empower communities with limited linguistic resources and foster further innovation in the field of speech technology.
翻訳日:2024-06-11 13:09:08 公開日:2024-06-10
# TDD実験報告における関連情報

Relevant information in TDD experiment reporting ( http://arxiv.org/abs/2406.06405v1 )

ライセンス: Link先を確認
Fernando Uyaguari, Silvia T. Acuña, John W. Castro, Davide Fucci, Oscar Dieste, Sira Vegas, (参考訳) 実験は、ソフトウェア工学(SE)における研究の一般的な方法である。 研究者たちは詳細なガイドラインに従って実験を報告します。 しかしながら、少なくともテスト駆動開発(TDD)の分野では、レスポンス変数と測定プロセスをどのように運用したかは、研究者は明記していない。 この記事には3つの目的がある。 一 外部品質を研究するTDD実験において、応答変数の操作コンポーネントを特定すること。 二 実験結果に影響を及ぼすこと。 二 実験報告が結果に影響を及ぼす測定工程成分を記述しているかを判定する。 連続混合法。 研究の第1部では, 実験結果に対する操作成分の影響の統計的アナリシス(SA)を適用した定量的アプローチを採用している。 第2部は、系統地図研究(SMS)を適用した定性的なアプローチで続く。 テストスイート、介入タイプ、測定器は、SEにおけるTDD実験のSAの測定と結果に影響を与えます。 テストスイートは、測定結果と実験結果の両方に大きな影響を与えます。 介入タイプは測定結果よりも影響が少ない。 測定器は測定に影響を及ぼすが、これは実験結果に転送されない。 一方,SMSの結果から,TDD実験ではテストスイートやテストケース生成方法,あるいは外部品質の測定方法の詳細が報告されないことが確認された。 測定プロトコルは、異なる測定器による測定が類似していることを保証するために使用すべきである。 テストケース,実験課題,介入タイプを報告し,測定とSAを再現し,実験を再現し,信頼性の高い実験ファミリを構築することが必要である。

Experiments are a commonly used method of research in software engineering (SE). Researchers report their experiments following detailed guidelines. However, researchers do not, in the field of test-driven development (TDD) at least, specify how they operationalized the response variables and the measurement process. This article has three aims: (i) identify the response variable operationalization components in TDD experiments that study external quality; (ii) study their influence on the experimental results;(ii) determine if the experiment reports describe the measurement process components that have an impact on the results. Sequential mixed method. The first part of the research adopts a quantitative approach applying a statistical an\'alisis (SA) of the impact of the operationalization components on the experimental results. The second part follows on with a qualitative approach applying a systematic mapping study (SMS). The test suites, intervention types and measurers have an influence on the measurements and results of the SA of TDD experiments in SE. The test suites have a major impact on both the measurements and the results of the experiments. The intervention type has less impact on the results than on the measurements. While the measurers have an impact on the measurements, this is not transferred to the experimental results. On the other hand, the results of our SMS confirm that TDD experiments do not usually report either the test suites, the test case generation method, or the details of how external quality was measured. A measurement protocol should be used to assure that the measurements made by different measurers are similar. It is necessary to report the test cases, the experimental task and the intervention type in order to be able to reproduce the measurements and SA, as well as to replicate experiments and build dependable families of experiments.
翻訳日:2024-06-11 13:09:08 公開日:2024-06-10
# 自然言語プロンプトによるテキスト音声の感情制御

Controlling Emotion in Text-to-Speech with Natural Language Prompts ( http://arxiv.org/abs/2406.06406v1 )

ライセンス: Link先を確認
Thomas Bott, Florian Lux, Ngoc Thang Vu, (参考訳) 近年、自然言語の直感的な使用により、プロンプトは、生成機械学習モデルの出力を制御するための標準的な方法の1つになってきた。 そこで本研究では,感情に富んだテキストからの埋め込みを前提としたシステムを提案する。 これにより、変換器をベースとしたアーキテクチャにおいて、話者と即時埋め込みの合同表現がいくつかの点で統合される。 提案手法は感情的な音声とテキストを融合したデータセットに基づいて訓練され,モデルの一般化能力を高めるため,各トレーニングイテレーションのプロンプトが変化する。 主観的および主観的評価の結果は、条件付き合成システムの音声へのプロンプトに存在する感情を正確に伝達する能力を示している。 同時に、話者のアイデンティティの正確なトラクタビリティと、全体的な高い音声品質とインテリジェンスを維持する。

In recent years, prompting has quickly become one of the standard ways of steering the outputs of generative machine learning models, due to its intuitive use of natural language. In this work, we propose a system conditioned on embeddings derived from an emotionally rich text that serves as prompt. Thereby, a joint representation of speaker and prompt embeddings is integrated at several points within a transformer-based architecture. Our approach is trained on merged emotional speech and text datasets and varies prompts in each training iteration to increase the generalization capabilities of the model. Objective and subjective evaluation results demonstrate the ability of the conditioned synthesis system to accurately transfer the emotions present in a prompt to speech. At the same time, precise tractability of speaker identities as well as overall high speech quality and intelligibility are maintained.
翻訳日:2024-06-11 13:09:08 公開日:2024-06-10
# 公正データセットの定式化への挑戦の分類学

A Taxonomy of Challenges to Curating Fair Datasets ( http://arxiv.org/abs/2406.06407v1 )

ライセンス: Link先を確認
Dora Zhao, Morgan Klaus Scheuerman, Pooja Chitre, Jerone T. A. Andrews, Georgia Panagiotidou, Shawn Walker, Kathleen H. Pine, Alice Xiang, (参考訳) より公平な機械学習(ML)データセットを作成するための広範な努力にもかかわらず、データセットキュレーションの実践的な側面については、まだ限定的な理解が残っている。 30のMLデータセットキュレーターとのインタビューから、データセットキュレーションライフサイクルで発生する課題とトレードオフの包括的な分類を提示する。 われわれの研究結果は、データキュレーションに影響を及ぼすより広い公平な環境の中で、大きな問題を浮き彫りにしている。 我々は、公正なデータセットキュレーションの実践をより促進するために、体系的な変更を促進することを目的としたレコメンデーションで締めくくります。

Despite extensive efforts to create fairer machine learning (ML) datasets, there remains a limited understanding of the practical aspects of dataset curation. Drawing from interviews with 30 ML dataset curators, we present a comprehensive taxonomy of the challenges and trade-offs encountered throughout the dataset curation lifecycle. Our findings underscore overarching issues within the broader fairness landscape that impact data curation. We conclude with recommendations aimed at fostering systemic changes to better facilitate fair dataset curation practices.
翻訳日:2024-06-11 13:09:08 公開日:2024-06-10
# 個人別Best-Arm識別

Differentially Private Best-Arm Identification ( http://arxiv.org/abs/2406.06408v1 )

ライセンス: Link先を確認
Achraf Azize, Marc Jourdan, Aymen Al Marjani, Debabrota Basu, (参考訳) BAI問題(Best Arm Identification)は、適応型臨床試験の設計、ハイパーパラメータのチューニング、ユーザスタディの実行など、データに敏感なアプリケーションに徐々に使用されている。 これらのアプリケーションによって引き起こされるデータプライバシの懸念に触発されて、ローカルモデルと中央モデルの両方において、BAIの問題、すなわち、$\epsilon$-local と $\epsilon$-global Differential Privacy (DP) について検討する。 まず、プライバシのコストを定量化するために、$\epsilon$-global DPまたは$\epsilon$-local DPを満たす$\delta$-correct BAIアルゴリズムのサンプル複雑さの低い境界を導出する。 下限は2つのプライバシー体制の存在を示唆している。 高民権体制では、その硬さは、プライバシーと、トータル変量を含む新しい情報理論量の複合効果に依存する。 低プライバシー体制では、下限は非私的下限に減少する。 我々は,トップ2アルゴリズム,すなわち CTB-TT と AdaP-TT* のそれぞれに対して,$\epsilon$-local DP と $\epsilon$-global DP の変種を提案する。 $\epsilon$-local DP の場合、CTB-TT はランダム化された応答に基づく手段のプライベートな推定器を差し込むことで漸近的に最適である。 $$\epsilon$-global DPの場合、当社のプライベートな推定器は、アーム依存のアダプティブなエピソードを実行し、Laplaceノイズを追加して、優れたプライバシーとユーティリティのトレードオフを保証する。 輸送コストに適応することにより、AdaP-TT*の期待されるサンプルの複雑さは、乗法定数までの漸近的下界に達する。

Best Arm Identification (BAI) problems are progressively used for data-sensitive applications, such as designing adaptive clinical trials, tuning hyper-parameters, and conducting user studies. Motivated by the data privacy concerns invoked by these applications, we study the problem of BAI with fixed confidence in both the local and central models, i.e. $\epsilon$-local and $\epsilon$-global Differential Privacy (DP). First, to quantify the cost of privacy, we derive lower bounds on the sample complexity of any $\delta$-correct BAI algorithm satisfying $\epsilon$-global DP or $\epsilon$-local DP. Our lower bounds suggest the existence of two privacy regimes. In the high-privacy regime, the hardness depends on a coupled effect of privacy and novel information-theoretic quantities involving the Total Variation. In the low-privacy regime, the lower bounds reduce to the non-private lower bounds. We propose $\epsilon$-local DP and $\epsilon$-global DP variants of a Top Two algorithm, namely CTB-TT and AdaP-TT*, respectively. For $\epsilon$-local DP, CTB-TT is asymptotically optimal by plugging in a private estimator of the means based on Randomised Response. For $\epsilon$-global DP, our private estimator of the mean runs in arm-dependent adaptive episodes and adds Laplace noise to ensure a good privacy-utility trade-off. By adapting the transportation costs, the expected sample complexity of AdaP-TT* reaches the asymptotic lower bound up to multiplicative constants.
翻訳日:2024-06-11 13:09:08 公開日:2024-06-10
# ギャップレスフラストレーションフリー系における二次分散関係

Quadratic dispersion relations in gapless frustration-free systems ( http://arxiv.org/abs/2406.06414v1 )

ライセンス: Link先を確認
Rintaro Masaoka, Tomohiro Soejima, Haruki Watanabe, (参考訳) 最近のケースバイケース研究では、隙間のないフラストレーションフリーハミルトニアンの低エネルギー励起の分散は、しばしば二次的または軟的であることが示された。 この研究において、このことは実際にはそのようなシステムの一般的な性質であると主張する。 Bravyi と Gosset による以前の研究と min-max の原理を組み合わせることで、この仮説を、立方体格子上の最も近い隣り合う相互作用のみを含む次元 2 の局所ヒルベルト空間を持つモデルに対して証明する。 これは、フラストレーションフリーハミルトニアンにおいて線形に分散的な励起を持つギャップレス位相を実現するノーゴー定理として理解することができる。 また、単一スピンフリップの平面波状態が低エネルギー励起を構成しないフラストレーションフリーハミルトニアンの例を示す。

Recent case-by-case studies revealed that the dispersion of low energy excitations in gapless frustration-free Hamiltonians is often quadratic or softer. In this work, we argue that this is actually a general property of such systems. By combining a previous study by Bravyi and Gosset and the min-max principle, we prove this hypothesis for models with local Hilbert spaces of dimension two that contains only nearest-neighbor interactions on cubic lattice. This may be understood as a no-go theorem realizing gapless phases with linearly dispersive excitations in frustration-free Hamiltonians. We also provide examples of frustration-free Hamiltonians in which the plane-wave state of a single spin flip does not constitute low energy excitations.
翻訳日:2024-06-11 13:09:08 公開日:2024-06-10
# 臨界フラストレーションフリー系における動的臨界指数の厳密な下界

Rigorous lower bound of dynamic critical exponents in critical frustration-free systems ( http://arxiv.org/abs/2406.06415v1 )

ライセンス: Link先を確認
Rintaro Masaoka, Tomohiro Soejima, Haruki Watanabe, (参考訳) 動的臨界指数$z$は、ギャップレス量子多体系の有限サイズギャップを特徴づける。 我々は、任意の空間次元の格子上のフラストレーションのないハミルトン多様体に対して、厳密な下界$z \geq 2$を確立する。 この境界は、局所性を持つマルコフ連鎖と1対1の対応を持つロクサー・キヴェルソン・ハミルトン派(英語版)や、特異基底状態または位相的に退化した基底状態を持つ臨界射影双対状態のハミルトン派(英語版)、平面波基底状態を持つハミルトン派(英語版)など、フラストレーションのないハミルトン派の代表クラスに適用される。

The dynamic critical exponent $z$ characterizes the finite-size gap in gapless quantum many-body systems. We establish a rigorous lower bound $z \geq 2$ for frustration-free Hamiltonians on any lattice in any spatial dimension, given that their ground state exhibits a power-law decaying correlation function. This bound applies to representative classes of frustration-free Hamiltonians, including Rokhsar-Kivelson Hamiltonians, which are in one-to-one correspondence to Markov chains with locality, as well as parent Hamiltonians of critical projected entangled pair states with either a unique ground state or topologically degenerate ground states, and Hamiltonians with a plane-wave ground state.
翻訳日:2024-06-11 13:09:08 公開日:2024-06-10
# 火の下の説明可能なグラフニューラルネットワーク

Explainable Graph Neural Networks Under Fire ( http://arxiv.org/abs/2406.06417v1 )

ライセンス: Link先を確認
Zhong Li, Simon Geisler, Yuhang Wang, Stephan Günnemann, Matthijs van Leeuwen, (参考訳) グラフニューラルネットワーク(GNN)による予測は、その複雑な計算挙動とグラフの抽象的性質のために解釈性に欠ける。 これを解決するために、多くのGNN説明手法が登場した。 彼らの目標は、モデルの予測を説明し、GNNモデルが決定クリティカルなアプリケーションにデプロイされたときに信頼を得ることである。 ほとんどのGNN説明法は、ポストホックな方法で動作し、重要なエッジと/またはノードの小さなサブセットの形で説明を提供する。 本稿では,これらの説明が信頼できないことを実証する。GNNの一般的な説明手法は,敵対的摂動に強い影響を受けやすいことが判明した。 つまり、モデルの予測を保存する元のグラフ構造の小さな摂動でさえ、劇的に異なる説明をもたらす可能性がある。 これは、GNNのポストホックな説明手法の信頼性と実用性に疑問を投げかけるものである。 GNN説明モデルに対処するために、このような設定下でのポストホックなGNN説明に対する最初の \textit{GXAttack} 攻撃手法である \textit{GXAttack} を考案した。 攻撃の破壊的効果のため,今後のGNN解説者の敵意評価を要請し,その堅牢性を実証する。

Predictions made by graph neural networks (GNNs) usually lack interpretability due to their complex computational behavior and the abstract nature of graphs. In an attempt to tackle this, many GNN explanation methods have emerged. Their goal is to explain a model's predictions and thereby obtain trust when GNN models are deployed in decision critical applications. Most GNN explanation methods work in a post-hoc manner and provide explanations in the form of a small subset of important edges and/or nodes. In this paper we demonstrate that these explanations can unfortunately not be trusted, as common GNN explanation methods turn out to be highly susceptible to adversarial perturbations. That is, even small perturbations of the original graph structure that preserve the model's predictions may yield drastically different explanations. This calls into question the trustworthiness and practical utility of post-hoc explanation methods for GNNs. To be able to attack GNN explanation models, we devise a novel attack method dubbed \textit{GXAttack}, the first \textit{optimization-based} adversarial attack method for post-hoc GNN explanations under such settings. Due to the devastating effectiveness of our attack, we call for an adversarial evaluation of future GNN explainers to demonstrate their robustness.
翻訳日:2024-06-11 13:09:08 公開日:2024-06-10
# Gottesman-Kitaev-Preskillエンコーディングによるマジックと非ガウスリソースのブリッジング

Bridging magic and non-Gaussian resources via Gottesman-Kitaev-Preskill encoding ( http://arxiv.org/abs/2406.06418v1 )

ライセンス: Link先を確認
Oliver Hahn, Giulia Ferrini, Ryuji Takagi, (参考訳) 離散変数系における非安定化状態(マジック状態としても知られる)と連続変数系における非ガウス状態との類似性は広く認識されているが、これらの2つの概念の正確な関係はいまだ不明である。 我々は、これらの2つの量子リソースの基本的なリンクを、GKPエンコーディングを介して確立する。 符号化されたGKP状態に対する連続変数ウィグナー関数の負性は、奇次元の離散ウィグナー関数の負性と一致するマジック測度と一致することを示す。 また、安定化器 R\'enyi entropy の連続変数表現も提供します。 そこで本研究では,実測値で定量化した,リソース内容とランタイムスケーリングを併用した古典的シミュレーションアルゴリズムを提案する。 また、GKP符号部分空間における多ビット論理的非クリフォード演算の実装には、理想的GKP状態が既に大量の非ガウス性を持つにもかかわらず、完全符号化の限界においても非ガウス演算が必要であることを証明するために、この結果を用いる。

Although the similarity between non-stabilizer states -- also known as magic states -- in discrete-variable systems and non-Gaussian states in continuous-variable systems has widely been recognized, the precise connections between these two notions have still been unclear. We establish a fundamental link between these two quantum resources via the Gottesman-Kitaev-Preskill (GKP) encoding. We show that the negativity of the continuous-variable Wigner function for an encoded GKP state coincides with a magic measure we introduce, which matches the negativity of the discrete Wigner function for odd dimensions. We also provide a continuous-variable representation of the stabilizer R\'enyi entropy -- a recent proposal for a magic measure for multi-qubit states. With this in hand, we give a classical simulation algorithm with runtime scaling with the resource contents, quantified by our magic measures. We also employ our results to prove that implementing a multi-qubit logical non-Clifford operation in the GKP code subspace requires a non-Gaussian operation even at the limit of perfect encoding, despite the fact that the ideal GKP states already come with a large amount of non-Gaussianity.
翻訳日:2024-06-11 13:09:08 公開日:2024-06-10
# マルコフジャンプ過程のファンデーション推論モデル

Foundation Inference Models for Markov Jump Processes ( http://arxiv.org/abs/2406.06419v1 )

ライセンス: Link先を確認
David Berghaus, Kostadin Cvejoski, Patrick Seifner, Cesar Ojeda, Ramses J. Sanchez, (参考訳) マルコフジャンプ過程は離散状態空間内で進化する力学系を記述する連続時間確率過程である。 これらのプロセスは自然科学や機械学習に広く応用されているが、それらの推論は自明なものではないことが知られている。 本研究では,マルコフジャンプ過程 (MJP) のゼロショット推論手法を紹介する。 まず, 隠れたMJPの合成データセットとそのノイズ観測過程をシミュレートした, 観測時間やノイズ機構を網羅した, MJPの家族に対する広い確率分布について検討した。 次に、シミュレーション観測のサブセットを処理し、ターゲットMJPの初期条件とレート行列を教師付き方法で出力するように訓練するニューラルネットワークモデルを提案する。 我々は、異なる次元の状態空間で進化する隠れMJPを、ゼロショット方式で1と同一(事前訓練)モデルで推論できることを実証的に実証した。 特に、記述するMJPを推測する。 一 ブラウンモータの一種である離散点火ラチェット系及びコンフォメーションダイナミクス (II)分子シミュレーション 三 実験イオンチャンネルデータ及び実験イオンチャンネルデータ (4)単純なタンパク質折り畳みモデル。 さらに,本モデルでは,対象データセットに微調整した最先端モデルと同等の性能を示す。

Markov jump processes are continuous-time stochastic processes which describe dynamical systems evolving in discrete state spaces. These processes find wide application in the natural sciences and machine learning, but their inference is known to be far from trivial. In this work we introduce a methodology for zero-shot inference of Markov jump processes (MJPs), on bounded state spaces, from noisy and sparse observations, which consists of two components. First, a broad probability distribution over families of MJPs, as well as over possible observation times and noise mechanisms, with which we simulate a synthetic dataset of hidden MJPs and their noisy observation process. Second, a neural network model that processes subsets of the simulated observations, and that is trained to output the initial condition and rate matrix of the target MJP in a supervised way. We empirically demonstrate that one and the same (pretrained) model can infer, in a zero-shot fashion, hidden MJPs evolving in state spaces of different dimensionalities. Specifically, we infer MJPs which describe (i) discrete flashing ratchet systems, which are a type of Brownian motors, and the conformational dynamics in (ii) molecular simulations, (iii) experimental ion channel data and (iv) simple protein folding models. What is more, we show that our model performs on par with state-of-the-art models which are finetuned to the target datasets.
翻訳日:2024-06-11 13:09:08 公開日:2024-06-10
# 自然グレディエントDescenceのための経験的水産近似の改良

An Improved Empirical Fisher Approximation for Natural Gradient Descent ( http://arxiv.org/abs/2406.06420v1 )

ライセンス: Link先を確認
Xiaodong Wu, Wenyi Yu, Chao Zhang, Philip Woodland, (参考訳) 近似自然勾配降下法(NGD, Approximate Natural Gradient Descent)は深層学習モデルのオプティマイザの1つである。 実験的なFisher(EF)法は、バックプロパゲーション時に収集したサンプルごとの勾配を再利用することにより、Fisher情報行列を経験的に近似する。 実装の容易さにもかかわらず、EF近似は理論的および実践的な制限がある。 本稿ではまず,実験的近似品質の低下の大きな原因であるEFの逆スケールプロジェクション問題について検討する。 損失低減の観点から一般化NGD法をモチベーションとした改良された経験的フィッシャー法(iEF)が提案され,EFの実用的利便性を維持しつつ,この問題に対処する。 正確なiEF法とEF法は、事前訓練されたモデルのパラメータ効率の良い微調整のための広く使われているセットアップ(GLUEタスクのLoRAとPrompt-Tuning、CIFAR100のLoRAとViT)を含む、実用的なディープラーニング設定を用いて実験的に評価される。 最適化実験により、正確な iEF をオプティマイザとして適用することは、強い収束と一般化をもたらすことが示されている。 十分にチューニングされたAdamW/Adafactorベースラインと比較しても、ほとんどのタスクで最高のテストパフォーマンスとトレーニング損失が最も低い。 さらに,新しい経験的評価フレームワークにより,提案手法は,EFとより高価なFisher(SF)の双方と比較して,正確な自然勾配更新に対する近似精度を一貫して向上させる。 さらなる調査により、iEFの優れた近似品質はタスクやトレーニング段階の減衰に対して堅牢であることが示された。 iEFによる既存の近似NGDオプティマイザの改良は、減衰の選択に対する収束性の向上と強い堅牢性をもたらすことが期待されている。

Approximate Natural Gradient Descent (NGD) methods are an important family of optimisers for deep learning models, which use approximate Fisher information matrices to pre-condition gradients during training. The empirical Fisher (EF) method approximates the Fisher information matrix empirically by reusing the per-sample gradients collected during back-propagation. Despite its ease of implementation, the EF approximation has its theoretical and practical limitations. This paper first investigates the inversely-scaled projection issue of EF, which is shown to be a major cause of the poor empirical approximation quality. An improved empirical Fisher (iEF) method, motivated as a generalised NGD method from a loss reduction perspective, is proposed to address this issue, meanwhile retaining the practical convenience of EF. The exact iEF and EF methods are experimentally evaluated using practical deep learning setups, including widely-used setups for parameter-efficient fine-tuning of pre-trained models (T5-base with LoRA and Prompt-Tuning on GLUE tasks, and ViT with LoRA for CIFAR100). Optimisation experiments show that applying exact iEF as an optimiser provides strong convergence and generalisation. It achieves the best test performance and the lowest training loss for majority of the tasks, even when compared with well-tuned AdamW/Adafactor baselines. Additionally, under a novel empirical evaluation framework, the proposed iEF method shows consistently better approximation quality to the exact Natural Gradient updates than both EF and the more expensive sampled Fisher (SF). Further investigation also shows that the superior approximation quality of iEF is robust to damping across tasks and training stages. Improving existing approximate NGD optimisers with iEF is expected to lead to better convergence ability and stronger robustness to choice of damping.
翻訳日:2024-06-11 13:09:08 公開日:2024-06-10
# 自律運転における異常シナリオのハイブリッドビデオ異常検出

Hybrid Video Anomaly Detection for Anomalous Scenarios in Autonomous Driving ( http://arxiv.org/abs/2406.06423v1 )

ライセンス: Link先を確認
Daniel Bogdoll, Jan Imhof, Tim Joseph, J. Marius Zöllner, (参考訳) 自律運転では、最も困難なシナリオは、時間的文脈内でのみ検出できるシナリオである。 ほとんどのビデオ異常検出アプローチは、監視または交通事故に焦点を当てており、これは自動運転のサブフィールドに過ぎない。 本研究では,自動運転におけるHF$^2$-VAD$_{AD}$,HF$^2$-VAD監視ビデオ異常検出手法のバリエーションを示す。 車両の自我的視点から正規性の表現を学び、稀かつ臨界シナリオにおける画素ワイドな異常検出を評価する。

In autonomous driving, the most challenging scenarios are the ones that can only be detected within their temporal context. Most video anomaly detection approaches focus either on surveillance or traffic accidents, which are only a subfield of autonomous driving. In this work, we present HF$^2$-VAD$_{AD}$, a variation of the HF$^2$-VAD surveillance video anomaly detection method for autonomous driving. We learn a representation of normality from a vehicle's ego perspective and evaluate pixel-wise anomaly detections in rare and critical scenarios.
翻訳日:2024-06-11 13:09:08 公開日:2024-06-10
# 参照なし拡散モデルアライメントのためのMargin-Aware Preference Optimization

Margin-aware Preference Optimization for Aligning Diffusion Models without Reference ( http://arxiv.org/abs/2406.06424v1 )

ライセンス: Link先を確認
Jiwoo Hong, Sayak Paul, Noah Lee, Kashif Rasul, James Thorne, Jongheon Jeong, (参考訳) RLHFやDPOのような人間の好みに基づく現代的なアライメント技術は、トレーニング安定性を確保するために、基準モデルに対する分散正則化を用いるのが一般的である。 しかし、特に嗜好データと参照モデルの間に明確な分布差がある場合、これはアライメント中のモデルの柔軟性を制限します。 本稿では, 安定拡散XL (SDXL) などの最近のテキスト・画像拡散モデルのアライメントに着目し, この「参照ミスマッチ」は, 視覚的モダリティの非構造化の性質から, それらのモデルのアライメントにおいて重要な問題であることがわかった。 本研究の目的は,参照モデルに依存しない拡散モデルに対して,新しい,メモリフレンドリな選好アライメント手法を提案することである。 MaPOは、好ましくも好ましくない画像集合と好ましくも好まれる集合との近縁マージンを最大化し、同時に一般的なスタイリスティックな特徴と嗜好を学習する。 評価のために、SDXL、Pick-Style、Pick-Safetyから自己生成された画像ペアからなる2つの新しいペアワイズ選好データセットを導入し、参照ミスマッチの多様なシナリオをシミュレートする。 本実験は,Pick-a-Pic v2を用いた場合のPick-StyleおよびPick-Safetyのアライメントと一般優先アライメントを,ベースSDXLや他の既存手法よりも大幅に向上させることができることを示した。 私たちのコード、モデル、データセットはhttps://mapo-t2i.github.ioで公開されています。

Modern alignment techniques based on human preferences, such as RLHF and DPO, typically employ divergence regularization relative to the reference model to ensure training stability. However, this often limits the flexibility of models during alignment, especially when there is a clear distributional discrepancy between the preference data and the reference model. In this paper, we focus on the alignment of recent text-to-image diffusion models, such as Stable Diffusion XL (SDXL), and find that this "reference mismatch" is indeed a significant problem in aligning these models due to the unstructured nature of visual modalities: e.g., a preference for a particular stylistic aspect can easily induce such a discrepancy. Motivated by this observation, we propose a novel and memory-friendly preference alignment method for diffusion models that does not depend on any reference model, coined margin-aware preference optimization (MaPO). MaPO jointly maximizes the likelihood margin between the preferred and dispreferred image sets and the likelihood of the preferred sets, simultaneously learning general stylistic features and preferences. For evaluation, we introduce two new pairwise preference datasets, which comprise self-generated image pairs from SDXL, Pick-Style and Pick-Safety, simulating diverse scenarios of reference mismatch. Our experiments validate that MaPO can significantly improve alignment on Pick-Style and Pick-Safety and general preference alignment when used with Pick-a-Pic v2, surpassing the base SDXL and other existing methods. Our code, models, and datasets are publicly available via https://mapo-t2i.github.io
翻訳日:2024-06-11 13:09:08 公開日:2024-06-10
# 最適輸送による多変量確率支配とモデルベンチマークへの応用

Multivariate Stochastic Dominance via Optimal Transport and Applications to Models Benchmarking ( http://arxiv.org/abs/2406.06425v1 )

ライセンス: Link先を確認
Gabriel Rioux, Apoorva Nitsure, Mattia Rigotti, Kristjan Greenewald, Youssef Mroueh, (参考訳) 確率的支配は、確率論、計量学、社会的選択論において重要な概念であり、ランダムな結果の間のエージェントの選好を強固にモデル化する。 多くの作品が単変量ケースに捧げられているが、多変量シナリオではほとんど行われておらず、エージェントは異なる多変量結果を決定する必要がある。 結合性の観点からの多変量第一確率支配の特質を生かして、最適輸送の枠組みの下で、多変量ほぼ確率支配を円滑なコストで評価する統計モデルを導入する。 さらに、この統計量のエントロピー正則化を導入し、実験統計学のための中央極限定理(CLT)とブートストラップ手順の整合性を確立する。 このCLTを組み、Sinkhornアルゴリズムを用いた仮説テストフレームワークと効率的な実装を提案する。 複数のメトリクスで評価された大規模言語モデルの比較とベンチマークを行う方法について紹介する。 多変量確率的優位性テストにより、モデルの相対的性能に関する情報的および統計的に有意な決定を行うために、メトリクス間の依存関係をキャプチャできる。

Stochastic dominance is an important concept in probability theory, econometrics and social choice theory for robustly modeling agents' preferences between random outcomes. While many works have been dedicated to the univariate case, little has been done in the multivariate scenario, wherein an agent has to decide between different multivariate outcomes. By exploiting a characterization of multivariate first stochastic dominance in terms of couplings, we introduce a statistic that assesses multivariate almost stochastic dominance under the framework of Optimal Transport with a smooth cost. Further, we introduce an entropic regularization of this statistic, and establish a central limit theorem (CLT) and consistency of the bootstrap procedure for the empirical statistic. Armed with this CLT, we propose a hypothesis testing framework as well as an efficient implementation using the Sinkhorn algorithm. We showcase our method in comparing and benchmarking Large Language Models that are evaluated on multiple metrics. Our multivariate stochastic dominance test allows us to capture the dependencies between the metrics in order to make an informed and statistically significant decision on the relative performance of the models.
翻訳日:2024-06-11 13:09:08 公開日:2024-06-10
# 埋め込みとしてのベクトルブール関数についての一考察

A Note on Vectorial Boolean Functions as Embeddings ( http://arxiv.org/abs/2406.06429v1 )

ライセンス: Link先を確認
Augustine Musukwa, Massimiliano Sala, (参考訳) F$ を $\mathbb{F}^n$ から $\mathbb{F}^m$ へのベクトルブール関数とする。 F$ が単射であれば、$F$ を埋め込みとして定義する。 本稿では,定数成分と平衡成分に着目した$F$の成分関数について検討する。 その結果、少なくとも$F$の2^m - 2^{m-n}$成分はバランスが取れ、この最大値は、$F$が埋め込みであるときに正確に達成され、残りの2^{m-n}$成分は定数であることがわかった。 さらに、二次埋め込みに対して、$n$が偶数であるとき、少なくとも2^n − 1$バランス成分が、$n$が奇数であるとき、$2^{m-1} + 2^{n-1} - 1$バランス成分が常に存在することを示す。

Let $F$ be a vectorial Boolean function from $\mathbb{F}^n$ to $\mathbb{F}^m$, where $m \geq n$. We define $F$ as an embedding if $F$ is injective. In this paper, we examine the component functions of $F$, focusing on constant and balanced components. Our findings reveal that at most $2^m - 2^{m-n}$ components of $F$ can be balanced, and this maximum is achieved precisely when $F$ is an embedding, with the remaining $2^{m-n}$ components being constants. Additionally, for quadratic embeddings, we demonstrate that there are always at least $2^n - 1$ balanced components when $n$ is even, and $2^{m-1} + 2^{n-1} - 1$ balanced components when $n$ is odd.
翻訳日:2024-06-11 13:09:08 公開日:2024-06-10
# SYM3D:GANの3次元認識性向上のための対称三葉機学習

SYM3D: Learning Symmetric Triplanes for Better 3D-Awareness of GANs ( http://arxiv.org/abs/2406.06432v1 )

ライセンス: Link先を確認
Jing Yang, Kyle Fogarty, Fangcheng Zhong, Cengiz Oztireli, (参考訳) 高品質な3Dアセットを生成するために2Dイメージでトレーニングできる3D対応のGANは、ますます成功している。 しかし、キャリブレーションされたマルチビュー画像データセットの可用性は、特にシングルビュー画像と比較して低いため、3D GANの可能性は制限されている。 さらに,カメラ分布制約によるアノテーションの回避は,正確なカメラパラメータへの依存を減少させるが,それでも3Dアセットの一貫した配向を生成するのに苦慮している。 そこで本研究では,自然物や人工物に見られる反射対称構造を利用した新しい3D対応GANであるSYM3Dを提案する。 SYM3Dを合成(ShapeNet Chairs, Cars, Airplanes)と実世界のデータセット(ABO-Chairs)の両方で評価し、単視点画像のみを用いて訓練しても、詳細な形状やテクスチャを捉える上で優れた性能を示す。 最後に, テキスト・ツー・3Dタスクにおける3Dアセットのモデリングにおいて, アーチファクトの削減を支援するために, 対称性の正則化を取り入れることの有効性を実証する。

Despite the growing success of 3D-aware GANs, which can be trained on 2D images to generate high-quality 3D assets, they still rely on multi-view images with camera annotations to synthesize sufficient details from all viewing directions. However, the scarce availability of calibrated multi-view image datasets, especially in comparison to single-view images, has limited the potential of 3D GANs. Moreover, while bypassing camera pose annotations with a camera distribution constraint reduces dependence on exact camera parameters, it still struggles to generate a consistent orientation of 3D assets. To this end, we propose SYM3D, a novel 3D-aware GAN designed to leverage the prevalent reflectional symmetry structure found in natural and man-made objects, alongside a proposed view-aware spatial attention mechanism in learning the 3D representation. We evaluate SYM3D on both synthetic (ShapeNet Chairs, Cars, and Airplanes) and real-world datasets (ABO-Chair), demonstrating its superior performance in capturing detailed geometry and texture, even when trained on only single-view images. Finally, we demonstrate the effectiveness of incorporating symmetry regularization in helping reduce artifacts in the modeling of 3D assets in the text-to-3D task.
翻訳日:2024-06-11 12:59:23 公開日:2024-06-10
# DISCO:パーソナライズド・ディスカウント・アロケーションのためのエンド・ツー・エンド・エンド・バンド・フレームワーク

DISCO: An End-to-End Bandit Framework for Personalised Discount Allocation ( http://arxiv.org/abs/2406.06433v1 )

ライセンス: Link先を確認
Jason Shuo Zhang, Benjamin Howson, Panayiota Savva, Eleanor Loh, (参考訳) パーソナライズされた割引コードは、Eコマースにおける顧客関係と運用費用を管理するための強力なメカニズムを提供する。 帯域幅は、問題の部分的な情報の性質と変化するビジネス環境への適応の必要性から、この製品領域に適している。 ここでは、ASOS.comで個人化された割引コードアロケーションのための、エンドツーエンドのコンテキスト・バンディット・フレームワークであるdisCOを紹介する。 DISCOは従来のトンプソンサンプリングアルゴリズムを整数プログラムに統合し、運用コストの制御を可能にする。 バンディット学習は高次元の動作で悪くなることが多いため、我々は低次元の動作と文脈表現の構築に焦点をあてた。 さらに、価格と販売の関係を保存し、価格の低下(「価格弾力性」)に応じて顧客が購入を増加させるモデルの構築も検討した。 これらの目的は、ニューラルネットワークから抽出されたコンテキスト埋め込みと組み合わせて、連続的な(無限武装の)アクション空間を表現するために放射基底関数を使用することによって達成された。 これらの特徴表現は、探究を容易にするためにトンプソンサンプリングフレームワーク内で使われ、さらに整数プログラムと統合されてASOSの顧客ベース全体で割引コードを割り当てた。 これらのモデル決定は、報酬モデルをもたらす。 (a)類似の行動にまたがるプール学習を可能にする。 (b)外挿を含む高精度で、かつ、 (c)期待される負の価格弾性を保存する。 オフライン解析により、グローバルな制約にもかかわらず、DisCOは探索を効果的に実行し、時間とともにその性能を向上させることができることを示す。 最後に,disCOを厳格なオンラインA/Bテストに適用し,従来のシステムと比較して,平均バスケット値が1%に向上したことを確認した。

Personalised discount codes provide a powerful mechanism for managing customer relationships and operational spend in e-commerce. Bandits are well suited for this product area, given the partial information nature of the problem, as well as the need for adaptation to the changing business environment. Here, we introduce DISCO, an end-to-end contextual bandit framework for personalised discount code allocation at ASOS.com. DISCO adapts the traditional Thompson Sampling algorithm by integrating it within an integer program, thereby allowing for operational cost control. Because bandit learning is often worse with high dimensional actions, we focused on building low dimensional action and context representations that were nonetheless capable of good accuracy. Additionally, we sought to build a model that preserved the relationship between price and sales, in which customers increasing their purchasing in response to lower prices ("negative price elasticity"). These aims were achieved by using radial basis functions to represent the continuous (i.e. infinite armed) action space, in combination with context embeddings extracted from a neural network. These feature representations were used within a Thompson Sampling framework to facilitate exploration, and further integrated with an integer program to allocate discount codes across ASOS's customer base. These modelling decisions result in a reward model that (a) enables pooled learning across similar actions, (b) is highly accurate, including in extrapolation, and (c) preserves the expected negative price elasticity. Through offline analysis, we show that DISCO is able to effectively enact exploration and improves its performance over time, despite the global constraint. Finally, we subjected DISCO to a rigorous online A/B test, and find that it achieves a significant improvement of >1% in average basket value, relative to the legacy systems.
翻訳日:2024-06-11 12:59:23 公開日:2024-06-10
# Perfusion MRI を用いた時空間グラフニューラルネットワーク

Spatiotemporal Graph Neural Network Modelling Perfusion MRI ( http://arxiv.org/abs/2406.06434v1 )

ライセンス: Link先を確認
Ruodan Yan, Carola-Bibiane Schönlieb, Chao Li, (参考訳) 灌流MRI(pMRI)は腫瘍の血管性に関する貴重な知見を提供し、腫瘍の遺伝子型を予測することを約束する。 本研究は,GNNを用いた時空間モデルPerfGATを用いて4次元pMRIをモデル化し,空間情報と時間運動学を統合し,グリオーマ患者におけるIsocitrate DeHydrogenase(IDH)変異の予測を試みた最初の試みである。 具体的には、エッジアテンションと負グラフに基づくグラフ構造学習手法を提案し、時間相関モデリングを最適化する。 さらに,腫瘍関連脳領域に対処しながら,時空間的特徴を統合できるデュアルアテンション機能融合モジュールを設計した。 さらに、時空間データに適したクラスバランス強化手法を開発し、臨床データセットにおける共通ラベルの不均衡問題を緩和する。 以上の結果から, 提案手法は, pMRIを患者評価のために効果的にモデル化し, 他の最先端手法よりも優れていることが示された。

Perfusion MRI (pMRI) offers valuable insights into tumor vascularity and promises to predict tumor genotypes, thus benefiting prognosis for glioma patients, yet effective models tailored to 4D pMRI are still lacking. This study presents the first attempt to model 4D pMRI using a GNN-based spatiotemporal model PerfGAT, integrating spatial information and temporal kinetics to predict Isocitrate DeHydrogenase (IDH) mutation status in glioma patients. Specifically, we propose a graph structure learning approach based on edge attention and negative graphs to optimize temporal correlations modeling. Moreover, we design a dual-attention feature fusion module to integrate spatiotemporal features while addressing tumor-related brain regions. Further, we develop a class-balanced augmentation methods tailored to spatiotemporal data, which could mitigate the common label imbalance issue in clinical datasets. Our experimental results demonstrate that the proposed method outperforms other state-of-the-art approaches, promising to model pMRI effectively for patient characterization.
翻訳日:2024-06-11 12:59:23 公開日:2024-06-10
# 言語モデルと意思決定 - データセットと医学的トリアージ領域への応用-

Language Models are Alignable Decision-Makers: Dataset and Application to the Medical Triage Domain ( http://arxiv.org/abs/2406.06435v1 )

ライセンス: Link先を確認
Brian Hu, Bill Ray, Alice Leung, Amy Summerville, David Joy, Christopher Funk, Arslan Basharat, (参考訳) 難しい意思決定のシナリオでは、専門家の意思決定者の間で矛盾する意見を持つことが一般的である。 このような決定は、個人の決定を特徴づけるために使用できる異なる属性によって導かれるかもしれない。 本稿では,医療トリアージ意思決定のための新しいデータセットについて紹介する。 このデータセットは62のシナリオで構成され、公正性や道徳的砂漠といった倫理的原則を含む6つの異なるDMAをカバーする。 我々は、これらのDMAを活用して、より優れたガードレールを備えた信頼できるAIを実現することによって、人間と協調した意思決定のための新しいソフトウェアフレームワークを提案する。 具体的には、大規模言語モデル(LLM)が倫理的意思決定者として機能し、その決定がゼロショットプロンプトを用いて異なるDMAとどのように一致しているかを示す。 実験では,FalconやMistral,Llama 2.0など,さまざまなサイズとトレーニング技術を備えたさまざまなオープンソースモデルに注目した。 最後に、全体としての定量化性能を改善するために、新しい形式の重み付き自己整合性を導入する。 本研究は,LCMを整合性決定因子として用いるための新たな研究指針を提供する。 データセットとオープンソースソフトウェアは、https://github.com/ITM-Kitware/llm-alignable-dm.comで公開されている。

In difficult decision-making scenarios, it is common to have conflicting opinions among expert human decision-makers as there may not be a single right answer. Such decisions may be guided by different attributes that can be used to characterize an individual's decision. We introduce a novel dataset for medical triage decision-making, labeled with a set of decision-maker attributes (DMAs). This dataset consists of 62 scenarios, covering six different DMAs, including ethical principles such as fairness and moral desert. We present a novel software framework for human-aligned decision-making by utilizing these DMAs, paving the way for trustworthy AI with better guardrails. Specifically, we demonstrate how large language models (LLMs) can serve as ethical decision-makers, and how their decisions can be aligned to different DMAs using zero-shot prompting. Our experiments focus on different open-source models with varying sizes and training techniques, such as Falcon, Mistral, and Llama 2. Finally, we also introduce a new form of weighted self-consistency that improves the overall quantified performance. Our results provide new research directions in the use of LLMs as alignable decision-makers. The dataset and open-source software are publicly available at: https://github.com/ITM-Kitware/llm-alignable-dm.
翻訳日:2024-06-11 12:59:23 公開日:2024-06-10
# 音声からのマルチモーダル・コンテクスチュアライズド・セマンティック・パーシング

Multimodal Contextualized Semantic Parsing from Speech ( http://arxiv.org/abs/2406.06438v1 )

ライセンス: Link先を確認
Jordan Voas, Raymond Mooney, David Harwath, (参考訳) 文脈環境におけるセマンティック・パーシング(SPICE)は,マルチモーダル入力を事前の文脈と統合することで,エージェントの文脈認識を強化するタスクである。 SPICEは、エージェントの知識を新しい情報で動的に更新し、人間のコミュニケーションの複雑さを反映する構造化された解釈可能なフレームワークを提供することによって、従来の意味解析を越えている。 VG-SPICEデータセットは,音声の会話交換や強調音声や視覚データの統合から視覚的なシーングラフ構築を行うエージェントに挑戦するために開発された。 また,VG-SPICEで使用するために開発されたAViD-SP(Audio-Vision Dialogue Scene Parser)について述べる。 これらのイノベーションは、マルチモーダル情報処理と統合の改善を目的としている。 VG-SPICEデータセットとAViD-SPモデルの両方が公開されている。

We introduce Semantic Parsing in Contextual Environments (SPICE), a task designed to enhance artificial agents' contextual awareness by integrating multimodal inputs with prior contexts. SPICE goes beyond traditional semantic parsing by offering a structured, interpretable framework for dynamically updating an agent's knowledge with new information, mirroring the complexity of human communication. We develop the VG-SPICE dataset, crafted to challenge agents with visual scene graph construction from spoken conversational exchanges, highlighting speech and visual data integration. We also present the Audio-Vision Dialogue Scene Parser (AViD-SP) developed for use on VG-SPICE. These innovations aim to improve multimodal information processing and integration. Both the VG-SPICE dataset and the AViD-SP model are publicly available.
翻訳日:2024-06-11 12:59:23 公開日:2024-06-10
# タスク空間による言語モデルの解釈可能性

Interpretability of Language Models via Task Spaces ( http://arxiv.org/abs/2406.06441v1 )

ライセンス: Link先を確認
Lucas Weber, Jaap Jumelet, Elia Bruni, Dieuwke Hupkes, (参考訳) 言語モデル(LM)を解釈する一般的な方法は、異なるベンチマークでパフォーマンスをテストし、その後内部プロセスを予測することである。 本稿では,LM処理の品質に着目し,言語能力に着目した代替手法を提案する。 この目的のために、我々は、LMの言語概念化の表現である「言語的タスク空間」を構築し、LMが言語現象の間に引き起こす関係に光を当てる。 課題空間は、異なる言語現象からの学習信号の相互作用に基づいており、我々は「類似性探索」と呼ばれる手法を用いて評価する。 さらに,言語現象の学習信号を解き放つために,「勾配微分による微調整(FTGD)」という手法を導入する。 提案手法を3つの異なるスケールの言語モデルに適用し,より大規模なモデルが言語課題の一般的な概念を体系化し,それらの共有構造をよりよく活用することを見出した。 さらに、言語処理の分散性は、関連する言語タスク間のパラメータ共有の増大を通じて事前学習によって増大する。 全般的な一般化パターンは、トレーニングを通じて安定しており、切迫した段階を特徴とせず、LMのカリキュラム戦略が成功していないことを説明できる可能性がある。

The usual way to interpret language models (LMs) is to test their performance on different benchmarks and subsequently infer their internal processes. In this paper, we present an alternative approach, concentrating on the quality of LM processing, with a focus on their language abilities. To this end, we construct 'linguistic task spaces' -- representations of an LM's language conceptualisation -- that shed light on the connections LMs draw between language phenomena. Task spaces are based on the interactions of the learning signals from different linguistic phenomena, which we assess via a method we call 'similarity probing'. To disentangle the learning signals of linguistic phenomena, we further introduce a method called 'fine-tuning via gradient differentials' (FTGD). We apply our methods to language models of three different scales and find that larger models generalise better to overarching general concepts for linguistic tasks, making better use of their shared structure. Further, the distributedness of linguistic processing increases with pre-training through increased parameter sharing between related linguistic tasks. The overall generalisation patterns are mostly stable throughout training and not marked by incisive stages, potentially explaining the lack of successful curriculum strategies for LMs.
翻訳日:2024-06-11 12:59:23 公開日:2024-06-10
# 共振器による遠方電荷量子ビット間の量子ゲート

Resonator-mediated quantum gate between distant charge qubits ( http://arxiv.org/abs/2406.06442v1 )

ライセンス: Link先を確認
Florian Kayatz, Jonas Mielke, Guido Burkard, (参考訳) 強い電荷-光子カップリングは電荷量子ビットのコヒーレントカップリングを可能にし、二重量子ドット内の単一電荷キャリア(電子または穴)によってマイクロ波共振器の光子に実現される。 ここでは、分散状態において、光子は$i$SWAPゲートと$\sqrt{i\mathrm{SWAP}}$ゲートを2つの遠い電荷量子ビットの間に仲介することができることを理論的に証明する。 平均ゲート忠実度に及ぼす主雑音源,共振器減衰,チャージクビット劣化の影響について,徹底的な考察を行った。 最先端の共振器減衰率と電荷量子ビット減少率を仮定すると、予測平均ゲート忠実度は90%以下である。 しかし、電荷量子ビットの退化速度の1桁の増大は、ゲートの忠実度が95%を超えると推測される。

Strong charge-photon coupling allows the coherent coupling of a charge qubit, realized by a single charge carrier (either an electron or a hole) in a double quantum dot, to photons of a microwave resonator. Here, we theoretically demonstrate that, in the dispersive regime, the photons can mediate both an $i$SWAP gate as well as a $\sqrt{i\mathrm{SWAP}}$ gate between two distant charge qubits. We provide a thorough discussion of the impact of the dominant noise sources, resonator damping and charge qubit dephasing on the average gate fidelity. Assuming a state-of-the art resonator decay rate and charge qubit dephasing rate, the predicted average gate fidelities are below 90%. However, an increase of the charge qubit dephasing rate by one order of magnitude is conjectured to result in gate fidelities surpassing 95%.
翻訳日:2024-06-11 12:59:23 公開日:2024-06-10
# LLMデータセット推論: 私のデータセットでトレーニングしましたか?

LLM Dataset Inference: Did you train on my dataset? ( http://arxiv.org/abs/2406.06443v1 )

ライセンス: Link先を確認
Pratyush Maini, Hengrui Jia, Nicolas Papernot, Adam Dziedzic, (参考訳) 現実世界における大規模言語モデル(LLM)の普及は、インターネットからライセンスされていないデータでモデルをトレーニングする企業に対する著作権訴訟の増加に端を発している。 近年の研究では、個々のテキストシーケンスがモデルのトレーニングデータであるかどうかを識別する手法が提案されている。 これらのMIAsの明らかな成功は、メンバーと異なる分布に属する非メンバー(トレーニングに使用されていないテキストシーケンス)を選択することで構成されている(例えば、モデルのトレーニングに使用したものと比較して、最近のウィキペディアの記事は時間的に移動している)。 この分布シフトは、メンバーシップ推論を成功させる。 しかし、ほとんどのMIA法は、同じ分布からメンバーと非メンバーを区別する場合(例えば、この場合、同じ期間)、ランダムな推測に勝る。 MIAsが動作する場合でも、異なる分布からサンプルのメンバシップを推測することには、異なるMIAsが成功する。 そこで本研究では,大規模言語モデルの学習に使用するデータセットを正確に識別する新しいデータセット推論手法を提案する。 このパラダイムは現代の著作権のランドスケープにおいて現実的に存在しており、著者は、LLMは特定の段落ではなく、それらによって書かれた複数の文書(本など)で訓練されていると主張している。 データセット推論は、メンバーシップ推論の課題の多くを共有しているが、与えられた分布に対して正の信号を与えるMIAを選択的に組み合わせ、それらを集約して、与えられたデータセット上で統計的テストを実行することで解決する。 提案手法は, 統計的に有意なp値<0.1。

The proliferation of large language models (LLMs) in the real world has come with a rise in copyright cases against companies for training their models on unlicensed data from the internet. Recent works have presented methods to identify if individual text sequences were members of the model's training data, known as membership inference attacks (MIAs). We demonstrate that the apparent success of these MIAs is confounded by selecting non-members (text sequences not used for training) belonging to a different distribution from the members (e.g., temporally shifted recent Wikipedia articles compared with ones used to train the model). This distribution shift makes membership inference appear successful. However, most MIA methods perform no better than random guessing when discriminating between members and non-members from the same distribution (e.g., in this case, the same period of time). Even when MIAs work, we find that different MIAs succeed at inferring membership of samples from different distributions. Instead, we propose a new dataset inference method to accurately identify the datasets used to train large language models. This paradigm sits realistically in the modern-day copyright landscape, where authors claim that an LLM is trained over multiple documents (such as a book) written by them, rather than one particular paragraph. While dataset inference shares many of the challenges of membership inference, we solve it by selectively combining the MIAs that provide positive signal for a given distribution, and aggregating them to perform a statistical test on a given dataset. Our approach successfully distinguishes the train and test sets of different subsets of the Pile with statistically significant p-values < 0.1, without any false positives.
翻訳日:2024-06-11 12:59:23 公開日:2024-06-10
# 進化機構による並列量子局所探索

Parallel Quantum Local Search via Evolutionary Mechanism ( http://arxiv.org/abs/2406.06445v1 )

ライセンス: Link先を確認
Chen-Yu Liu, Kuan-Cheng Chen, (参考訳) 本稿では,PQLS(Parallel Quantum Local Search)手法を提案する。 従来のQuantum Local Search(QLS)メソッドは、サブプロブレムの解決というシーケンシャルな性質のために制限に直面している。 提案手法は,複数のQLS経路を同時に実行し,その最も効果的な結果を一定間隔で集約して'世代'を確立することによって,この制約を超越する。 それぞれの生成は前者からの最適解から始まり、最適解への収束を著しく加速する。 本研究は並列量子コンピューティングがIsing問題の解決に深く影響していることを示し,これは組合せ最適化の課題と同義である。

We propose an innovative Parallel Quantum Local Search (PQLS) methodology that leverages the capabilities of small-scale quantum computers to efficiently address complex combinatorial optimization problems. Traditional Quantum Local Search (QLS) methods face limitations due to the sequential nature of solving sub-problems, which arises from dependencies between their solutions. Our approach transcends this constraint by simultaneously executing multiple QLS pathways and aggregating their most effective outcomes at certain intervals to establish a ``generation''. Each subsequent generation commences with the optimal solution from its predecessor, thereby significantly accelerating the convergence towards an optimal solution. Our findings demonstrate the profound impact of parallel quantum computing in enhancing the resolution of Ising problems, which are synonymous with combinatorial optimization challenges.
翻訳日:2024-06-11 12:59:23 公開日:2024-06-10
# 圧縮・伝達の深部生成モデリング:効率性からレジリエンスへ

Deep Generative Modeling Reshapes Compression and Transmission: From Efficiency to Resiliency ( http://arxiv.org/abs/2406.06446v1 )

ライセンス: Link先を確認
Jincheng Dai, Xiaoqi Qin, Sixian Wang, Lexi Xu, Kai Niu, Ping Zhang, (参考訳) 情報理論と機械学習は密接な結びつきがあり、「同じコインの2つの側面」と呼ばれることもある。 特にエレガントな接続の1つは、確率的生成モデリングとデータ圧縮または伝送の本質的な等価性である。 本稿では,データ圧縮の効率化と回復力の伝達誤差の隠蔽を両立させる深部生成モデルの二重機能について述べる。 本稿では、強力な生成モデルの文脈予測能力が、強い圧縮機や推定器として適切に位置づけられるかを示す。 この意味では、エンド・ツー・エンド・コミュニケーションのレンズを通して深層生成モデル問題を見極め、基礎生成モデルの圧縮と誤り復元能力を評価することを提唱する。 我々は,多くの大規模生成モデルのカーネルが意味的潜在変数間の複雑な関係を捉える強力な予測器であり,コミュニケーションの観点からは,意味的特徴のトークン化,文脈学習,深層生成モデルの利用に関する新たな知見を提供する。 まとめると、本稿は、生成AIとソースおよびチャネルコーディング技術との不可欠なつながりを強調し、この新興トピックについてさらなる調査を行うよう研究者に動機付けている。

Information theory and machine learning are inextricably linked and have even been referred to as "two sides of the same coin". One particularly elegant connection is the essential equivalence between probabilistic generative modeling and data compression or transmission. In this article, we reveal the dual-functionality of deep generative models that reshapes both data compression for efficiency and transmission error concealment for resiliency. We present how the contextual predictive capabilities of powerful generative models can be well positioned to be strong compressors and estimators. In this sense, we advocate for viewing the deep generative modeling problem through the lens of end-to-end communications, and evaluate the compression and error restoration capabilities of foundation generative models. We show that the kernel of many large generative models is powerful predictor that can capture complex relationships among semantic latent variables, and the communication viewpoints provide novel insights into semantic feature tokenization, contextual learning, and usage of deep generative models. In summary, our article highlights the essential connections of generative AI to source and channel coding techniques, and motivates researchers to make further explorations in this emerging topic.
翻訳日:2024-06-11 12:59:23 公開日:2024-06-10
# Cometh: 連続時間離散状態グラフ拡散モデル

Cometh: A continuous-time discrete-state graph diffusion model ( http://arxiv.org/abs/2406.06449v1 )

ライセンス: Link先を確認
Antoine Siraudin, Fragkiskos D. Malliaros, Christopher Morris, (参考訳) 離散状態分解拡散モデルにより、特に分子領域におけるグラフ生成における最先端の性能が向上した。 最近、それらは継続的な時間に変換され、リバースプロセスの柔軟性が向上し、サンプリング効率と品質のトレードオフが良くなった。 本稿では,両手法の利点を活用するために,連続時間離散状態グラフ拡散モデルであるCometを提案し,グラフデータを連続時間拡散モデルフレームワークに統合する。 実験により、連続時間の統合は、分子および非分子ベンチマークデータセットの大規模なセット上での最先端の離散状態拡散モデルよりも、様々な指標において顕著な改善をもたらすことを示す。

Discrete-state denoising diffusion models led to state-of-the-art performance in graph generation, especially in the molecular domain. Recently, they have been transposed to continuous time, allowing more flexibility in the reverse process and a better trade-off between sampling efficiency and quality. Here, to leverage the benefits of both approaches, we propose Cometh, a continuous-time discrete-state graph diffusion model, integrating graph data into a continuous-time diffusion model framework. Empirically, we show that integrating continuous time leads to significant improvements across various metrics over state-of-the-art discrete-state diffusion models on a large set of molecular and non-molecular benchmark datasets.
翻訳日:2024-06-11 12:59:23 公開日:2024-06-10
# 社会形成理論からの洞察:学部プログラミングコースにおける大規模言語モデルの適用

Insights from Social Shaping Theory: The Appropriation of Large Language Models in an Undergraduate Programming Course ( http://arxiv.org/abs/2406.06451v1 )

ライセンス: Link先を確認
Aadarsh Padiyath, Xinying Hou, Amy Pang, Diego Viramontes Vargas, Xingjian Gu, Tamara Nelson-Fromm, Zihan Wu, Mark Guzdial, Barbara Ericson, (参考訳) 大規模言語モデル(LLM)によるコードの生成、デバッグ、説明能力は、学部プログラミングにおける研究者や教育者の興味を喚起し、多くの人はプログラミング教育におけるその変革的なポテンシャルを期待している。 しかし、プログラミング教育にLLMを使う理由と方法に関する決定は、単にLLMの技術能力を評価することだけに留まらないかもしれない。 本研究は,技術理論の社会的形成を指針として,学生の社会的知覚が自身のLLM利用にどのように影響するかを考察する。 次に,学生の自己効力感と中学期成績と自己申告LDM使用率の相関について検討した。 学生の無名の終末調査(n=158)、中学生の自己効力感調査(n=158)、学生の面接(n=10)、宿題における自己申告LDMの使用状況、中期成績などのデータを三角測量した結果、学生のLSMの使用は将来のキャリアへの期待とピア利用に対する認識と関係があることが判明した。 さらに, 早期自己報告LSM使用状況は, 自己効力低下と中等度低得点に相関し, 学生の自己効力低下は, 自己効力低下と相関した。

The capability of large language models (LLMs) to generate, debug, and explain code has sparked the interest of researchers and educators in undergraduate programming, with many anticipating their transformative potential in programming education. However, decisions about why and how to use LLMs in programming education may involve more than just the assessment of an LLM's technical capabilities. Using the social shaping of technology theory as a guiding framework, our study explores how students' social perceptions influence their own LLM usage. We then examine the correlation of self-reported LLM usage with students' self-efficacy and midterm performances in an undergraduate programming course. Triangulating data from an anonymous end-of-course student survey (n = 158), a mid-course self-efficacy survey (n=158), student interviews (n = 10), self-reported LLM usage on homework, and midterm performances, we discovered that students' use of LLMs was associated with their expectations for their future careers and their perceptions of peer usage. Additionally, early self-reported LLM usage in our context correlated with lower self-efficacy and lower midterm scores, while students' perceived over-reliance on LLMs, rather than their usage itself, correlated with decreased self-efficacy later in the course.
翻訳日:2024-06-11 12:59:23 公開日:2024-06-10
# 弱計器と観測データを組み合わせた不均一処理効果の推定

Estimating Heterogeneous Treatment Effects by Combining Weak Instruments and Observational Data ( http://arxiv.org/abs/2406.06452v1 )

ライセンス: Link先を確認
Miruna Oprescu, Nathan Kallus, (参考訳) 病状平均治療効果(CATE)の正確な予測は、パーソナライズされた医療とデジタルプラットフォーム分析において重要である。 関心事の処理は直接ランダム化できないことが多いため、観測データはCATEを学習するために活用されるが、このアプローチは観測されていない欠点からかなりのバイアスを生じる可能性がある。 これらの制限を克服するための1つの戦略は、例えば、ランダム化された製品レコメンデーションまたはランダム化された製品レコメンデーションに対する、機器変数(IV)の潜在準実験を求めることである。 一方このアプローチは、コンプライアンスの低さ、すなわちIVの弱点に悩まされる可能性がある。 一部の部分群は、コンプライアンスがゼロである場合もあり、CATEには全く対応できない。 本稿では,IVデータと観測データを組み合わせた新しい手法を開発し,観測データに観測不能なコンバウンディングが存在する場合の信頼性の高いCATE推定を実現する。 本稿では、まず観測データからバイアス付きCATEを学習し、次にIVデータを用いてコンプライアンス重み付け補正を適用し、共変量間のIV強度変動を効果的に活用する2段階フレームワークを提案する。 本研究では,本手法の収束率を特徴付けるとともに,シミュレーション実験によりその妥当性を検証した。 さらに,401(k)プランの参加が富に与える影響を解析し,実データを用いた実効性を実証した。

Accurately predicting conditional average treatment effects (CATEs) is crucial in personalized medicine and digital platform analytics. Since often the treatments of interest cannot be directly randomized, observational data is leveraged to learn CATEs, but this approach can incur significant bias from unobserved confounding. One strategy to overcome these limitations is to seek latent quasi-experiments in instrumental variables (IVs) for the treatment, for example, a randomized intent to treat or a randomized product recommendation. This approach, on the other hand, can suffer from low compliance, i.e., IV weakness. Some subgroups may even exhibit zero compliance meaning we cannot instrument for their CATEs at all. In this paper we develop a novel approach to combine IV and observational data to enable reliable CATE estimation in the presence of unobserved confounding in the observational data and low compliance in the IV data, including no compliance for some subgroups. We propose a two-stage framework that first learns biased CATEs from the observational data, and then applies a compliance-weighted correction using IV data, effectively leveraging IV strength variability across covariates. We characterize the convergence rates of our method and validate its effectiveness through a simulation study. Additionally, we demonstrate its utility with real data by analyzing the heterogeneous effects of 401(k) plan participation on wealth.
翻訳日:2024-06-11 12:59:23 公開日:2024-06-10
# 時系列分析:昨日、今日、明日

Time Series Analysis: yesterday, today, tomorrow ( http://arxiv.org/abs/2406.06453v1 )

ライセンス: Link先を確認
Igor Mackarov, (参考訳) 様々なプロセスの予測は常に統計学とデータ科学の高度な問題である。 過去数十年にわたって、ソリューションの手順はディープラーニングとカーネルメソッドによって更新された。 多くの専門家によると、これらの手法は古典的な統計線形時系列法と比較してはるかに正確で安定であり、適している。 ここでは、この視点がいかに真であるかを考察する。

Forecasts of various processes have always been a sophisticated problem for statistics and data science. Over the past decades the solution procedures were updated by deep learning and kernel methods. According to many specialists, these approaches are much more precise, stable, and suitable compared to the classical statistical linear time series methods. Here we investigate how true this point of view is.
翻訳日:2024-06-11 12:59:23 公開日:2024-06-10
# 乳がんオンコロジーのための大規模言語モデルパイプライン

A Large Language Model Pipeline for Breast Cancer Oncology ( http://arxiv.org/abs/2406.06455v1 )

ライセンス: Link先を確認
Tristen Pool, Dennis Trujillo, (参考訳) 大規模言語モデル(LLM)は多くの分野の革新の可能性を示している。 しかし、腫瘍学に最も適した開発方法はまだ未開発である。 最先端のOpenAIモデルは、新しいラングチェーンプロンプトエンジニアリングパイプラインを使用して、2つの重要ながん治療因子であるアジュバント放射線治療と化学療法のための臨床データセットと臨床ガイドラインテキストコーパスに基づいて微調整された。 乳癌に対するアジュバント放射線療法と化学療法の分類において高い精度(0.85+)が得られた。 さらに、ヒトの腫瘍学者による治療の質に関する観察データから信頼区間が形成され、そのモデルが治療予測において元の腫瘍学者を8.2%から13.3%の精度で上回らなければならないシナリオの割合を推定した。 がん治療決定の結果の不確定性のため、将来の調査、潜在的に臨床試験は、この閾値がモデルによって満たされたかどうかを決定するために必要となる。 それでも、米国のがん患者の85%が地域社会施設で治療を受けており、こうしたモデルがヒトの腫瘍学者に近づいた結果によって、品質ケアへのアクセスを拡大する上で重要な役割を果たす可能性がある。

Large language models (LLMs) have demonstrated potential in the innovation of many disciplines. However, how they can best be developed for oncology remains underdeveloped. State-of-the-art OpenAI models were fine-tuned on a clinical dataset and clinical guidelines text corpus for two important cancer treatment factors, adjuvant radiation therapy and chemotherapy, using a novel Langchain prompt engineering pipeline. A high accuracy (0.85+) was achieved in the classification of adjuvant radiation therapy and chemotherapy for breast cancer patients. Furthermore, a confidence interval was formed from observational data on the quality of treatment from human oncologists to estimate the proportion of scenarios in which the model must outperform the original oncologist in its treatment prediction to be a better solution overall as 8.2% to 13.3%. Due to indeterminacy in the outcomes of cancer treatment decisions, future investigation, potentially a clinical trial, would be required to determine if this threshold was met by the models. Nevertheless, with 85% of U.S. cancer patients receiving treatment at local community facilities, these kinds of models could play an important part in expanding access to quality care with outcomes that lie, at minimum, close to a human oncologist.
翻訳日:2024-06-11 12:59:23 公開日:2024-06-10
# LLMに基づく質問応答システムにおける検索成分の評価

Evaluating the Retrieval Component in LLM-Based Question Answering Systems ( http://arxiv.org/abs/2406.06458v1 )

ライセンス: Link先を確認
Ashkan Alinejad, Krtin Kumar, Ali Vahdat, (参考訳) 大規模言語モデル(LLM)を利用した質問応答システム(QA)は、ドメイン固有の情報を提供し、不正確な応答や幻覚を引き起こすリスクを低減するために、検索コンポーネントに大きく依存している。 検索者の評価は情報検索の初期の研究にさかのぼるが、LLMベースのチャットボットでの性能を評価することは依然として困難である。 本研究では,Retrieval-Augmented Generation (RAG)ベースのチャットボットにおける検索者評価のための簡単なベースラインを提案する。 以上の結果から, この評価フレームワークは, 検索器の動作状況をよりよく把握し, 総合的なQAシステムの性能に適合していることが示唆された。 精度,リコール,F1スコアといった従来の指標では,不完全な検索者にもかかわらず正確な応答を得られるため,LLMの能力を完全に把握できない場合があるが,本手法では,無関係な文脈を無視するLLMの強みや,その応答における潜在的な誤りや幻覚を考察する。

Question answering systems (QA) utilizing Large Language Models (LLMs) heavily depend on the retrieval component to provide them with domain-specific information and reduce the risk of generating inaccurate responses or hallucinations. Although the evaluation of retrievers dates back to the early research in Information Retrieval, assessing their performance within LLM-based chatbots remains a challenge. This study proposes a straightforward baseline for evaluating retrievers in Retrieval-Augmented Generation (RAG)-based chatbots. Our findings demonstrate that this evaluation framework provides a better image of how the retriever performs and is more aligned with the overall performance of the QA system. Although conventional metrics such as precision, recall, and F1 score may not fully capture LLMs' capabilities - as they can yield accurate responses despite imperfect retrievers - our method considers LLMs' strengths to ignore irrelevant contexts, as well as potential errors and hallucinations in their responses.
翻訳日:2024-06-11 12:49:35 公開日:2024-06-10
# トークン経済における推論:LCM推論戦略の予算的評価

Reasoning in Token Economies: Budget-Aware Evaluation of LLM Reasoning Strategies ( http://arxiv.org/abs/2406.06461v1 )

ライセンス: Link先を確認
Junlin Wang, Siddhartha Jain, Dejiao Zhang, Baishakhi Ray, Varun Kumar, Ben Athiwaratkun, (参考訳) 大規模言語モデルの能力を引き出すための多種多様な推論戦略が提案されている。 しかし,本稿では,パフォーマンス指標のみに着目した従来の評価は,計算量の増加による有効性の増加という重要な要因を欠いていることを指摘する。 この側面を見渡すことで、戦略効率の歪んだ見方がしばしば提示される。 本稿では,計算予算を評価に組み込んだフレームワークを導入し,性能指標と計算コストの両面を考慮に入れた,より情報に富んだ比較を行う。 この予算面から見れば、複雑な推論戦略はアルゴリズムの創発性によって純粋に単純なベースラインを超越するのではなく、より多くの計算資源が割り当てられているためである。 計算資源に匹敵するチェーン・オブ・シンクの自己整合性のような単純なベースラインを提供する場合、文献で提案される推論戦略よりも優れていることがしばしばある。 このスケール・アウェアの観点からは、自己整合性とは異なり、より計算予算を活用すれば、マルチエージェントの議論やリフレクションのような特定の戦略が悪化する可能性がある。

A diverse array of reasoning strategies has been proposed to elicit the capabilities of large language models. However, in this paper, we point out that traditional evaluations which focus solely on performance metrics miss a key factor: the increased effectiveness due to additional compute. By overlooking this aspect, a skewed view of strategy efficiency is often presented. This paper introduces a framework that incorporates the compute budget into the evaluation, providing a more informative comparison that takes into account both performance metrics and computational cost. In this budget-aware perspective, we find that complex reasoning strategies often don't surpass simpler baselines purely due to algorithmic ingenuity, but rather due to the larger computational resources allocated. When we provide a simple baseline like chain-of-thought self-consistency with comparable compute resources, it frequently outperforms reasoning strategies proposed in the literature. In this scale-aware perspective, we find that unlike self-consistency, certain strategies such as multi-agent debate or Reflexion can become worse if more compute budget is utilized.
翻訳日:2024-06-11 12:49:35 公開日:2024-06-10
# VCR: ビジュアルキャプション復元

VCR: Visual Caption Restoration ( http://arxiv.org/abs/2406.06462v1 )

ライセンス: Link先を確認
Tianyu Zhang, Suyuchen Wang, Lu Li, Ge Zhang, Perouz Taslakian, Sai Rajeswar, Jie Fu, Bang Liu, Yoshua Bengio, (参考訳) 画像内の画素レベルのヒントを用いて、部分的に隠されたテキストを正確に復元するモデルに挑戦する視覚言語タスクであるVisual Caption Restoration (VCR)を導入する。 この課題は、画像に埋め込まれたテキストは、視覚、テキスト、および画像に埋め込まれたテキストのモダリティを整合させる必要があるため、共通の視覚要素や自然言語とは本質的に異なるという観察に由来する。 多くの作品では画像に埋め込まれたテキストを視覚的質問応答タスクに統合しているが、これらのタスクへのアプローチは一般的に光学的文字認識やマスキング言語モデリングに頼っているため、主にテキストベースの処理に還元される。 しかし、正確なテキスト復元は、マスクされたテキストの小さな露出領域から提供される画像、コンテキスト、微妙な手がかりの複合情報に依存するため、VCRではテキストベースの処理は効果がない。 我々は,VCRタスクの合成画像を生成するパイプラインを開発し,タスクの難易度を制御するために,キャプションの可視性を調整する。 このパイプラインでは、ウィキペディアの字幕付き画像を用いたVCR-Wikiと呼ばれるVCRのデータセットを構築し、簡単な分割版と難しい分割版の両方で2.11万の英語と346万の中国語のエンティティからなる。 我々の結果は、現在のビジョン言語モデルがVCRタスクにおいて人間のパフォーマンスに著しく遅れていることを明らかにし、データセット上でモデルを微調整するだけでは、顕著な改善には至らない。 VCR-Wikiとデータ構築コードをリリースし、今後の研究を促進する。

We introduce Visual Caption Restoration (VCR), a novel vision-language task that challenges models to accurately restore partially obscured texts using pixel-level hints within images. This task stems from the observation that text embedded in images is intrinsically different from common visual elements and natural language due to the need to align the modalities of vision, text, and text embedded in images. While numerous works have integrated text embedded in images into visual question-answering tasks, approaches to these tasks generally rely on optical character recognition or masked language modeling, thus reducing the task to mainly text-based processing. However, text-based processing becomes ineffective in VCR as accurate text restoration depends on the combined information from provided images, context, and subtle cues from the tiny exposed areas of masked texts. We develop a pipeline to generate synthetic images for the VCR task using image-caption pairs, with adjustable caption visibility to control the task difficulty. With this pipeline, we construct a dataset for VCR called VCR-Wiki using images with captions from Wikipedia, comprising 2.11M English and 346K Chinese entities in both easy and hard split variants. Our results reveal that current vision language models significantly lag behind human performance in the VCR task, and merely fine-tuning the models on our dataset does not lead to notable improvements. We release VCR-Wiki and the data construction code to facilitate future research.
翻訳日:2024-06-11 12:49:35 公開日:2024-06-10
# 大規模言語モデルエージェントを用いたウェアラブルデータのヘルスインサイトへの変換

Transforming Wearable Data into Health Insights using Large Language Model Agents ( http://arxiv.org/abs/2406.06464v1 )

ライセンス: Link先を確認
Mike A. Merrill, Akshay Paruchuri, Naghmeh Rezaei, Geza Kovacs, Javier Perez, Yun Liu, Erik Schenck, Nova Hammerquist, Jake Sunshine, Shyam Tailor, Kumar Ayush, Hao-Wei Su, Qian He, Cory McLean, Mark Malhotra, Shwetak Patel, Jiening Zhan, Tim Althoff, Daniel McDuff, Xin Liu, (参考訳) ウェアラブルヘルストラッカーの普及と、睡眠と運動の重要性にもかかわらず、ウェアラブルデータから実用的なパーソナライズされた洞察を導出することは、これらのデータの非自明なオープンエンド分析を必要とするため、依然として課題である。 近年の大規模言語モデル(LLM)エージェントの台頭は,世界に対する推論や対話にツールを利用することで,このようなパーソナライズされた分析を大規模に実現する,有望な機会を提供する。 しかし、LLMエージェントの個人の健康分析への応用は、いまだに未解決のままである。 本稿では,現在最先端のコード生成と情報検索ツールを活用し,ウェアラブルからの行動健康データを解析・解釈するエージェントシステムであるPersonal Health Insights Agent(PHIA)を紹介する。 4000以上の健康意識の質問をベンチマークで回答するデータセットを2つ評価する。 650時間の人間と専門家による評価に基づいて、PHIAは事実の数値的な質問の84%以上と、クラウドソーシングによるオープンエンドな質問の83%以上に正確に対処できることがわかった。 この研究は、集団全体の行動の健康を向上させ、個人が自身のウェアラブルデータを解釈し、データ駆動の洞察によって知らされる、アクセス可能でパーソナライズされたウェルネスの新たな時代への道を歩む可能性がある。

Despite the proliferation of wearable health trackers and the importance of sleep and exercise to health, deriving actionable personalized insights from wearable data remains a challenge because doing so requires non-trivial open-ended analysis of these data. The recent rise of large language model (LLM) agents, which can use tools to reason about and interact with the world, presents a promising opportunity to enable such personalized analysis at scale. Yet, the application of LLM agents in analyzing personal health is still largely untapped. In this paper, we introduce the Personal Health Insights Agent (PHIA), an agent system that leverages state-of-the-art code generation and information retrieval tools to analyze and interpret behavioral health data from wearables. We curate two benchmark question-answering datasets of over 4000 health insights questions. Based on 650 hours of human and expert evaluation we find that PHIA can accurately address over 84% of factual numerical questions and more than 83% of crowd-sourced open-ended questions. This work has implications for advancing behavioral health across the population, potentially enabling individuals to interpret their own wearable data, and paving the way for a new era of accessible, personalized wellness regimens that are informed by data-driven insights.
翻訳日:2024-06-11 12:49:35 公開日:2024-06-10
# AID: インストラクション誘導映像予測のためのImage2ビデオ拡散モデルの適用

AID: Adapting Image2Video Diffusion Models for Instruction-guided Video Prediction ( http://arxiv.org/abs/2406.06465v1 )

ライセンス: Link先を確認
Zhen Xing, Qi Dai, Zejia Weng, Zuxuan Wu, Yu-Gang Jiang, (参考訳) テキスト誘導ビデオ予測(英語: Text-guided video prediction、TVP)は、VR、ロボティクス、コンテンツ制作に広く応用されている命令に従って、初期フレームから将来のフレームの動きを予測するものである。 従来のTVP方式では, 安定拡散法を応用して大きなブレークスルーを達成している。 しかし、フレームの一貫性と時間的安定性に苦しむのは、主にビデオデータセットの規模が限られているためである。 我々は,事前学習したImage2Video拡散モデルがビデオ力学に優れた先行性を持っているのを観察するが,テキストによる制御は欠如している。 したがって、Image2Videoモデルをビデオのダイナミックな先行性を活用するために転送する一方で、制御可能なビデオを生成するために命令制御を注入することは有意義かつ困難な作業である。 そこで我々は,初期フレームとテキスト命令に基づいて,将来の映像状態を予測するためのMLLM(Multi-Modal Large Language Model)を提案する。 より具体的には、将来のフレーム予測のための条件付き埋め込みに命令とフレームを統合するデュアルクエリトランスフォーマー(DQFormer)アーキテクチャを設計する。 さらに,訓練コストを最小に抑えながら,一般的な映像拡散モデルを特定のシナリオに迅速に転送できる長短時空間適応器と空間適応器を開発した。 実験結果から,本手法は4つのデータセット(Some something V2, Epic Kitchen-100, Bridge Data, UCF-101)において,最先端技術よりも有意に優れていることがわかった。 特に、AIDはBridgeとSSv2でそれぞれ91.2%と55.5%のFVD改善を実現し、様々な領域で有効性を示している。 その他の例は、私たちのWebサイト https://chenhsing.github.io/AID.org で確認できます。

Text-guided video prediction (TVP) involves predicting the motion of future frames from the initial frame according to an instruction, which has wide applications in virtual reality, robotics, and content creation. Previous TVP methods make significant breakthroughs by adapting Stable Diffusion for this task. However, they struggle with frame consistency and temporal stability primarily due to the limited scale of video datasets. We observe that pretrained Image2Video diffusion models possess good priors for video dynamics but they lack textual control. Hence, transferring Image2Video models to leverage their video dynamic priors while injecting instruction control to generate controllable videos is both a meaningful and challenging task. To achieve this, we introduce the Multi-Modal Large Language Model (MLLM) to predict future video states based on initial frames and text instructions. More specifically, we design a dual query transformer (DQFormer) architecture, which integrates the instructions and frames into the conditional embeddings for future frame prediction. Additionally, we develop Long-Short Term Temporal Adapters and Spatial Adapters that can quickly transfer general video diffusion models to specific scenarios with minimal training costs. Experimental results show that our method significantly outperforms state-of-the-art techniques on four datasets: Something Something V2, Epic Kitchen-100, Bridge Data, and UCF-101. Notably, AID achieves 91.2% and 55.5% FVD improvements on Bridge and SSv2 respectively, demonstrating its effectiveness in various domains. More examples can be found at our website https://chenhsing.github.io/AID.
翻訳日:2024-06-11 12:49:35 公開日:2024-06-10
# 変圧器はどこまで原因があるのか? : 局所バリアとインダクティブスクラッチパッド

How Far Can Transformers Reason? The Locality Barrier and Inductive Scratchpad ( http://arxiv.org/abs/2406.06467v1 )

ライセンス: Link先を確認
Emmanuel Abbe, Samy Bengio, Aryo Lotfi, Colin Sandon, Omid Saremi, (参考訳) トランスフォーマーは、確立したシロジズムを構成することによって、新しいシロジズムを予測することができるか? より一般的に、そのようなモデルによって、どのようなターゲットをスクラッチから学べるか? 近年の研究では、トランスフォーマーは表現性の観点からチューリング完全であることが示されているが、これは学習可能性の目的に対処するものではない。 本稿では, 正規変圧器が弱学習を効率的に達成できる場合の「分布局所性」の概念を提唱し, トークンヒストグラムに加えて, トークンの最小数を測定することで, ターゲットと非自明に相関する。 追加の仮定の下で実験的に理論的に示されるように、高い局所性を持つ分布は効率的には学べない。 特に、シロジズムは長い鎖では構成できない。 さらには (i)不可知のスクラッチパッドは、局所障壁を壊すのに役立ちません。 (二)各段階の局地性を損なう際には、教養のあるスクラッチパッドが役立ちます。 (三)「帰納的スクラッチパッド」という概念は、局所性を破り、分配外一般化(例えば、算術的なタスクのほぼ倍の入力サイズに一般化する)を改善することができる。

Can Transformers predict new syllogisms by composing established ones? More generally, what type of targets can be learned by such models from scratch? Recent works show that Transformers can be Turing-complete in terms of expressivity, but this does not address the learnability objective. This paper puts forward the notion of 'distribution locality' to capture when weak learning is efficiently achievable by regular Transformers, where the locality measures the least number of tokens required in addition to the tokens histogram to correlate nontrivially with the target. As shown experimentally and theoretically under additional assumptions, distributions with high locality cannot be learned efficiently. In particular, syllogisms cannot be composed on long chains. Furthermore, we show that (i) an agnostic scratchpad cannot help to break the locality barrier, (ii) an educated scratchpad can help if it breaks the locality at each step, (iii) a notion of 'inductive scratchpad' can both break the locality and improve the out-of-distribution generalization, e.g., generalizing to almost double input size for some arithmetic tasks.
翻訳日:2024-06-11 12:49:35 公開日:2024-06-10
# Husky: マルチステップ推論のための統一されたオープンソース言語エージェント

Husky: A Unified, Open-Source Language Agent for Multi-Step Reasoning ( http://arxiv.org/abs/2406.06469v1 )

ライセンス: Link先を確認
Joongwon Kim, Bhargavi Paranjape, Tushar Khot, Hannaneh Hajishirzi, (参考訳) 言語エージェントは、各ステップを正確に実行するツールを使用して複雑なタスクを実行する。 しかし、既存のエージェントのほとんどはプロプライエタリなモデルに基づいており、数学やマルチホップ質問応答のような特定のタスクをターゲットにしている。 我々は、数値、表、知識に基づく推論を含む様々な複雑なタスクに対処するために、統一されたアクション空間を推論することを学ぶ、包括的なオープンソースの言語エージェントであるHuskyを紹介する。 ハスキーは2つの段階の間に反復する。 1) 与えられた課題の解決に向けて次の行動を起こすこと 2) 専門家モデルを使用してアクションを実行し、現在のソリューション状態を更新します。 複雑なタスクに対処するためのアクションの詳細なオントロジーを特定し、高品質なデータをキュレートして、これらのアクションを実行するためのエキスパートモデルを訓練する。 実験の結果,Huskyは14の評価データセットで先行言語エージェントよりも優れていた。 さらに、混合ツール推論のための言語エージェントをストレステストする新しい評価セットであるHuskyQAを導入し、不足した知識を検索し、数値推論を実行することに焦点を当てた。 7Bモデルを用いたにもかかわらず、Huskyはこれらのタスクにおいて GPT-4 などのフロンティアLM にマッチし、複雑な推論問題に対処するための総合的なアプローチの有効性を示す。 私たちのコードとモデルはhttps://github.com/agent-husky/Husky-v1.orgで公開されています。

Language agents perform complex tasks by using tools to execute each step precisely. However, most existing agents are based on proprietary models or designed to target specific tasks, such as mathematics or multi-hop question answering. We introduce Husky, a holistic, open-source language agent that learns to reason over a unified action space to address a diverse set of complex tasks involving numerical, tabular, and knowledge-based reasoning. Husky iterates between two stages: 1) generating the next action to take towards solving a given task and 2) executing the action using expert models and updating the current solution state. We identify a thorough ontology of actions for addressing complex tasks and curate high-quality data to train expert models for executing these actions. Our experiments show that Husky outperforms prior language agents across 14 evaluation datasets. Moreover, we introduce HuskyQA, a new evaluation set which stress tests language agents for mixed-tool reasoning, with a focus on retrieving missing knowledge and performing numerical reasoning. Despite using 7B models, Husky matches or even exceeds frontier LMs such as GPT-4 on these tasks, showcasing the efficacy of our holistic approach in addressing complex reasoning problems. Our code and models are available at https://github.com/agent-husky/Husky-v1.
翻訳日:2024-06-11 12:49:35 公開日:2024-06-10
# GKAN: Graph Kolmogorov-Arnold Networks

GKAN: Graph Kolmogorov-Arnold Networks ( http://arxiv.org/abs/2406.06470v1 )

ライセンス: Link先を確認
Mehrdad Kiamari, Mohammad Kiamari, Bhaskar Krishnamachari, (参考訳) 我々は、最近提案されたコルモゴロフ・アルノルドネットワーク(KAN)の原理をグラフ構造化データに拡張した革新的なニューラルネットワークアーキテクチャであるグラフコルモゴロフ・アルノルドネットワーク(GKAN)を紹介する。 特に、線形重みではなく学習可能なユニバリケート関数を用いることにより、グラフに基づく学習タスクの強力なモデルを構築する。 固定畳み込みアーキテクチャに依存する従来のグラフ畳み込みネットワーク(GCN)とは異なり、GKANは層間の学習可能なスプラインベースの関数を実装し、グラフ構造全体にわたって情報を処理する方法を変える。 アーキテクチャ1 - 学習可能な関数が集約後の入力機能に適用され、アーキテクチャ2 - 学習可能な関数が集約前の入力機能に適用される。 我々は、実世界のデータセット(Cora)上で、半教師付きグラフ学習タスクを用いて、GKANを実証的に評価する。 アーキテクチャは一般的に、パフォーマンスが良くなっています。 GKANは、従来のGCNモデルと比較して、グラフ上の半教師付き学習タスクにおいて高い精度を達成する。 例えば、100個の特徴を考慮すると、GCNは53.5、GKANは61.76、GCNは61.24、GKANは67.66である。 また,隠れノード数,グリッドサイズ,スプラインの多項式次数などのパラメータがGKANの性能に与える影響について報告する。

We introduce Graph Kolmogorov-Arnold Networks (GKAN), an innovative neural network architecture that extends the principles of the recently proposed Kolmogorov-Arnold Networks (KAN) to graph-structured data. By adopting the unique characteristics of KANs, notably the use of learnable univariate functions instead of fixed linear weights, we develop a powerful model for graph-based learning tasks. Unlike traditional Graph Convolutional Networks (GCNs) that rely on a fixed convolutional architecture, GKANs implement learnable spline-based functions between layers, transforming the way information is processed across the graph structure. We present two different ways to incorporate KAN layers into GKAN: architecture 1 -- where the learnable functions are applied to input features after aggregation and architecture 2 -- where the learnable functions are applied to input features before aggregation. We evaluate GKAN empirically using a semi-supervised graph learning task on a real-world dataset (Cora). We find that architecture generally performs better. We find that GKANs achieve higher accuracy in semi-supervised learning tasks on graphs compared to the traditional GCN model. For example, when considering 100 features, GCN provides an accuracy of 53.5 while a GKAN with a comparable number of parameters gives an accuracy of 61.76; with 200 features, GCN provides an accuracy of 61.24 while a GKAN with a comparable number of parameters gives an accuracy of 67.66. We also present results on the impact of various parameters such as the number of hidden nodes, grid-size, and the polynomial-degree of the spline on the performance of GKAN.
翻訳日:2024-06-11 12:49:35 公開日:2024-06-10
# 個人健康大言語モデルに向けて

Towards a Personal Health Large Language Model ( http://arxiv.org/abs/2406.06474v1 )

ライセンス: Link先を確認
Justin Cosentino, Anastasiya Belyaeva, Xin Liu, Nicholas A. Furlotte, Zhun Yang, Chace Lee, Erik Schenck, Yojan Patel, Jian Cui, Logan Douglas Schneider, Robby Bryant, Ryan G. Gomes, Allen Jiang, Roy Lee, Yun Liu, Javier Perez, Jameson K. Rogers, Cathy Speed, Shyam Tailor, Megan Walker, Jeffrey Yu, Tim Althoff, Conor Heneghan, John Hernandez, Mark Malhotra, Leor Stern, Yossi Matias, Greg S. Corrado, Shwetak Patel, Shravya Shetty, Jiening Zhan, Shruthi Prabhakara, Daniel McDuff, Cory Y. McLean, (参考訳) 健康において、ほとんどの大規模言語モデル(LLM)研究は臨床タスクに焦点を当てている。 しかし、このようなタスクにはほとんど統合されないモバイルおよびウェアラブルデバイスは、個人の健康モニタリングのために、豊かで経時的なデータを提供する。 本稿では、時系列の個人健康データに対する理解と推論のために、Geminiから微調整されたPersonal Health Large Language Model (PH-LLM)を紹介する。 テストする3つのデータセットを作成し、キュレーションしました 1)睡眠パターン,身体活動,生理的反応からパーソナライズされた洞察とレコメンデーションの作成。 2)専門知識,及び 3)自己報告型睡眠結果の予測。 最初のタスクでは、睡眠とフィットネスの実際のシナリオを評価するために、ドメインの専門家と共同で857のケーススタディを設計しました。 Gemini Ultra 1.0 と PH-LLM は, 総合的に評価した結果, フィットネスの専門的実績と統計的に異なるものではなく, 専門家が睡眠に優れる一方で, 微調整による PH-LLM は, 関連するドメイン知識の使用や睡眠情報に対するパーソナライズ情報の改善に大きく寄与した。 PH-LLMドメインの知識を多選択肢睡眠薬とフィットネス検査を用いて評価した。 PH-LLMは睡眠で79%、フィットネスで88%を達成し、ヒトの専門家の平均スコアを上回った。 最後に、PH-LLMを用いて、ウェアラブルデータのテキストおよびマルチモーダルエンコーディングによる自己申告睡眠品質の予測を行い、特定識別モデルの性能に合わせたマルチモーダルエンコーディングが必要であることを実証した。 これらの結果は、ジェミニモデルの幅広い知識と能力と、PH-LLMによる個人健康分野における生理的データのコンテキスト化の利点の両方を実証するものである。

In health, most large language model (LLM) research has focused on clinical tasks. However, mobile and wearable devices, which are rarely integrated into such tasks, provide rich, longitudinal data for personal health monitoring. Here we present Personal Health Large Language Model (PH-LLM), fine-tuned from Gemini for understanding and reasoning over numerical time-series personal health data. We created and curated three datasets that test 1) production of personalized insights and recommendations from sleep patterns, physical activity, and physiological responses, 2) expert domain knowledge, and 3) prediction of self-reported sleep outcomes. For the first task we designed 857 case studies in collaboration with domain experts to assess real-world scenarios in sleep and fitness. Through comprehensive evaluation of domain-specific rubrics, we observed that Gemini Ultra 1.0 and PH-LLM are not statistically different from expert performance in fitness and, while experts remain superior for sleep, fine-tuning PH-LLM provided significant improvements in using relevant domain knowledge and personalizing information for sleep insights. We evaluated PH-LLM domain knowledge using multiple choice sleep medicine and fitness examinations. PH-LLM achieved 79% on sleep and 88% on fitness, exceeding average scores from a sample of human experts. Finally, we trained PH-LLM to predict self-reported sleep quality outcomes from textual and multimodal encoding representations of wearable data, and demonstrate that multimodal encoding is required to match performance of specialized discriminative models. Although further development and evaluation are necessary in the safety-critical personal health domain, these results demonstrate both the broad knowledge and capabilities of Gemini models and the benefit of contextualizing physiological data for personal health applications as done with PH-LLM.
翻訳日:2024-06-11 12:49:35 公開日:2024-06-10
# オンサガーの相互性に基づく量子システムの効率的なトレーニングのための量子平衡伝播

Quantum Equilibrium Propagation for efficient training of quantum systems based on Onsager reciprocity ( http://arxiv.org/abs/2406.06482v1 )

ライセンス: Link先を確認
Clara C. Wanjura, Florian Marquardt, (参考訳) 科学と技術のあらゆる分野における機械学習と人工知能の普及は、エネルギー効率の良い代替ハードウェアプラットフォームの必要性を生み出している。 このようなニューロモルフィックなアプローチは、幅広いプラットフォームに対して提案され、実現されているが、訓練に必要な勾配を物理的に抽出することは、特定のケースにしか存在しないため、依然として困難である。 平衡伝播(Equilibrium propagation、EP)は、平衡に緩和する古典的なエネルギーベースモデルに導入され応用された手順である。 ここでは、EPとOnsagerの相互性を直接接続し、これを利用してEPの量子バージョンを導出する。 これは任意の量子系の可観測物の期待値に依存する損失関数の最適化に使うことができる。 具体的には、入力や解決可能なタスクが量子力学的性質(例えば、量子多体基底状態の認識、量子位相探索、センシングおよび位相境界探索)であるような教師なしの学習例で、この新しい概念を解説する。 将来の量子EPは、数値的にシミュレートが難しいハミルトニアンや部分的には未知のハミルトニアンでさえも、量子位相探索のようなタスクを量子シミュレータで解くために用いられる可能性がある。 我々の手法は、イオン鎖、超伝導量子ビットアレイ、中性原子Rydberg tweezer配列、光学格子中の強い相互作用原子など、様々な量子シミュレーションプラットフォームに関係している。

The widespread adoption of machine learning and artificial intelligence in all branches of science and technology has created a need for energy-efficient, alternative hardware platforms. While such neuromorphic approaches have been proposed and realised for a wide range of platforms, physically extracting the gradients required for training remains challenging as generic approaches only exist in certain cases. Equilibrium propagation (EP) is such a procedure that has been introduced and applied to classical energy-based models which relax to an equilibrium. Here, we show a direct connection between EP and Onsager reciprocity and exploit this to derive a quantum version of EP. This can be used to optimize loss functions that depend on the expectation values of observables of an arbitrary quantum system. Specifically, we illustrate this new concept with supervised and unsupervised learning examples in which the input or the solvable task is of quantum mechanical nature, e.g., the recognition of quantum many-body ground states, quantum phase exploration, sensing and phase boundary exploration. We propose that in the future quantum EP may be used to solve tasks such as quantum phase discovery with a quantum simulator even for Hamiltonians which are numerically hard to simulate or even partially unknown. Our scheme is relevant for a variety of quantum simulation platforms such as ion chains, superconducting qubit arrays, neutral atom Rydberg tweezer arrays and strongly interacting atoms in optical lattices.
翻訳日:2024-06-11 12:49:35 公開日:2024-06-10
# 系列長によるデルタ則を用いた線形変換器の並列化

Parallelizing Linear Transformers with the Delta Rule over Sequence Length ( http://arxiv.org/abs/2406.06484v1 )

ライセンス: Link先を確認
Songlin Yang, Bailin Wang, Yu Zhang, Yikang Shen, Yoon Kim, (参考訳) 線形アテンションを持つ変圧器(リニアトランス)と状態空間モデル(英語版)は、近年、ソフトマックスアテンションを持つ変圧器の線形時間代替品として提案されている。 しかし、これらのモデルは、特にコンテキスト内検索を必要とするタスクにおいて、トランスフォーマーを過小評価している。 線形変圧器における付加的な外積更新をデルタ則に置き換えたより表現力のある線形変圧器は、連想的リコールにおいてより効果的であることが示されているが、そのようなモデルの既存の訓練アルゴリズムはシーケンス長を並列化せず、現代のハードウェアでトレーニングする非効率である。 本研究は,線形変圧器をデルタ則で訓練するハードウェア効率のアルゴリズムについて述べる。 このアルゴリズムにより、DeltaNetを標準言語モデリング設定にスケールアップできます。 我々は100Bトークンに対して1.3Bモデルをトレーニングし、ダウンストリームタスク(リコールにフォーカスしたタスクを含む)におけるパープレキシティとゼロショットパフォーマンスの観点から、MambaやGLAといった最近の線形時間ベースラインよりも優れていることを発見した。 また,(1)スライドウインドウの注意層を他の層すべてに組み合わせた2つのハイブリッドモデルや(2)グローバルな注意層を試作し,これらのハイブリッドモデルが強いトランスフォーマーベースラインを上回っていることを見出した。

Transformers with linear attention (i.e., linear transformers) and state-space models have recently been suggested as a viable linear-time alternative to transformers with softmax attention. However, these models still underperform transformers especially on tasks that require in-context retrieval. While more expressive variants of linear transformers which replace the additive outer-product update in linear transformers with the delta rule have been found to be more effective at associative recall, existing algorithms for training such models do not parallelize over sequence length and are thus inefficient to train on modern hardware. This work describes a hardware-efficient algorithm for training linear transformers with the delta rule, which exploits a memory-efficient representation for computing products of Householder matrices. This algorithm allows us to scale up DeltaNet to standard language modeling settings. We train a 1.3B model for 100B tokens and find that it outperforms recent linear-time baselines such as Mamba and GLA in terms of perplexity and zero-shot performance on downstream tasks (including on tasks that focus on recall). We also experiment with two hybrid models which combine DeltaNet layers with (1) sliding-window attention layers every other layer or (2) two global attention layers, and find that these hybrid models outperform strong transformer baselines.
翻訳日:2024-06-11 12:49:35 公開日:2024-06-10
# 言語モデルはテキストベースの世界シミュレータとして生き残るか?

Can Language Models Serve as Text-Based World Simulators? ( http://arxiv.org/abs/2406.06485v1 )

ライセンス: Link先を確認
Ruoyao Wang, Graham Todd, Ziang Xiao, Xingdi Yuan, Marc-Alexandre Côté, Peter Clark, Peter Jansen, (参考訳) 仮想環境は複雑な計画や意思決定タスクのベンチマークにおいて重要な役割を担いますが、手作業で構築するには高価で複雑です。 現在の言語モデル自体が世界シミュレータとして機能し、アクションがどのように異なる世界状態を変えるかを正確に予測することで、広範囲な手動コーディングの必要性を回避できるだろうか? 私たちのゴールは、テキストベースのシミュレーターの文脈でこの質問に答えることです。 我々のアプローチはByteSized32-State-Predictionと呼ばれる新しいベンチマークを構築し、使用することであり、テキストゲームの状態遷移と付随するゲームタスクのデータセットを含む。 我々はこれを初めて、LLMがいかにテキストベースの世界シミュレータとして機能するかを直接定量化するために使用します。 我々は、このデータセットでGPT-4をテストし、その優れた性能にもかかわらず、さらなるイノベーションを伴わない信頼性の低い世界シミュレータであることを発見した。 この研究は、現在のLLMの能力と弱点に関する新しい洞察と、新しいモデルが登場するにつれて将来の進歩を追跡するための新しいベンチマークに寄与する。

Virtual environments play a key role in benchmarking advances in complex planning and decision-making tasks but are expensive and complicated to build by hand. Can current language models themselves serve as world simulators, correctly predicting how actions change different world states, thus bypassing the need for extensive manual coding? Our goal is to answer this question in the context of text-based simulators. Our approach is to build and use a new benchmark, called ByteSized32-State-Prediction, containing a dataset of text game state transitions and accompanying game tasks. We use this to directly quantify, for the first time, how well LLMs can serve as text-based world simulators. We test GPT-4 on this dataset and find that, despite its impressive performance, it is still an unreliable world simulator without further innovations. This work thus contributes both new insights into current LLM's capabilities and weaknesses, as well as a novel benchmark to track future progress as new models appear.
翻訳日:2024-06-11 12:49:35 公開日:2024-06-10
# 確率積分回路としての連続潜時可変モデルのスケーリング

Scaling Continuous Latent Variable Models as Probabilistic Integral Circuits ( http://arxiv.org/abs/2406.06494v1 )

ライセンス: Link先を確認
Gennaro Gala, Cassio de Campos, Antonio Vergari, Erik Quaeghebeur, (参考訳) 確率積分回路 (PICs) は, 連続潜伏変数 (LVs) の表現的生成モデルの背後にある重要な要素を享受する確率論的モデルとして最近導入された。 PICは連続LVモデルを定義するシンボリックな計算グラフであり、それらをまとめて乗算したり、いくつかのLV上で積分したりする関数の階層として定義する。 それらは、LVを解析的に積分できる場合、そうでなければ、QPCと呼ばれる階層的な数値二次過程を符号化するトラクタブル確率回路(PC)によって近似することができる。 これまでのところ、木形のPICのみを探索し、数値的な四分法でそれらを訓練するには、大規模にメモリ集約的な処理が必要である。 本稿では,これらの課題に対処し,現在に至る。 一 任意の可変分解からDAG状のPICを構築するためのパイプライン 二 テンソル化回路アーキテクチャを用いたPICの訓練方法、及び 3) スケーラブルなトレーニングを可能にする神経機能共有技術。 広汎な実験では、従来のPCよりも機能的共有とQPCの優位性を示す。

Probabilistic integral circuits (PICs) have been recently introduced as probabilistic models enjoying the key ingredient behind expressive generative models: continuous latent variables (LVs). PICs are symbolic computational graphs defining continuous LV models as hierarchies of functions that are summed and multiplied together, or integrated over some LVs. They are tractable if LVs can be analytically integrated out, otherwise they can be approximated by tractable probabilistic circuits (PC) encoding a hierarchical numerical quadrature process, called QPCs. So far, only tree-shaped PICs have been explored, and training them via numerical quadrature requires memory-intensive processing at scale. In this paper, we address these issues, and present: (i) a pipeline for building DAG-shaped PICs out of arbitrary variable decompositions, (ii) a procedure for training PICs using tensorized circuit architectures, and (iii) neural functional sharing techniques to allow scalable training. In extensive experiments, we showcase the effectiveness of functional sharing and the superiority of QPCs over traditional PCs.
翻訳日:2024-06-11 12:49:35 公開日:2024-06-10
# 放射線学レポート生成におけるハロゲン化前駆体抑制のための直接選好最適化

Direct Preference Optimization for Suppressing Hallucinated Prior Exams in Radiology Report Generation ( http://arxiv.org/abs/2406.06496v1 )

ライセンス: Link先を確認
Oishi Banerjee, Hong-Yu Zhou, Subathra Adithan, Stephen Kwak, Kay Wu, Pranav Rajpurkar, (参考訳) 生成視覚言語モデル(VLM)の最近の進歩は、放射線学においてAIにエキサイティングな潜在的影響をもたらすが、VLMは幻覚、非感覚的テキスト、および臨床医の時間を浪費し、患者に害を与える可能性のあるその他の望ましくない行動を生み出すことも知られている。 直接選好最適化(DPO)に関する最近の研究に基づき、不要な世代を抑えることにより、放射線学レポート生成を行う事前学習VLMの挙動を簡易に修正する手法を提案する。 本稿では,胸部X線レポート生成モデルにおける長期にわたる問題行動に対処するため,先行試験の幻覚予防に本手法を適用した。 実験全体を通して,DPOの微調整は,臨床精度測定値のモデル性能を維持しつつ,前科試験を幻覚させるラインの3.2-4.8倍の縮小を実現していることがわかった。 我々の研究は、私たちの知る限り、DPOを医療用VLMに適用する最初の取り組みであり、総合的な臨床精度を維持しながら、問題行動を抑制するためのデータと計算効率のよい方法を提供する。

Recent advances in generative vision-language models (VLMs) have exciting potential implications for AI in radiology, yet VLMs are also known to produce hallucinations, nonsensical text, and other unwanted behaviors that can waste clinicians' time and cause patient harm. Drawing on recent work on direct preference optimization (DPO), we propose a simple method for modifying the behavior of pretrained VLMs performing radiology report generation by suppressing unwanted types of generations. We apply our method to the prevention of hallucinations of prior exams, addressing a long-established problem behavior in models performing chest X-ray report generation. Across our experiments, we find that DPO fine-tuning achieves a 3.2-4.8x reduction in lines hallucinating prior exams while maintaining model performance on clinical accuracy metrics. Our work is, to the best of our knowledge, the first work to apply DPO to medical VLMs, providing a data- and compute- efficient way to suppress problem behaviors while maintaining overall clinical accuracy.
翻訳日:2024-06-11 12:49:35 公開日:2024-06-10
# 時間ビンスピン絡み合いプロトコルにおけるスペクトル拡散の強調

Rephasing spectral diffusion in time-bin spin-spin entanglement protocols ( http://arxiv.org/abs/2406.06497v1 )

ライセンス: Link先を確認
Mehmet T. Uysal, Jeff D. Thompson, (参考訳) 高忠実度スピンスピン絡み合わせの生成は、長距離にわたって量子情報の分散を行うための量子リピータネットワークの重要な課題である。 固体ベースのスピン光子インタフェースは量子ネットワークのノードを実現するための候補となるが、しばしば光転移のスペクトル拡散によって制限され、絡み合った状態の位相誤差が生じる。 ここでは、励起状態のエミッタをシェルプして未知の位相を再焦点化することにより、絡み合った状態が生じた後、準定常周波数変動から位相誤差を補正する手法を提案する。 準定常周波数変動の場合、その忠実度はシェルビングに使用される励起状態の寿命によってのみ決定されるため、特にスペクトル拡散が相関する長寿命シェルビング状態のシステムに適している。 このようなシェルヴィング状態は、ケイ素またはSiCの希土類エミッタや色中心などのクラマースダブルト系において、強い周波数依存性のパーセル増強を伴うナノフォトニックキャビティと相互作用する。 このプロトコルは、絡み合いの発生率を低下させることなく、高忠実な絡み合いのスピンペアを生成するために使用できる。

Generating high fidelity spin-spin entanglement is an essential task of quantum repeater networks for the distribution of quantum information across long distances. Solid-state based spin-photon interfaces are promising candidates to realize nodes of a quantum network, but are often limited by spectral diffusion of the optical transition, which results in phase errors on the entangled states. Here, we introduce a method to correct phase errors from quasi-static frequency fluctuations after the entangled state is generated, by shelving the emitters in the excited state to refocus the unknown phase. For quasi-static frequency fluctuations, the fidelity is determined only by the lifetime of the excited state used for shelving, making it particularly suitable for systems with a long-lived shelving state with correlated spectral diffusion. Such a shelving state may be found in Kramers doublet systems such as rare-earth emitters and color centers in Si or SiC interfaced with nanophotonic cavities with a strongly frequency-dependent Purcell enhancement. The protocol can be used to generate high-fidelity entangled spin pairs without reducing the rate of entanglement generation.
翻訳日:2024-06-11 12:49:35 公開日:2024-06-10
# マルチエージェントMDPにおける適応応答ポリシー検出:実行誤差推定を用いたリアルタイム戦略スイッチ同定

Adaptive Opponent Policy Detection in Multi-Agent MDPs: Real-Time Strategy Switch Identification Using Running Error Estimation ( http://arxiv.org/abs/2406.06500v1 )

ライセンス: Link先を確認
Mohidul Haque Mridul, Mohammad Foysal Khan, Redwan Ahmed Rizvee, Md Mosaddek Khan, (参考訳) マルチエージェント強化学習(MARL)では、特に動的環境において、協調的・敵対的両方の文脈において、相手の戦略を正確に知覚することが不可欠である。 Proximal Policy Optimization (PPO)と関連するアルゴリズムであるActor-Critic with Experience Replay (ACER)、Trust Region Policy Optimization (TRPO)、Deep Deterministic Policy Gradient (DDPG)は、単エージェント、定常環境では良好に機能するが、非定常かつ隠れた相手のポリシーによりMARLのばらつきが高く、報酬性能が低下する。 さらに、MARLの既存の手法は、エージェント間通信の必要性、明示的な報酬情報への依存、高い計算要求、サンプリング非効率など、重大な課題に直面している。 これらの問題は、相手が事前の通知なしに突然ポリシーを変更してしまうような、継続的環境では効果を低下させる。 そこで本研究では,動的エラー減衰を利用したオンラインアルゴリズムであるOPS-DeMo(オンラインポリシースイッチ検出モデル)を提案する。 OPS-DeMo は、AOP (Assumed Opponent Policy Bank) を用いてその信念を継続的に更新し、事前訓練された対応政策銀行から対応する応答を選択する。 各レスポンスポリシーは、一貫して敵の戦略を練り、トレーニングの不確実性を減らし、マルチエージェント環境でPPOのようなアルゴリズムを効果的に利用できるようにする。 比較評価の結果,本手法はプレデター・プレイ設定のような動的シナリオにおいてPPO学習モデルよりも優れており,突発的な政策シフトに対するロバスト性が向上し,正確な政策洞察を通じてより深い意思決定が可能になることが示された。

In Multi-agent Reinforcement Learning (MARL), accurately perceiving opponents' strategies is essential for both cooperative and adversarial contexts, particularly within dynamic environments. While Proximal Policy Optimization (PPO) and related algorithms such as Actor-Critic with Experience Replay (ACER), Trust Region Policy Optimization (TRPO), and Deep Deterministic Policy Gradient (DDPG) perform well in single-agent, stationary environments, they suffer from high variance in MARL due to non-stationary and hidden policies of opponents, leading to diminished reward performance. Additionally, existing methods in MARL face significant challenges, including the need for inter-agent communication, reliance on explicit reward information, high computational demands, and sampling inefficiencies. These issues render them less effective in continuous environments where opponents may abruptly change their policies without prior notice. Against this background, we present OPS-DeMo (Online Policy Switch-Detection Model), an online algorithm that employs dynamic error decay to detect changes in opponents' policies. OPS-DeMo continuously updates its beliefs using an Assumed Opponent Policy (AOP) Bank and selects corresponding responses from a pre-trained Response Policy Bank. Each response policy is trained against consistently strategizing opponents, reducing training uncertainty and enabling the effective use of algorithms like PPO in multi-agent environments. Comparative assessments show that our approach outperforms PPO-trained models in dynamic scenarios like the Predator-Prey setting, providing greater robustness to sudden policy shifts and enabling more informed decision-making through precise opponent policy insights.
翻訳日:2024-06-11 12:39:48 公開日:2024-06-10
# バンディット凸最適化のためのオンラインニュートン法

Online Newton Method for Bandit Convex Optimisation ( http://arxiv.org/abs/2406.06506v1 )

ライセンス: Link先を確認
Hidde Fokkema, Dirk van der Hoeven, Tor Lattimore, Jack J. Mayo, (参考訳) ゼロ階バンディット凸最適化のための計算効率の良いアルゴリズムを導入し、逆向きの設定では、その後悔が少なくとも$d^{3.5} \sqrt{n} \mathrm{polylog}(n, d)$であり、$d$が次元であり$n$が時間軸であることを証明する。 確率的設定では、境界は$M d^{2} \sqrt{n} \mathrm{polylog}(n, d)$に改善され、$M \in [d^{-1/2}, d^{-1 / 4}]$は制約集合の幾何学と所望の計算特性に依存する定数である。

We introduce a computationally efficient algorithm for zeroth-order bandit convex optimisation and prove that in the adversarial setting its regret is at most $d^{3.5} \sqrt{n} \mathrm{polylog}(n, d)$ with high probability where $d$ is the dimension and $n$ is the time horizon. In the stochastic setting the bound improves to $M d^{2} \sqrt{n} \mathrm{polylog}(n, d)$ where $M \in [d^{-1/2}, d^{-1 / 4}]$ is a constant that depends on the geometry of the constraint set and the desired computational properties.
翻訳日:2024-06-11 12:39:47 公開日:2024-06-10
# モンキーシー, モンキード:ゼロショット運動伝達のための運動拡散における自己注意のハーネス

Monkey See, Monkey Do: Harnessing Self-attention in Motion Diffusion for Zero-shot Motion Transfer ( http://arxiv.org/abs/2406.06508v1 )

ライセンス: Link先を確認
Sigal Raab, Inbar Gat, Nathan Sala, Guy Tevet, Rotem Shalev-Arkushin, Ohad Fried, Amit H. Bermano, Daniel Cohen-Or, (参考訳) 拡散モデルによる運動合成の顕著な結果を考えると、自然な疑問が生じる。 既存の拡散に基づく運動編集手法は、事前訓練されたモデルの重みに埋め込まれた事前のポテンシャルを見落とし、潜在特徴空間を操作することができる。 本研究では,事前学習した運動拡散モデルの注意機構について検討する。 我々は、複雑な人間の動きパターンを捉え、表現する際、注目要素の役割と相互作用を明らかにし、これらの要素を慎重に統合して、従者のニュアンスな特性を維持しつつ、従者へのリーダーの動きを伝達し、ゼロショットのモーション伝達をもたらす。 選択した動きに関連付けられた特徴を編集することで、編集に一般的な指示(例えば、テキスト、音楽)を使い、最終的には微妙なニュアンスを効果的に伝達できないような、事前の運動拡散アプローチで観察される課題に直面することができる。 私たちの研究は、猿が独自の動きパターンを維持しながら見たものをいかにうまく模倣するかにインスピレーションを受けています。 本手法を用いることで,配信外動作の合成,スタイル転送,空間編集といったタスクを実現できる。 さらに、拡散インバージョンはモーションにはほとんど使われず、結果として、編集作業は生成されたモーションに焦点を合わせ、実際のモーションの編集可能性を制限する。 MoMoは動きの反転を利用して、その応用を実動と生成運動の両方に拡張する。 実験の結果,現在の技術に対するアプローチの利点が示された。 特に、トレーニングを通じて特定のアプリケーションに適した方法とは異なり、我々のアプローチは推論時に適用され、トレーニングを必要としない。 私たちのWebページはhttps://monkeyseedocg.github.io.comです。

Given the remarkable results of motion synthesis with diffusion models, a natural question arises: how can we effectively leverage these models for motion editing? Existing diffusion-based motion editing methods overlook the profound potential of the prior embedded within the weights of pre-trained models, which enables manipulating the latent feature space; hence, they primarily center on handling the motion space. In this work, we explore the attention mechanism of pre-trained motion diffusion models. We uncover the roles and interactions of attention elements in capturing and representing intricate human motion patterns, and carefully integrate these elements to transfer a leader motion to a follower one while maintaining the nuanced characteristics of the follower, resulting in zero-shot motion transfer. Editing features associated with selected motions allows us to confront a challenge observed in prior motion diffusion approaches, which use general directives (e.g., text, music) for editing, ultimately failing to convey subtle nuances effectively. Our work is inspired by how a monkey closely imitates what it sees while maintaining its unique motion patterns; hence we call it Monkey See, Monkey Do, and dub it MoMo. Employing our technique enables accomplishing tasks such as synthesizing out-of-distribution motions, style transfer, and spatial editing. Furthermore, diffusion inversion is seldom employed for motions; as a result, editing efforts focus on generated motions, limiting the editability of real ones. MoMo harnesses motion inversion, extending its application to both real and generated motions. Experimental results show the advantage of our approach over the current art. In particular, unlike methods tailored for specific applications through training, our approach is applied at inference time, requiring no training. Our webpage is at https://monkeyseedocg.github.io.
翻訳日:2024-06-11 12:39:47 公開日:2024-06-10
# 局所的・大域的破壊によるロバスト分布学習

Robust Distribution Learning with Local and Global Adversarial Corruptions ( http://arxiv.org/abs/2406.06509v1 )

ライセンス: Link先を確認
Sloan Nietert, Ziv Goldfeld, Soroosh Shafiee, (参考訳) P$の分布からのサンプルの$\varepsilon$-fractionが任意に修正され(*global*の汚職)、残りの摂動は$\rho$(*local*の汚職)によって境界づけられる。 そのような破損したサンプルを$n$ にすると、ワッサーシュタイン距離 $\mathsf{W}_1(\hat{P}_n,P)$ を最小化する計算効率の良い推定器 $\hat{P}_n$ を求める。 実際、すべての直交射影に対して$\Pi_\# \hat{P}_1(\Pi_\# \hat{P}_n, \Pi_\# P)$を最小化するきめ細かいタスクを、$\Pi \in \mathbb{R}^{d \times d}$で、$\mathrm{rank}(\Pi) = k$でスケーリングする。 これにより、平均推定(k=1$)、分布推定(k=d$)、およびこれら2つの極端な間を補間する設定を同時に説明できます。 このタスクの最適集団制限リスクを特徴付け、次に$\sqrt{\varepsilon k} + \rho + d^{O(1)}\tilde{O}(n^{-1/k})$ で有界な誤差を持つ効率的な有限サンプルアルゴリズムを開発する。 有界共分散を持つデータ分布の場合、我々の有限サンプル境界は、大きなサンプルサイズに対して最小値の集団レベルの最適値と一致する。 我々の効率的な手順は、理想的だが難解な2-ワッサーシュタイン射影推定器の新たなトレースノルム近似に依存する。 このアルゴリズムを頑健な確率的最適化に適用し、その過程で、ワッサーシュタインの分布的ロバストな最適化における次元性の呪いを克服する新しい方法を明らかにする。

We consider learning in an adversarial environment, where an $\varepsilon$-fraction of samples from a distribution $P$ are arbitrarily modified (*global* corruptions) and the remaining perturbations have average magnitude bounded by $\rho$ (*local* corruptions). Given access to $n$ such corrupted samples, we seek a computationally efficient estimator $\hat{P}_n$ that minimizes the Wasserstein distance $\mathsf{W}_1(\hat{P}_n,P)$. In fact, we attack the fine-grained task of minimizing $\mathsf{W}_1(\Pi_\# \hat{P}_n, \Pi_\# P)$ for all orthogonal projections $\Pi \in \mathbb{R}^{d \times d}$, with performance scaling with $\mathrm{rank}(\Pi) = k$. This allows us to account simultaneously for mean estimation ($k=1$), distribution estimation ($k=d$), as well as the settings interpolating between these two extremes. We characterize the optimal population-limit risk for this task and then develop an efficient finite-sample algorithm with error bounded by $\sqrt{\varepsilon k} + \rho + d^{O(1)}\tilde{O}(n^{-1/k})$ when $P$ has bounded moments of order $2+\delta$, for constant $\delta > 0$. For data distributions with bounded covariance, our finite-sample bounds match the minimax population-level optimum for large sample sizes. Our efficient procedure relies on a novel trace norm approximation of an ideal yet intractable 2-Wasserstein projection estimator. We apply this algorithm to robust stochastic optimization, and, in the process, uncover a new method for overcoming the curse of dimensionality in Wasserstein distributionally robust optimization.
翻訳日:2024-06-11 12:39:47 公開日:2024-06-10
# Merlin: 3次元CTのためのビジョン言語基礎モデル

Merlin: A Vision Language Foundation Model for 3D Computed Tomography ( http://arxiv.org/abs/2406.06512v1 )

ライセンス: Link先を確認
Louis Blankemeier, Joseph Paul Cohen, Ashwin Kumar, Dave Van Veen, Syed Jamal Safdar Gardezi, Magdalini Paschali, Zhihong Chen, Jean-Benoit Delbrouck, Eduardo Reis, Cesar Truyts, Christian Bluethgen, Malte Engmann Kjeldskov Jensen, Sophie Ostmeier, Maya Varma, Jeya Maria Jose Valanarasu, Zhongnan Fang, Zepeng Huo, Zaid Nabulsi, Diego Ardila, Wei-Hung Weng, Edson Amaro Junior, Neera Ahuja, Jason Fries, Nigam H. Shah, Andrew Johnston, Robert D. Boutin, Andrew Wentland, Curtis P. Langlotz, Jason Hom, Sergios Gatidis, Akshay S. Chaudhari, (参考訳) アメリカでは毎年8500万以上のCTスキャンが行われており、そのうち約4分の1が腹部に焦点を当てている。 現在の放射線科医の不足を考えると、これらの複雑な画像研究の解釈の負担を軽減するために人工知能を使用するには大きな意味がある。 医用画像の自動解釈における最先端のアプローチは視覚言語モデル(VLM)を利用する。 しかしながら、現在の医療用VLMは一般的に2D画像と短い報告に限られており、電子健康記録(EHR)データを監督に利用していない。 Merlin - ペアCTスキャン(15,331個のCTから6百万枚以上の画像)、EHR診断コード(1.8万枚以上のコード)、放射線診断レポート(6百万枚以上のトークン)を使ってトレーニングする3D VLM。 我々はMerlinを6つのタスクタイプと752の個別タスクで評価する。 非適応型(オフザシェルフ)タスクには、ゼロショット発見分類(31の発見)、表現型分類(692の表現型)、ゼロショットクロスモーダル検索(画像、画像、印象)、モデル適応タスクには、5年間の疾患予測(6の病気)、放射線診断レポート生成、3Dセマンティックセマンティックセグメンテーション(20の臓器)が含まれる。 我々は,5,137個のCT検査セットの内的検証を行い,7000個の臨床CTと2つの公開CTデータセット(VerSe, TotalSegmentator)の外部的検証を行った。 これらの臨床的評価以外にも,様々なネットワークアーキテクチャの有効性を評価し,Merlinが既存のタスク固有のベースラインに好適な性能を持つことを示す。 我々はデータスケーリング法則を導出し、下流のタスクパフォーマンスに必要なトレーニングデータの必要性を実証的に評価する。 さらに、トレーニングに数百のGPUを必要とする従来のVLMとは異なり、1つのGPUですべてのトレーニングを実行する。

Over 85 million computed tomography (CT) scans are performed annually in the US, of which approximately one quarter focus on the abdomen. Given the current radiologist shortage, there is a large impetus to use artificial intelligence to alleviate the burden of interpreting these complex imaging studies. Prior state-of-the-art approaches for automated medical image interpretation leverage vision language models (VLMs). However, current medical VLMs are generally limited to 2D images and short reports, and do not leverage electronic health record (EHR) data for supervision. We introduce Merlin - a 3D VLM that we train using paired CT scans (6+ million images from 15,331 CTs), EHR diagnosis codes (1.8+ million codes), and radiology reports (6+ million tokens). We evaluate Merlin on 6 task types and 752 individual tasks. The non-adapted (off-the-shelf) tasks include zero-shot findings classification (31 findings), phenotype classification (692 phenotypes), and zero-shot cross-modal retrieval (image to findings and image to impressions), while model adapted tasks include 5-year disease prediction (6 diseases), radiology report generation, and 3D semantic segmentation (20 organs). We perform internal validation on a test set of 5,137 CTs, and external validation on 7,000 clinical CTs and on two public CT datasets (VerSe, TotalSegmentator). Beyond these clinically-relevant evaluations, we assess the efficacy of various network architectures and training strategies to depict that Merlin has favorable performance to existing task-specific baselines. We derive data scaling laws to empirically assess training data needs for requisite downstream task performance. Furthermore, unlike conventional VLMs that require hundreds of GPUs for training, we perform all training on a single GPU.
翻訳日:2024-06-11 12:39:47 公開日:2024-06-10
# 制御アフィン系に対するランダム特徴近似

Random Features Approximation for Control-Affine Systems ( http://arxiv.org/abs/2406.06514v1 )

ライセンス: Link先を確認
Kimia Kazemian, Yahya Sattar, Sarah Dean, (参考訳) 現代のデータ駆動制御アプリケーションは、原理化されたコントローラ合成とリアルタイムフィードバックに適する柔軟な非線形モデルを求めている。 多くの非線形力学系は制御アフィンである。 本稿では,制御アフィン構造を捉える非線形特徴表現のクラスを2つ提案する。 提案手法はランダムな特徴(RF)近似を用いて,より少ない計算コストでカーネル手法の表現性を継承する。 本稿では,Casta\~neda et al (2021) が提案する Affine Dot Product (ADP) カーネルと,導入した新しい Affine Dense (AD) カーネルとの関係を示すことで,本手法の表現能力を定式化する。 さらに、制御証明書関数(CCF)を用いたデータ駆動最適化に基づく制御のケーススタディを示す。 二重振り子のシミュレーション実験は,本手法の利点を実証的に実証した。

Modern data-driven control applications call for flexible nonlinear models that are amenable to principled controller synthesis and realtime feedback. Many nonlinear dynamical systems of interest are control affine. We propose two novel classes of nonlinear feature representations which capture control affine structure while allowing for arbitrary complexity in the state dependence. Our methods make use of random features (RF) approximations, inheriting the expressiveness of kernel methods at a lower computational cost. We formalize the representational capabilities of our methods by showing their relationship to the Affine Dot Product (ADP) kernel proposed by Casta\~neda et al. (2021) and a novel Affine Dense (AD) kernel that we introduce. We further illustrate the utility by presenting a case study of data-driven optimization-based control using control certificate functions (CCF). Simulation experiments on a double pendulum empirically demonstrate the advantages of our methods.
翻訳日:2024-06-11 12:39:47 公開日:2024-06-10
# テレコムバンドにおける単一Er$^{3+}=イオンのスピン光子絡み

Spin-photon entanglement of a single Er$^{3+}$ ion in the telecom band ( http://arxiv.org/abs/2406.06515v1 )

ライセンス: Link先を確認
Mehmet T. Uysal, Łukasz Dusanowski, Haitong Xu, Sebastian P. Horvath, Salim Ourari, Robert J. Cava, Nathalie P. de Leon, Jeff D. Thompson, (参考訳) 量子リピータを用いた長距離量子通信は、セキュアな通信、分散量子コンピューティング、量子エンハンスドセンシングおよびメトロジーを可能にする技術である。 量子リピータの構成要素として、スピン光子絡み合いは原子と固体の量子ビットの両方で実証されている。 しかし、以前に実証された長いスピンコヒーレンスを持つ量子ビットは、長距離通信に必要な低損失の通信帯域に直接光子を放出しない。 ここでは, シリコンナノフォトニック回路に集積された固体結晶中の1つのEr$^{3+}$イオンを用いたスピン光子エンタングルメントを実演する。 テレコムバンドへの直接放出は、15.6kmの光ファイバー上で1.48Hzの絡み合い速度を可能にし、忠実度は73(3)$\%$である。 これにより、スケーラブルなナノフォトニクスデバイスと多くのスペクトル多重Er$^{3+}$イオンに基づく大規模量子ネットワークへの扉が開く。

Long-distance quantum communication using quantum repeaters is an enabling technology for secure communication, distributed quantum computing and quantum-enhanced sensing and metrology. As a building block of quantum repeaters, spin-photon entanglement has been demonstrated with both atomic and solid-state qubits. However, previously demonstrated qubits with long spin coherence do not directly emit photons into the low-loss telecom band that is needed for long-distance communication. Here, we demonstrate spin-photon entanglement using a single Er$^{3+}$ ion in a solid-state crystal, integrated into a silicon nanophotonic circuit. Direct emission into the telecom band enables an entanglement rate of 1.48 Hz over 15.6 km of optical fiber, with a fidelity of 73(3)$\%$. This opens the door to large-scale quantum networks based on scalable nanophotonic devices and many spectrally multiplexed Er$^{3+}$ ions.
翻訳日:2024-06-11 12:39:47 公開日:2024-06-10
# 未知の時間ドリフト下における分布自由予測推論

Distribution-Free Predictive Inference under Unknown Temporal Drift ( http://arxiv.org/abs/2406.06516v1 )

ライセンス: Link先を確認
Elise Han, Chengpiao Huang, Kaizheng Wang, (参考訳) 分布のない予測セットは、複雑な統計モデルに対する不確実性定量化において重要な役割を果たす。 それらの妥当性は信頼性の高いキャリブレーションデータに依存しており、現実の環境が時間とともに未知の変更を受ける場合が多いため、容易に利用できない可能性がある。 本稿では、適応ウィンドウを選択し、そのデータを用いて予測セットを構築するための戦略を提案する。 推定バイアス分散トレードオフを最適化してウィンドウを選択する。 提案手法は時間的ドリフトに対する適応性を示すため,鋭いカバレッジ保証を提供する。 また、合成および実データに関する数値実験により、その有効性を示す。

Distribution-free prediction sets play a pivotal role in uncertainty quantification for complex statistical models. Their validity hinges on reliable calibration data, which may not be readily available as real-world environments often undergo unknown changes over time. In this paper, we propose a strategy for choosing an adaptive window and use the data therein to construct prediction sets. The window is selected by optimizing an estimated bias-variance tradeoff. We provide sharp coverage guarantees for our method, showing its adaptivity to the underlying temporal drift. We also illustrate its efficacy through numerical experiments on synthetic and real data.
翻訳日:2024-06-11 12:39:47 公開日:2024-06-10
# 病理組織学的膵腫瘍マイクロ環境サブタイプ予測のためのゲノム誘導型表現学習

Genomics-guided Representation Learning for Pathologic Pan-cancer Tumor Microenvironment Subtype Prediction ( http://arxiv.org/abs/2406.06517v1 )

ライセンス: Link先を確認
Fangliangzi Meng, Hongrun Zhang, Ruodan Yan, Guohui Chuai, Chao Li, Qi Liu, (参考訳) 腫瘍微小環境 (TME) の特徴は, その複雑さと不均一性により困難である。 組織の特徴には比較的一貫したTME特性が組み込まれており、予測が困難である。 TMEサブタイプを正確に分類する能力は、臨床腫瘍診断および精密医療において重要である。 異なる起源の腫瘍が類似した微小環境パターンを共有できるという観察に基づいて,パンキャンサーTMEサブタイプ予測にWSI(Whole Slide Image)を用いたゲノム誘導シームズ表現学習フレームワークPathoTMEを提案する。 具体的には、シームズネットワークを利用してゲノム情報を正規化要因として活用し、トレーニングフェーズにおけるWSI埋め込み学習を支援する。 さらに,組織型変異の影響を軽減するために,DANN(Domain Adversarial Neural Network)を用いる。 ドメインバイアスをなくすため、動的なWSIプロンプトはモデルの機能をさらに解き放つように設計されています。 我々のモデルは,TCGAデータセット上の23種類の癌に対して,最先端の手法よりも優れた性能を実現する。 私たちのコードはhttps://github.com/Mengflz/PathoTME.comで公開されています。

The characterization of Tumor MicroEnvironment (TME) is challenging due to its complexity and heterogeneity. Relatively consistent TME characteristics embedded within highly specific tissue features, render them difficult to predict. The capability to accurately classify TME subtypes is of critical significance for clinical tumor diagnosis and precision medicine. Based on the observation that tumors with different origins share similar microenvironment patterns, we propose PathoTME, a genomics-guided Siamese representation learning framework employing Whole Slide Image (WSI) for pan-cancer TME subtypes prediction. Specifically, we utilize Siamese network to leverage genomic information as a regularization factor to assist WSI embeddings learning during the training phase. Additionally, we employ Domain Adversarial Neural Network (DANN) to mitigate the impact of tissue type variations. To eliminate domain bias, a dynamic WSI prompt is designed to further unleash the model's capabilities. Our model achieves better performance than other state-of-the-art methods across 23 cancer types on TCGA dataset. Our code is available at https://github.com/Mengflz/PathoTME.
翻訳日:2024-06-11 12:39:47 公開日:2024-06-10
# 分散個人化フェデレーションラーニング

Decentralized Personalized Federated Learning ( http://arxiv.org/abs/2406.06520v1 )

ライセンス: Link先を確認
Salma Kharrat, Marco Canini, Samuel Horvath, (参考訳) この研究は、分散化フェデレーション学習におけるデータ不均一性と通信制限の課題に取り組む。 ローカルデータを効果的に活用するパーソナライズされたモデルのトレーニングに適したコラボレータを選択する際に、各クライアントをガイドするコラボレーショングラフの作成に注力する。 提案手法は,資源効率を向上させる新しいコミュニケーション効率戦略を通じて,これらの課題に対処する。 従来の手法とは違って,クライアントの組合せ関係を考慮し,コミュニケーションのオーバーヘッドを最小限に抑えながらパーソナライズを強化し,より粒度の細かい共同作業者を特定する。 我々は,制約付き欲求アルゴリズムを用いた二段階最適化フレームワークによりこれを達成し,個人化学習のための資源効率の高い協調グラフを作成した。 多様なデータセットにまたがる様々なベースラインに対する広範囲な評価は,DPFLと呼ばれる手法の優位性を示している。 DPFLは、実際のデータの不均一性、通信オーバーヘッドの最小化、リソース効率の向上、分散化されたフェデレーション学習シナリオにおけるパーソナライズされたモデルの構築などにおいて、他のアプローチよりも一貫して優れています。

This work tackles the challenges of data heterogeneity and communication limitations in decentralized federated learning. We focus on creating a collaboration graph that guides each client in selecting suitable collaborators for training personalized models that leverage their local data effectively. Our approach addresses these issues through a novel, communication-efficient strategy that enhances resource efficiency. Unlike traditional methods, our formulation identifies collaborators at a granular level by considering combinatorial relations of clients, enhancing personalization while minimizing communication overhead. We achieve this through a bi-level optimization framework that employs a constrained greedy algorithm, resulting in a resource-efficient collaboration graph for personalized learning. Extensive evaluation against various baselines across diverse datasets demonstrates the superiority of our method, named DPFL. DPFL consistently outperforms other approaches, showcasing its effectiveness in handling real-world data heterogeneity, minimizing communication overhead, enhancing resource efficiency, and building personalized models in decentralized federated learning scenarios.
翻訳日:2024-06-11 12:39:47 公開日:2024-06-10
# PGSR:高忠実表面再構成のための平面型ガウス切削法

PGSR: Planar-based Gaussian Splatting for Efficient and High-Fidelity Surface Reconstruction ( http://arxiv.org/abs/2406.06521v1 )

ライセンス: Link先を確認
Danpeng Chen, Hai Li, Weicai Ye, Yifan Wang, Weijian Xie, Shangjin Zhai, Nan Wang, Haomin Liu, Hujun Bao, Guofeng Zhang, (参考訳) 近年, 3D Gaussian Splatting (3DGS) が注目されている。 しかし、ガウス点雲の非構造的・不規則な性質のため、画像再構成損失に頼るだけで幾何的再構成精度と多視点整合性を保証することは困難である。 近年, 3DGSに基づく表面再構成の研究が盛んに行われているが, メッシュの質は概ね不満足である。 この問題に対処するために,高速な平面型ガウススプラッティング再構成表現(PGSR)を提案し,高品質なレンダリングを確保しつつ高忠実な表面再構成を実現する。 具体的には、まず、点雲のガウス分布に基づいて、カメラ原点からガウス平面と対応する正規写像への距離を直接描画し、その2つを分割して非バイアス深度を求める非バイアス深度レンダリング手法を提案する。 次に、大域的幾何精度を維持するために、一視点幾何、多視点測光、幾何正則化を導入する。 また,照明変動が大きいシーンに対処するカメラ露出補償モデルを提案する。 室内および屋外のシーンにおける実験により,高忠実度レンダリングと幾何再構成を維持しながら高速なトレーニングとレンダリングを実現し,3DGS法およびNeRF法よりも優れた性能を示した。

Recently, 3D Gaussian Splatting (3DGS) has attracted widespread attention due to its high-quality rendering, and ultra-fast training and rendering speed. However, due to the unstructured and irregular nature of Gaussian point clouds, it is difficult to guarantee geometric reconstruction accuracy and multi-view consistency simply by relying on image reconstruction loss. Although many studies on surface reconstruction based on 3DGS have emerged recently, the quality of their meshes is generally unsatisfactory. To address this problem, we propose a fast planar-based Gaussian splatting reconstruction representation (PGSR) to achieve high-fidelity surface reconstruction while ensuring high-quality rendering. Specifically, we first introduce an unbiased depth rendering method, which directly renders the distance from the camera origin to the Gaussian plane and the corresponding normal map based on the Gaussian distribution of the point cloud, and divides the two to obtain the unbiased depth. We then introduce single-view geometric, multi-view photometric, and geometric regularization to preserve global geometric accuracy. We also propose a camera exposure compensation model to cope with scenes with large illumination variations. Experiments on indoor and outdoor scenes show that our method achieves fast training and rendering while maintaining high-fidelity rendering and geometric reconstruction, outperforming 3DGS-based and NeRF-based methods.
翻訳日:2024-06-11 12:39:47 公開日:2024-06-10
# NaRCan: ビデオ編集に先立って拡散を統合した自然な精細カノニカルイメージ

NaRCan: Natural Refined Canonical Image with Integration of Diffusion Prior for Video Editing ( http://arxiv.org/abs/2406.06523v1 )

ライセンス: Link先を確認
Ting-Hsuan Chen, Jiewen Chan, Hau-Shiang Shiu, Shih-Han Yen, Chang-Han Yeh, Yu-Lun Liu, (参考訳) 本稿では,高品質な自然な標準画像を生成するために,ハイブリッドな変形場と拡散を統合したビデオ編集フレームワークであるNaRCanを提案する。 提案手法は,グローバルな動きをモデル化するためにホモグラフィを使用し,局所的な残留変形を捉えるために多層パーセプトロン(MLP)を用いる。 トレーニングの初期段階から拡散を導入することで、生成した画像が高品質な自然な外観を維持することを保証し、ビデオ編集における様々な下流タスクに適したカノニカルイメージを、現在のカノニカル手法では達成できない能力として作成する。 さらに、低ランク適応(LoRA)微調整を導入し、トレーニングプロセスを14倍に高速化するノイズおよび拡散事前更新手法を導入する。 大規模な実験結果から,本手法は様々なビデオ編集タスクにおいて既存の手法よりも優れ,コヒーレントで高品質な編集ビデオ系列を生成することがわかった。 ビデオ結果のプロジェクトページはhttps://koi953215.github.io/NaRCan_page/。

We propose a video editing framework, NaRCan, which integrates a hybrid deformation field and diffusion prior to generate high-quality natural canonical images to represent the input video. Our approach utilizes homography to model global motion and employs multi-layer perceptrons (MLPs) to capture local residual deformations, enhancing the model's ability to handle complex video dynamics. By introducing a diffusion prior from the early stages of training, our model ensures that the generated images retain a high-quality natural appearance, making the produced canonical images suitable for various downstream tasks in video editing, a capability not achieved by current canonical-based methods. Furthermore, we incorporate low-rank adaptation (LoRA) fine-tuning and introduce a noise and diffusion prior update scheduling technique that accelerates the training process by 14 times. Extensive experimental results show that our method outperforms existing approaches in various video editing tasks and produces coherent and high-quality edited video sequences. See our project page for video results at https://koi953215.github.io/NaRCan_page/.
翻訳日:2024-06-11 12:39:47 公開日:2024-06-10
# 自己回帰モデルが拡散に勝る - スケーラブルな画像生成のためのLlama

Autoregressive Model Beats Diffusion: Llama for Scalable Image Generation ( http://arxiv.org/abs/2406.06525v1 )

ライセンス: Link先を確認
Peize Sun, Yi Jiang, Shoufa Chen, Shilong Zhang, Bingyue Peng, Ping Luo, Zehuan Yuan, (参考訳) 我々はLlamaGenを紹介した。LlamaGenは画像生成モデルの新しいファミリーで、大規模言語モデルの'next-token prediction''のパラダイムを視覚生成領域に適用する。 視覚信号に対する誘導バイアスのないバニラ自己回帰モデル(例えばLlama)が、適切にスケーリングすれば最先端の画像生成性能を達成できるかどうかについては、肯定的な答えである。 我々は、画像トークン化器の設計空間、画像生成モデルのスケーラビリティ特性、およびそれらのトレーニングデータ品質を再検討する。 1)ダウンサンプル比16、再現品質0.94 rFID、コードブック使用率97%である。 2) ImageNet 256x256ベンチマークで2.18 FIDを達成した111Mから3.1Bパラメータのクラス条件画像生成モデル。 3) 775Mパラメータのテキスト条件画像生成モデルでは,LAION-COCOと高画質画像の2段階トレーニングから,視覚的品質とテキストアライメントの競合性能を示す。 (4) 画像生成モデルの推論速度を最適化するLLMサービスフレームワークの有効性を検証するとともに,326%~414%の高速化を実現した。 我々は、ビジュアルジェネレーションとマルチモーダルファンデーションモデルのオープンソースコミュニティを促進するために、すべてのモデルとコードをリリースします。

We introduce LlamaGen, a new family of image generation models that apply original ``next-token prediction'' paradigm of large language models to visual generation domain. It is an affirmative answer to whether vanilla autoregressive models, e.g., Llama, without inductive biases on visual signals can achieve state-of-the-art image generation performance if scaling properly. We reexamine design spaces of image tokenizers, scalability properties of image generation models, and their training data quality. The outcome of this exploration consists of: (1) An image tokenizer with downsample ratio of 16, reconstruction quality of 0.94 rFID and codebook usage of 97% on ImageNet benchmark. (2) A series of class-conditional image generation models ranging from 111M to 3.1B parameters, achieving 2.18 FID on ImageNet 256x256 benchmarks, outperforming the popular diffusion models such as LDM, DiT. (3) A text-conditional image generation model with 775M parameters, from two-stage training on LAION-COCO and high aesthetics quality images, demonstrating competitive performance of visual quality and text alignment. (4) We verify the effectiveness of LLM serving frameworks in optimizing the inference speed of image generation models and achieve 326% - 414% speedup. We release all models and codes to facilitate open-source community of visual generation and multimodal foundation models.
翻訳日:2024-06-11 12:39:47 公開日:2024-06-10
# ガウシアンシティ:非有界な3次元都市形成のためのガウシアンスプラッティング

GaussianCity: Generative Gaussian Splatting for Unbounded 3D City Generation ( http://arxiv.org/abs/2406.06526v1 )

ライセンス: Link先を確認
Haozhe Xie, Zhaoxi Chen, Fangzhou Hong, Ziwei Liu, (参考訳) NeRF方式による3次元都市生成は,有望な生成結果を示すが,計算効率は良くない。 近年,3次元ガウススプラッティング(3D-GS)がオブジェクトレベル3次元生成の高効率な代替手段として出現している。 しかし、有限スケールの3Dオブジェクトや人間から無限スケールの3D都市への3D-GSの適応は簡単ではない。 無制限の3Dシティジェネレーションでは、ポイントを数十億に拡大する必要から生じるストレージオーバーヘッド(メモリ外問題)が大幅に増加し、10km^2の都市シーンでは数百ギガバイトのVRAMが要求される。 本稿では,ガウシアンシティ(GaussianCity)を提案する。ガウシアンシティ(GaussianCity)は,ガウシアンシティ(GaussianSplatting)を1つのフィードフォワードパスで効率的に合成するためのフレームワークである。 私たちの重要な洞察は2つあります。 1) コンパクトな3次元シーン表現: 高コンパクトな中間表現としてBEV-Pointを導入し, 未境界シーンのVRAM使用量の増加が一定であり, 未境界都市生成を可能にする。 2)空間認識型ガウス属性デコーダ:空間認識型BEV-Pointデコーダを用いて3次元ガウス属性を生成する。 広範にわたる実験により、ガウシアンシティーは、ドローンビューとストリートビューの2都市で、最先端の成果を達成している。 特にCityDreamerと比較して、GaussianCityは60倍のスピードアップ(10.72 FPS対0.18 FPS)で優れたパフォーマンスを示している。

3D city generation with NeRF-based methods shows promising generation results but is computationally inefficient. Recently 3D Gaussian Splatting (3D-GS) has emerged as a highly efficient alternative for object-level 3D generation. However, adapting 3D-GS from finite-scale 3D objects and humans to infinite-scale 3D cities is non-trivial. Unbounded 3D city generation entails significant storage overhead (out-of-memory issues), arising from the need to expand points to billions, often demanding hundreds of Gigabytes of VRAM for a city scene spanning 10km^2. In this paper, we propose GaussianCity, a generative Gaussian Splatting framework dedicated to efficiently synthesizing unbounded 3D cities with a single feed-forward pass. Our key insights are two-fold: 1) Compact 3D Scene Representation: We introduce BEV-Point as a highly compact intermediate representation, ensuring that the growth in VRAM usage for unbounded scenes remains constant, thus enabling unbounded city generation. 2) Spatial-aware Gaussian Attribute Decoder: We present spatial-aware BEV-Point decoder to produce 3D Gaussian attributes, which leverages Point Serializer to integrate the structural and contextual characteristics of BEV points. Extensive experiments demonstrate that GaussianCity achieves state-of-the-art results in both drone-view and street-view 3D city generation. Notably, compared to CityDreamer, GaussianCity exhibits superior performance with a speedup of 60 times (10.72 FPS v.s. 0.18 FPS).
翻訳日:2024-06-11 12:39:47 公開日:2024-06-10
# IllumiNeRF:逆レンダリングなしでの3Dリライティング

IllumiNeRF: 3D Relighting without Inverse Rendering ( http://arxiv.org/abs/2406.06527v1 )

ライセンス: Link先を確認
Xiaoming Zhao, Pratul P. Srinivasan, Dor Verbin, Keunhong Park, Ricardo Martin Brualla, Philipp Henzler, (参考訳) 既存の可照性合成法 -- 未知の照明下でオブジェクトのイメージのセットを使用して、対象照明下で新しい視点からレンダリングできる3D表現を復元する -- は、逆レンダリングに基づいて、入力画像を説明するオブジェクトの幾何学、材料、照明を歪めようとする。 さらに、これは典型的には微分可能なモンテカルロレンダリングによる最適化が伴う。 そこで本研究では,まず,照明条件付き画像拡散モデルを用いて各入力画像をリライトし,これらの信頼された画像を用いてニューラルラジアンス場(NeRF)を再構成し,対象の照明下で新規なビューを描画する手法を提案する。 この戦略は驚くほど競争力があり、複数のリライトベンチマークで最先端の結果が得られることを実証する。 プロジェクトページはhttps://illuminerf.github.io/.com/でご覧ください。

Existing methods for relightable view synthesis -- using a set of images of an object under unknown lighting to recover a 3D representation that can be rendered from novel viewpoints under a target illumination -- are based on inverse rendering, and attempt to disentangle the object geometry, materials, and lighting that explain the input images. Furthermore, this typically involves optimization through differentiable Monte Carlo rendering, which is brittle and computationally-expensive. In this work, we propose a simpler approach: we first relight each input image using an image diffusion model conditioned on lighting and then reconstruct a Neural Radiance Field (NeRF) with these relit images, from which we render novel views under the target lighting. We demonstrate that this strategy is surprisingly competitive and achieves state-of-the-art results on multiple relighting benchmarks. Please see our project page at https://illuminerf.github.io/.
翻訳日:2024-06-11 12:39:47 公開日:2024-06-10
# ベイズ最適化のための非同期エキスパートフィードバックであるIntermittentはどの程度有用か?

How Useful is Intermittent, Asynchronous Expert Feedback for Bayesian Optimization? ( http://arxiv.org/abs/2406.06459v1 )

ライセンス: Link先を確認
Agustinus Kristiadi, Felix Strieth-Kalthoff, Sriram Ganapathi Subramanian, Vincent Fortuin, Pascal Poupart, Geoff Pleiss, (参考訳) ベイズ最適化(BO)は、人間の入力が理想的には最小か少なくともノンブロッキングである自動科学的発見(いわゆる自動運転ラボ)の不可欠な部分である。 しかし、科学者はしばしば強い直感を持っているため、人間のフィードバックは依然として有用である。 それでも、BOをオフラインまたはオンラインに組み込むなど、専門家のフィードバックで強化する以前の作業は、各BOイテレーションで実施される)方法によって、自動運転ラボの精神とは相容れない。 本研究では,非ブロック方式で組み込まれている少数の専門家のフィードバックがBOキャンペーンを改善できるかどうかを検討する。 この目的のために,BOループ上に独立した計算スレッドを新たに実行し,フィードバック収集プロセスを処理する。 収集されたフィードバックは、BOスレッドに容易に組み込むことができるベイズ選好モデルを学ぶために使用され、探索-探索プロセスの制御に使用される。 おもちゃと化学データセットの実験は、少数の間欠的な非同期専門家のフィードバックでさえ、BOを改善したり制約したりするのに役立つことを示唆している。 これは、例えば、データ効率を向上し、コストを下げるなど、自動運転ラボを改善する上で、特に有用だ。

Bayesian optimization (BO) is an integral part of automated scientific discovery -- the so-called self-driving lab -- where human inputs are ideally minimal or at least non-blocking. However, scientists often have strong intuition, and thus human feedback is still useful. Nevertheless, prior works in enhancing BO with expert feedback, such as by incorporating it in an offline or online but blocking (arrives at each BO iteration) manner, are incompatible with the spirit of self-driving labs. In this work, we study whether a small amount of randomly arriving expert feedback that is being incorporated in a non-blocking manner can improve a BO campaign. To this end, we run an additional, independent computing thread on top of the BO loop to handle the feedback-gathering process. The gathered feedback is used to learn a Bayesian preference model that can readily be incorporated into the BO thread, to steer its exploration-exploitation process. Experiments on toy and chemistry datasets suggest that even just a few intermittent, asynchronous expert feedback can be useful for improving or constraining BO. This can especially be useful for its implication in improving self-driving labs, e.g. making them more data-efficient and less costly.
翻訳日:2024-06-11 12:29:56 公開日:2024-06-10
# 実世界の効率をめざす:自律ロボットによる自由浮遊移動目標のプレキャプチャのための強化学習におけるドメインランダム化

Towards Real-World Efficiency: Domain Randomization in Reinforcement Learning for Pre-Capture of Free-Floating Moving Targets by Autonomous Robots ( http://arxiv.org/abs/2406.06460v1 )

ライセンス: Link先を確認
Bahador Beigomi, Zheng H. Zhu, (参考訳) 本研究では,微小重力環境下でのロボットプレグラスピングの複雑な課題に対処するために,深層強化学習に基づく制御手法を提案する。 強化学習を活用することで、手動の特徴設計の必要性を排除し、問題を単純化し、試行錯誤を通じてロボットに事前学習の権限を与える。 提案手法は,ソフトアクター・クリティック・テクニックを応用した非政治強化学習の枠組みを取り入れ,グリッパーが浮動小数点移動物体に十分に接近できるようにし,最適なプレグレープ成功を確実にする。 プレグラスピングのアプローチタスクを効果的に学習するために,エージェントに明確で洞察に富んだフィードバックを提供する報酬関数を開発した。 本研究では,ロボット3Fグリップが自由移動目標に向かって移動し,それを追尾し,所望の移動前位置で位置決めする,プレグラッピング作業について検討する。 シミュレーション環境と実環境環境の両方における一連の実験を通じて、我々のアプローチを評価した。 ソースコードはFanuc_Robotiq_Graspで公開されている。

In this research, we introduce a deep reinforcement learning-based control approach to address the intricate challenge of the robotic pre-grasping phase under microgravity conditions. Leveraging reinforcement learning eliminates the necessity for manual feature design, therefore simplifying the problem and empowering the robot to learn pre-grasping policies through trial and error. Our methodology incorporates an off-policy reinforcement learning framework, employing the soft actor-critic technique to enable the gripper to proficiently approach a free-floating moving object, ensuring optimal pre-grasp success. For effective learning of the pre-grasping approach task, we developed a reward function that offers the agent clear and insightful feedback. Our case study examines a pre-grasping task where a Robotiq 3F gripper is required to navigate towards a free-floating moving target, pursue it, and subsequently position itself at the desired pre-grasp location. We assessed our approach through a series of experiments in both simulated and real-world environments. The source code, along with recordings of real-world robot grasping, is available at Fanuc_Robotiq_Grasp.
翻訳日:2024-06-11 12:29:56 公開日:2024-06-10
# DiffAudit: 子どもと青少年のためのオンラインサービスのプライバシープラクティスを監査する

DiffAudit: Auditing Privacy Practices of Online Services for Children and Adolescents ( http://arxiv.org/abs/2406.06473v1 )

ライセンス: Link先を確認
Olivia Figueira, Rahmadi Trimananda, Athina Markopoulou, Scott Jordan, (参考訳) 児童と青年のオンラインデータのプライバシーは、児童オンラインプライバシー保護法(COPPA)やカリフォルニア州消費者プライバシー法(CCPA)などの法律によって規制されている。 一般の聴衆(子供、青年、大人を含む)に向けられたオンラインサービスは、これらの法律に従わなければならない。 本稿では,まず,一般ユーザ向けのプラットフォームに依存しないプライバシ監査手法であるDiffAuditを紹介する。 DiffAuditは、データ処理の実践を比較するために、ネットワークトラフィックデータフローの差分解析を行う 一 児童、青年、成人使用者と 二 同意の前後を付与し、使用年齢を開示する。 また, GPT-4 と COPPA と CCPA に基づくデータ型オントロジーを用いたデータ型分類手法を提案する。 第2に、DiffAuditを一般的なモバイルおよびWebサービスの集合に適用し、440K以上の発信要求から抽出されたリッチな行動の集合を観察し、抽出し分類した3,968種類のユニークなデータを含む。 我々は、同意と年齢開示の前に問題となるデータ処理の実践、年齢別データフローの区別の欠如、一貫性のないプライバシーポリシーの開示、および広告や追跡サービスを含むサードパーティとのリンク可能なデータの共有を明らかにする。

Children's and adolescents' online data privacy are regulated by laws such as the Children's Online Privacy Protection Act (COPPA) and the California Consumer Privacy Act (CCPA). Online services that are directed towards general audiences (i.e., including children, adolescents, and adults) must comply with these laws. In this paper, first, we present DiffAudit, a platform-agnostic privacy auditing methodology for general audience services. DiffAudit performs differential analysis of network traffic data flows to compare data processing practices (i) between child, adolescent, and adult users and (ii) before and after consent is given and user age is disclosed. We also present a data type classification method that utilizes GPT-4 and our data type ontology based on COPPA and CCPA, allowing us to identify considerably more data types than prior work. Second, we apply DiffAudit to a set of popular general audience mobile and web services and observe a rich set of behaviors extracted from over 440K outgoing requests, containing 3,968 unique data types we extracted and classified. We reveal problematic data processing practices prior to consent and age disclosure, lack of differentiation between age-specific data flows, inconsistent privacy policy disclosures, and sharing of linkable data with third parties, including advertising and tracking services.
翻訳日:2024-06-11 12:29:56 公開日:2024-06-10
# 社会・EコマースレシーゼにおけるジェネレーティブAIの着地調査-産業的展望

Survey for Landing Generative AI in Social and E-commerce Recsys -- the Industry Perspectives ( http://arxiv.org/abs/2406.06475v1 )

ライセンス: Link先を確認
Da Xu, Danqing Zhang, Guangyu Yang, Bo Yang, Shuyuan Xu, Lingling Zheng, Cindy Liang, (参考訳) 近年、ジェネレーティブAI(GAI)が出現し、産業レコメンダシステム(Recsys)の強化と革新にユニークな機会を提供している。 これらの分野の交差点での研究努力が増えているにもかかわらず、GAIの産業レシーズへの統合は、主に近代工業レシーズのインフラ、運用、製品高度化の複雑な性質のために、その初期段階にある。 この調査は、GAIをいくつかの主要なソーシャルおよびeコマースプラットフォームに統合した経験に基づいて、基盤となるシステムとAI基盤、ソリューションフレームワーク、主要な研究の進展への接続、および、GAIを産業レシーズに統合する取り組みにおいて直面する実践的洞察と課題の要約を包括的に調査することを目的としています。 この分野での先駆的な活動として、関係分野の代表的展開の概要を述べ、業界における実践的なGAI導入に光を当て、将来の研究を動機付けることを願っています。

Recently, generative AI (GAI), with their emerging capabilities, have presented unique opportunities for augmenting and revolutionizing industrial recommender systems (Recsys). Despite growing research efforts at the intersection of these fields, the integration of GAI into industrial Recsys remains in its infancy, largely due to the intricate nature of modern industrial Recsys infrastructure, operations, and product sophistication. Drawing upon our experiences in successfully integrating GAI into several major social and e-commerce platforms, this survey aims to comprehensively examine the underlying system and AI foundations, solution frameworks, connections to key research advancements, as well as summarize the practical insights and challenges encountered in the endeavor to integrate GAI into industrial Recsys. As pioneering work in this domain, we hope outline the representative developments of relevant fields, shed lights on practical GAI adoptions in the industry, and motivate future research.
翻訳日:2024-06-11 12:29:56 公開日:2024-06-10
# クラス不均衡分子データに対するグラフベース双方向トランスフォーマー決定閾値調整アルゴリズム

Graph-Based Bidirectional Transformer Decision Threshold Adjustment Algorithm for Class-Imbalanced Molecular Data ( http://arxiv.org/abs/2406.06479v1 )

ライセンス: Link先を確認
Nicole Hayes, Ekaterina Merkurjev, Guo-Wei Wei, (参考訳) 不均衡なクラスサイズを持つデータセットは、1つのクラスサイズが他のクラスよりもはるかに小さい場合が多く、薬物発見や疾患診断などの生物学的基盤を持つデータセットを含む様々な用途で非常に頻繁に発生する。 したがって、様々なサイズのクラスのデータ要素を識別することは極めて重要である。 しかし、多くのデータ分類アルゴリズムは、未表現のクラスに属する要素をしばしば検出できないため、不均衡なデータセットではうまく機能しない。 本稿では,Merriman-Bence-Osher(MBO)技術と双方向トランスフォーマーを併用したBTDT-MBOアルゴリズムを提案する。 提案手法は,クラス不均衡に対処するために,MBOアルゴリズムの分類しきい値に調整を組み込むだけでなく,自己教師あり学習のための注意機構に基づく双方向トランスフォーマーモデルを用いる。 さらに、調整されたMBOアルゴリズムが動作する類似性グラフベースのフレームワークの重み関数として距離相関を実装した。 提案モデルは6つの分子データセットを用いて検証し、他の競合するアルゴリズムと比較する。 計算実験により,クラス不均衡比が非常に高い場合でも,提案手法は競合技術よりも優れた性能を示した。

Data sets with imbalanced class sizes, often where one class size is much smaller than that of others, occur extremely often in various applications, including those with biological foundations, such as drug discovery and disease diagnosis. Thus, it is extremely important to be able to identify data elements of classes of various sizes, as a failure to detect can result in heavy costs. However, many data classification algorithms do not perform well on imbalanced data sets as they often fail to detect elements belonging to underrepresented classes. In this paper, we propose the BTDT-MBO algorithm, incorporating Merriman-Bence-Osher (MBO) techniques and a bidirectional transformer, as well as distance correlation and decision threshold adjustments, for data classification problems on highly imbalanced molecular data sets, where the sizes of the classes vary greatly. The proposed method not only integrates adjustments in the classification threshold for the MBO algorithm in order to help deal with the class imbalance, but also uses a bidirectional transformer model based on an attention mechanism for self-supervised learning. Additionally, the method implements distance correlation as a weight function for the similarity graph-based framework on which the adjusted MBO algorithm operates. The proposed model is validated using six molecular data sets, and we also provide a thorough comparison to other competing algorithms. The computational experiments show that the proposed method performs better than competing techniques even when the class imbalance ratio is very high.
翻訳日:2024-06-11 12:29:56 公開日:2024-06-10
# IPv4ID選択精度,セキュリティ,性能の分類と比較分析

A Taxonomy and Comparative Analysis of IPv4 ID Selection Correctness, Security, and Performance ( http://arxiv.org/abs/2406.06483v1 )

ライセンス: Link先を確認
Joshua J. Daymude, Antonio M. Espinoza, Sean Bergen, Benjamin Mixon-Baca, Jeffrey Knockel, Jedidiah R. Crandall, (参考訳) よりセキュアなインターネットへの戦いは、ネットワークプロトコルの最も基本的な部分を含む、多くの面で争われている。 IPv4 Identifier (IPID)は、IPv4ヘッダフィールドであり、ネットワーク特性をスキャンし、オフパス接続を推測し、DNSキャッシュを害する悪用されたサイドチャネルとして、インターネットと同じくらい長い歴史を持つ。 本稿では,25年間のIPID利用履歴とそれに対応するIPID選択方法の変更を分類する。 これらの手法の正しさと安全性を数学的に解析し、その性能を実証的に評価することにより、ネットワークセキュリティにおける体系的評価の価値を強調するとともに、現在のオペレーティングシステム実装の欠点と同様にベストプラクティスの推奨を明らかにする。

The battle for a more secure Internet is waged on many fronts, including the most basic of networking protocols. Our focus is the IPv4 Identifier (IPID), an IPv4 header field as old as the Internet with an equally long history as an exploited side channel for scanning network properties, inferring off-path connections, and poisoning DNS caches. This article taxonomizes the 25-year history of IPID-based exploits and the corresponding changes to IPID selection methods. By mathematically analyzing these methods' correctness and security and empirically evaluating their performance, we reveal recommendations for best practice as well as shortcomings of current operating system implementations, emphasizing the value of systematic evaluations in network security.
翻訳日:2024-06-11 12:29:56 公開日:2024-06-10
# ニューラル演算子の連続的注意

Continuum Attention for Neural Operators ( http://arxiv.org/abs/2406.06486v1 )

ライセンス: Link先を確認
Edoardo Calvello, Nikola B. Kovachki, Matthew E. Levine, Andrew M. Stuart, (参考訳) トランスフォーマー、特に注意機構は、機械学習においてユビキタスになっている。 局所的でない長距離相関のモデル化の成功により、自然言語処理、コンピュータビジョン、時系列問題に広く採用されている。 関数の空間を関数の空間にマッピングするニューラル作用素は、普遍的である場合、必ずしも非線形かつ非局所的である。 これを動機として,関数空間設定における変圧器について検討する。 無限次元函数空間間の写像として注意を定式化し、実際に実施される注意機構が、この作用素のモンテカルロあるいは有限差分近似であることを示す。 関数空間の定式化は、関数空間間のマッピングを学習するために設計されたアーキテクチャのクラスであるトランスフォーマーニューラル演算子の設計を可能にする。 多次元領域上で定義された関数にアテンション演算子を適用することの禁止コストは、より効率的なアテンションベースアーキテクチャの必要性をもたらす。 このため、コンピュータビジョンからパッチ戦略の関数空間の一般化を導入し、関連するニューラル演算子のクラスを導入する。 演算子学習問題に対する数値計算の結果は,注意空間の定式化と,そのニューラルネットワークへの応用に対する我々のアプローチの可能性を実証するものである。

Transformers, and the attention mechanism in particular, have become ubiquitous in machine learning. Their success in modeling nonlocal, long-range correlations has led to their widespread adoption in natural language processing, computer vision, and time-series problems. Neural operators, which map spaces of functions into spaces of functions, are necessarily both nonlinear and nonlocal if they are universal; it is thus natural to ask whether the attention mechanism can be used in the design of neural operators. Motivated by this, we study transformers in the function space setting. We formulate attention as a map between infinite dimensional function spaces and prove that the attention mechanism as implemented in practice is a Monte Carlo or finite difference approximation of this operator. The function space formulation allows for the design of transformer neural operators, a class of architectures designed to learn mappings between function spaces, for which we prove a universal approximation result. The prohibitive cost of applying the attention operator to functions defined on multi-dimensional domains leads to the need for more efficient attention-based architectures. For this reason we also introduce a function space generalization of the patching strategy from computer vision, and introduce a class of associated neural operators. Numerical results, on an array of operator learning problems, demonstrate the promise of our approaches to function space formulations of attention and their use in neural operators.
翻訳日:2024-06-11 12:29:56 公開日:2024-06-10
# マルチキャリブレーションはいつ必要か?

When is Multicalibration Post-Processing Necessary? ( http://arxiv.org/abs/2406.06487v1 )

ライセンス: Link先を確認
Dutch Hansen, Siddartha Devic, Preetum Nakkiran, Vatsal Sharan, (参考訳) キャリブレーションは、有意義な不確実性推定を保証する予測子のよく研究された特性である。 マルチキャリブレーション(マルチキャリブレーション、英: multicalibration)とは、アルゴリズムの公正性から派生した、保護されたサブ集団(民族、人種、収入によって定義されるグループなど)の潜在的に複雑で重複するコレクションに対して、予測者が同時にキャリブレーションされることを要求する、関連する概念である。 簡単な決定木から9000万のパラメータ微調整LDMまで、幅広い表、画像、言語データセットの集合にまたがるマルチキャリブレーション後処理の有用性を評価するための、最初の総合的研究を行った。 その結果,(1) 箱からキャリブレーションされたモデルは,追加の事後処理なしで比較的マルチキャリブレーションされる傾向があり,(2) マルチキャリブレーション後処理は本質的に非キャリブレーションモデルに役立つこと,(3) 従来のキャリブレーション手法が暗黙的にマルチキャリブレーションを提供することがあること,などが示唆された。 より一般的には、実世界の文脈におけるマルチキャリブレーション後処理の実用的で効果的な応用に有用な多くの独立した観測を蒸留する。

Calibration is a well-studied property of predictors which guarantees meaningful uncertainty estimates. Multicalibration is a related notion -- originating in algorithmic fairness -- which requires predictors to be simultaneously calibrated over a potentially complex and overlapping collection of protected subpopulations (such as groups defined by ethnicity, race, or income). We conduct the first comprehensive study evaluating the usefulness of multicalibration post-processing across a broad set of tabular, image, and language datasets for models spanning from simple decision trees to 90 million parameter fine-tuned LLMs. Our findings can be summarized as follows: (1) models which are calibrated out of the box tend to be relatively multicalibrated without any additional post-processing; (2) multicalibration post-processing can help inherently uncalibrated models; and (3) traditional calibration measures may sometimes provide multicalibration implicitly. More generally, we also distill many independent observations which may be useful for practical and effective applications of multicalibration post-processing in real-world contexts.
翻訳日:2024-06-11 12:29:56 公開日:2024-06-10
# 超伝導回路におけるマクロ量子重ね合わせ

Macroscopic quantum superpositions in superconducting circuits ( http://arxiv.org/abs/2406.06492v1 )

ライセンス: Link先を確認
Vitoria A. de Souza, Caio C. Holanda Ribeiro, Vitorio A. De Lorenci, (参考訳) ここでは,超伝導回路を用いた量子的特徴の獲得の可能性について述べる。 一般に、固定エネルギーと調整可能な長さの古典的なテスト電流パルスは、光子の場の量子真空と相互作用した後、量子特性を取得することが示されている。 さらに、真空揺らぎが単に存在するだけでエネルギーと運動量保存が崩壊し、パルスの長さが量子系の特性的な大きさで大きくなるにつれて、試験パルスは量子-古典的遷移を行う。 このモデルは、その単純さと、量子ベース技術に適した相関システムを作成する新しい方法への視点から、以前のモデルとは異なる。

A possible route to test whether macroscopic systems can acquire quantum features using superconducting circuits is here presented. It is shown that under general assumptions a classical test current pulse of fixed energy and adjustable length acquires quantum features after interacting with the quantum vacuum of the photon field. Further, it is shown that the mere existence of vacuum fluctuations can lead to the breakdown of energy and momentum conservation, and as the length of the pulse grows with respect to the characteristic size of the quantum system, the test pulse undergoes quantum-to-classical transition. This model differs from previous ones for its simplicity and points towards a new way of creating correlated systems suitable for quantum-based technology.
翻訳日:2024-06-11 12:29:56 公開日:2024-06-10
# 動的疎度を考慮した優先型強化学習におけるロバスト性向上

Boosting Robustness in Preference-Based Reinforcement Learning with Dynamic Sparsity ( http://arxiv.org/abs/2406.06495v1 )

ライセンス: Link先を確認
Calarina Muslimani, Bram Grooten, Deepak Ranganatha Sastry Mamillapalli, Mykola Pechenizkiy, Decebal Constantin Mocanu, Matthew E. Taylor, (参考訳) 自律的なエージェントが人間中心の環境にうまく統合するためには、エージェントはネイティブ設定で人間から学び、人間に適応できる必要がある。 嗜好に基づく強化学習(PbRL)は、人間の嗜好から報酬関数を学習する有望なアプローチである。 これにより、RLエージェントは人間の欲求に基づいて行動に適応することができる。 しかし、人間は多様な情報に満ちた世界に住んでおり、その多くは特定のタスクを完了させることとは無関係である。 エージェントはタスク関連環境機能のサブセットに集中することが不可欠になっている。 残念なことに、以前の作業では、タスク関連機能のみを含むように慎重に構築された標準RL環境でのPbRLアルゴリズムの改善に重点を置いていた。 これは、よりノイズの多い現実世界の環境に効果的に移行しないアルゴリズムをもたらす可能性がある。 この研究は、動的スパーストレーニングの原理を利用してタスク関連機能にフォーカス可能な堅牢な報酬モデルを学ぶ最初のPbRLアルゴリズムであるR2N(Robust-to-Noise)を提案する。 極雑音環境設定におけるR2Nの有効性について検討し, 最大95%の状態特徴が無関係な乱れとなるRL問題設定について検討した。 シミュレーション教師による実験では、R2Nはタスク関連機能に焦点を合わせるために、ニューラルネットワークの疎結合に適応できることを示し、R2Nは複数の移動制御環境において、最先端のPbRLアルゴリズムを大幅に上回ることができる。

For autonomous agents to successfully integrate into human-centered environments, agents should be able to learn from and adapt to humans in their native settings. Preference-based reinforcement learning (PbRL) is a promising approach that learns reward functions from human preferences. This enables RL agents to adapt their behavior based on human desires. However, humans live in a world full of diverse information, most of which is not relevant to completing a particular task. It becomes essential that agents learn to focus on the subset of task-relevant environment features. Unfortunately, prior work has largely ignored this aspect; primarily focusing on improving PbRL algorithms in standard RL environments that are carefully constructed to contain only task-relevant features. This can result in algorithms that may not effectively transfer to a more noisy real-world setting. To that end, this work proposes R2N (Robust-to-Noise), the first PbRL algorithm that leverages principles of dynamic sparse training to learn robust reward models that can focus on task-relevant features. We study the effectiveness of R2N in the Extremely Noisy Environment setting, an RL problem setting where up to 95% of the state features are irrelevant distractions. In experiments with a simulated teacher, we demonstrate that R2N can adapt the sparse connectivity of its neural networks to focus on task-relevant features, enabling R2N to significantly outperform several state-of-the-art PbRL algorithms in multiple locomotion and control environments.
翻訳日:2024-06-11 12:29:56 公開日:2024-06-10
# NarrativeBridge: 因果的物語によるビデオキャプションの強化

NarrativeBridge: Enhancing Video Captioning with Causal-Temporal Narrative ( http://arxiv.org/abs/2406.06499v1 )

ライセンス: Link先を確認
Asmar Nadeem, Faegheh Sardari, Robert Dawes, Syed Sameed Husain, Adrian Hilton, Armin Mustafa, (参考訳) 既存のビデオキャプションベンチマークとモデルは因果的物語のコヒーレントな表現を欠いている。 この物語の欠如は、ビデオコンテンツに固有の因果的・時間的ダイナミクスをキャプチャするテキスト記述を生成するモデルの能力を制限する。 このギャップに対処するために,(1)大規模言語モデルと少数ショットプロンプトを用いて生成された新しい因果関係(CTN)キャプションベンチマークを用いて,ビデオ記述における因果関係を明示的に符号化し,キャプションの品質と関連性を確保するために自動的に評価するNarrativeBridgeと,(2)因果関係を独立に捉えるための専用エンコーダを備えた因果関係(CEN)アーキテクチャを提案する。 大規模な実験により、CENは第2のベストモデル(GIT)よりも、ビデオコンテンツの因果的側面と時間的側面を明確にする上で、それぞれMSVDデータセットとMSR-VTTデータセットの17.88と17.44CIDErが正確であることが示されている。 提案フレームワークは,ビデオ中の複雑な因果的物語構造を持つニュアンステキスト記述を理解し,生成し,ビデオキャプションにおける限界に対処する。 プロジェクトの詳細については、https://narrativebridge.github.io/.com/を参照してください。

Existing video captioning benchmarks and models lack coherent representations of causal-temporal narrative, which is sequences of events linked through cause and effect, unfolding over time and driven by characters or agents. This lack of narrative restricts models' ability to generate text descriptions that capture the causal and temporal dynamics inherent in video content. To address this gap, we propose NarrativeBridge, an approach comprising of: (1) a novel Causal-Temporal Narrative (CTN) captions benchmark generated using a large language model and few-shot prompting, explicitly encoding cause-effect temporal relationships in video descriptions, evaluated automatically to ensure caption quality and relevance; and (2) a dedicated Cause-Effect Network (CEN) architecture with separate encoders for capturing cause and effect dynamics independently, enabling effective learning and generation of captions with causal-temporal narrative. Extensive experiments demonstrate that CEN is more accurate in articulating the causal and temporal aspects of video content than the second best model (GIT): 17.88 and 17.44 CIDEr on the MSVD and MSR-VTT datasets, respectively. The proposed framework understands and generates nuanced text descriptions with intricate causal-temporal narrative structures present in videos, addressing a critical limitation in video captioning. For project details, visit https://narrativebridge.github.io/.
翻訳日:2024-06-11 12:29:56 公開日:2024-06-10
# 等価なニューラルタンジェントカーネル

Equivariant Neural Tangent Kernels ( http://arxiv.org/abs/2406.06504v1 )

ライセンス: Link先を確認
Philipp Misof, Pan Kessel, Jan E. Gerken, (参考訳) 近年、同変型ニューラルネットワークは、医療画像分析から量子化学まで多くの分野において、ニューラルネットワークのアーキテクチャ選択を導く重要な技術となっている。 特に、正規表現に関して最も一般的な線型同変層として、群畳み込みは多くの応用において非常に影響を受けてきた。 同変アーキテクチャは広く研究されているが、同変ニューラルネットワークのトレーニング力学についてはあまり知られていない。 同時に、ニューラルネットワークのトレーニングダイナミクスを解析的に理解するための強力なツールとして、ニューラルタンジェントカーネル(NTK)が登場した。 本研究では,グループ畳み込みニューラルネットワークのNTKを明示的に表現することで,これらの2つの分野を初めて組み合わせる。 数値実験では, 医用画像の分類タスクにおいて, 非同変NTKに対して, 同変NTKよりも優れた性能を示す。

Equivariant neural networks have in recent years become an important technique for guiding architecture selection for neural networks with many applications in domains ranging from medical image analysis to quantum chemistry. In particular, as the most general linear equivariant layers with respect to the regular representation, group convolutions have been highly impactful in numerous applications. Although equivariant architectures have been studied extensively, much less is known about the training dynamics of equivariant neural networks. Concurrently, neural tangent kernels (NTKs) have emerged as a powerful tool to analytically understand the training dynamics of wide neural networks. In this work, we combine these two fields for the first time by giving explicit expressions for NTKs of group convolutional neural networks. In numerical experiments, we demonstrate superior performance for equivariant NTKs over non-equivariant NTKs on a classification task for medical images.
翻訳日:2024-06-11 12:29:56 公開日:2024-06-10
# 深部強化学習のための検証誘導シールド

Verification-Guided Shielding for Deep Reinforcement Learning ( http://arxiv.org/abs/2406.06507v1 )

ライセンス: Link先を確認
Davide Corsi, Guy Amir, Andoni Rodriguez, Cesar Sanchez, Guy Katz, Roy Fox, (参考訳) 近年,現実世界の課題を解決するための効果的なアプローチとして,深層強化学習(DRL)が登場している。 しかし、DRLベースのポリシーは、成功にもかかわらず、信頼性の低さに悩まされ、安全クリティカルなドメインへのデプロイメントが制限される。 その結果、正式な安全保証を提供することで、この問題に対処する様々な方法が提案されている。 2つの主要なアプローチは、遮蔽と検証である。 シールドは、潜在的に危険なアクションをオーバーランする外部のオンラインコンポーネント(すなわち `shield'')を使用することによって、ポリシーの安全な行動を保証するが、このアプローチは、すべての決定を検証するためにシールドを実行時に呼び出す必要があるため、かなりの計算コストがかかる。 一方、検証はオフラインプロセスであり、デプロイ前に安全でないポリシーを識別できるが、そのようなポリシーが安全でないと判断された場合、代替のアクションを提供することはない。 本研究では,この2つの手法を統合することでDRLの信頼性ギャップを橋渡しする,検証誘導遮蔽法を提案する。 提案手法は,入力領域を安全領域と安全領域に分割する形式的および確率的検証ツールを組み合わせたものである。 さらに、安全でない領域をコンパクトな表現に圧縮するクラスタリングおよびシンボル表現手法を用いる。 これにより、(潜在的に)安全でない地域でのみ、効率的な方法でシールドを一時的に活性化することができる。 私たちの新しいアプローチは、正式な安全保証を維持しながら、実行時のオーバーヘッドを大幅に削減します。 ロボットナビゲーション領域からの2つのベンチマークに対する我々のアプローチを広く評価するとともに、そのスケーラビリティと完全性について詳細な分析を行った。

In recent years, Deep Reinforcement Learning (DRL) has emerged as an effective approach to solving real-world tasks. However, despite their successes, DRL-based policies suffer from poor reliability, which limits their deployment in safety-critical domains. As a result, various methods have been put forth to address this issue by providing formal safety guarantees. Two main approaches include shielding and verification. While shielding ensures the safe behavior of the policy by employing an external online component (i.e., a ``shield'') that overruns potentially dangerous actions, this approach has a significant computational cost as the shield must be invoked at runtime to validate every decision. On the other hand, verification is an offline process that can identify policies that are unsafe, prior to their deployment, yet, without providing alternative actions when such a policy is deemed unsafe. In this work, we present verification-guided shielding -- a novel approach that bridges the DRL reliability gap by integrating these two methods. Our approach combines both formal and probabilistic verification tools to partition the input domain into safe and unsafe regions. In addition, we employ clustering and symbolic representation procedures that compress the unsafe regions into a compact representation. This, in turn, allows to temporarily activate the shield solely in (potentially) unsafe regions, in an efficient manner. Our novel approach allows to significantly reduce runtime overhead while still preserving formal safety guarantees. We extensively evaluate our approach on two benchmarks from the robotic navigation domain, as well as provide an in-depth analysis of its scalability and completeness.
翻訳日:2024-06-11 12:29:56 公開日:2024-06-10
# Fermi-Hubbardモデルを用いた強相関系の耐故障性シミュレーションの定量化

Quantifying fault tolerant simulation of strongly correlated systems using the Fermi-Hubbard model ( http://arxiv.org/abs/2406.06511v1 )

ライセンス: Link先を確認
Anjali A. Agrawal, Tyler L. Wilson, S. N. Saadatmand, Mark J. Hodson, Josh Y. Mutus, Athena Caesura, Peter D. Johnson, Alexander F. Kemper, (参考訳) 強い相関を持つ物質の物理学を理解することは、今日の物理学の大きな課題の1つである。 高いT_c$超伝導体からスピン液体まで、多くの科学的に興味深い物質が中性から強い相関関係を持ち、これらの物質を総合的に理解することは非常に重要である。 運動エネルギーとクーロン反発の競合によって妨げられ、相互作用する物質を記述するのに不十分な解析的手法と数値的手法の両方が引き起こされる。 フォールトトレラントな量子コンピュータはこれらの困難を克服するための道として提案されているが、この潜在的な能力はまだ十分に評価されていない。 本稿では,多軌道モデルであるFermi-Hubbardモデルを代表モデルおよび拡張性のある問題仕様の情報源として利用し,相関関数推定などの実験的な量の取得にフォールトトレラント量子コンピュータを使用するために必要な資源コストを推定する。 量子アルゴリズムとハードウェアの進歩は、量子資源を減らし、実用規模の問題インスタンスに対処するために必要となる。

Understanding the physics of strongly correlated materials is one of the grand challenge problems for physics today. A large class of scientifically interesting materials, from high-$T_c$ superconductors to spin liquids, involve medium to strong correlations, and building a holistic understanding of these materials is critical. Doing so is hindered by the competition between the kinetic energy and Coulomb repulsion, which renders both analytic and numerical methods unsatisfactory for describing interacting materials. Fault-tolerant quantum computers have been proposed as a path forward to overcome these difficulties, but this potential capability has not yet been fully assessed. Here, using the multi-orbital Fermi-Hubbard model as a representative model and a source of scalable problem specifications, we estimate the resource costs needed to use fault-tolerant quantum computers for obtaining experimentally relevant quantities such as correlation function estimation. We find that advances in quantum algorithms and hardware will be needed in order to reduce quantum resources and feasibly address utility-scale problem instances.
翻訳日:2024-06-11 12:29:56 公開日:2024-06-10
# 多変量時系列分類のためのデータ拡張:実験的検討

Data Augmentation for Multivariate Time Series Classification: An Experimental Study ( http://arxiv.org/abs/2406.06518v1 )

ライセンス: Link先を確認
Romain Ilbert, Thai V. Hoang, Zonghua Zhang, (参考訳) 本研究では,UCRアーカイブからのデータセットに着目し,データ拡張が多変量時系列モデルの性能に与える影響について検討した。 これらのデータセットのサイズは限られていますが、RocketとInceptionTimeモデルを使用して、13のデータセットのうち10の分類精度を向上しました。 これは、コンピュータビジョンで見られる進歩と並行して、効果的なモデルを訓練する上で、十分なデータの重要性を強調している。 我々の研究は、多変量時系列分類の分野において、革新的な方法で既存の手法を適応し、適用することに注力している。 これらの手法を包括的に探求することで、時系列分析におけるデータの不足に対処する新たな標準が確立され、従来の学習モデルとディープラーニングモデルの両方の可能性を解き放つ上で、多様な拡張戦略が不可欠であることを強調した。 さらに,様々な拡張手法を慎重に分析し,適用することにより,戦略的データ豊か化がモデルの精度を向上させることを示す。 これは、時系列分析における将来の研究のベンチマークを確立するだけでなく、データ可用性の制限に直面したモデルパフォーマンスを改善するために、様々な拡張アプローチを採用することの重要性を強調している。

Our study investigates the impact of data augmentation on the performance of multivariate time series models, focusing on datasets from the UCR archive. Despite the limited size of these datasets, we achieved classification accuracy improvements in 10 out of 13 datasets using the Rocket and InceptionTime models. This highlights the essential role of sufficient data in training effective models, paralleling the advancements seen in computer vision. Our work delves into adapting and applying existing methods in innovative ways to the domain of multivariate time series classification. Our comprehensive exploration of these techniques sets a new standard for addressing data scarcity in time series analysis, emphasizing that diverse augmentation strategies are crucial for unlocking the potential of both traditional and deep learning models. Moreover, by meticulously analyzing and applying a variety of augmentation techniques, we demonstrate that strategic data enrichment can enhance model accuracy. This not only establishes a benchmark for future research in time series analysis but also underscores the importance of adopting varied augmentation approaches to improve model performance in the face of limited data availability.
翻訳日:2024-06-11 12:29:56 公開日:2024-06-10