このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20240414となっている論文です。

PDF登録状況(公開日: 20240414)

TitleAuthorsAbstract論文公表日・翻訳日
# RAN IntelligentControllerを用いた実O-RAN配置におけるMLによるハンドオーバ予測

ML-based handover prediction over a real O-RAN deployment using RAN Intelligent controller ( http://arxiv.org/abs/2404.19671v1 )

ライセンス: Link先を確認
Merim Dzaferagic, Bruno Missi Xavier, Diarmuid Collins, Vince D'Onofrio, Magnos Martinello, Marco Ruffini, (参考訳) O-RANは、ネットワークのすべての部分にインテリジェントで柔軟なネットワーク制御を導入している。 オープンインターフェースによるコントローラの使用により、リアルタイムネットワーク計測を収集し、インテリジェントでインフォームドな意思決定が可能になる。 本研究は,オープンかつ再構成可能なネットワークにおけるハンドオーバイベントの可能性を調査し,ネットワークに依存してビジネスを行うすべての利害関係者に対して,そのような予測の価値を理解するためのユースケースの開発に焦点をあてる。 ハンドオーバイベントの予測に標準無線アクセスネットワーク計測を用いる長短短期記憶機械学習手法を提案する。 モデルは、OpenIrelandテストベッドにデプロイされた商用O-RANセットアップから収集された実際のネットワークデータに基づいてトレーニングされました。 この結果から,提案手法はアプリケーションレベルの目的に応じて,リコールや精度に最適化可能であることが示された。 また、機械学習(ML)アルゴリズムの性能とネットワーク運用コストを関連付ける。 以上の結果から,長期的資源購入と比較して,必要なリソースと利用可能なリソースとのMLベースのマッチングにより,運用コストを80%以上削減できることが示唆された。

O-RAN introduces intelligent and flexible network control in all parts of the network. The use of controllers with open interfaces allow us to gather real time network measurements and make intelligent/informed decision. The work in this paper focuses on developing a use-case for open and reconfigurable networks to investigate the possibility to predict handover events and understand the value of such predictions for all stakeholders that rely on the communication network to conduct their business. We propose a Long-Short Term Memory Machine Learning approach that takes standard Radio Access Network measurements to predict handover events. The models were trained on real network data collected from a commercial O-RAN setup deployed in our OpenIreland testbed. Our results show that the proposed approach can be optimized for either recall or precision, depending on the defined application level objective. We also link the performance of the Machine Learning (ML) algorithm to the network operation cost. Our results show that ML-based matching between the required and available resources can reduce operational cost by more than 80%, compared to long term resource purchases.
翻訳日:2024-05-05 17:54:32 公開日:2024-04-14
# 半教師付き学習のためのインクリメンタル自己学習

Incremental Self-training for Semi-supervised Learning ( http://arxiv.org/abs/2404.12398v1 )

ライセンス: Link先を確認
Jifeng Guo, Zhulin Liu, Tong Zhang, C. L. Philip Chen, (参考訳) 半教師付き学習は、ラベル付きデータへの機械学習の依存を減らすソリューションを提供する。 効率的な半教師技術の一つとして、自己学習(ST)が注目されている。 騒々しい擬似ラベルに関連する問題に対処するために、いくつかの進歩が見られた。 自己学習に関するこれまでの研究は、ラベル付けされていないデータの重要性を認めているが、その効率的な利用には触れておらず、反復学習による高時間消費の問題にも注意を払っていない。 本稿では,これらのギャップを埋める半教師付き学習のためのインクリメンタル自己学習(IST)を提案する。 全てのデータを無差別に処理するSTとは異なり、ISTはデータをバッチで処理し、優先度の高いラベル付きサンプルに擬似ラベルを割り当てる。 そして、モデルが安定化した後、決定境界周辺のデータを処理し、分類器の性能を向上させる。 我々のISTは単純だが有効であり、既存の自己学習に基づく半教師あり学習手法に適合する。 提案したISTを5つのデータセットと2種類のバックボーンで検証し,認識精度と学習速度を効果的に向上させる。 重要なことは、3つの挑戦的な画像分類タスクにおいて、最先端の競合他社を上回っていることだ。

Semi-supervised learning provides a solution to reduce the dependency of machine learning on labeled data. As one of the efficient semi-supervised techniques, self-training (ST) has received increasing attention. Several advancements have emerged to address challenges associated with noisy pseudo-labels. Previous works on self-training acknowledge the importance of unlabeled data but have not delved into their efficient utilization, nor have they paid attention to the problem of high time consumption caused by iterative learning. This paper proposes Incremental Self-training (IST) for semi-supervised learning to fill these gaps. Unlike ST, which processes all data indiscriminately, IST processes data in batches and priority assigns pseudo-labels to unlabeled samples with high certainty. Then, it processes the data around the decision boundary after the model is stabilized, enhancing classifier performance. Our IST is simple yet effective and fits existing self-training-based semi-supervised learning methods. We verify the proposed IST on five datasets and two types of backbone, effectively improving the recognition accuracy and learning speed. Significantly, it outperforms state-of-the-art competitors on three challenging image classification tasks.
翻訳日:2024-04-28 11:25:01 公開日:2024-04-14
# モデル失敗かデータ崩壊か? 自己監督型コントラスト学習によるエネルギー評価の不整合を探る

Model Failure or Data Corruption? Exploring Inconsistencies in Building Energy Ratings with Self-Supervised Contrastive Learning ( http://arxiv.org/abs/2404.12399v1 )

ライセンス: Link先を確認
Qian Xiao, Dan Liu, Kevin Credit, (参考訳) ビルエネルギーレーティング(ビルエネルギーレーティング、BER)は、ビル所有者、政策立案者、都市計画者がエネルギー効率を改善することで省エネの可能性を理解するための重要な指標である。 そのため、ビルのBERレベルの向上は、二酸化炭素排出量の削減と気候変動の改善に直接貢献することが期待されている。 それでも、BER評価プロセスは、欠落と不正確な測定に対して脆弱である。 本研究では,BERアセスメントにおける不整合を自己指導型コントラスト学習によって検証するデータ駆動型アプローチである「texttt{CLEAR}」を紹介する。 アイルランドの建築在庫を表わすデータセットを用いて, <texttt{CLEAR} の有効性を検証した。 我々の実験は、実世界のデータセットにおける測定データの破損を強調し、一貫性のないBERアセスメントの証拠を発見した。

Building Energy Rating (BER) stands as a pivotal metric, enabling building owners, policymakers, and urban planners to understand the energy-saving potential through improving building energy efficiency. As such, enhancing buildings' BER levels is expected to directly contribute to the reduction of carbon emissions and promote climate improvement. Nonetheless, the BER assessment process is vulnerable to missing and inaccurate measurements. In this study, we introduce \texttt{CLEAR}, a data-driven approach designed to scrutinize the inconsistencies in BER assessments through self-supervised contrastive learning. We validated the effectiveness of \texttt{CLEAR} using a dataset representing Irish building stocks. Our experiments uncovered evidence of inconsistent BER assessments, highlighting measurement data corruption within this real-world dataset.
翻訳日:2024-04-28 11:25:01 公開日:2024-04-14
# ヴォイニッヒ写本におけるスクリバル・インテントの段差記号

Subtle Signs of Scribal Intent in the Voynich Manuscript ( http://arxiv.org/abs/2404.13069v1 )

ライセンス: Link先を確認
Andrew Steckley, Noah Steckley, (参考訳) 本研究は,「ヴォイニチェーゼ」文字の見過ごされた特徴に隠された,微妙なスクレイブ意図のサインを探すことによって,秘密のヴォイニッヒ写本を探索する。 その結果, トークンの分布は, 段落や線の境界といった文字に固有の要素だけでなく, 植物の手書き図面などの外在的な要素によっても決定される位置によって大きく異なることが示唆された。

This study explores the cryptic Voynich Manuscript, by looking for subtle signs of scribal intent hidden in overlooked features of the "Voynichese" script. The findings indicate that distributions of tokens within paragraphs vary significantly based on positions defined not only by elements intrinsic to the script such as paragraph and line boundaries but also by extrinsic elements, namely the hand-drawn illustrations of plants.
翻訳日:2024-04-28 11:16:37 公開日:2024-04-14
# 大規模言語モデルにおける創発的類似推論を支援する対実的タスクからのエビデンス

Evidence from counterfactual tasks supports emergent analogical reasoning in large language models ( http://arxiv.org/abs/2404.13070v1 )

ライセンス: Link先を確認
Taylor Webb, Keith J. Holyoak, Hongjing Lu, (参考訳) 我々は最近,大規模言語モデルがゼロショット方式で幅広いテキストベースの類似問題を解くことができることを示す証拠を報告し,類推のための創発的能力の存在を示唆した。 最近の2つのコメンテータは、言語モデルのトレーニングデータに存在したかもしれない材料との類似性を減少させるために、アルファベットの標準配列が任意に置換されたいわゆる「偽物」タスクの証拠を引用して、これらの結果に異議を唱えている。 ここでは、これらの批判に回答し、本研究で使用した試験材料に関する誤解を明らかにし、言語モデルがこれらの新しい対実的タスク変種に一般化できることを示す。

We recently reported evidence that large language models are capable of solving a wide range of text-based analogy problems in a zero-shot manner, indicating the presence of an emergent capacity for analogical reasoning. Two recent commentaries have challenged these results, citing evidence from so-called `counterfactual' tasks in which the standard sequence of the alphabet is arbitrarily permuted so as to decrease similarity with materials that may have been present in the language model's training data. Here, we reply to these critiques, clarifying some misunderstandings about the test materials used in our original work, and presenting evidence that language models are also capable of generalizing to these new counterfactual task variants.
翻訳日:2024-04-28 11:16:37 公開日:2024-04-14
# 変異に基づく信頼平滑化による大規模言語モデルの故障検出の強化

Enhancing Fault Detection for Large Language Models via Mutation-Based Confidence Smoothing ( http://arxiv.org/abs/2404.14419v1 )

ライセンス: Link先を確認
Qiang Hu, Jin Wen, Maxime Cordy, Yuheng Huang, Xiaofei Xie, Lei Ma, (参考訳) 大規模言語モデル(LLM)は、複数のアプリケーションドメインで大きな成功を収め、最近様々な研究コミュニティから大きな注目を集めた。 残念なことに、最高のLLMであっても、LLMが正しく予測できない多くの欠点が存在する。 このような欠陥はLLMのユーザビリティを損なう。 LLMで素早く公開する方法は重要だが、難しい。 理由は2つある。 1 検査データ作成のための重ラベル作成の取り組み及び 2) GPT4 などのクローズドソース LLM へのアクセスは金銭的要求である。 この問題に対処するため、従来のディープラーニングテスト分野では、障害の優先順位付けによるディープラーニングモデルを効率的にテストするためのテスト選択法が提案されている。 しかし, LLMにおけるこれらの手法の有用性は明らかであり, 探索中である。 本稿では,LLMにおける既存の故障検出手法の有効性について検討する。 4つの異なるタスク(コードタスクと自然言語処理タスクの両方を含む)と4つのLLM(例えば、LLaMAとGPT4)の実験結果から、既存の故障検出手法はLLMではうまく動作しない(例えば、8つのメソッドのうち7つは、LLaMAではランダム選択よりも悪い)。 既存の故障検出手法を強化するために,ミューテーションに基づくLCMの信頼度平滑化手法である MuCS を提案する。 具体的には,全てのミュータントの平均予測信頼度を,故障検出手法の入力として計算する。 提案手法は, 試験対象範囲を97.64%まで改善し, 既存手法を著しく向上させることが示唆された。

Large language models (LLMs) achieved great success in multiple application domains and attracted huge attention from different research communities recently. Unfortunately, even for the best LLM, there still exist many faults that LLM cannot correctly predict. Such faults will harm the usability of LLMs. How to quickly reveal them in LLMs is important, but challenging. The reasons are twofold, 1) the heavy labeling effort for preparing the test data, and 2) accessing closed-source LLMs such as GPT4 is money-required. To handle this problem, in the traditional deep learning testing field, test selection methods have been proposed for efficiently testing deep learning models by prioritizing faults. However, the usefulness of these methods on LLMs is unclear and under exploration. In this paper, we first study the effectiveness of existing fault detection methods for LLMs. Experimental results on four different tasks~(including both code tasks and natural language processing tasks) and four LLMs (e.g., LLaMA and GPT4) demonstrated that existing fault detection methods cannot perform well on LLMs (e.g., seven out of eight methods perform worse than random selection on LLaMA). To enhance existing fault detection methods, we propose MuCS, a prompt Mutation-based prediction Confidence Smoothing method for LLMs. Concretely, we mutate the prompts and compute the average prediction confidence of all mutants as the input of fault detection methods. The results show that our proposed solution significantly enhances existing methods with the improvement of test relative coverage by up to 97.64%.
翻訳日:2024-04-28 11:16:37 公開日:2024-04-14
# マルチモーダルウェアラブルセンサを用いた人間行動認識に関する研究

A Survey on Multimodal Wearable Sensor-based Human Action Recognition ( http://arxiv.org/abs/2404.15349v1 )

ライセンス: Link先を確認
Jianyuan Ni, Hao Tang, Syed Tousiful Haque, Yan Yan, Anne H. H. Ngu, (参考訳) 寿命の増加と出生率の低下が、高齢化に繋がる。 WSHAR(Wearable Sensor-based Human Activity Recognition)は、高齢者の日常生活を支援するための有望な補助技術として登場し、人間中心のアプリケーションにとって大きな可能性を秘めている。 しかし、最近のWSHARの調査は、ディープラーニングアプローチのみに焦点を絞ったものや、単一センサーのモダリティに焦点が当てられている。 実生活では、人間は多感覚で世界と対話し、多様な情報ソースが複雑に処理され、複雑な統合された知覚システムを達成するために解釈される。 マシンに類似したインテリジェンスを与えるため、様々なソースからデータをマージするマルチモーダル機械学習は、近年の進歩と共に人気のある研究領域となっている。 本研究では,新参者や研究者を対象としたマルチモーダル学習をWSHARドメインに活用するための新しい視点から,包括的調査を行う。 本研究は,HARにおける最近のセンサ・モダリティと深層学習アプローチから始める。 その後、WSHARのマルチモーダルシステムで使用される技術について検討する。 これには、視覚系と非視覚系の両方からセンサーモダリティを利用するマルチモーダル間システムと、視覚系と非視覚系の両方から単にモダリティを取るマルチモーダル内システムが含まれる。 その後、我々は、WSHARに存在するいくつかの課題を解決するために応用された、現在のマルチモーダル学習アプローチに注目した。 具体的には、コンピュータビジョンや自然言語処理など、既存のマルチモーダル文献を現在のWSHAR領域に接続することで、さらなる努力を行う。 最後に,現在のWSHAR領域における課題と今後の研究方向性を明らかにし,さらなる改善を図っている。

The combination of increased life expectancy and falling birth rates is resulting in an aging population. Wearable Sensor-based Human Activity Recognition (WSHAR) emerges as a promising assistive technology to support the daily lives of older individuals, unlocking vast potential for human-centric applications. However, recent surveys in WSHAR have been limited, focusing either solely on deep learning approaches or on a single sensor modality. In real life, our human interact with the world in a multi-sensory way, where diverse information sources are intricately processed and interpreted to accomplish a complex and unified sensing system. To give machines similar intelligence, multimodal machine learning, which merges data from various sources, has become a popular research area with recent advancements. In this study, we present a comprehensive survey from a novel perspective on how to leverage multimodal learning to WSHAR domain for newcomers and researchers. We begin by presenting the recent sensor modalities as well as deep learning approaches in HAR. Subsequently, we explore the techniques used in present multimodal systems for WSHAR. This includes inter-multimodal systems which utilize sensor modalities from both visual and non-visual systems and intra-multimodal systems that simply take modalities from non-visual systems. After that, we focus on current multimodal learning approaches that have applied to solve some of the challenges existing in WSHAR. Specifically, we make extra efforts by connecting the existing multimodal literature from other domains, such as computer vision and natural language processing, with current WSHAR area. Finally, we identify the corresponding challenges and potential research direction in current WSHAR area for further improvement.
翻訳日:2024-04-28 10:46:58 公開日:2024-04-14
# 脳-コンピュータインタフェースのためのニューラルネットワークの高速適応性評価

Evaluating Fast Adaptability of Neural Networks for Brain-Computer Interface ( http://arxiv.org/abs/2404.15350v1 )

ライセンス: Link先を確認
Anupam Sharma, Krishna Miyapuram, (参考訳) 脳波(EEG)分類は、非侵襲的な脳-コンピュータインタフェース(BCI)を構築するための汎用的でポータブルな技術である。 しかし、脳波脳データから認知状態をデコードする分類器は、モデルトレーニング中にタスクや個人がいないような新しい領域でテストすると、性能が低下する。 研究者は最近、ドメイン適応のためのモデルに依存しないメタラーニング(MAML)のような複雑な戦略を使用している。 それにもかかわらず、モデルの高速適応性を評価するための評価戦略が必要であり、これは実生活における高速キャリブレーションのためのBCIアプリケーションに欠かせない特徴である。 実験では、運動運動と想像信号を用いて畳み込みニューラルネットワーク(CNN)に基づく分類器を入力した。 EEG信号を持つデータセットは通常、より少ないサンプルとより高い時間分解能を持つ。 畳み込みニューラルネットワーク(CNN)ではバッチ正規化が好まれるが,CNNベースのEEG分類器の適応性は10段階未満で向上することが実証的に示されている。 まとめると、現在の作品。 (i)迅速な適応性を評価するための簡単な戦略を提案し、 (II)MAML法と比較して,簡単な伝達学習を施した課題だけでなく,個人間での高速適応性を実証的に実証した。

Electroencephalography (EEG) classification is a versatile and portable technique for building non-invasive Brain-computer Interfaces (BCI). However, the classifiers that decode cognitive states from EEG brain data perform poorly when tested on newer domains, such as tasks or individuals absent during model training. Researchers have recently used complex strategies like Model-agnostic meta-learning (MAML) for domain adaptation. Nevertheless, there is a need for an evaluation strategy to evaluate the fast adaptability of the models, as this characteristic is essential for real-life BCI applications for quick calibration. We used motor movement and imaginary signals as input to Convolutional Neural Networks (CNN) based classifier for the experiments. Datasets with EEG signals typically have fewer examples and higher time resolution. Even though batch-normalization is preferred for Convolutional Neural Networks (CNN), we empirically show that layer-normalization can improve the adaptability of CNN-based EEG classifiers with not more than ten fine-tuning steps. In summary, the present work (i) proposes a simple strategy to evaluate fast adaptability, and (ii) empirically demonstrate fast adaptability across individuals as well as across tasks with simple transfer learning as compared to MAML approach.
翻訳日:2024-04-28 10:46:58 公開日:2024-04-14
# 共感型AIインタラクションのための大規模言語モデルと生理データの統合

Integrating Physiological Data with Large Language Models for Empathic Human-AI Interaction ( http://arxiv.org/abs/2404.15351v1 )

ライセンス: Link先を確認
Poorvesh Dongre, Majid Behravan, Kunal Gupta, Mark Billinghurst, Denis Gračanin, (参考訳) 本稿では,Large Language Models (LLMs) における共感の促進を生理的データと組み合わせることで検討する。 本研究では,心理学的状態を認識するための生理学的データを用いた深層学習モデルの開発と,共感的相互作用のためのLLMと予測状態の統合を含む,生理学的コンピューティング手法を提案する。 ストレスモニタリングと制御のためのEmLLM(Empathic LLM)チャットボットで,本手法の適用例を示す。 また, ユーザのストレスを正確に予測し, ヒューマンライクな応答を提供し, ユーザとのセラピーアライアンスを評価する能力に基づいて, このEmLLMチャットボットを評価するパイロットスタディの結果についても検討する。

This paper explores enhancing empathy in Large Language Models (LLMs) by integrating them with physiological data. We propose a physiological computing approach that includes developing deep learning models that use physiological data for recognizing psychological states and integrating the predicted states with LLMs for empathic interaction. We showcase the application of this approach in an Empathic LLM (EmLLM) chatbot for stress monitoring and control. We also discuss the results of a pilot study that evaluates this EmLLM chatbot based on its ability to accurately predict user stress, provide human-like responses, and assess the therapeutic alliance with the user.
翻訳日:2024-04-28 10:46:58 公開日:2024-04-14
# LuminLab: AIで動くビルのリトロフィットとエネルギーモデリングプラットフォーム

LuminLab: An AI-Powered Building Retrofit and Energy Modelling Platform ( http://arxiv.org/abs/2404.16057v1 )

ライセンス: Link先を確認
Kevin Credit, Qian Xiao, Jack Lehane, Juan Vazquez, Dan Liu, Leo De Figueiredo, (参考訳) 本稿では,人間中心型AIチャットボットと予測エネルギーモデルを組み合わせたオンラインツールであるLuminLabプラットフォームの技術的,概念的な開発について述べる。 このプラットフォームは、個々の予算に合わせて調整された様々な再適合経路をオンデマンドで構築する機能を提供する。 異なる目標やインセンティブを持つさまざまなステークホルダグループに依存している、複雑な、コストのかかるプロジェクトを構築することの性質を考えると、このようなAI駆動のツールは、現実的にサイロ知識を排除し、コミュニケーションを改善し、個々の住宅所有者に、他の方法では起こらないインクリメンタルなリトライフィットプロジェクトを実施させる可能性があると感じています。

This paper describes the technical and conceptual development of the LuminLab platform, an online tool that integrates a purpose-fit human-centric AI chatbot and predictive energy model into a streamlined front-end that can rapidly produce and discuss building retrofit plans in natural language. The platform provides users with the ability to engage with a range of possible retrofit pathways tailored to their individual budget and building needs on-demand. Given the complicated and costly nature of building retrofit projects, which rely on a variety of stakeholder groups with differing goals and incentives, we feel that AI-powered tools such as this have the potential to pragmatically de-silo knowledge, improve communication, and empower individual homeowners to undertake incremental retrofit projects that might not happen otherwise.
翻訳日:2024-04-28 10:36:53 公開日:2024-04-14
# シンボリックピアノの分類課題に対するBERTライクな事前学習

BERT-like Pre-training for Symbolic Piano Music Classification Tasks ( http://arxiv.org/abs/2107.05223v2 )

ライセンス: Link先を確認
Yi-Hui Chou, I-Chun Chen, Chin-Jui Chang, Joann Ching, Yi-Hsuan Yang, (参考訳) 本稿では,変換器による双方向エンコーダ表現(BERT)のマスク付き言語モデリングアプローチを用いて,記号的ピアノ音楽分類のベンチマーク研究を行う。 特に、MIDIデータには、動的にMIDIに直接描画された楽譜であるMIDIスコアと、音楽楽譜の人間の演奏のMIDI符号化であるMIDIパフォーマンスとを正確に一致させるMIDIスコアとがある。 単トラックピアノMIDIファイルのパブリックドメインデータセットを5つ用意し,BERTアプローチによる2つの12層トランスフォーマーモデル,MIDIスコアのための1つ,MIDIパフォーマンスのための1つ,および4つの下流分類タスクのための微調整を行う。 これには、2つのメモレベル分類タスク(メロディ抽出と速度予測)と2つのシーケンスレベル分類タスク(スタイル分類と感情分類)が含まれる。 評価の結果,BERTアプローチはリカレントニューラルネットワーク(RNN)ベースラインよりも高い分類精度が得られた。

This article presents a benchmark study of symbolic piano music classification using the masked language modelling approach of the Bidirectional Encoder Representations from Transformers (BERT). Specifically, we consider two types of MIDI data: MIDI scores, which are musical scores rendered directly into MIDI with no dynamics and precisely aligned with the metrical grid notated by its composer and MIDI performances, which are MIDI encodings of human performances of musical scoresheets. With five public-domain datasets of single-track piano MIDI files, we pre-train two 12-layer Transformer models using the BERT approach, one for MIDI scores and the other for MIDI performances, and fine-tune them for four downstream classification tasks. These include two note-level classification tasks (melody extraction and velocity prediction) and two sequence-level classification tasks (style classification and emotion classification). Our evaluation shows that the BERT approach leads to higher classification accuracy than recurrent neural network (RNN)-based baselines.
翻訳日:2024-04-19 14:48:42 公開日:2024-04-14
# インテリジェントメッセージ行動識別システム

Intelligent Message Behavioral Identification System ( http://arxiv.org/abs/2404.10795v1 )

ライセンス: Link先を確認
Yuvaraju Chinnam, Bosubabu Sambana, (参考訳) ソーシャルメディアプラットフォームでは、リポストを予測する行為は、ショートメッセージサービス(SMS)に関する難しい問題と見なされている。 本研究では,SMSにおける画像再投稿の予測問題について検討し,Twitter上で写真を共有する際のユーザの行動を予測する。 いくつかの研究がある。 異種画像の再送信をモデル化するIRM(Image Retweet Modeling)を提案する。 画像ツイートの以前のリポスト、SMSにおける次のコンタクト、リポストされた人の好みについて検討する。 コンテンツに関連する3つの側面。 テキスト誘導型マルチモーダルニューラルネットワークを開発した。 これにより、予測ジョブで、共同画像のTwitter表現とユーザの好み表現を学習することができる。 広範囲なデータセットで実施した複数の実験は、我々のアプローチがソーシャルネットワークプラットフォームにおける現在の手法より優れていることを示している。

On social media platforms, the act of predicting reposting is seen as a challenging issue related to Short Message Services (SMS). This study examines the issue of predicting picture reposting in SMS and forecasts users' behavior in sharing photographs on Twitter. Several research vary. The paper introduces a network called Image Retweet Modeling (IRM) that models heterogeneous image retransmission. It considers the user's previous reposting of the image tweet, the next contact in the SMS, and the preferences of the reposted person. Three aspects connected to content. A text-guided multimodal neural network is developed to create a novel multi-faceted attention ranking network methodology. This allows for learning the joint image Twitter representation and user preference representation in the prediction job. Multiple experiments conducted on extensive data sets demonstrate that our approach outperforms current methods on Social Network platforms.
翻訳日:2024-04-18 18:22:00 公開日:2024-04-14
# 連続制約満足度問題の分類について

On Classifying Continuous Constraint Satisfaction Problems ( http://arxiv.org/abs/2106.02397v6 )

ライセンス: Link先を確認
Tillmann Miltzow, Reinier F. Schmiermann, (参考訳) 連続制約満足度問題 (CCSP) は、間隔領域 $U \subset \mathbb{R}$ を持つ制約満足度問題(CSP)である。 我々は、現実の実在論、すなわちER完全を完備するCCSPを分類する体系的な研究に従事している。 このクラスを定義するために、我々はまず、実数実数実数理論(Existential Theory of the Reals)の略である ETR の問題を考察する。 この問題の例では、 $\exists x_1, \ldots, x_n \in \mathbb{R} : \Phi(x_1, \ldots, x_n)$, ここで、$\Phi$ は記号 $\{0, 1, +, \cdot, \geq, >, \wedge, \vee, \neg\}$ からなる十分に整形された量子化式である。 現在、クラス ER は多項式時間倍数 1 の ETR 還元を許容するすべての問題の族である。 NP $\subseteq$ ER $\subseteq$ PSPACE が知られている。 我々は、追加制約(x + y = z$)やその他の穏やかな技術的条件でCCSPに対する注意を制限します。 以前は、乗法制約(x \cdot y = z$)、スクアリング制約(x^2 = y$)、逆制約(x\cdot y = 1$)はER完全性を確立するのに十分であることが示された。 以下に、等式制約を最強の意味で拡張する。 CCSP (加法的制約およびその他の穏やかな技術的条件を含む) は、任意の曲線的等式制約 (f(x,y) = 0$) が ER 完全であることを示す。 結果をさらに不平等な制約にまで拡張します。 そのような CCSP のクラス上では、よく曲がった凸曲線や、よく曲がった凹凸不等式制約 (f(x,y) \geq 0$ および $g(x,y) \geq 0$) が ER 完全性を意味することを示す。

A continuous constraint satisfaction problem (CCSP) is a constraint satisfaction problem (CSP) with an interval domain $U \subset \mathbb{R}$. We engage in a systematic study to classify CCSPs that are complete of the Existential Theory of the Reals, i.e., ER-complete. To define this class, we first consider the problem ETR, which also stands for Existential Theory of the Reals. In an instance of this problem we are given some sentence of the form $\exists x_1, \ldots, x_n \in \mathbb{R} : \Phi(x_1, \ldots, x_n)$, where $\Phi$ is a well-formed quantifier-free formula consisting of the symbols $\{0, 1, +, \cdot, \geq, >, \wedge, \vee, \neg\}$, the goal is to check whether this sentence is true. Now the class ER is the family of all problems that admit a polynomial-time many-one reduction to ETR. It is known that NP $\subseteq$ ER $\subseteq$ PSPACE. We restrict our attention on CCSPs with addition constraints ($x + y = z$) and some other mild technical conditions. Previously, it was shown that multiplication constraints ($x \cdot y = z$), squaring constraints ($x^2 = y$), or inversion constraints ($x\cdot y = 1$) are sufficient to establish ER-completeness. We extend this in the strongest possible sense for equality constraints as follows. We show that CCSPs (with addition constraints and some other mild technical conditions) that have any one well-behaved curved equality constraint ($f(x,y) = 0$) are ER-complete. We further extend our results to inequality constraints. We show that any well-behaved convexly curved and any well-behaved concavely curved inequality constraint ($f(x,y) \geq 0$ and $g(x,y) \geq 0$) imply ER-completeness on the class of such CCSPs.
翻訳日:2024-04-18 03:27:13 公開日:2024-04-14
# 自己重力とベーケンシュタインホーキングエントロピー

Self-Gravity and Bekenstein-Hawking Entropy ( http://arxiv.org/abs/2207.14274v6 )

ライセンス: Link先を確認
Yuki Yokokura, (参考訳) 4次元半古典アインシュタイン方程式を直接解くことにより, エントロピーに対する自己重力の影響について検討する。 特に、自己重力が非常に強いときにベッケンシュタイン・ホーキングの公式が成立するかどうかに焦点を当てる。 例えば、多くの量子からなる単純な球対称な静的な構成を考え、$\hbar$ に対して自己整合な非摂動解を構築し、エントロピーは任意の種類の多くの局所的な自由度に対する領域法則を正確に従う。 これは量子論におけるブラックホールの候補となる。 これは、ほぼプランクの曲率を持つコンパクトな密集した構造を表しており、内部は通常、粒子の生成によって局所的な熱状態として振る舞う。 ここでは、情報内容は内部バルクに格納され、自己重力はエントロピーを体積法則から面積法則に変換する上で重要な役割を果たす。 量子重力におけるブラックホールの影響と、重力電荷としてのエントロピーの投機的視点について論じる。

We study the effect of self-gravity on entropy by directly solving the 4D semi-classical Einstein equation. In particular, we focus on whether the Bekenstein-Hawking formula holds when self-gravity is extremely strong. As an example, we consider a simple spherically symmetric static configuration consisting of many quanta and construct a self-consistent non-perturbative solution for $\hbar$ in which the entropy exactly follows the area law for many local degrees of freedom of any kind. This can be a candidate for black holes in quantum theory. It represents a compact dense configuration with near-Planckian curvatures, and the interior typically behaves like a local thermal state due to particle creation. Here, the information content is stored in the interior bulk, and the self-gravity plays an essential role in changing the entropy from the volume law to the area law. We finally discuss implications to black holes in quantum gravity and a speculative view of entropy as a gravitational charge.
翻訳日:2024-04-18 03:10:06 公開日:2024-04-14
# モデルに基づくオフライン量子強化学習

Model-based Offline Quantum Reinforcement Learning ( http://arxiv.org/abs/2404.10017v1 )

ライセンス: Link先を確認
Simon Eisenmann, Daniel Hein, Steffen Udluft, Thomas A. Runkler, (参考訳) 本稿では、モデルに基づくオフライン量子強化学習のための最初のアルゴリズムを提案し、その機能をカートポールベンチマークで示す。 最適化すべきモデルとポリシーは、それぞれ変分量子回路として実装される。 モデルは、事前記録されたデータセットに適合するように、勾配降下によって訓練される。 適合度関数としてモデルが与える回帰推定値を用いて、勾配のない最適化スキームを最適化する。 このモデルに基づくアプローチは、原則として、最適化フェーズ中に量子コンピュータ上で完全な実現を可能にし、十分に強力な量子コンピュータが利用可能であればすぐに量子優位性を達成することを期待する。

This paper presents the first algorithm for model-based offline quantum reinforcement learning and demonstrates its functionality on the cart-pole benchmark. The model and the policy to be optimized are each implemented as variational quantum circuits. The model is trained by gradient descent to fit a pre-recorded data set. The policy is optimized with a gradient-free optimization scheme using the return estimate given by the model as the fitness function. This model-based approach allows, in principle, full realization on a quantum computer during the optimization phase and gives hope that a quantum advantage can be achieved as soon as sufficiently powerful quantum computers are available.
翻訳日:2024-04-17 21:08:17 公開日:2024-04-14
# AIは宇宙を理解できるか? 天体物理データによる微調整GPTのテスト

Can AI Understand Our Universe? Test of Fine-Tuning GPT by Astrophysical Data ( http://arxiv.org/abs/2404.10019v1 )

ライセンス: Link先を確認
Yu Wang, Shu-Rui Zhang, Aidin Momtaz, Rahim Moradi, Fatemeh Rastegarnia, Narek Sahakyan, Soroush Shakeri, Liang Li, (参考訳) ChatGPTはここ数カ月で最も話題になっているコンセプトであり、専門家と一般大衆の両方を魅了し、人工知能(AI)が世界にもたらす変化について議論を呼んだ。 物理学者や宇宙物理学者として、科学データが大きな言語モデル(LLM)によって正しく分析され、正確な物理が得られるかどうかに興味を持っている。 本稿では、銀河、クエーサー、恒星、ガンマ線バースト(GRB)の観測から得られた天文学データと、ブラックホール(BHs)のシミュレーションにより、生成前訓練変圧器モデル(GPT)を微調整し、微調整されたモデルは、天体物理学現象を分類し、2種類のGRBを区別し、クエーサーの赤方偏移を推定し、BHパラメータを推定する能力を示す。 我々は、LLMが科学的研究において証明された有効性を示す試験として、これを成功とみなしている。 増え続ける多分野データの量とAI技術の進歩により、私たちは宇宙のより根本的で包括的な理解の出現を楽しみにしています。 この記事では、データ収集とAI設計に関する興味深い考えを共有します。 宇宙を理解するアプローチ – データを見渡して基本的なビルディングブロックを内向的に見る – をガイドラインとして,AIのシリーズ展開方法を提案し,人間よりも賢いAIをトレーニングし,制御する方法を提案する。

ChatGPT has been the most talked-about concept in recent months, captivating both professionals and the general public alike, and has sparked discussions about the changes that artificial intelligence (AI) will bring to the world. As physicists and astrophysicists, we are curious about if scientific data can be correctly analyzed by large language models (LLMs) and yield accurate physics. In this article, we fine-tune the generative pre-trained transformer (GPT) model by the astronomical data from the observations of galaxies, quasars, stars, gamma-ray bursts (GRBs), and the simulations of black holes (BHs), the fine-tuned model demonstrates its capability to classify astrophysical phenomena, distinguish between two types of GRBs, deduce the redshift of quasars, and estimate BH parameters. We regard this as a successful test, marking the LLM's proven efficacy in scientific research. With the ever-growing volume of multidisciplinary data and the advancement of AI technology, we look forward to the emergence of a more fundamental and comprehensive understanding of our universe. This article also shares some interesting thoughts on data collection and AI design. Using the approach of understanding the universe - looking outward at data and inward for fundamental building blocks - as a guideline, we propose a method of series expansion for AI, suggesting ways to train and control AI that is smarter than humans.
翻訳日:2024-04-17 21:08:17 公開日:2024-04-14
# VideoSAGE: グラフ表現学習によるビデオ要約

VideoSAGE: Video Summarization with Graph Representation Learning ( http://arxiv.org/abs/2404.10539v1 )

ライセンス: Link先を確認
Jose M. Rojas Chaves, Subarna Tripathi, (参考訳) 本稿では,映像要約のためのグラフベース表現学習フレームワークを提案する。 まず,各映像フレームに対応するノードのグラフに入力映像を変換する。 そして、指定された時間的距離内にあるこれらの一対のノードのみを接続することで、グラフに空間性を課す。 次に、映像要約タスクをバイナリノード分類問題として定式化し、出力要約ビデオに属するか否かを正確に分類する。 この方法で構築されたグラフは、ビデオフレーム間の長距離インタラクションをキャプチャすることを目的としている。 2つのデータセット(SumMeとTVSum)の実験は、既存の最先端の要約手法と比較して、計算時間とメモリにおいて1桁効率が良い一方で、提案したニブルモデルの有効性を実証している。

We propose a graph-based representation learning framework for video summarization. First, we convert an input video to a graph where nodes correspond to each of the video frames. Then, we impose sparsity on the graph by connecting only those pairs of nodes that are within a specified temporal distance. We then formulate the video summarization task as a binary node classification problem, precisely classifying video frames whether they should belong to the output summary video. A graph constructed this way aims to capture long-range interactions among video frames, and the sparsity ensures the model trains without hitting the memory and compute bottleneck. Experiments on two datasets(SumMe and TVSum) demonstrate the effectiveness of the proposed nimble model compared to existing state-of-the-art summarization approaches while being one order of magnitude more efficient in compute time and memory
翻訳日:2024-04-17 16:53:59 公開日:2024-04-14
# 深部Q-Learningのばらつきの低減と過大評価について

On the Reduction of Variance and Overestimation of Deep Q-Learning ( http://arxiv.org/abs/1910.05983v2 )

ライセンス: Link先を確認
Mohammed Sabry, Amr M. A. Khalifa, (参考訳) 様々な種類の環境における深いQラーニングのブレークスルーは、強化学習のアルゴリズム設計に革命をもたらし、より安定で堅牢なアルゴリズムを導入し、その結果、ターゲット値と過大評価現象のばらつきを減らすために、深いQラーニングアルゴリズムへの多くの拡張が提案されている。 本稿では,これらの問題を解決するための新しい手法について検討し,分散と過大評価の方法として,深層Q-Learningアルゴリズムを用いたDropout手法を提案する。 また、ベンチマーク環境で実施した実験により、安定性の向上とモデル性能のばらつきと過大評価の両面において、我々の方法論の有効性を実証した。

The breakthrough of deep Q-Learning on different types of environments revolutionized the algorithmic design of Reinforcement Learning to introduce more stable and robust algorithms, to that end many extensions to deep Q-Learning algorithm have been proposed to reduce the variance of the target values and the overestimation phenomena. In this paper, we examine new methodology to solve these issues, we propose using Dropout techniques on deep Q-Learning algorithm as a way to reduce variance and overestimation. We also present experiments conducted on benchmark environments, demonstrating the effectiveness of our methodology in enhancing stability and reducing both variance and overestimation in model performance.
翻訳日:2024-04-17 00:52:57 公開日:2024-04-14
# 多項ロジト文脈帯域のトラクタブルオンライン学習アルゴリズム

A Tractable Online Learning Algorithm for the Multinomial Logit Contextual Bandit ( http://arxiv.org/abs/2011.14033v7 )

ライセンス: Link先を確認
Priyank Agrawal, Theja Tulabandhula, Vashist Avadhanula, (参考訳) 本稿では,MNL-Bandit問題の文脈変化について考察する。 より具体的には、動的集合最適化の問題を考察し、意思決定者は消費者に製品のサブセット(構成)を提供し、各ラウンドで反応を観察する。 消費者は有用性を最大化するために製品を購入します。 属性の集合が製品を記述すると仮定し、製品の平均効用はこれらの属性の値において線形であると仮定する。 我々は,広く使用されているMNLモデルを用いて消費者選択行動のモデル化を行い,モデルパラメータを動的に学習する決定者問題について考察する。 この問題は近年注目されているが、既存の多くの手法では難解な非凸最適化問題を解くことがしばしばある。 理論的な性能保証は問題に依存したパラメータに依存しており、これは違法に大きい可能性がある。 特に、この問題に対する既存のアルゴリズムは、$O(\sqrt{\kappa d T})$で制限されている。 本稿では,楽観的なアルゴリズムを提案し,その後悔は$O(\sqrt{dT} + \kappa)$で束縛されていることを示す。 さらに, 提案手法は, 好意的な後悔の保証を保ちながら, トラクタブルな意思決定を可能にする, 最適化ステップの凸緩和を提案する。

In this paper, we consider the contextual variant of the MNL-Bandit problem. More specifically, we consider a dynamic set optimization problem, where a decision-maker offers a subset (assortment) of products to a consumer and observes the response in every round. Consumers purchase products to maximize their utility. We assume that a set of attributes describe the products, and the mean utility of a product is linear in the values of these attributes. We model consumer choice behavior using the widely used Multinomial Logit (MNL) model and consider the decision maker problem of dynamically learning the model parameters while optimizing cumulative revenue over the selling horizon $T$. Though this problem has attracted considerable attention in recent times, many existing methods often involve solving an intractable non-convex optimization problem. Their theoretical performance guarantees depend on a problem-dependent parameter which could be prohibitively large. In particular, existing algorithms for this problem have regret bounded by $O(\sqrt{\kappa d T})$, where $\kappa$ is a problem-dependent constant that can have an exponential dependency on the number of attributes. In this paper, we propose an optimistic algorithm and show that the regret is bounded by $O(\sqrt{dT} + \kappa)$, significantly improving the performance over existing methods. Further, we propose a convex relaxation of the optimization step, which allows for tractable decision-making while retaining the favourable regret guarantee.
翻訳日:2024-04-17 00:52:57 公開日:2024-04-14
# 非古典的シミュレート可能な特徴マップを用いたHQCアーキテクチャによる量子機械学習

Quantum Machine Learning with HQC Architectures using non-Classically Simulable Feature Maps ( http://arxiv.org/abs/2103.11381v2 )

ライセンス: Link先を確認
Syed Farhan Ahmad, Raghav Rawat, Minal Moharir, (参考訳) ハイブリッド量子古典(HQC)アーキテクチャは、量子機械学習問題を解決するために、NISQ量子コンピュータで使用される。 量子的優位性は、古典的コンピューティングよりも指数的なスピードアップが提供されたことによる。 このようなアルゴリズムを実装する上で大きな課題の1つは、量子埋め込みの選択と、機能的に正しい量子変動回路の使用である。 本稿では,OSMIメンタルヘルス・テクノロジー・サーベイのデータセットを用いて,将来技術界でメンタルヘルスを求められるかどうかを予測するため,QSVM(Quantum Support Vector Machines)の応用を提案する。 我々は、非古典的にシミュレート可能な機能マップを用いてこれを達成し、NISQ HQC Architectures for Quantum Machine Learningが、短期的な実世界のアプリケーションで優れたパフォーマンスモデルを作成するために、代替的に使用できることを証明した。

Hybrid Quantum-Classical (HQC) Architectures are used in near-term NISQ Quantum Computers for solving Quantum Machine Learning problems. The quantum advantage comes into picture due to the exponential speedup offered over classical computing. One of the major challenges in implementing such algorithms is the choice of quantum embeddings and the use of a functionally correct quantum variational circuit. In this paper, we present an application of QSVM (Quantum Support Vector Machines) to predict if a person will require mental health treatment in the tech world in the future using the dataset from OSMI Mental Health Tech Surveys. We achieve this with non-classically simulable feature maps and prove that NISQ HQC Architectures for Quantum Machine Learning can be used alternatively to create good performance models in near-term real-world applications.
翻訳日:2024-04-17 00:52:57 公開日:2024-04-14
# 機械学習を用いた調査における知識発見--アラブ首長国連邦における女性起業家の事例から

Knowledge Discovery in Surveys using Machine Learning: A Case Study of Women in Entrepreneurship in UAE ( http://arxiv.org/abs/2103.11430v2 )

ライセンス: Link先を確認
Syed Farhan Ahmad, Amrah Hermayen, Ganga Bhavani, (参考訳) 知識発見は、データを分析し、そこから洞察を得てよりよいビジネス上の決定を下す上で、非常に重要な役割を担います。 知識に基づく経済における起業は、国の経済の発展に大きく貢献する。 本稿では,アラブ首長国連邦における起業女性に対する調査について分析する。 関連した洞察は、起業家精神における女性の現在の状況を理解し、未来を予測するのに役立つデータから抽出されます。 これらの機能は、マシンラーニングを使用して分析され、将来的にはより良いビジネス判断がもたらされる。

Knowledge Discovery plays a very important role in analyzing data and getting insights from them to drive better business decisions. Entrepreneurship in a Knowledge based economy contributes greatly to the development of a country's economy. In this paper, we analyze surveys that were conducted on women in entrepreneurship in UAE. Relevant insights are extracted from the data that can help us to better understand the current landscape of women in entrepreneurship and predict the future as well. The features are analyzed using machine learning to drive better business decisions in the future.
翻訳日:2024-04-17 00:52:57 公開日:2024-04-14
# 自動運転のための説明可能な人工知能: 今後の研究方向の総合的概要とフィールドガイド

Explainable Artificial Intelligence for Autonomous Driving: A Comprehensive Overview and Field Guide for Future Research Directions ( http://arxiv.org/abs/2112.11561v4 )

ライセンス: Link先を確認
Shahin Atakishiyev, Mohammad Salameh, Hengshuai Yao, Randy Goebel, (参考訳) 自動運転は過去20年間、研究と開発において重要なマイルストーンを達成してきた。 自動運転車(AV)の配備がより安全で環境に優しい交通システムを実現するため、この分野への関心が高まっている。 計算力のある人工知能(AI)技術の急速な進歩により、AVは高い精度で環境を感知し、安全なリアルタイム決定を行い、人間の介入なしに確実に運用することができる。 しかし、そのような車両におけるインテリジェントな意思決定は、現在の最先端の人間によって一般的には理解できないため、そのような不足は、この技術が社会的に受け入れられることを妨げる。 したがって、AVは、安全なリアルタイム決定をするためには、多くの管轄区域で規制に準拠するために、AIが指導する意思決定プロセスについても説明する必要がある。 我々の研究は、AVのための説明可能な人工知能(XAI)アプローチの開発について包括的に光を当てている。 特に、以下の貢献をしている。 まず、XAIをベースとした自動運転における最先端および新興のアプローチの概要について概説する。 次に、説明可能なエンドツーエンド自動運転に必要な要素をすべて考慮した概念的枠組みを提案する。 最後に, 透明性, 信頼性, AV の社会的受容の促進を約束する, 今後の方向性に向けて, XAI に基づく先進的な方向性とパラダイムを提示する。

Autonomous driving has achieved significant milestones in research and development over the last two decades. There is increasing interest in the field as the deployment of autonomous vehicles (AVs) promises safer and more ecologically friendly transportation systems. With the rapid progress in computationally powerful artificial intelligence (AI) techniques, AVs can sense their environment with high precision, make safe real-time decisions, and operate reliably without human intervention. However, intelligent decision-making in such vehicles is not generally understandable by humans in the current state of the art, and such deficiency hinders this technology from being socially acceptable. Hence, aside from making safe real-time decisions, AVs must also explain their AI-guided decision-making process in order to be regulatory compliant across many jurisdictions. Our study sheds comprehensive light on the development of explainable artificial intelligence (XAI) approaches for AVs. In particular, we make the following contributions. First, we provide a thorough overview of the state-of-the-art and emerging approaches for XAI-based autonomous driving. We then propose a conceptual framework that considers all the essential elements for explainable end-to-end autonomous driving. Finally, we present XAI-based prospective directions and emerging paradigms for future directions that hold promise for enhancing transparency, trustworthiness, and societal acceptance of AVs.
翻訳日:2024-04-17 00:46:46 公開日:2024-04-14
# 離散ステイン演算子による勾配推定

Gradient Estimation with Discrete Stein Operators ( http://arxiv.org/abs/2202.09497v8 )

ライセンス: Link先を確認
Jiaxin Shi, Yuhao Zhou, Jessica Hwang, Michalis K. Titsias, Lester Mackey, (参考訳) 分布のパラメータに関する期待の勾配を近似するグラディエント推定は、多くの機械学習問題の解の中心である。 しかし、分布が離散である場合、最も一般的な勾配推定器は過度の分散に悩まされる。 勾配推定の精度を向上させるため,離散分布に対するスタイン演算子に基づく分散低減手法を提案する。 次に、この手法を用いて、REINFORCE残高推定のためのフレキシブルな制御変数を構築する。 我々の制御変数は、分散を最小限に抑えるためにオンラインで適応することができ、ターゲット関数の余分な評価を必要としない。 線形変分オートエンコーダの訓練などのベンチマーク生成モデルタスクにおいて、勾配推定器は、同じ数の関数評価を持つ最先端推定器よりもかなり低い分散を達成できる。

Gradient estimation -- approximating the gradient of an expectation with respect to the parameters of a distribution -- is central to the solution of many machine learning problems. However, when the distribution is discrete, most common gradient estimators suffer from excessive variance. To improve the quality of gradient estimation, we introduce a variance reduction technique based on Stein operators for discrete distributions. We then use this technique to build flexible control variates for the REINFORCE leave-one-out estimator. Our control variates can be adapted online to minimize variance and do not require extra evaluations of the target function. In benchmark generative modeling tasks such as training binary variational autoencoders, our gradient estimator achieves substantially lower variance than state-of-the-art estimators with the same number of function evaluations.
翻訳日:2024-04-17 00:46:46 公開日:2024-04-14
# 重畳音を伴う確率的下次スキームの高確率境界

High Probability Bounds for Stochastic Subgradient Schemes with Heavy Tailed Noise ( http://arxiv.org/abs/2208.08567v2 )

ライセンス: Link先を確認
Daniela A. Parletta, Andrea Paudice, Massimiliano Pontil, Saverio Salzo, (参考訳) 本研究では,重み付き雑音下での確率的下次法における高確率境界について検討する。 この設定では、ノイズはガウス分布とは対照的に有限な分散しか持たないと仮定され、標準下次法は高い確率境界を持つことが知られている。 そこで我々は,提案手法のクリッピング版を解析し,大ノルムを持つと下次推定値が切り替わることを示した。 このクリッピング戦略は、多くの古典的平均化スキームに対して、ほぼ最適な時空と有限な地平線の境界に導かれることを示す。 予備実験は, 本手法の有効性を裏付けるものである。

In this work we study high probability bounds for stochastic subgradient methods under heavy tailed noise. In this setting the noise is only assumed to have finite variance as opposed to a sub-Gaussian distribution for which it is known that standard subgradient methods enjoys high probability bounds. We analyzed a clipped version of the projected stochastic subgradient method, where subgradient estimates are truncated whenever they have large norms. We show that this clipping strategy leads both to near optimal any-time and finite horizon bounds for many classical averaging schemes. Preliminary experiments are shown to support the validity of the method.
翻訳日:2024-04-17 00:46:46 公開日:2024-04-14
# 量子核法における指数集中

Exponential concentration in quantum kernel methods ( http://arxiv.org/abs/2208.11060v2 )

ライセンス: Link先を確認
Supanut Thanasilp, Samson Wang, M. Cerezo, Zoë Holmes, (参考訳) 量子機械学習(QML)におけるカーネル手法は、最近、データ分析における量子優位性を達成するための候補として、大きな注目を集めている。 その他の魅力的な特性として、カーネルベースのモデルをトレーニングする場合、トレーニングランドスケープの凸性のために最適なモデルのパラメータを見つけることが保証される。 しかし、これは量子カーネルが量子ハードウェアから効率的に得ることができるという仮定に基づいている。 本研究では,カーネル値の正確な推定に必要な資源の観点から,量子カーネルモデルの性能について検討する。 特定の条件下では、異なる入力データに対する量子核の値は、ある固定値に対して指数関数的に(量子ビットの数において)集中することができることを示す。 したがって、多項式数の測定によるトレーニングでは、見当たらない入力の予測が入力データとは独立であるような自明なモデルに終わる。 データ埋め込みの表現性、大域的測定、絡み合い、ノイズの4つの情報源を同定する。 各源について、関連する量子核の濃度境界が解析的に導出される。 最後に,古典的データを扱う場合,カーネルアライメント法を組み込んだパラメタライズドデータのトレーニングも指数集中の影響を受けやすいことを示す。 本研究は,数種類のQMLタスクの数値シミュレーションにより検証した。 また、量子カーネルの効率的な評価と量子カーネル法の性能を確保するために、特定の機能を回避すべきであることを示すガイドラインも提示する。

Kernel methods in Quantum Machine Learning (QML) have recently gained significant attention as a potential candidate for achieving a quantum advantage in data analysis. Among other attractive properties, when training a kernel-based model one is guaranteed to find the optimal model's parameters due to the convexity of the training landscape. However, this is based on the assumption that the quantum kernel can be efficiently obtained from quantum hardware. In this work we study the performance of quantum kernel models from the perspective of the resources needed to accurately estimate kernel values. We show that, under certain conditions, values of quantum kernels over different input data can be exponentially concentrated (in the number of qubits) towards some fixed value. Thus on training with a polynomial number of measurements, one ends up with a trivial model where the predictions on unseen inputs are independent of the input data. We identify four sources that can lead to concentration including: expressivity of data embedding, global measurements, entanglement and noise. For each source, an associated concentration bound of quantum kernels is analytically derived. Lastly, we show that when dealing with classical data, training a parametrized data embedding with a kernel alignment method is also susceptible to exponential concentration. Our results are verified through numerical simulations for several QML tasks. Altogether, we provide guidelines indicating that certain features should be avoided to ensure the efficient evaluation of quantum kernels and so the performance of quantum kernel methods.
翻訳日:2024-04-17 00:46:46 公開日:2024-04-14
# 真の量子重ね合わせの生物直交的資源理論

Biorthogonal resource theory of genuine quantum superposition ( http://arxiv.org/abs/2210.02398v2 )

ライセンス: Link先を確認
Onur Pusuluk, (参考訳) 量子重ね合わせの現象は2つの異なる方法で表される:非直交基底状態に広がるか、重なり合いの中で隠される。 その深い影響にもかかわらず、重ね合わせの資源理論は重なり合う量子重ね合わせを無視することが多い。 しかし、この成分は複雑な状態の区別不可能性に結びついており、量子相関を生じさせる可能性がある。 本稿では、密度作用素の擬エルミート表現を導入し、その対角要素はカークウッド・ディラック準確率の直交拡大に対応する。 この表現は、基底間量子重ね合わせと基底状態の区別不可能性のための統一的な枠組みを提供し、我々が「textit{genuine} 量子重ね合わせ」と呼ぶものを生み出している。 さらに、量子コヒーレンスと相関が出現する非古典性の基本概念として機能する真の量子重ね合わせを定量化するために、現在の重ね合わせ対策の適切な一般化を提案する。 最後に、我々の理論的枠組みの潜在的な応用、特に化学結合と芳香族性における電子の非局在化の定量化について検討する。

The phenomenon of quantum superposition manifests in two distinct ways: it either spreads out across non-orthogonal basis states or remains concealed within their overlaps. Despite its profound implications, the resource theory of superposition often neglects the quantum superposition residing within these overlaps. However, this component is intricately linked to a form of state indistinguishability and can give rise to quantum correlations. In this paper, we introduce a pseudo-Hermitian representation of the density operator, wherein its diagonal elements correspond to biorthogonal extensions of Kirkwood-Dirac quasi-probabilities. This representation provides a unified framework for the inter-basis quantum superposition and basis state indistinguishability, giving rise to what we term as \textit{genuine} quantum superposition. Moreover, we propose appropriate generalizations of current superposition measures to quantify genuine quantum superposition that serves as the fundamental notion of nonclassicality from which both quantum coherence and correlations emerge. Finally, we explore potential applications of our theoretical framework, particularly in the quantification of electron delocalization in chemical bonding and aromaticity.
翻訳日:2024-04-17 00:36:54 公開日:2024-04-14
# 単一量子デバイスにおける入出力不確定性の実験的実証

Experimental demonstration of input-output indefiniteness in a single quantum device ( http://arxiv.org/abs/2210.17046v2 )

ライセンス: Link先を確認
Yu Guo, Zixuan Liu, Hao Tang, Xiao-Min Hu, Bi-Heng Liu, Yun-Feng Huang, Chuan-Feng Li, Guang-Can Guo, Giulio Chiribella, (参考訳) 量子理論により、情報は2つの反対方向のコヒーレントな重ね合わせにおいて単一のデバイスを流れることができ、結果として入力出力方向が不確定な状況となる。 本稿では、単一量子デバイスにおける入出力不確定性を観測するための理論的手法を紹介し、69の標準偏差を超える統計的意義を持つ入出力不確定性を示すフォトニックセットアップを構築することにより、それを実験的に実証する。 本研究では,入力出力不確定性を量子情報やフォトニック量子技術の資源として特徴付けるとともに,時間方向における量子不確定性を示す仮説シナリオのテーブルトップシミュレーションを可能にする。

Quantum theory allows information to flow through a single device in a coherent superposition of two opposite directions, resulting into situations where the input-output direction is indefinite. Here we introduce a theoretical method to witness input-output indefiniteness in a single quantum device, and we experimentally demonstrate it by constructing a photonic setup that exhibits input-output indefiniteness with a statistical significance exceeding 69 standard deviations. Our results provide a way to characterize input-output indefiniteness as a resource for quantum information and photonic quantum technologies and enable table-top simulations of hypothetical scenarios exhibiting quantum indefiniteness in the direction of time.
翻訳日:2024-04-17 00:36:54 公開日:2024-04-14
# DeS3: ViT類似性を利用した適応的注意駆動型自己およびソフトシャドウ除去

DeS3: Adaptive Attention-driven Self and Soft Shadow Removal using ViT Similarity ( http://arxiv.org/abs/2211.08089v4 )

ライセンス: Link先を確認
Yeying Jin, Wei Ye, Wenhan Yang, Yuan Yuan, Robby T. Tan, (参考訳) 単一の画像から明確な境界を欠いた、ソフトで自己の影を取り除くことは、依然として難しい。 自己影は、オブジェクト自体に投射される影である。 既存のほとんどの方法は、ソフトシャドウとセルフシャドウの境界の曖昧さを考慮せずに、バイナリシャドウマスクに依存している。 本稿では,適応的注意とViT類似性に基づいて,ハード,ソフト,セルフシャドーを除去するDeS3を提案する。 我々の新しいViT類似度損失は、事前訓練された視覚変換器から抽出した特徴を利用する。 この損失は、リバースサンプリングをシーン構造の回復に導くのに役立つ。 我々の適応的な注意は、影領域を下層の物体と区別し、影領域を影を放つ物体と区別することができる。 この能力により、DeS3は影によって部分的に隠されている場合でも、オブジェクトの構造をよりよく回復することができる。 トレーニング段階の制約に依存する既存の方法とは異なり、サンプリング段階のViT類似性を取り入れる。 本手法は, SRD, AISTD, LRSS, USR, UIUCデータセットの最先端手法より優れ, ハード, ソフト, セルフシャドウを頑健に除去する。 具体的には、LRSSデータセット上の画像全体のRMSEの16倍の精度でSOTA法より優れている。 我々のデータとコードは以下の通りである。

Removing soft and self shadows that lack clear boundaries from a single image is still challenging. Self shadows are shadows that are cast on the object itself. Most existing methods rely on binary shadow masks, without considering the ambiguous boundaries of soft and self shadows. In this paper, we present DeS3, a method that removes hard, soft and self shadows based on adaptive attention and ViT similarity. Our novel ViT similarity loss utilizes features extracted from a pre-trained Vision Transformer. This loss helps guide the reverse sampling towards recovering scene structures. Our adaptive attention is able to differentiate shadow regions from the underlying objects, as well as shadow regions from the object casting the shadow. This capability enables DeS3 to better recover the structures of objects even when they are partially occluded by shadows. Different from existing methods that rely on constraints during the training phase, we incorporate the ViT similarity during the sampling stage. Our method outperforms state-of-the-art methods on the SRD, AISTD, LRSS, USR and UIUC datasets, removing hard, soft, and self shadows robustly. Specifically, our method outperforms the SOTA method by 16\% of the RMSE of the whole image on the LRSS dataset. Our data and code is available at: \url{https://github.com/jinyeying/DeS3_Deshadow}
翻訳日:2024-04-17 00:36:54 公開日:2024-04-14
# 制約サンプリングのためのLangevin Monte Carloアルゴリズム

Penalized Overdamped and Underdamped Langevin Monte Carlo Algorithms for Constrained Sampling ( http://arxiv.org/abs/2212.00570v2 )

ライセンス: Link先を確認
Mert Gürbüzbalaban, Yuanhan Hu, Lingjiong Zhu, (参考訳) 対象分布 $\pi(x)\propto e^{-f(x)}$ が凸体 $\mathcal{C}$ 上にあるとき、目的が対象分布 $\pi(x)\propto e^{-f(x)} からサンプリングすることであるような制約付きサンプリング問題を考える。 ペナルティ法を連続最適化から動機付け,制約違反に対するペナルティ関数を導入して,制約サンプリング問題を非制約サンプリング問題に変換する,ペナルティ付きランゲヴィン・ダイナミクス(PLD)およびペナルティ付きアンダーダム型ランゲヴィン・モンテカルロ(PULMC)手法を提案する。 f$がスムーズでグラデーションが利用できる場合、PDDがターゲットを最大で$\varepsilon$-errorまでサンプリングするのに、$\tilde{\mathcal{O}}(d/\varepsilon^{10})$イテレーションの複雑さがあり、テレビ距離でエラーが測定され、$\tilde{\mathcal{O}}(\cdot)$が対数要素を隠す。 PULMC に対して、$f の Hessian が Lipschitz であり、$\mathcal{C}$ の境界が十分に滑らかであるとき、 $\tilde{\mathcal{O}}(\sqrt{d}/\varepsilon^{7})$ に改善する。 我々の知る限り、これらは非凸$f$を処理し、決定論的勾配を持つ既存の方法の中で最高の次元依存性を持つ保証を与える制約付きサンプリングにおいて、アンダーダムされたランゲヴィン・モンテカルロ法に対する最初の収束結果である。 もし、$f$の勾配のバイアスのない確率的推定が利用可能であれば、確率的勾配を扱えるPSGLDおよびPSGULMC法を提案し、メトロポリス・ハスティング補正ステップを必要とせずに大規模データセットに拡張可能である。 PSGLD と PSGULMC に対して、$f$ が強凸かつ滑らかであるとき、W2 距離における反復複雑性$ $\tilde{\mathcal{O}}(d/\varepsilon^{18})$ と $\tilde{\mathcal{O}}(d\sqrt{d}/\varepsilon^{39}) を得る。 f$ が滑らかで非凸であれば、有限時間の性能境界とイテレーションの複雑さの結果を提供する。 最後に,ベイジアンLASSO回帰とベイジアン制約によるディープラーニング問題の性能について述べる。

We consider the constrained sampling problem where the goal is to sample from a target distribution $\pi(x)\propto e^{-f(x)}$ when $x$ is constrained to lie on a convex body $\mathcal{C}$. Motivated by penalty methods from continuous optimization, we propose penalized Langevin Dynamics (PLD) and penalized underdamped Langevin Monte Carlo (PULMC) methods that convert the constrained sampling problem into an unconstrained sampling problem by introducing a penalty function for constraint violations. When $f$ is smooth and gradients are available, we get $\tilde{\mathcal{O}}(d/\varepsilon^{10})$ iteration complexity for PLD to sample the target up to an $\varepsilon$-error where the error is measured in the TV distance and $\tilde{\mathcal{O}}(\cdot)$ hides logarithmic factors. For PULMC, we improve the result to $\tilde{\mathcal{O}}(\sqrt{d}/\varepsilon^{7})$ when the Hessian of $f$ is Lipschitz and the boundary of $\mathcal{C}$ is sufficiently smooth. To our knowledge, these are the first convergence results for underdamped Langevin Monte Carlo methods in the constrained sampling that handle non-convex $f$ and provide guarantees with the best dimension dependency among existing methods with deterministic gradient. If unbiased stochastic estimates of the gradient of $f$ are available, we propose PSGLD and PSGULMC methods that can handle stochastic gradients and are scaleable to large datasets without requiring Metropolis-Hasting correction steps. For PSGLD and PSGULMC, when $f$ is strongly convex and smooth, we obtain $\tilde{\mathcal{O}}(d/\varepsilon^{18})$ and $\tilde{\mathcal{O}}(d\sqrt{d}/\varepsilon^{39})$ iteration complexity in W2 distance. When $f$ is smooth and can be non-convex, we provide finite-time performance bounds and iteration complexity results. Finally, we illustrate the performance on Bayesian LASSO regression and Bayesian constrained deep learning problems.
翻訳日:2024-04-17 00:36:54 公開日:2024-04-14
# Autothrottle: SLOをターゲットとしたマイクロサービスのためのリソース管理の実践的バイレベルアプローチ

Autothrottle: A Practical Bi-Level Approach to Resource Management for SLO-Targeted Microservices ( http://arxiv.org/abs/2212.12180v5 )

ライセンス: Link先を確認
Zibo Wang, Pinghe Li, Chieh-Jan Mike Liang, Feng Wu, Francis Y. Yan, (参考訳) エンドユーザエクスペリエンスを維持しながら、リソース効率を達成することは、クラウドアプリケーションオペレーターにとって簡単なことではありません。 クラウドアプリケーションがマイクロサービスを採用するにつれて、リソースマネージャは、エンドツーエンドのアプリケーションレイテンシとサービス単位のリソース使用という、2つの異なるレベルのシステム動作に直面します。 しかし、この2つのレベルの間の翻訳は、ユーザ要求が一括して(不均一に)エンドツーエンドのレイテンシに寄与する異種サービスを横断しているため、難しい。 レイテンシSLO(サービスレベルの目的)を備えたマイクロサービス用の双方向リソース管理フレームワークであるAutothrottleを紹介します。 アーキテクチャ上、SLOのフィードバックをサービスリソースコントロールから切り離し、パフォーマンス目標の概念を通じてそれらをブリッジします。 具体的には、アプリケーション全体の学習ベースのコントローラを使用して、パフォーマンス目標(CPUスロットル比として表現される)を定期的に設定し、サービス単位のヒューリスティックコントローラが達成する。 プロダクションシナリオからのワークロードトレースを備えた,3つのマイクロサービスアプリケーション上でAutothrottleを評価する。 その結果、最高性能のベースラインを26.21%、全ベースラインを93.84%上回った。

Achieving resource efficiency while preserving end-user experience is non-trivial for cloud application operators. As cloud applications progressively adopt microservices, resource managers are faced with two distinct levels of system behavior: end-to-end application latency and per-service resource usage. Translating between the two levels, however, is challenging because user requests traverse heterogeneous services that collectively (but unevenly) contribute to the end-to-end latency. We present Autothrottle, a bi-level resource management framework for microservices with latency SLOs (service-level objectives). It architecturally decouples application SLO feedback from service resource control, and bridges them through the notion of performance targets. Specifically, an application-wide learning-based controller is employed to periodically set performance targets -- expressed as CPU throttle ratios -- for per-service heuristic controllers to attain. We evaluate Autothrottle on three microservice applications, with workload traces from production scenarios. Results show superior CPU savings, up to 26.21% over the best-performing baseline and up to 93.84% over all baselines.
翻訳日:2024-04-17 00:36:54 公開日:2024-04-14
# 証拠校正不確実性を利用した医用画像の信頼性確保に向けて

Towards Reliable Medical Image Segmentation by utilizing Evidential Calibrated Uncertainty ( http://arxiv.org/abs/2301.00349v3 )

ライセンス: Link先を確認
Ke Zou, Yidi Chen, Ling Huang, Xuedong Yuan, Xiaojing Shen, Meng Wang, Rick Siow Mong Goh, Yong Liu, Huazhu Fu, (参考訳) 医用画像のセグメンテーションは、疾患の診断と治療評価に重要である。 しかし, セグメンテーション領域の信頼性に関する懸念は, 信頼性評価, 堅牢性, 校正精度の欠如に起因する。 そこで我々は,様々な医用画像セグメンテーションネットワークにシームレスに統合可能な,実装が容易な基礎モデルであるDEviSを紹介する。 DEviSは、基準線分割精度の校正とロバスト性を向上するだけでなく、信頼性の高い予測のための高効率不確実性推定も提供する。 主観的論理理論を利用して、医用画像分割の問題に対する確率と不確実性を明示的にモデル化する。 ここで、ディリクレ分布は、セグメント化結果の異なるクラスに対する確率の分布をパラメータ化する。 校正予測と不確実性を生成するため,訓練可能な校正不確実性ペナルティを開発する。 さらに、DEviSには不確実性対応のフィルタリングモジュールが組み込まれており、不確実性校正エラーのメトリックを使用してデータセット内の信頼性データをフィルタリングする。 我々は,DviSセグメンテーションの精度とロバスト性を評価するとともに,不確実性推定の効率と信頼性を評価するための検証研究を行った。 これらの評価は、ISIC2018、LiTS2017、BraTS2019などの公開データセットを使用して実施された。 さらに、ジョンズホプキンスOCT、デュークOCT-DME、FIVESの2つの臨床試験が実施され、高品質またはアウト・オブ・ディストリビューションデータのフィルタリングの有効性が実証されている。 私たちのコードはhttps://github.com/Cocofeat/DEviS.comでリリースされています。

Medical image segmentation is critical for disease diagnosis and treatment assessment. However, concerns regarding the reliability of segmentation regions persist among clinicians, mainly attributed to the absence of confidence assessment, robustness, and calibration to accuracy. To address this, we introduce DEviS, an easily implementable foundational model that seamlessly integrates into various medical image segmentation networks. DEviS not only enhances the calibration and robustness of baseline segmentation accuracy but also provides high-efficiency uncertainty estimation for reliable predictions. By leveraging subjective logic theory, we explicitly model probability and uncertainty for the problem of medical image segmentation. Here, the Dirichlet distribution parameterizes the distribution of probabilities for different classes of the segmentation results. To generate calibrated predictions and uncertainty, we develop a trainable calibrated uncertainty penalty. Furthermore, DEviS incorporates an uncertainty-aware filtering module, which utilizes the metric of uncertainty-calibrated error to filter reliable data within the dataset. We conducted validation studies to assess both the accuracy and robustness of DEviS segmentation, along with evaluating the efficiency and reliability of uncertainty estimation. These evaluations were performed using publicly available datasets including ISIC2018, LiTS2017, and BraTS2019. Additionally, two potential clinical trials are being conducted at Johns Hopkins OCT, Duke-OCT-DME, and FIVES datasets to demonstrate their efficacy in filtering high-quality or out-of-distribution data. Our code has been released in https://github.com/Cocofeat/DEviS.
翻訳日:2024-04-17 00:36:54 公開日:2024-04-14
# トポロジカル非エルミート皮膚効果

Topological Non-Hermitian skin effect ( http://arxiv.org/abs/2302.03057v3 )

ライセンス: Link先を確認
Rijia Lin, Tommy Tai, Mengjie Yang, Linhu Li, Ching Hua Lee, (参考訳) 本稿では,非エルミート皮膚効果(NHSE)の最近の進展,特にトポロジーとの豊かな相互作用について概説する。 このレビューは、修正されたバルク境界対応、高次元におけるNHSEとバンドトポロジーの相乗とハイブリッド化、およびスペクトル巻線トポロジーやスペクトルグラフトポロジーのような複雑なエネルギー平面上の関連するトポロジーの台頭から始まる。 その後、非エルミート臨界性、動的NHSE現象、および従来の線形非相互作用結晶格子、特に量子多体相互作用との相互作用を超えたNHSEの顕在化など、新たなトピックが導入される。 最後に、NHSEの最近の実演と実験的提案について調査する。

This article reviews recent developments in the non-Hermitian skin effect (NHSE), particularly on its rich interplay with topology. The review starts off with a pedagogical introduction on the modified bulk-boundary correspondence, the synergy and hybridization of NHSE and band topology in higher dimensions, as well as, the associated topology on the complex energy plane such as spectral winding topology and spectral graph topology. Following which, emerging topics are introduced such as non-Hermitian criticality, dynamical NHSE phenomena, and the manifestation of NHSE beyond the traditional linear non-interacting crystal lattices, particularly its interplay with quantum many-body interactions. Finally, we survey the recent demonstrations and experimental proposals of NHSE.
翻訳日:2024-04-17 00:36:54 公開日:2024-04-14
# In-N-Out:Fithful 3D GAN Inversion with Volume Decomposition for Face Editing

In-N-Out: Faithful 3D GAN Inversion with Volumetric Decomposition for Face Editing ( http://arxiv.org/abs/2302.04871v4 )

ライセンス: Link先を確認
Yiran Xu, Zhixin Shu, Cameron Smith, Seoung Wug Oh, Jia-Bin Huang, (参考訳) 3D対応のGANは、2D対応の編集機能を保ちながら、ビュー合成のための新しい機能を提供する。 GANインバージョンは、入力画像や動画を再構成する潜時コードを求める重要なステップであり、この潜時コードを操作することで様々な編集タスクを可能にする。 しかし、特定のデータセット(例えばFFHQ)に事前トレーニングされたモデルでは、重いメイクアップや隠蔽オブジェクトのような、配布外(OOD)オブジェクトで画像の再構成が難しい場合が多い。 我々は3次元GANの入力からOODオブジェクトを明示的にモデル化することでこの問題に対処する。 我々の中核的な考え方は、2つの個別の神経放射場を用いて画像を表現することである:1つは分布内コンテンツ、もう1つは分布外オブジェクトである。 これら2つの放射場の構成を慎重に設計した正則化で最適化することで、最終的な再構成が達成される。 我々は, 明示的な分解により, 復元の忠実度と編集性とのトレードオフが緩和されることを実証した。 提案手法の再現精度と編集性を評価し,他のベースラインに対して良好な結果を示す。

3D-aware GANs offer new capabilities for view synthesis while preserving the editing functionalities of their 2D counterparts. GAN inversion is a crucial step that seeks the latent code to reconstruct input images or videos, subsequently enabling diverse editing tasks through manipulation of this latent code. However, a model pre-trained on a particular dataset (e.g., FFHQ) often has difficulty reconstructing images with out-of-distribution (OOD) objects such as faces with heavy make-up or occluding objects. We address this issue by explicitly modeling OOD objects from the input in 3D-aware GANs. Our core idea is to represent the image using two individual neural radiance fields: one for the in-distribution content and the other for the out-of-distribution object. The final reconstruction is achieved by optimizing the composition of these two radiance fields with carefully designed regularization. We demonstrate that our explicit decomposition alleviates the inherent trade-off between reconstruction fidelity and editability. We evaluate reconstruction accuracy and editability of our method on challenging real face images and videos and showcase favorable results against other baselines.
翻訳日:2024-04-17 00:26:56 公開日:2024-04-14
# アンシラフリー量子誤り訂正符号による距離制限の達成

Achieving metrological limits using ancilla-free quantum error-correcting codes ( http://arxiv.org/abs/2303.00881v2 )

ライセンス: Link先を確認
Sisi Zhou, Argyris Giannisis Manes, Liang Jiang, (参考訳) 量子誤差補正(QEC)は理論上、ノイズ量子メートル法において究極の推定限界を達成することができる。 しかし、ノイズ量子メートル法のために設計された既存の量子誤り訂正符号は、一般に同一次元の1つのプローブと1つのノイズのないアンシラの間の絡み合いを利用しており、ノイズのないアンシラの要求は、実際にQECメートル法プロトコルを実装する上での大きな障害の1つである。 ここでは、2種類の多重プローブ量子誤り訂正符号を明示的に構築することにより、この要件を解消し、第1のものは無視可能な量のアンシラを使用し、第2のものはアンシラフリーである。 具体的には、マルコフ雑音下でのハミルトン推定を考察し、そのことを示す。 (i)–ハイゼンベルク極限(HL)が達成可能であれば、我々の新しい符号はHLとその最適漸近係数を達成することができる。 (ii)~標準量子極限(SQL)のみが達成可能である場合(任意の適応量子戦略であっても)、SQLの最適漸近係数は、わずかな修正の下で新しい符号によっても達成可能である。

Quantum error correction (QEC) is theoretically capable of achieving the ultimate estimation limits in noisy quantum metrology. However, existing quantum error-correcting codes designed for noisy quantum metrology generally exploit entanglement between one probe and one noiseless ancilla of the same dimension, and the requirement of noiseless ancillas is one of the major obstacles to implementing the QEC metrological protocol in practice. Here we successfully lift this requirement by explicitly constructing two types of multi-probe quantum error-correcting codes, where the first one utilizes a negligible amount of ancillas and the second one is ancilla-free. Specifically, we consider Hamiltonian estimation under Markovian noise and show that (i)~when the Heisenberg limit (HL) is achievable, our new codes can achieve the HL and its optimal asymptotic coefficient; (ii)~when only the standard quantum limit (SQL) is achievable (even with arbitrary adaptive quantum strategies), the optimal asymptotic coefficient of the SQL is also achievable by our new codes under slight modifications.
翻訳日:2024-04-17 00:26:56 公開日:2024-04-14
# オープンセット半教師あり学習のための適応的負の証拠深層学習

Adaptive Negative Evidential Deep Learning for Open-set Semi-supervised Learning ( http://arxiv.org/abs/2303.12091v4 )

ライセンス: Link先を確認
Yang Yu, Danruo Deng, Furui Liu, Yueming Jin, Qi Dou, Guangyong Chen, Pheng-Ann Heng, (参考訳) 半教師付き学習(SSL)法は、ラベル付きデータ、ラベルなしデータ、テストデータが同じ分布から来ていると仮定する。 オープンセット半教師付き学習(Open-set SSL)は、ラベル付きデータ(inliers)で観測されない新しいカテゴリ(outliers)を含むラベル付きデータとテストデータを含む、より実践的なシナリオである。 これまでのほとんどの研究は、スケーラビリティが不十分で、異なるタイプの不確実性を区別できないバイナリ分類器による外部検出に重点を置いていた。 本稿では,これらの制約に対処するための新しいフレームワークである適応負の証拠深層学習(ANEDL)を提案する。 具体的には,まず,不確実性の種類を定量化し,自己学習と推論のための異なる不確実性指標を設計するために,外乱検出器として顕在的深層学習(EDL)を導入する。 さらに,新しい適応的負の最適化手法を提案し,不整合と外れ値の両方を含むラベル付きデータセットに適合するようにした。 実証実験により,提案手法は4つのデータセットにまたがる既存の最先端手法よりも優れていた。

Semi-supervised learning (SSL) methods assume that labeled data, unlabeled data and test data are from the same distribution. Open-set semi-supervised learning (Open-set SSL) considers a more practical scenario, where unlabeled data and test data contain new categories (outliers) not observed in labeled data (inliers). Most previous works focused on outlier detection via binary classifiers, which suffer from insufficient scalability and inability to distinguish different types of uncertainty. In this paper, we propose a novel framework, Adaptive Negative Evidential Deep Learning (ANEDL) to tackle these limitations. Concretely, we first introduce evidential deep learning (EDL) as an outlier detector to quantify different types of uncertainty, and design different uncertainty metrics for self-training and inference. Furthermore, we propose a novel adaptive negative optimization strategy, making EDL more tailored to the unlabeled dataset containing both inliers and outliers. As demonstrated empirically, our proposed method outperforms existing state-of-the-art methods across four datasets.
翻訳日:2024-04-17 00:26:56 公開日:2024-04-14
# 長大な分類のための曲率ベース特徴マニフォールド学習

Curvature-Balanced Feature Manifold Learning for Long-Tailed Classification ( http://arxiv.org/abs/2303.12307v3 )

ライセンス: Link先を確認
Yanbiao Ma, Licheng Jiao, Fang Liu, Shuyuan Yang, Xu Liu, Lingling Li, (参考訳) 長い尾の分類の課題に対処するために、研究者はモデルバイアスを減らすいくつかのアプローチを提案しており、そのほとんどはサンプルが少ないクラスが弱いクラスであると仮定している。 しかし、最近の研究では、テールクラスは必ずしも学習が困難ではないことが示されており、サンプルバランスのデータセットではモデルバイアスが観察されており、モデルバイアスに影響を与える他の要因の存在が示唆されている。 本研究では,深層ニューラルネットワークにおける知覚多様体の幾何的測定を体系的に提案し,また,知覚多様体の幾何学的特性が分類難易度および学習形態の知覚多様体の幾何学的特性に与える影響について検討する。 予想外の発見は、クラス精度と知覚多様体の分離度との相関が、トレーニング中に徐々に減少する一方で、曲率との負の相関が徐々に増加し、曲率の不均衡がモデルバイアスをもたらすことを意味する。 そこで本研究では, 曲率バランスと平らな知覚多様体の学習を容易にするために, 曲率正規化を提案する。 複数の長い尾のデータセットと非長い尾のデータセットの評価は、我々のアプローチの優れたパフォーマンスとエキサイティングな一般性を示している。 我々の研究は、モデルバイアスに関する幾何学的分析の視点を開き、非長い尾とサンプルバランスのデータセットのモデルバイアスに注意を払うよう研究者に促す。 コードとモデルは公開されます。

To address the challenges of long-tailed classification, researchers have proposed several approaches to reduce model bias, most of which assume that classes with few samples are weak classes. However, recent studies have shown that tail classes are not always hard to learn, and model bias has been observed on sample-balanced datasets, suggesting the existence of other factors that affect model bias. In this work, we systematically propose a series of geometric measurements for perceptual manifolds in deep neural networks, and then explore the effect of the geometric characteristics of perceptual manifolds on classification difficulty and how learning shapes the geometric characteristics of perceptual manifolds. An unanticipated finding is that the correlation between the class accuracy and the separation degree of perceptual manifolds gradually decreases during training, while the negative correlation with the curvature gradually increases, implying that curvature imbalance leads to model bias. Therefore, we propose curvature regularization to facilitate the model to learn curvature-balanced and flatter perceptual manifolds. Evaluations on multiple long-tailed and non-long-tailed datasets show the excellent performance and exciting generality of our approach, especially in achieving significant performance improvements based on current state-of-the-art techniques. Our work opens up a geometric analysis perspective on model bias and reminds researchers to pay attention to model bias on non-long-tailed and even sample-balanced datasets. The code and model will be made public.
翻訳日:2024-04-17 00:26:56 公開日:2024-04-14
# 標準化されたアンサンブル知識蒸留による作物の分別領域の一般化

Domain Generalization for Crop Segmentation with Standardized Ensemble Knowledge Distillation ( http://arxiv.org/abs/2304.01029v3 )

ライセンス: Link先を確認
Simone Angarano, Mauro Martini, Alessandro Navone, Marcello Chiaberge, (参考訳) 近年、精密農業は、現場管理に関わるすべての活動を支援するために、自動化プロセスに近い農業を徐々に重視している。 サービスロボティクスは、人間の介入なしに監視、噴霧、収穫などのタスクを実行しながら、フィールドをナビゲートできる自律エージェントを配置することで、この進化において主要な役割を果たす。 これらの正確な行動を実行するには、移動ロボットは周囲を理解し、野生のターゲットを識別するリアルタイム認識システムが必要である。 しかし、既存の方法はしばしば、新しい作物や環境条件への一般化において不足している。 この制限は、ラベル付きサンプルがほとんど利用できない実用的なアプリケーションにとって重要である。 本稿では,作物の分別化の問題点を考察し,知識蒸留を用いた領域一般化の新たなアプローチを提案する。 提案フレームワークでは、ソースドメイン上で個別に訓練されたモデルの標準化されたアンサンブルから、目に見えない現実的なシナリオに適応可能な学生モデルへ知識を伝達する。 提案手法を支援するために, 異なる地形, 気象条件, 光のシナリオを70,000以上のサンプルに対してカバーし, 種別植物を含む作物分割のための合成多分野データセットを提案する。 我々は、最先端の手法よりも性能が大幅に向上し、より優れたsim-to-realの一般化を示す。 我々のアプローチは、作物の分枝における領域の一般化に有望な解決策を提供し、幅広い農業応用を拡大する可能性を持っている。

In recent years, precision agriculture has gradually oriented farming closer to automation processes to support all the activities related to field management. Service robotics plays a predominant role in this evolution by deploying autonomous agents that can navigate fields while performing tasks such as monitoring, spraying, and harvesting without human intervention. To execute these precise actions, mobile robots need a real-time perception system that understands their surroundings and identifies their targets in the wild. Existing methods, however, often fall short in generalizing to new crops and environmental conditions. This limit is critical for practical applications where labeled samples are rarely available. In this paper, we investigate the problem of crop segmentation and propose a novel approach to enhance domain generalization using knowledge distillation. In the proposed framework, we transfer knowledge from a standardized ensemble of models individually trained on source domains to a student model that can adapt to unseen realistic scenarios. To support the proposed method, we present a synthetic multi-domain dataset for crop segmentation containing plants of variegate species and covering different terrain styles, weather conditions, and light scenarios for more than 70,000 samples. We demonstrate significant improvements in performance over state-of-the-art methods and superior sim-to-real generalization. Our approach provides a promising solution for domain generalization in crop segmentation and has the potential to enhance a wide variety of agriculture applications.
翻訳日:2024-04-17 00:26:56 公開日:2024-04-14
# 胸部CT検診における汎用医用AI

Specialty-Oriented Generalist Medical AI for Chest CT Screening ( http://arxiv.org/abs/2304.02649v3 )

ライセンス: Link先を確認
Chuang Niu, Qing Lyu, Christopher D. Carothers, Parisa Kaviani, Josh Tan, Pingkun Yan, Mannudeep K. Kalra, Christopher T. Whitlow, Ge Wang, (参考訳) 現代の医療記録には、膨大な量のマルチモーダル・フリーテキスト臨床データと、放射線学、心臓学、デジタル病理学からの画像データが含まれている。 このようなビッグデータを完全にマイニングするにはマルチタスクが必要である。そうでなければ、オカルトだが重要な側面は見過ごされ、臨床管理や人口医療に悪影響を及ぼす可能性がある。 単一モーダルデータを用いた個々のタスクにおけるAIの顕著な成功にもかかわらず、データキュレーションとモデルアーキテクチャの2つの課題のために、マルチタスクのためのマルチモーダルデータを組み合わせるための一般の医療AIの開発の進歩は、比較的遅いままである。 データ課題は、マルチモーダルな構造化および非構造化のテキスト、アルファ数値、特にリアルタイム決定のための患者レベルでの3Dトモグラフィースキャンを、人口健康統計を推定するためのスケールでクエリし、キュレートすることである。 このモデル課題は、多様な臨床タスクのためのマルチモーダルデータセットを統合するために、スケーラブルで適応可能なネットワークアーキテクチャを必要とする。 本稿では,肺がん検診および関連する課題に応用したM3FMの基礎モデルを提案する。 163,725個の胸部CTシリーズを含む49種類の臨床データとLCSに関わる17の医療タスクからなる総合マルチモーダルマルチタスクデータセットをキュレートした後,我々は多モーダル情報の相乗化と自由テキストプロンプトによる複数タスク実行のための統一的なトレーニングおよび推論戦略として,多モーダル質問応答フレームワークを開発した。 M3FMは、最先端の単一モーダルタスク固有のモデルより一貫して優れており、臨床タスクに有用なマルチモーダルデータ要素を特定し、小さなアウト・オブ・ディストリビューションデータセットで新しいタスクに柔軟に適応する。 専門的な汎用的な医療AIモデルとして、M3FMは、専門医とジェネラリストのギャップを埋め、他の分野における同様のブレークスルーの道を開く。

Modern medical records include a vast amount of multimodal free text clinical data and imaging data from radiology, cardiology, and digital pathology. Fully mining such big data requires multitasking; otherwise, occult but important aspects may be overlooked, adversely affecting clinical management and population healthcare. Despite remarkable successes of AI in individual tasks with single-modal data, the progress in developing generalist medical AI remains relatively slow to combine multimodal data for multitasks because of the dual challenges of data curation and model architecture. The data challenge involves querying and curating multimodal structured and unstructured text, alphanumeric, and especially 3D tomographic scans on an individual patient level for real-time decisions and on a scale to estimate population health statistics. The model challenge demands a scalable and adaptable network architecture to integrate multimodal datasets for diverse clinical tasks. Here we propose the first-of-its-kind medical multimodal-multitask foundation model (M3FM) with application in lung cancer screening and related tasks. After we curated a comprehensive multimodal multitask dataset consisting of 49 clinical data types including 163,725 chest CT series and 17 medical tasks involved in LCS, we develop a multimodal question-answering framework as a unified training and inference strategy to synergize multimodal information and perform multiple tasks via free-text prompting. M3FM consistently outperforms the state-of-the-art single-modal task-specific models, identifies multimodal data elements informative for clinical tasks and flexibly adapts to new tasks with a small out-of-distribution dataset. As a specialty-oriented generalist medical AI model, M3FM paves the way for similar breakthroughs in other areas of medicine, closing the gap between specialists and the generalist.
翻訳日:2024-04-17 00:26:56 公開日:2024-04-14
# EE-TTS:言語情報を用いた強調表現型TS

EE-TTS: Emphatic Expressive TTS with Linguistic Information ( http://arxiv.org/abs/2305.12107v2 )

ライセンス: Link先を確認
Yi Zhong, Chen Zhang, Xule Liu, Chenxi Sun, Weishan Deng, Haifeng Hu, Zhongqian Sun, (参考訳) 現在のTSシステムは高品質な音声を合成するのに優れているが、高い表現力のある音声を生成することは依然として課題である。 強調は、音声の表現力を決定する重要な要因として、近年より注目を集めている。 先行研究は通常、中間的な特徴を加えることで強調を強めるが、音声の全体的な表現性を保証することはできない。 そこで本研究では,構文や意味論から多段階の言語情報を活用するEmphatic Expressive TTS(EE-TTS)を提案する。 EE-TTSには、テキストから適切な強調位置を特定できる強調予測器と、強調情報と言語情報で表現音声を合成する条件付き音響モデルが含まれている。 実験の結果、EE-TTSは、表現性と自然性において、MOSの改善0.49と0.67でベースラインを上回った。 EE-TTSはまた、ABテスト結果に従って、異なるデータセット間で強力な一般化を示す。

While Current TTS systems perform well in synthesizing high-quality speech, producing highly expressive speech remains a challenge. Emphasis, as a critical factor in determining the expressiveness of speech, has attracted more attention nowadays. Previous works usually enhance the emphasis by adding intermediate features, but they can not guarantee the overall expressiveness of the speech. To resolve this matter, we propose Emphatic Expressive TTS (EE-TTS), which leverages multi-level linguistic information from syntax and semantics. EE-TTS contains an emphasis predictor that can identify appropriate emphasis positions from text and a conditioned acoustic model to synthesize expressive speech with emphasis and linguistic information. Experimental results indicate that EE-TTS outperforms baseline with MOS improvements of 0.49 and 0.67 in expressiveness and naturalness. EE-TTS also shows strong generalization across different datasets according to AB test results.
翻訳日:2024-04-17 00:17:02 公開日:2024-04-14
# 再帰のカース:生成したデータのトレーニングはモデルを忘れる

The Curse of Recursion: Training on Generated Data Makes Models Forget ( http://arxiv.org/abs/2305.17493v3 )

ライセンス: Link先を確認
Ilia Shumailov, Zakhar Shumaylov, Yiren Zhao, Yarin Gal, Nicolas Papernot, Ross Anderson, (参考訳) 安定拡散は説明文からのイメージ創造に革命をもたらした。 GPT-2、GPT-3(.5)、GPT-4は様々な言語タスクで驚くべき性能を示した。 ChatGPTはそのような言語モデルを一般向けに導入した。 大規模言語モデル(LLM)が存続し、オンラインテキストと画像のエコシステム全体に劇的な変化をもたらすことは明らかだ。 本稿では,今後の展望について考察する。 LLMがオンラインにある言語の多くに貢献したら、GPT-{n}はどうなるでしょう? トレーニングにおけるモデル生成コンテンツの使用は、元のコンテンツ分布の尾部が消える結果のモデルに不可逆的な欠陥を引き起こす。 この効果をモデル崩壊と呼び、変分オートエンコーダ、ガウス混合モデル、LLMで起こりうることを示す。 我々は、この現象の背後にある理論的直観を構築し、そのユビキティを、すべての学習された生成モデルの中で表現する。 Webから取り除かれた大規模なデータからトレーニングのメリットを維持するためには、真剣に取り組まなければならないことを実証する。 実際、システムとの真の人間関係に関する収集されたデータの価値は、インターネットからクロールされたデータの中でLLMが生成したコンテンツの存在において、ますます貴重になるでしょう。

Stable Diffusion revolutionised image creation from descriptive text. GPT-2, GPT-3(.5) and GPT-4 demonstrated astonishing performance across a variety of language tasks. ChatGPT introduced such language models to the general public. It is now clear that large language models (LLMs) are here to stay, and will bring about drastic change in the whole ecosystem of online text and images. In this paper we consider what the future might hold. What will happen to GPT-{n} once LLMs contribute much of the language found online? We find that use of model-generated content in training causes irreversible defects in the resulting models, where tails of the original content distribution disappear. We refer to this effect as Model Collapse and show that it can occur in Variational Autoencoders, Gaussian Mixture Models and LLMs. We build theoretical intuition behind the phenomenon and portray its ubiquity amongst all learned generative models. We demonstrate that it has to be taken seriously if we are to sustain the benefits of training from large-scale data scraped from the web. Indeed, the value of data collected about genuine human interactions with systems will be increasingly valuable in the presence of content generated by LLMs in data crawled from the Internet.
翻訳日:2024-04-17 00:17:02 公開日:2024-04-14
# モジュール強化学習のための不均質な知識

Heterogeneous Knowledge for Augmented Modular Reinforcement Learning ( http://arxiv.org/abs/2306.01158v2 )

ライセンス: Link先を確認
Lorenz Wolf, Mirco Musolesi, (参考訳) 既存のモジュラー強化学習(RL)アーキテクチャは一般に再利用可能なコンポーネントに基づいており、 ``plug-and-play' 統合も可能である。 しかし、これらの加群は本質的に同質であり、実際には、個々の報酬関数の最大化を通じて RL を通じて得られるポリシーを本質的に提供する。 その結果、これらのソリューションには、ルール、サブゴール、様々なソースからのスキルなど、複数の種類の情報(異種知識表現)の統合と処理能力がない。 本稿では、異種知識の実践例をいくつか紹介し、これらの制約に対処するための拡張モジュール強化学習(AMRL)を提案する。 我々のフレームワークは、セレクタを使用して異種モジュールを結合し、異なる種類の知識表現と処理機構をシームレスに組み込む。 本研究は, 従来のモジュールRLを多種多様な知識源と処理機構で拡張することにより, 性能と効率性の向上を, 一般化の観点から示すものである。

Existing modular Reinforcement Learning (RL) architectures are generally based on reusable components, also allowing for ``plug-and-play'' integration. However, these modules are homogeneous in nature - in fact, they essentially provide policies obtained via RL through the maximization of individual reward functions. Consequently, such solutions still lack the ability to integrate and process multiple types of information (i.e., heterogeneous knowledge representations), such as rules, sub-goals, and skills from various sources. In this paper, we discuss several practical examples of heterogeneous knowledge and propose Augmented Modular Reinforcement Learning (AMRL) to address these limitations. Our framework uses a selector to combine heterogeneous modules and seamlessly incorporate different types of knowledge representations and processing mechanisms. Our results demonstrate the performance and efficiency improvements, also in terms of generalization, that can be achieved by augmenting traditional modular RL with heterogeneous knowledge sources and processing mechanisms.
翻訳日:2024-04-17 00:17:02 公開日:2024-04-14
# クラウドからの学習のためのアノテータおよびインスタンス依存遷移行列の転送

Transferring Annotator- and Instance-dependent Transition Matrix for Learning from Crowds ( http://arxiv.org/abs/2306.03116v3 )

ライセンス: Link先を確認
Shikun Li, Xiaobo Xia, Jiankang Deng, Shiming Ge, Tongliang Liu, (参考訳) 群衆から学んだことは、トレーニングデータのアノテーションはクラウドソーシングサービスによって得られるということだ。 複数のアノテーションはそれぞれのアノテーションの小さな部分を完了し、アノテーションに依存するエラーのラベル付けが頻繁に発生する。 ノイズ遷移行列によるラベルノイズ生成過程のモデル化は,ラベルノイズに対処するためのパワーツールである。 現実のクラウドソーシングシナリオでは、ノイズ遷移行列はアノテータとインスタンスに依存します。 しかし、アノテータとインスタンス依存遷移行列(AIDTM)の複雑さが高いため、各アノテータはインスタンスのごく一部しかラベル付けしないため、AIDTMのモデリングは非常に困難である。 先行研究は、遷移行列がインスタンス非依存であるか、あるいは単純なパラメトリックな方法で仮定することで問題を単純化し、モデリングの一般性を失う。 これを受けて、我々はより現実的な問題をターゲットに、現実的な一般AIDTMを推定する。 モデリングの一般性を失うことなく、AIDTMをディープニューラルネットワークでパラメータ化する。 モデリングの課題を軽減するため、全てのアノテータが類似のアノテータとノイズパターンを共有し、知識伝達を介してAIDTMを推定する。 したがって、まずすべてのアノテータによるノイズパターンの混合をモデル化し、それから個々のアノテータにこのモデリングを転送する。 さらに、ノイズパターンの混合から個人への変換が、非常に異なるノイズ世代を持つ2つのアノテータ間の摂動を引き起こす可能性があることを考慮し、同定された隣り合うアノテータ間の知識伝達を用いてモデリングを校正する。 理論分析は、グローバルから個人への知識伝達と、近隣の個人間の知識伝達の両方が一般的なAIDTMのモデル化に役立つことを示すために導かれる。 実験により、合成および実世界のクラウドソーシングデータに対する提案手法の優位性が確認された。

Learning from crowds describes that the annotations of training data are obtained with crowd-sourcing services. Multiple annotators each complete their own small part of the annotations, where labeling mistakes that depend on annotators occur frequently. Modeling the label-noise generation process by the noise transition matrix is a power tool to tackle the label noise. In real-world crowd-sourcing scenarios, noise transition matrices are both annotator- and instance-dependent. However, due to the high complexity of annotator- and instance-dependent transition matrices (AIDTM), annotation sparsity, which means each annotator only labels a little part of instances, makes modeling AIDTM very challenging. Prior works simplify the problem by assuming the transition matrix is instance-independent or using simple parametric ways, which lose modeling generality. Motivated by this, we target a more realistic problem, estimating general AIDTM in practice. Without losing modeling generality, we parameterize AIDTM with deep neural networks. To alleviate the modeling challenge, we suppose every annotator shares its noise pattern with similar annotators, and estimate AIDTM via knowledge transfer. We hence first model the mixture of noise patterns by all annotators, and then transfer this modeling to individual annotators. Furthermore, considering that the transfer from the mixture of noise patterns to individuals may cause two annotators with highly different noise generations to perturb each other, we employ the knowledge transfer between identified neighboring annotators to calibrate the modeling. Theoretical analyses are derived to demonstrate that both the knowledge transfer from global to individuals and the knowledge transfer between neighboring individuals can help model general AIDTM. Experiments confirm the superiority of the proposed approach on synthetic and real-world crowd-sourcing data.
翻訳日:2024-04-17 00:07:07 公開日:2024-04-14
# ベイジアン・プリズムによるインテクスト学習

In-Context Learning through the Bayesian Prism ( http://arxiv.org/abs/2306.04891v2 )

ライセンス: Link先を確認
Madhur Panwar, Kabir Ahuja, Navin Goyal, (参考訳) In-context Learning (ICL) は、大きな言語モデルの驚きと有用な特徴の1つであり、激しい研究の対象となっている。 近年,入力出力対の列上の変換器を$(x, f(x))$で訓練する方式が考案されている。 関数$f$は関数クラスから来て、同じクラスから見えない関数から生成されたシーケンスを評価することで一般化をチェックする。 この研究の行の主な発見の1つは、線形回帰のようないくつかの関数クラスにおいて、変換器がクラス内の新しい関数に一般化することに成功したことである。 しかし、これらのモデルがこのような振る舞いをもたらす誘導バイアスは明確には理解されていない。 無制限のトレーニングデータと計算能力を持つモデルはベイズ予測器であり、事前学習分布を学習する。 本稿では,このベイズ的視点がICLの理解にどの程度役立つのかを実証的に検討する。 この目的のために,従来のメタICLセットアップを複数のタスクファミリの結合を含む階層的なメタICLセットアップに一般化する。 我々は、この設定を多種多様な線形および非線形関数列でインスタンス化し、変換器がこの設定でICLを実行できることを発見した。 ベイズ予想が導出可能な場合、大容量変圧器がベイズ予測器を模倣している証拠が見つかる。 ベイズ的視点は、ICLの帰納的バイアスと、トランスフォーマーが複数のタスクでトレーニングされたときの特定のタスクの実行方法に関する洞察を提供する。 また、トランスフォーマーは事前トレーニング中に見られなかった新しい関数クラスに一般化することを学ぶことができる。 これはベイズ予測器からの偏差を伴う。 我々はこれらの偏差をより深く検討し、新たな洞察と仮説を提供する。

In-context learning (ICL) is one of the surprising and useful features of large language models and subject of intense research. Recently, stylized meta-learning-like ICL setups have been devised that train transformers on sequences of input-output pairs $(x, f(x))$. The function $f$ comes from a function class and generalization is checked by evaluating on sequences generated from unseen functions from the same class. One of the main discoveries in this line of research has been that for several function classes, such as linear regression, transformers successfully generalize to new functions in the class. However, the inductive biases of these models resulting in this behavior are not clearly understood. A model with unlimited training data and compute is a Bayesian predictor: it learns the pretraining distribution. In this paper we empirically examine how far this Bayesian perspective can help us understand ICL. To this end, we generalize the previous meta-ICL setup to hierarchical meta-ICL setup which involve unions of multiple task families. We instantiate this setup on a diverse range of linear and nonlinear function families and find that transformers can do ICL in this setting as well. Where Bayesian inference is tractable, we find evidence that high-capacity transformers mimic the Bayesian predictor. The Bayesian perspective provides insights into the inductive bias of ICL and how transformers perform a particular task when they are trained on multiple tasks. We also find that transformers can learn to generalize to new function classes that were not seen during pretraining. This involves deviation from the Bayesian predictor. We examine these deviations in more depth offering new insights and hypotheses.
翻訳日:2024-04-17 00:07:07 公開日:2024-04-14
# ランダム構成アルゴリズムを用いた解釈可能なニューラルネットワーク

Interpretable Neural Networks with Random Constructive Algorithm ( http://arxiv.org/abs/2307.00185v3 )

ライセンス: Link先を確認
Jing Nan, Wei Dai, (参考訳) 本稿では,無作為重み付きニューラルネットワークの不透明なパラメータ化プロセスに取り組むために,空間情報を組み込んだ解釈型ニューラルネットワーク(INN)を提案する。 INNは空間情報を活用し、パラメータとネットワーク残差の接続を解明する。 さらに、候補ノードのプールを用いた幾何学的関係戦略を考案し、ネットワーク収束に寄与するノードパラメータを選択するための関係を確立する。 さらに,大規模データモデリングタスクに適した軽量バージョンの INN を提案する。 また, INN の無限近似特性について述べる。 さまざまなベンチマークデータセットと実世界の産業事例に関する実験的な発見は、モデリング速度、精度、ネットワーク構造の観点から、同じタイプの他のニューラルネットワークよりもINNの方が優れていることを示している。

This paper introduces an Interpretable Neural Network (INN) incorporating spatial information to tackle the opaque parameterization process of random weighted neural networks. The INN leverages spatial information to elucidate the connection between parameters and network residuals. Furthermore, it devises a geometric relationship strategy using a pool of candidate nodes and established relationships to select node parameters conducive to network convergence. Additionally, a lightweight version of INN tailored for large-scale data modeling tasks is proposed. The paper also showcases the infinite approximation property of INN. Experimental findings on various benchmark datasets and real-world industrial cases demonstrate INN's superiority over other neural networks of the same type in terms of modeling speed, accuracy, and network structure.
翻訳日:2024-04-17 00:07:07 公開日:2024-04-14
# 重ね合わせ現象としての芳香族の電子非局在化

Electron delocalization in aromaticity as a superposition phenomenon ( http://arxiv.org/abs/2307.00672v2 )

ライセンス: Link先を確認
Mahir H. Yeşiller, Onur Pusuluk, (参考訳) この手紙は、量子化学の領域における量子重ね合わせの資源理論の適用と拡張について考察する。 具体的には, ベンゼンとその誘導体の構造対称性, エネルギー安定性, 化学反応性を解明するための基本概念である芳香族性について検討する。 芳香族性とその反芳香族性は非直交原子軌道間の電子の非局在化と関連しているが、それらは普遍的に受け入れられ、包括的定義を欠いている。 生物直交原子軌道で示される真の量子重ね合わせは、代表単環分子の芳香族度秩序を効果的に捉えることを実証する。 これらの結果は、量子資源理論が重要な意味を持ち、化学結合現象の理解に新たな洞察を与えていることを示している。

This letter investigates the applications and extensions of the resource theory of quantum superposition within the realm of quantum chemistry. Specifically, we explore aromaticity, a fundamental concept originally developed to elucidate the structural symmetry, energetic stability, and chemical reactivity of benzene and its derivatives. While aromaticity and its counterpart, antiaromaticity, are associated with the delocalization of electrons between nonorthogonal atomic orbitals, they lack a universally accepted and comprehensive definition. We demonstrate that the genuine quantum superposition exhibited by biorthogonal atomic orbitals effectively captures the aromaticity order of representative monocyclic molecules. These findings reveal that the quantum resource theories hold significant implications, offering fresh insights into our comprehension of chemical bonding phenomena.
翻訳日:2024-04-17 00:07:07 公開日:2024-04-14
# リニア量子レギュレータの高速化最適化景観

Accelerated Optimization Landscape of Linear-Quadratic Regulator ( http://arxiv.org/abs/2307.03590v3 )

ライセンス: Link先を確認
Lechen Feng, Yuan-Hua Ni, (参考訳) 線形四元数レギュレータ(LQR)は最適制御の分野で目覚ましい問題であり、これが本論文の関心事である。 一般に、LQRは、全状態が得られるかどうかに基づいて、状態フィードバックLQR(SLQR)と出力フィードバックLQR(OLQR)に分類される。 既存の文献では、SLQR と OLQR の両方を \textit{constrained nonconvex matrix optimization} 問題と見なすことができ、最適化すべき変数はフィードバックゲイン行列のみである。 本稿では,LQR問題を扱う一次高速化最適化フレームワークを導入し,SLQRおよびOLQRの場合の収束解析について述べる。 具体的には、LQR性能基準のリプシッツ・ヘッセン性を示し、現代の最適化手法の適用において重要な性質であることが判明した。 SLQR問題に対して、連続時間ハイブリッド力学系を導入し、その解軌道はネステロフ最適次数1-\frac{1}{\sqrt{\kappa}}$$$\kappa$で最適フィードバックゲインに指数関数的に収束することを示した。 次に、シンプレクティックなオイラースキームを用いてハイブリッド力学系を離散化し、連続時間収束率、すなわち、離散化されたアルゴリズムはネステロフ-最適収束順序を許容する再起動規則を持つネステロフ型手法を提案する。 OLQR問題に対して,半凸関数最適化と負曲率利用からなる2元法であるヘシアンフリーアクセラレーションフレームワークを提案する。 a time $\mathcal{O}(\epsilon^{-7/4}\log(1/\epsilon))$, the method can find a $\epsilon$-stationary point of the performance criterion; これは、このメソッドがバニラ勾配勾配の複雑さを$\mathcal{O}(\epsilon^{-2})$で改善することを意味する。 さらに,本手法は定常点の2次保証を提供する。

Linear-quadratic regulator (LQR) is a landmark problem in the field of optimal control, which is the concern of this paper. Generally, LQR is classified into state-feedback LQR (SLQR) and output-feedback LQR (OLQR) based on whether the full state is obtained. It has been suggested in existing literature that both SLQR and OLQR could be viewed as \textit{constrained nonconvex matrix optimization} problems in which the only variable to be optimized is the feedback gain matrix. In this paper, we introduce a first-order accelerated optimization framework of handling the LQR problem, and give its convergence analysis for the cases of SLQR and OLQR, respectively. Specifically, a Lipschiz Hessian property of LQR performance criterion is presented, which turns out to be a crucial property for the application of modern optimization techniques. For the SLQR problem, a continuous-time hybrid dynamic system is introduced, whose solution trajectory is shown to converge exponentially to the optimal feedback gain with Nesterov-optimal order $1-\frac{1}{\sqrt{\kappa}}$ ($\kappa$ the condition number). Then, the symplectic Euler scheme is utilized to discretize the hybrid dynamic system, and a Nesterov-type method with a restarting rule is proposed that preserves the continuous-time convergence rate, i.e., the discretized algorithm admits the Nesterov-optimal convergence order. For the OLQR problem, a Hessian-free accelerated framework is proposed, which is a two-procedure method consisting of semiconvex function optimization and negative curvature exploitation. In a time $\mathcal{O}(\epsilon^{-7/4}\log(1/\epsilon))$, the method can find an $\epsilon$-stationary point of the performance criterion; this entails that the method improves upon the $\mathcal{O}(\epsilon^{-2})$ complexity of vanilla gradient descent. Moreover, our method provides the second-order guarantee of stationary point.
翻訳日:2024-04-17 00:07:07 公開日:2024-04-14
# エゴセントリックビデオにおける音声と視覚の対応による空間的特徴の学習

Learning Spatial Features from Audio-Visual Correspondence in Egocentric Videos ( http://arxiv.org/abs/2307.04760v3 )

ライセンス: Link先を確認
Sagnik Majumder, Ziad Al-Halah, Kristen Grauman, (参考訳) 本稿では,エゴセントリックビデオにおける空間的音声・視覚対応に基づく表現の自己教師付き学習法を提案する。 本手法は、マスク付き自動符号化フレームワークを用いて、音声と視覚の相乗効果により、マスク付きバイノーラル(マルチチャンネル)音声を合成し、2つのモード間の有用な空間関係を学習する。 社会的シナリオにおける空間的理解を必要とする2つの下流映像課題(能動的話者検出と空間的音声復調)に、事前訓練した特徴を用いて対処する。 広範な実験を通じて、我々の機能は、両タスクにおける複数の最先端ベースラインよりも、バイノーラルオーディオ、EgoCom、EasyComを提供する2つの挑戦的なエゴセントリックなビデオデータセットにおいて、十分に汎用的であることを示す。 プロジェクト: http://vision.cs.utexas.edu/projects/ego_av_corr.com

We propose a self-supervised method for learning representations based on spatial audio-visual correspondences in egocentric videos. Our method uses a masked auto-encoding framework to synthesize masked binaural (multi-channel) audio through the synergy of audio and vision, thereby learning useful spatial relationships between the two modalities. We use our pretrained features to tackle two downstream video tasks requiring spatial understanding in social scenarios: active speaker detection and spatial audio denoising. Through extensive experiments, we show that our features are generic enough to improve over multiple state-of-the-art baselines on both tasks on two challenging egocentric video datasets that offer binaural audio, EgoCom and EasyCom. Project: http://vision.cs.utexas.edu/projects/ego_av_corr.
翻訳日:2024-04-17 00:07:07 公開日:2024-04-14
# FLASK:アライメントスキルセットに基づくきめ細かい言語モデルの評価

FLASK: Fine-grained Language Model Evaluation based on Alignment Skill Sets ( http://arxiv.org/abs/2307.10928v4 )

ライセンス: Link先を確認
Seonghyeon Ye, Doyoung Kim, Sungdong Kim, Hyeonbin Hwang, Seungone Kim, Yongrae Jo, James Thorne, Juho Kim, Minjoon Seo, (参考訳) 大規模言語モデル(LLM)の評価は、命令追従が人的価値と整合し、必要なスキルセットが命令によって異なるため、困難である。 しかし、従来の研究は主に粗粒度評価(全体的な嗜好に基づく評価)に重点を置いてきた。 本稿では,FLASK(Fine-fine Language Model Evaluation based based on Alignment Skill Sets)を紹介する。 モデルの性能を総合的に把握し,評価の信頼性を高めるためには,評価の微粒化が重要であることを実験的に観察した。 FLASKを用いて、複数のオープンソースとプロプライエタリなLCMを比較し、モデルベースと人間ベースの評価との間に高い相関関係を観察する。 評価データとコードの実装はhttps://github.com/kaistAI/FLASK.comで公開しています。

Evaluation of Large Language Models (LLMs) is challenging because instruction-following necessitates alignment with human values and the required set of skills varies depending on the instruction. However, previous studies have mainly focused on coarse-grained evaluation (i.e. overall preference-based evaluation), which limits interpretability since it does not consider the nature of user instructions that require instance-wise skill composition. In this paper, we introduce FLASK (Fine-grained Language Model Evaluation based on Alignment Skill Sets), a fine-grained evaluation protocol for both human-based and model-based evaluation which decomposes coarse-level scoring to a skill set-level scoring for each instruction. We experimentally observe that the fine-graininess of evaluation is crucial for attaining a holistic view of model performance and increasing the reliability of the evaluation. Using FLASK, we compare multiple open-source and proprietary LLMs and observe a high correlation between model-based and human-based evaluations. We publicly release the evaluation data and code implementation at https://github.com/kaistAI/FLASK.
翻訳日:2024-04-16 23:57:12 公開日:2024-04-14
# 非マルコフ量子ゲートセットトモグラフィー

Non-Markovian Quantum Gate Set Tomography ( http://arxiv.org/abs/2307.14696v4 )

ライセンス: Link先を確認
Ze-Tong Li, Cong-Cong Zheng, Fan-Xu Meng, Han Zeng, Tian Luan, Zai-Chen Zhang, Xu-Tao Yu, (参考訳) 工学的な量子デバイスは、量子ビット、量子演算(楽器としても知られる)、量子ノイズを含む、量子システムの信頼性の高い特性を必要とする。 近年、量子ゲート・セット・トモグラフィー(GST)は、量子状態、ゲート、測定を自己整合的に記述する強力な技術として出現している。 しかし、量子系と環境の間の非マルコフ相関はGSTの信頼性に影響を与える。 これを解決するために,非マルコフGSTのための計器セットトモグラフィー(IST)と呼ばれる自己整合演算フレームワークを提案する。 確率的量子過程に基づいて、機器セットは機器とシステム環境(SE)相関を記述する。 楽器とSEの相関を物理的制約なく記述するための線形反転IST(LIST)を導入する。 楽器間の線形関係の不整合を検出する。 さらに,調整可能な次元を持つ IST (MLE-IST) の最大推定値に基づく物理制約付き統計手法を提案する。 MLE-ISTは、モデルと制約を調整することで、ノイズの多い中間スケール量子(NISQ)デバイスなど、さまざまな種類のデバイスに適応する上で、大きな柔軟性を示す。 実験結果から,機器とSE相関の同時記述の有効性と必要性が示された。 注目すべきことに、実チップ実験は、マルコフ次数に関するパラメータの多項式数が、現在のNISQデバイスにおける非マルコフ量子ノイズを特徴づけるのに十分であることを示している。 その結果、ISTは、機器セットの観点で量子デバイスを特徴づけ、ベンチマークし、開発するための、本質的で自己整合的なフレームワークを提供する。

Engineering quantum devices requires reliable characterization of the quantum system, including qubits, quantum operations (also known as instruments) and the quantum noise. Recently, quantum gate set tomography (GST) has emerged as a powerful technique for self-consistently describing quantum states, gates, and measurements. However, non-Markovian correlations between the quantum system and environment impact the reliability of GST. To address this, we propose a self-consistent operational framework called instrument set tomography (IST) for non-Markovian GST. Based on the stochastic quantum process, the instrument set describes instruments and system-environment (SE) correlations. We introduce a linear inversion IST (LIST) to describe instruments and SE correlations without physical constraints. The disharmony of linear relationships between instruments is detected. Furthermore, we propose a physically constrained statistical method based on the maximum likelihood estimation for IST (MLE-IST) with adjustable dimensions. MLE-IST shows significant flexibility in adapting to different types of devices, such as noisy intermediate-scale quantum (NISQ) devices, by adjusting the model and constraints. Experimental results demonstrate the effectiveness and necessity of simultaneously describing instruments and SE correlations. Remarkably, real-chip experiments indicate that a polynomial number of parameters with respect to the Markovian order are sufficient to characterize non-Markovian quantum noise in current NISQ devices. Consequently, IST provides an essential and self-consistent framework for characterizing, benchmarking, and developing quantum devices in terms of the instrument set.
翻訳日:2024-04-16 23:57:12 公開日:2024-04-14
# xFakeSci学習アルゴリズムを用いたChatGPTフェイク科学の検出

Detection of ChatGPT Fake Science with the xFakeSci Learning Algorithm ( http://arxiv.org/abs/2308.11767v4 )

ライセンス: Link先を確認
Ahmed Abdeen Hamed, Xindong Wu, (参考訳) ChatGPTによって実証されたジェネレーティブAIツールは、新しい現実になりつつある。 本研究は,「AI生成コンテンツは,科学論文から切り離すことのできる独特な行動を示す可能性がある」という前提に動機付けられている。 本研究では, 各種疾患や病態の迅速な工学的手法を用いて, 物品の創出方法を示す。 次に、この前提を2つのフェーズでテストし、その妥当性を証明する方法を示します。 次に,新たな学習アルゴリズムであるxFakeSciを導入し,ChatGPT生成記事と科学者による出版物を識別する。 このアルゴリズムは、両方のソースから駆動されるネットワークモデルを用いて訓練される。 分類の段階では、300の項目を条件として実施した。 実際のラベルのステップは、50の生成された記事と50の真正なPubMed抽象化の混在に対して行われた。 この検査は2010年から2024年までの出版期間にわたって行われ、がん、うつ病、アルツハイマー病の3つの異なる疾患の研究も行われた。 さらに,従来のデータマイニングアルゴリズム(例えば,サポートベクトルマシン,回帰,ナイーブベイズ)と比較して,xFakeSciアルゴリズムの精度を評価した。 xFakeSciアルゴリズムは、80%から94%までのF1スコアを獲得し、一般的なデータマイニングアルゴリズムを上回り、38%から52%のF1値を得た。 我々は,キャリブレーションの導入と近接距離ヒューリスティックにより,この期待できる性能を裏付ける顕著な違いを指摘した。 実際、ChatGPTが生成した偽科学の予測には、かなりの課題がある。 それでも、xFakeSciアルゴリズムの導入は、フェイクサイエンスと戦うための重要なステップである。

Generative AI tools exemplified by ChatGPT are becoming a new reality. This study is motivated by the premise that ``AI generated content may exhibit a distinctive behavior that can be separated from scientific articles''. In this study, we show how articles can be generated using means of prompt engineering for various diseases and conditions. We then show how we tested this premise in two phases and prove its validity. Subsequently, we introduce xFakeSci, a novel learning algorithm, that is capable of distinguishing ChatGPT-generated articles from publications produced by scientists. The algorithm is trained using network models driven from both sources. As for the classification step, it was performed using 300 articles per condition. The actual label steps took place against an equal mix of 50 generated articles and 50 authentic PubMed abstracts. The testing also spanned publication periods from 2010 to 2024 and encompassed research on three distinct diseases: cancer, depression, and Alzheimer's. Further, we evaluated the accuracy of the xFakeSci algorithm against some of the classical data mining algorithms (e.g., Support Vector Machines, Regression, and Naive Bayes). The xFakeSci algorithm achieved F1 scores ranging from 80% to 94%, outperforming common data mining algorithms, which scored F1 values between 38% and 52%. We attribute the noticeable difference to the introduction of calibration and a proximity distance heuristic, which underscores this promising performance. Indeed, the prediction of fake science generated by ChatGPT presents a considerable challenge. Nonetheless, the introduction of the xFakeSci algorithm is a significant step on the way to combating fake science.
翻訳日:2024-04-16 23:57:12 公開日:2024-04-14
# 拡散モデルによる画質劣化

High-quality Image Dehazing with Diffusion Model ( http://arxiv.org/abs/2308.11949v2 )

ライセンス: Link先を確認
Hu Yu, Jie Huang, Kaiwen Zheng, Feng Zhao, (参考訳) 濃密な曇りのシナリオでは、画像のデハジングは非常に難しい。 これまでの手法は驚くべき進歩を遂げたものの、密集したヘイズシナリオでは内容や色が失われることに悩まされている。 最近登場したDenoising Diffusion Probabilistic Model (DDPM)は、強力な生成能力を示し、この問題を解決する可能性を示している。 しかし、DDPMはデハジングタスクの物理特性を考慮せず、情報補完能力を制限している。 本稿では,複雑なヘイズシナリオに適用可能なDDPMベースの物理対応画像デハージングフレームワークであるDehazeDDPMを提案する。 具体的には、DehazeDDPMは2段階で動作する。 前段は、大気散乱モデル(ASM)でデハズ処理を物理的にモデル化し、その分布をクリアなデータに近づけ、霧を意識したデハズDDPMを授けている。 後者の段階では、MDPMの強力な生成能力を利用して、物理的モデリングと共に作業することで、ヘイズによって引き起こされる巨大な情報損失を補う。 大規模な実験により,本手法は,合成データセットと実世界のハジーデータセットの両面において,最先端の性能を達成できることが実証された。

Image dehazing is quite challenging in dense-haze scenarios, where quite less original information remains in the hazy image. Though previous methods have made marvelous progress, they still suffer from information loss in content and color in dense-haze scenarios. The recently emerged Denoising Diffusion Probabilistic Model (DDPM) exhibits strong generation ability, showing potential for solving this problem. However, DDPM fails to consider the physics property of dehazing task, limiting its information completion capacity. In this work, we propose DehazeDDPM: A DDPM-based and physics-aware image dehazing framework that applies to complex hazy scenarios. Specifically, DehazeDDPM works in two stages. The former stage physically models the dehazing task with the Atmospheric Scattering Model (ASM), pulling the distribution closer to the clear data and endowing DehazeDDPM with fog-aware ability. The latter stage exploits the strong generation ability of DDPM to compensate for the haze-induced huge information loss, by working in conjunction with the physical modelling. Extensive experiments demonstrate that our method attains state-of-the-art performance on both synthetic and real-world hazy datasets.
翻訳日:2024-04-16 23:47:12 公開日:2024-04-14
# FuzzLLM: 大規模言語モデルにおけるジェイルブレイク脆弱性を積極的に発見するための新しいユニバーサルファズリングフレームワーク

FuzzLLM: A Novel and Universal Fuzzing Framework for Proactively Discovering Jailbreak Vulnerabilities in Large Language Models ( http://arxiv.org/abs/2309.05274v2 )

ライセンス: Link先を確認
Dongyu Yao, Jianshu Zhang, Ian G. Harris, Marcel Carlsson, (参考訳) 大規模言語モデル(LLMs)におけるジェイルブレイクの脆弱性は、サービスガイドラインに違反したコンテンツを細心の注意を払って引き起こすプロンプトを利用して、研究コミュニティの注目を集めている。 モデルオーナーは、安全訓練戦略を通じて個々のジェイルブレイクプロンプトを防御できるが、この比較的パッシブなアプローチは、同様のジェイルブレイクの幅広いカテゴリーを扱うのに苦労している。 この問題に対処するために、私たちはLLMのジェイルブレイク脆弱性を積極的にテストし発見するために設計された自動ファジリングフレームワークであるFuzzLLMを紹介した。 テンプレートを使用してプロンプトの構造的整合性をキャプチャし、制約としてJailbreakクラスの重要な特徴を分離します。 異なるベースクラスを強力なコンボ攻撃に統合し、制約や禁止された質問の要素を変更することで、FazLLMは手作業の少ない効率的なテストを可能にする。 大規模な実験では、様々なLSMにわたる脆弱性発見におけるFuzzLLMの有効性と包括性を実証している。

Jailbreak vulnerabilities in Large Language Models (LLMs), which exploit meticulously crafted prompts to elicit content that violates service guidelines, have captured the attention of research communities. While model owners can defend against individual jailbreak prompts through safety training strategies, this relatively passive approach struggles to handle the broader category of similar jailbreaks. To tackle this issue, we introduce FuzzLLM, an automated fuzzing framework designed to proactively test and discover jailbreak vulnerabilities in LLMs. We utilize templates to capture the structural integrity of a prompt and isolate key features of a jailbreak class as constraints. By integrating different base classes into powerful combo attacks and varying the elements of constraints and prohibited questions, FuzzLLM enables efficient testing with reduced manual effort. Extensive experiments demonstrate FuzzLLM's effectiveness and comprehensiveness in vulnerability discovery across various LLMs.
翻訳日:2024-04-16 23:47:12 公開日:2024-04-14
# TFNet: 高速かつ正確なLiDARセマンティックセグメンテーションのための時間キューの爆発

TFNet: Exploiting Temporal Cues for Fast and Accurate LiDAR Semantic Segmentation ( http://arxiv.org/abs/2309.07849v3 )

ライセンス: Link先を確認
Rong Li, ShiJie Li, Xieyuanli Chen, Teli Ma, Juergen Gall, Junwei Liang, (参考訳) LiDARセマンティックセグメンテーションは、自律走行とロボットが周囲を正確かつ堅牢に理解できるようにする上で、重要な役割を果たす。 この領域には、ポイントベース、レンジイメージベース、極座標ベース、ハイブリッド戦略など、数多くの方法が存在する。 これらのうち、レンジイメージベースの技術は、その効率性から実用的な応用に広く採用されている。 しかし、範囲画像の水平および垂直角分解能の制限によって生じる「many-to-one」問題として知られる重大な課題に直面している。 その結果、3Dポイントの約20%を占有することができる。 本稿では,この問題を解決するために時間情報を利用する範囲画像ベースのLiDARセマンティックセマンティックセマンティックセマンティクスであるTFNetを提案する。 具体的には、時間融合層を組み込んで、過去のスキャンから有用な情報を抽出し、現在のスキャンと統合する。 次に、特に `many-to-one' 問題によって引き起こされる誤予測を正すために、最大投票に基づく後処理手法を設計する。 提案手法を2つのベンチマークで評価し,プラグイン後処理技術が汎用的であり,様々なネットワークに適用可能であることを示した。

LiDAR semantic segmentation plays a crucial role in enabling autonomous driving and robots to understand their surroundings accurately and robustly. A multitude of methods exist within this domain, including point-based, range-image-based, polar-coordinate-based, and hybrid strategies. Among these, range-image-based techniques have gained widespread adoption in practical applications due to their efficiency. However, they face a significant challenge known as the ``many-to-one'' problem caused by the range image's limited horizontal and vertical angular resolution. As a result, around 20% of the 3D points can be occluded. In this paper, we present TFNet, a range-image-based LiDAR semantic segmentation method that utilizes temporal information to address this issue. Specifically, we incorporate a temporal fusion layer to extract useful information from previous scans and integrate it with the current scan. We then design a max-voting-based post-processing technique to correct false predictions, particularly those caused by the ``many-to-one'' issue. We evaluated the approach on two benchmarks and demonstrated that the plug-in post-processing technique is generic and can be applied to various networks.
翻訳日:2024-04-16 23:47:12 公開日:2024-04-14
# 言語間構造予測のための文脈ラベル投影

Contextual Label Projection for Cross-Lingual Structured Prediction ( http://arxiv.org/abs/2309.08943v3 )

ライセンス: Link先を確認
Tanmay Parekh, I-Hung Hsu, Kuan-Hao Huang, Kai-Wei Chang, Nanyun Peng, (参考訳) ラベルプロジェクションは、翻訳されたラベルとテキストを共同で取得することを伴うが、構造化予測タスクにおける言語間転送を容易にするために機械翻訳を利用するには不可欠である。 ラベルプロジェクションを探索する以前の研究では、単純なラベル翻訳を好むか、単語レベルのアライメントにのみ依存することで、翻訳精度を損なうことが多かった。 本稿では,テキストを対象言語に翻訳し,翻訳したテキストをコンテキストとしてラベルの文脈翻訳を行う新しいラベル投影手法CLaPを提案する。 コンテクストトランスレータとして多言語機能を持つ命令調整型言語モデルを活用し,翻訳されたテキストに翻訳されたラベルが存在することの制約を示唆する。 我々は、イベント引数抽出(EAE)と名前付きエンティティ認識(NER)という2つの代表的な予測タスクにおいて、39言語間のゼロショット・クロスランガル転送に関する他のラベルプロジェクション技術を用いてCLaPをベンチマークし、EAEの2.4F1改善とNERの1.4F1改善を示す。 さらに、超低リソース言語10言語におけるCLaPの適用性について検討し、言語間構造予測の可能性を示す。

Label projection, which involves obtaining translated labels and texts jointly, is essential for leveraging machine translation to facilitate cross-lingual transfer in structured prediction tasks. Prior research exploring label projection often compromise translation accuracy by favoring simplified label translation or relying solely on word-level alignments. In this paper, we introduce a novel label projection approach, CLaP, which translates text to the target language and performs contextual translation on the labels using the translated text as the context, ensuring better accuracy for the translated labels. We leverage instruction-tuned language models with multilingual capabilities as our contextual translator, imposing the constraint of the presence of translated labels in the translated text via instructions. We benchmark CLaP with other label projection techniques on zero-shot cross-lingual transfer across 39 languages on two representative structured prediction tasks - event argument extraction (EAE) and named entity recognition (NER), showing over 2.4 F1 improvement for EAE and 1.4 F1 improvement for NER. We further explore the applicability of CLaP on ten extremely low-resource languages to showcase its potential for cross-lingual structured prediction.
翻訳日:2024-04-16 23:47:12 公開日:2024-04-14
# インシシット推論による言語モデルにおける破滅的予測の理解

Understanding Catastrophic Forgetting in Language Models via Implicit Inference ( http://arxiv.org/abs/2309.10105v2 )

ライセンス: Link先を確認
Suhas Kotha, Jacob Mitchell Springer, Aditi Raghunathan, (参考訳) 微調整の効果の体系的な理解が欠如しており、特に狭義の微調整分布外における課題に対する指導微調整や人的フィードバックからの強化学習などを通して)。 単純化されたシナリオでは、微調整データ配信におけるタスクの性能向上が、他のタスクの能力の犠牲となることを実証する。 我々は、言語モデルがプロンプトのタスクを暗黙的に推測し、微調整が細調整分布におけるタスクに対するこの推論を歪めていると仮定する。 これをテストするために,同じ能力を必要としながらタスクを微調整分布から人工的に遠ざける Conjugate Prompting を提案する。 実世界の微調整分布は主に英語であるため,異なる言語に簡単に翻訳することで,LLMの事前学習能力の回復を促す共役を適用できる。 これにより,ChatGPTのようなチャットボットの安全性向上による有害なコンテンツ生成を抑えながら,インストラクションチューニングによって失われるコンテキスト内学習能力,コード微調整中に失われる自然な推論能力を回復することができる。

We lack a systematic understanding of the effects of fine-tuning (via methods such as instruction-tuning or reinforcement learning from human feedback), particularly on tasks outside the narrow fine-tuning distribution. In a simplified scenario, we demonstrate that improving performance on tasks within the fine-tuning data distribution comes at the expense of capabilities on other tasks. We hypothesize that language models implicitly infer the task of the prompt and that fine-tuning skews this inference towards tasks in the fine-tuning distribution. To test this, we propose Conjugate Prompting, which artificially makes the task look farther from the fine-tuning distribution while requiring the same capability, and we find that this recovers some of the pretraining capabilities in our synthetic setup. Since real-world fine-tuning distributions are predominantly English, we apply conjugate prompting to recover pretrained capabilities in LLMs by simply translating the prompts to different languages. This allows us to recover in-context learning abilities lost via instruction tuning, natural reasoning capability lost during code fine-tuning, and, more concerningly, harmful content generation suppressed by safety fine-tuning in chatbots like ChatGPT.
翻訳日:2024-04-16 23:47:12 公開日:2024-04-14
# ユニバーサルフィードバックを用いたLLMエージェントの通信における適応

Adapting LLM Agents with Universal Feedback in Communication ( http://arxiv.org/abs/2310.01444v3 )

ライセンス: Link先を確認
Kuan Wang, Yadong Lu, Michael Santacroce, Yeyun Gong, Chao Zhang, Yelong Shen, (参考訳) 大規模言語モデル(LLM)の最近の進歩は、LLMエージェントの可能性を示している。 言語的フィードバックと非言語的報酬信号の両方でこれらのエージェントの訓練を容易にするために,Learning through Communication (LTC)を紹介する。 我々は、すべてのフィードバックを格納するユニバーサルバッファと、LLMエージェントが所定の環境でポリシーを探索して更新できるように反復パイプラインを設計する。 タスク固有学習のためのエージェントインタラクションを汎用バッファとパイプラインで最適化するために,単一エージェント環境とマルチエージェント環境の両方に適した多様なコミュニケーションパターンを導入する。 ALFWorld (single-agent), HotpotQA (multi-agent collaboration), Chameleon (multi-agent competition), GSM8k (multi-agent teacher-student) の4つの多様なデータセットに対するLCCアプローチの有効性を検討した。 これらのデータセットでは、LCCは教師付き命令の微調整ベースラインを3.6%から12%上回っている。 これらの結果は, LLM エージェントのオンライン適応を促進するための LTC の汎用性と効率性を強調した。

Recent advances in large language models (LLMs) have demonstrated potential for LLM agents. To facilitate the training for these agents with both linguistic feedback and non-linguistic reward signals, we introduce Learning through Communication (LTC). We design a universal buffer to store all the feedback, and an iterative pipeline to enable an LLM agent to explore and update its policy in an given environment. To optimize agent interactions for task-specific learning with our universal buffer and pipeline, we introduce diverse communication patterns tailored for both single-agent and multi-agent environments. We evaluate the efficacy of our LTC approach on four diverse datasets: ALFWorld (single-agent), HotpotQA (multi-agent collaboration), Chameleon (multi-agent competition), and GSM8k (multi-agent teacher-student). On these data sets, LTC outperforms the supervised instruction fine-tuning baselines by 3.6% to 12%. These results highlight the versatility and efficiency of LTC in facilitating online adaptation for LLM agents.
翻訳日:2024-04-16 23:47:12 公開日:2024-04-14
# MLAgentBench: 機械学習実験における言語エージェントの評価

MLAgentBench: Evaluating Language Agents on Machine Learning Experimentation ( http://arxiv.org/abs/2310.03302v2 )

ライセンス: Link先を確認
Qian Huang, Jian Vora, Percy Liang, Jure Leskovec, (参考訳) 機械学習研究の中心的な側面は、実験、実験の設計と実行、結果の分析、いくつかのポジティブな結果(例えば、精度の向上)への反復である。 強力な言語モデルによって駆動されるエージェントは、機械学習の実験を効果的に実行するだろうか? そこで本研究では,CIFAR-10におけるモデル性能の改善から,BabyLMのような最近の研究課題に至るまで,13のタスクからなるMLAgentBenchを紹介する。 各タスクに対して、エージェントはファイルの読み書き、コードの実行、出力の検査などのアクションを実行することができる。 次に、ReActフレームワークに基づいたML実験を行うエージェントを構築する。 我々は、Claude v1.0、Claude v2.1、Claude v3 Opus、GPT-4、GPT-4-turbo、Gemini-Pro、Mixtralに基づいてベンチマークエージェントをベンチマークし、Claude v3 Opusエージェントが成功率の点で最高であることを示す。 MLAgentBenchでは、37.5%の成功率で、多くのタスクで魅力的なMLモデルを構築することができる。 私たちのエージェントは、非常に解釈可能な計画と行動も示しています。 しかし、成功率は大きく異なり、確立された古いデータセットでは100%から、基盤となるLMがトレーニングされた後に生み出された最近のKaggleの課題では0%にまで達する。 最後に, 長期計画や幻覚の低減など, LMベースのエージェントにとって重要な課題をいくつか挙げる。 私たちのコードはhttps://github.com/snap-stanford/MLAgentBench.comでリリースされています。

A central aspect of machine learning research is experimentation, the process of designing and running experiments, analyzing the results, and iterating towards some positive outcome (e.g., improving accuracy). Could agents driven by powerful language models perform machine learning experimentation effectively? To answer this question, we introduce MLAgentBench, a suite of 13 tasks ranging from improving model performance on CIFAR-10 to recent research problems like BabyLM. For each task, an agent can perform actions like reading/writing files, executing code, and inspecting outputs. We then construct an agent that can perform ML experimentation based on ReAct framework. We benchmark agents based on Claude v1.0, Claude v2.1, Claude v3 Opus, GPT-4, GPT-4-turbo, Gemini-Pro, and Mixtral and find that a Claude v3 Opus agent is the best in terms of success rate. It can build compelling ML models over many tasks in MLAgentBench with 37.5% average success rate. Our agents also display highly interpretable plans and actions. However, the success rates vary considerably; they span from 100% on well-established older datasets to as low as 0% on recent Kaggle challenges created potentially after the underlying LM was trained. Finally, we identify several key challenges for LM-based agents such as long-term planning and reducing hallucination. Our code is released at https://github.com/snap-stanford/MLAgentBench.
翻訳日:2024-04-16 23:37:19 公開日:2024-04-14
# 知識グラフ補完における大規模言語モデルの性能向上

Making Large Language Models Perform Better in Knowledge Graph Completion ( http://arxiv.org/abs/2310.06671v2 )

ライセンス: Link先を確認
Yichi Zhang, Zhuo Chen, Lingbing Guo, Yajing Xu, Wen Zhang, Huajun Chen, (参考訳) 大言語モデル(LLM)に基づく知識グラフ補完(KGC)は、LLMによるKGの欠落を予測することを目的としている。 しかし、LLMに基づくKGCの研究は、KGsに不可欠な重要な構造情報を見越して、LLMの推論精度を十分に活用することができない。 本稿では,LLMに構造情報を組み込む手法について検討する。 まず,従来のLLMパラダイムであるインコンテキスト学習とインストラクションチューニングについて論じ,基本構造情報注入手法を提案する。 次に、この目標を達成するための知識事前修正アダプタ(KoPA)を提案する。 KoPAは、構造的な事前学習フェーズを使用して、KG内の複雑な実体と関係を理解し、それらを構造的な埋め込みとして表現している。 次に、KoPAは、その構造埋め込みをテキスト空間に投影する知識プレフィックスアダプタを介して、LCMに対してそのようなクロスモーダルな構造情報理解を通信し、入力プロンプトのプレフィックスとして位置付けられた仮想知識トークンを取得する。 我々は総合的な実験を行い、LLMの事実的知識推論能力に対して、クロスモーダルな構造情報の導入がいかに優れているかという切迫した分析を行った。 私たちのコードとデータはhttps://github.com/zjukg/KoPA で公開されています。

Large language model (LLM) based knowledge graph completion (KGC) aims to predict the missing triples in the KGs with LLMs. However, research about LLM-based KGC fails to sufficiently harness LLMs' inference proficiencies, overlooking critical structural information integral to KGs. In this paper, we explore methods to incorporate structural information into the LLMs, with the overarching goal of facilitating structure-aware reasoning. We first discuss on the existing LLM paradigms like in-context learning and instruction tuning, proposing basic structural information injection approaches. Then we propose a Knowledge Prefix Adapter (KoPA) to fulfill this stated goal. The KoPA uses a structural pre-training phase to comprehend the intricate entities and relations within KGs, representing them as structural embeddings. Then KoPA communicates such cross-modal structural information understanding to the LLMs through a knowledge prefix adapter which projects the structural embeddings into the textual space and obtains virtual knowledge tokens positioned as a prefix of the input prompt. We conduct comprehensive experiments and provide incisive analysis concerning how the introduction of cross-modal structural information would be better for LLM's factual knowledge reasoning ability. Our code and data are available at https://github.com/zjukg/KoPA .
翻訳日:2024-04-16 23:37:19 公開日:2024-04-14
# OmniControl:人間の動きをいつでもコントロールできる関節

OmniControl: Control Any Joint at Any Time for Human Motion Generation ( http://arxiv.org/abs/2310.08580v2 )

ライセンス: Link先を確認
Yiming Xie, Varun Jampani, Lei Zhong, Deqing Sun, Huaizu Jiang, (参考訳) 本稿では, フレキシブルな空間制御信号を拡散過程に基づくテキスト条件付き人体運動生成モデルに組み込む, OmniControl という新しい手法を提案する。 骨盤軌道のみを制御する従来の方法とは異なり、OmniControlは1つのモデルで異なる時間に異なる関節に柔軟な空間制御信号を組み込むことができる。 具体的には、生成した動作が入力制御信号に厳密に適合することを保証するための解析的空間ガイダンスを提案する。 同時に、全ての関節を洗練してよりコヒーレントな動きを生み出すためにリアリズムガイダンスが導入された。 空間的およびリアリズムのガイダンスはどちらも不可欠であり、制御精度と運動リアリズムのバランスをとるために非常に相補的である。 これらを組み合わせることで、OmniControlは現実的で一貫性があり、空間的制約と整合する動きを生成する。 HumanML3DとKIT-MLデータセットの実験では、OmniControlはペルビス制御における最先端の手法よりも大幅に改善されているだけでなく、他の関節に制約を加える際に有望な結果も示している。

We present a novel approach named OmniControl for incorporating flexible spatial control signals into a text-conditioned human motion generation model based on the diffusion process. Unlike previous methods that can only control the pelvis trajectory, OmniControl can incorporate flexible spatial control signals over different joints at different times with only one model. Specifically, we propose analytic spatial guidance that ensures the generated motion can tightly conform to the input control signals. At the same time, realism guidance is introduced to refine all the joints to generate more coherent motion. Both the spatial and realism guidance are essential and they are highly complementary for balancing control accuracy and motion realism. By combining them, OmniControl generates motions that are realistic, coherent, and consistent with the spatial constraints. Experiments on HumanML3D and KIT-ML datasets show that OmniControl not only achieves significant improvement over state-of-the-art methods on pelvis control but also shows promising results when incorporating the constraints over other joints.
翻訳日:2024-04-16 23:37:19 公開日:2024-04-14
# レトロスペクティブフォールバック:不確実な世界における再合成計画

Retro-fallback: retrosynthetic planning in an uncertain world ( http://arxiv.org/abs/2310.09270v3 )

ライセンス: Link先を確認
Austin Tripp, Krzysztof Maziarz, Sarah Lewis, Marwin Segler, José Miguel Hernández-Lobato, (参考訳) 再合成は、よりシンプルで購入可能な分子から望ましい分子を作るために一連の化学反応を計画するタスクである。 これまでの研究では、様々なメトリクス(例えば、最短、最低コスト)の最適解を求めるアルゴリズムが提案されていたが、これらの研究は一般的に、反応の空間について不完全な知識を持っているという事実を見落としている。 本稿では, この不確実性を考慮するために, 確率過程の観点からのレトロ合成の新規な定式化を提案する。 そこで我々は,少なくとも1つの合成計画が実験室で実行可能である確率を最大化する,レトロフォールバック(retro-fallback)と呼ばれる新しいグリージーアルゴリズムを提案する。 In-silicoベンチマークを用いて、レトロフォールバックが一般的なMCTSやレトロ*アルゴリズムよりも優れた合成計画を生成することを示した。

Retrosynthesis is the task of planning a series of chemical reactions to create a desired molecule from simpler, buyable molecules. While previous works have proposed algorithms to find optimal solutions for a range of metrics (e.g. shortest, lowest-cost), these works generally overlook the fact that we have imperfect knowledge of the space of possible reactions, meaning plans created by algorithms may not work in a laboratory. In this paper we propose a novel formulation of retrosynthesis in terms of stochastic processes to account for this uncertainty. We then propose a novel greedy algorithm called retro-fallback which maximizes the probability that at least one synthesis plan can be executed in the lab. Using in-silico benchmarks we demonstrate that retro-fallback generally produces better sets of synthesis plans than the popular MCTS and retro* algorithms.
翻訳日:2024-04-16 23:37:19 公開日:2024-04-14
# ランダムツリーのノード分類

Node Classification in Random Trees ( http://arxiv.org/abs/2311.12167v2 )

ライセンス: Link先を確認
Wouter W. L. Nuijten, Vlado Menkovski, (参考訳) ランダムな木として構造化されたオブジェクトの分類法を提案する。 本研究の目的は,木構造がノード属性(典型的には高次元埋め込み)と関連付けられている設定において,ノードラベル割り当ての分布をモデル化することである。 ツリートポロジーは規定されておらず、推論中にラベルの割り当ては存在しない。 木(あるいは一般にグラフ)におけるノードラベル割り当ての分布を生成する他の方法は、ラベル割り当ての条件付き独立性を仮定するか、固定されたグラフトポロジーで操作するか、ノードラベルの一部を観察する必要がある。 本手法は,ランダムツリーのトポロジとギブズ分布を対応づけたマルコフネットワークを定義する。 ランダムツリーとノード埋め込みで動作するグラフニューラルネットワークを用いてギブス分布をパラメータ化する。 これにより、与えられたランダムツリーに対するノード割り当ての確率を推定し、MCMCを用いてノード割り当ての分布からサンプリングすることができる。 本研究では,Stanford Sentiment Treebank データセットのノード分類タスクについて評価を行った。 本手法は,ランダム木におけるノードラベルの連成分布のモデル化に有効であることを示す。

We propose a method for the classification of objects that are structured as random trees. Our aim is to model a distribution over the node label assignments in settings where the tree data structure is associated with node attributes (typically high dimensional embeddings). The tree topology is not predetermined and none of the label assignments are present during inference. Other methods that produce a distribution over node label assignment in trees (or more generally in graphs) either assume conditional independence of the label assignment, operate on a fixed graph topology, or require part of the node labels to be observed. Our method defines a Markov Network with the corresponding topology of the random tree and an associated Gibbs distribution. We parameterize the Gibbs distribution with a Graph Neural Network that operates on the random tree and the node embeddings. This allows us to estimate the likelihood of node assignments for a given random tree and use MCMC to sample from the distribution of node assignments. We evaluate our method on the tasks of node classification in trees on the Stanford Sentiment Treebank dataset. Our method outperforms the baselines on this dataset, demonstrating its effectiveness for modeling joint distributions of node labels in random trees.
翻訳日:2024-04-16 23:17:34 公開日:2024-04-14
# ヨージャシエヴィチ-サイモン不等式による連続的深層学習モデルの収束結果

A convergence result of a continuous model of deep learning via Łojasiewicz--Simon inequality ( http://arxiv.org/abs/2311.15365v2 )

ライセンス: Link先を確認
Noboru Isobe, (参考訳) 本研究では,Deep Neural Network (DNN) の連続モデルの最適化プロセスを表すWasserstein型勾配流に着目した。 まず、モデルの平均損失を$L^2$-regularizationで最小化する。 その後、損失の最大傾斜曲線の存在を示す。 私たちの主な結果は、時間が無限に近づくにつれて、フローが損失の臨界点に収束することです。 この結果を証明するための重要な側面は、損失に対する L{}ojasiewicz--シモン勾配の不等式を確立することである。 NNと損失関数の解析性を仮定することで、この不等式を導出する。 我々の証明は、非凸函数に対するワッサーシュタイン型勾配流の漸近挙動を解析するための新しいアプローチを提供する。

This study focuses on a Wasserstein-type gradient flow, which represents an optimization process of a continuous model of a Deep Neural Network (DNN). First, we establish the existence of a minimizer for an average loss of the model under $L^2$-regularization. Subsequently, we show the existence of a curve of maximal slope of the loss. Our main result is the convergence of flow to a critical point of the loss as time goes to infinity. An essential aspect of proving this result involves the establishment of the \L{}ojasiewicz--Simon gradient inequality for the loss. We derive this inequality by assuming the analyticity of NNs and loss functions. Our proofs offer a new approach for analyzing the asymptotic behavior of Wasserstein-type gradient flows for nonconvex functionals.
翻訳日:2024-04-16 23:17:34 公開日:2024-04-14
# UFineBench:超微細粒度テキスト検索を目指して

UFineBench: Towards Text-based Person Retrieval with Ultra-fine Granularity ( http://arxiv.org/abs/2312.03441v5 )

ライセンス: Link先を確認
Jialong Zuo, Hanyu Zhou, Ying Nie, Feng Zhang, Tianyu Guo, Nong Sang, Yunhe Wang, Changxin Gao, (参考訳) 既存のテキストベースの人物検索データセットは、しばしば比較的粗い粒度のテキストアノテーションを持つ。 これにより、実際のシナリオにおけるクエリテキストのきめ細かいセマンティクスを理解するモデルが妨げられます。 この問題に対処するため,超微細粒度テキストに基づく人物検索のための新しいベンチマーク「textbf{UFineBench}」を提案する。 まず、UFine6926という新しい \textbf{dataset} を構築する。 我々は、多数の人物画像を収集し、各画像に2つの詳細なテキスト記述を手動で注釈付けし、それぞれ80.8語を平均化する。 平均単語数は、前のデータセットの3倍から4倍である。 ドメイン内での標準的な評価に加えて、実際のシナリオをより多く表現する特別な \textbf{evaluation paradigm} も提案する。 クロスドメイン、クロステキストグラニュリティ、クロステキストスタイルを備えた新しい評価セット、UFine3C、平均類似度分布(mSD)と呼ばれる検索能力を正確に測定するための新しい評価指標を含む。 さらに,超きめ細かなテキストを用いたテキストベースの人物検索のために設計した,より効率的な‘textbf{algorithm’であるCFAMを提案する。 共有モードの粒度デコーダとハード負のマッチング機構を採用することにより、微細な粒度マイニングを実現する。 標準のドメイン内評価により、CFAMは様々なデータセット、特に超微細なUFine6926上での競合性能を確立します。 さらに、UFine3Cを評価することにより、UFine6926のトレーニングが、他の粗粒度データセットと比較して、実際のシナリオへの一般化を著しく改善することを示した。 データセットとコードは、 \url{https://github.com/Zplusdragon/UFineBench}で公開される。

Existing text-based person retrieval datasets often have relatively coarse-grained text annotations. This hinders the model to comprehend the fine-grained semantics of query texts in real scenarios. To address this problem, we contribute a new benchmark named \textbf{UFineBench} for text-based person retrieval with ultra-fine granularity. Firstly, we construct a new \textbf{dataset} named UFine6926. We collect a large number of person images and manually annotate each image with two detailed textual descriptions, averaging 80.8 words each. The average word count is three to four times that of the previous datasets. In addition of standard in-domain evaluation, we also propose a special \textbf{evaluation paradigm} more representative of real scenarios. It contains a new evaluation set with cross domains, cross textual granularity and cross textual styles, named UFine3C, and a new evaluation metric for accurately measuring retrieval ability, named mean Similarity Distribution (mSD). Moreover, we propose CFAM, a more efficient \textbf{algorithm} especially designed for text-based person retrieval with ultra fine-grained texts. It achieves fine granularity mining by adopting a shared cross-modal granularity decoder and hard negative match mechanism. With standard in-domain evaluation, CFAM establishes competitive performance across various datasets, especially on our ultra fine-grained UFine6926. Furthermore, by evaluating on UFine3C, we demonstrate that training on our UFine6926 significantly improves generalization to real scenarios compared with other coarse-grained datasets. The dataset and code will be made publicly available at \url{https://github.com/Zplusdragon/UFineBench}.
翻訳日:2024-04-16 23:07:44 公開日:2024-04-14
# カットオフ・ブレーンとカーク・ランダル・ブレーン--変動するケース

Cutoff brane vs the Karch-Randall brane: the fluctuating case ( http://arxiv.org/abs/2312.03531v3 )

ライセンス: Link先を確認
Jiong Lin, Yizhou Lu, Qiang Wen, (参考訳) 近年、あるホログラフィックワイル変換 CFT$_2$ は AdS$_3$/BCFT$_2$ の主特徴を捉えるために提案されている。 本稿では,ワイル変換を適用することにより,KR(Karch-Randall)ブレーンの揺らぎを考慮した一般化AdS/BCFTセットアップをシミュレートする。 ワイル変換CFTの重力双対では、ワイル変換によって誘導されるいわゆるカットオフブレーンがKRブレーンと同じ役割を果たす。 非変動的な構成とは異なり、2d$の有効理論では、追加のツイスト演算子はブレインに挿入されたものと比較して別の場所に挿入される。 これはワイル変換 CFT のセットアップでよく理解されているが、実効理論がブレーン上にあるはずの AdS/BCFT のセットアップでは混乱している。 この混乱は、KRブレーンがワイル変換を介して境界 CFT$_2$ から出現することを示している。 また, 揺動翼形状のバランス部分絡み合い (BPE) を算出し, エンタングルメント・ウェッジ断面積 (EWCS) と一致することがわかった。 これは BPE と EWCS の対応に対する非自明なテストであり、ワイル変換 CFT セットアップに対する非自明な整合性チェックである。

Recently, certain holographic Weyl transformed CFT$_2$ is proposed to capture the main features of the AdS$_3$/BCFT$_2$ correspondence \cite{Basu:2022crn,Basu:2023wmv}. In this paper, by adapting the Weyl transformation, we simulate a generalized AdS/BCFT set-up where the fluctuation of the Karch-Randall (KR) brane is considered. In the gravity dual of the Weyl transformed CFT, the so-called cutoff brane induced by the Weyl transformation plays the same role as the KR brane. Unlike the non-fluctuating configuration, in the $2d$ effective theory the additional twist operator is inserted at a different place, compared with the one inserted on the brane. Though this is well-understood in the Weyl transformed CFT set-up, it is confusing in the AdS/BCFT set-up where the effective theory is supposed to locate on the brane. This confusion indicates that the KR brane may be emergent from the boundary CFT$_2$ via the Weyl transformations. We also calculate the balanced partial entanglement (BPE) in the fluctuating brane configurations and find it coincide with the entanglement wedge cross-section (EWCS). This is a non-trivial test for the correspondence between the BPE and the EWCS, and a non-trivial consistency check for the Weyl transformed CFT set-up.
翻訳日:2024-04-16 23:07:44 公開日:2024-04-14
# Trajeglish: 次世代予測としてのトラフィックモデリング

Trajeglish: Traffic Modeling as Next-Token Prediction ( http://arxiv.org/abs/2312.04535v2 )

ライセンス: Link先を確認
Jonah Philion, Xue Bin Peng, Sanja Fidler, (参考訳) 自動運転開発における長年の課題は、記録された運転ログからシードされた動的運転シナリオをシミュレートすることだ。 この機能を追求するために、車両、歩行者、サイクリストが運転シナリオでどのように相互作用するかをモデル化するために、離散シーケンスモデリングのツールを適用する。 単純なデータ駆動トークン化方式を用いて,小語彙を用いてトラジェクトリを1cmレベルの分解能に識別する。 次に, GPT型エンコーダデコーダを用いて, エージェント間の時間内相互作用を考慮した, 離散動作トークンのマルチエージェントシーケンスをモデル化する。 我々のモデルはWaymo Sim Agents Benchmarkを上回り、リアリズムメタメトリックを3.3%上回り、インタラクションメトリックを9.9%上回る。 モデリングの選択を完全な自律性と部分的な自律性の設定で改善し、モデルによって学習された表現が、nuSceneのパフォーマンス向上に迅速に適応できることを示します。 さらに,パラメータ数とデータセットサイズに関するモデルのスケーラビリティを評価するとともに,モデルからの密度推定を用いて,交通モデリングタスクにおけるコンテキスト長の正当性と時間内相互作用の定量化を行う。

A longstanding challenge for self-driving development is simulating dynamic driving scenarios seeded from recorded driving logs. In pursuit of this functionality, we apply tools from discrete sequence modeling to model how vehicles, pedestrians and cyclists interact in driving scenarios. Using a simple data-driven tokenization scheme, we discretize trajectories to centimeter-level resolution using a small vocabulary. We then model the multi-agent sequence of discrete motion tokens with a GPT-like encoder-decoder that is autoregressive in time and takes into account intra-timestep interaction between agents. Scenarios sampled from our model exhibit state-of-the-art realism; our model tops the Waymo Sim Agents Benchmark, surpassing prior work along the realism meta metric by 3.3% and along the interaction metric by 9.9%. We ablate our modeling choices in full autonomy and partial autonomy settings, and show that the representations learned by our model can quickly be adapted to improve performance on nuScenes. We additionally evaluate the scalability of our model with respect to parameter count and dataset size, and use density estimates from our model to quantify the saliency of context length and intra-timestep interaction for the traffic modeling task.
翻訳日:2024-04-16 23:07:44 公開日:2024-04-14
# SwiftBrush: 変量スコア蒸留を用いたワンステップテキスト・画像拡散モデル

SwiftBrush: One-Step Text-to-Image Diffusion Model with Variational Score Distillation ( http://arxiv.org/abs/2312.05239v3 )

ライセンス: Link先を確認
Thuan Hoang Nguyen, Anh Tran, (参考訳) テキストプロンプトから高解像度で多様な画像を生成する能力があるにもかかわらず、テキストから画像への拡散モデルは、しばしば遅い反復サンプリングプロセスに悩まされる。 モデル蒸留はこれらのモデルを加速する最も効果的な方法の1つである。 しかし, 従来の蒸留法では, 実際のデータから, あるいは教師モデルで合成的に生成した画像にかなりの量の画像を必要とするため, 生成品質を保たない。 この制限に対応するために、$\textbf{SwiftBrush}$という新しい画像のない蒸留スキームを示す。 入力プロンプトと整合する3次元ニューラルラディアンス場を,任意の3次元データ基底構造を使わずに,事前に2次元のテキスト・ツー・イメージ拡散から得ることができるテキスト・トゥ・3D合成からインスピレーションを得て,本手法では,事前学習した複数ステップのテキスト・ツー・イメージモデルを,単一の推論ステップで高忠実度画像を生成することができる学生ネットワークに抽出するのと同じ損失を生かした。 その単純さにもかかわらず、我々のモデルは、トレーニング画像データに頼らずに安定拡散に匹敵する画質の画像を生成できる最初のワンステップのテキスト・ツー・イメージ・ジェネレータの1つである。 注目すべきは、SwiftBrushがFIDスコアの$\textbf{16.67}$とCLIPスコアの$\textbf{0.29}$をCOCO-30Kベンチマークで達成し、競争的な結果を達成するか、あるいは既存の最先端蒸留技術よりもはるかに上回っていることだ。

Despite their ability to generate high-resolution and diverse images from text prompts, text-to-image diffusion models often suffer from slow iterative sampling processes. Model distillation is one of the most effective directions to accelerate these models. However, previous distillation methods fail to retain the generation quality while requiring a significant amount of images for training, either from real data or synthetically generated by the teacher model. In response to this limitation, we present a novel image-free distillation scheme named $\textbf{SwiftBrush}$. Drawing inspiration from text-to-3D synthesis, in which a 3D neural radiance field that aligns with the input prompt can be obtained from a 2D text-to-image diffusion prior via a specialized loss without the use of any 3D data ground-truth, our approach re-purposes that same loss for distilling a pretrained multi-step text-to-image model to a student network that can generate high-fidelity images with just a single inference step. In spite of its simplicity, our model stands as one of the first one-step text-to-image generators that can produce images of comparable quality to Stable Diffusion without reliance on any training image data. Remarkably, SwiftBrush achieves an FID score of $\textbf{16.67}$ and a CLIP score of $\textbf{0.29}$ on the COCO-30K benchmark, achieving competitive results or even substantially surpassing existing state-of-the-art distillation techniques.
翻訳日:2024-04-16 23:07:44 公開日:2024-04-14
# 性能ロスレスブラックボックスモデル透かし

Performance-lossless Black-box Model Watermarking ( http://arxiv.org/abs/2312.06488v2 )

ライセンス: Link先を確認
Na Zhao, Kejiang Chen, Weiming Zhang, Nenghai Yu, (参考訳) ディープラーニングの発展に伴い、高価値・高コストのモデルが価値ある資産となり、関連する知的財産保護技術がホットな話題となっている。 しかしながら、ブラックボックスシナリオにおける既存のモデル透かしの作業は、主にトレーニングベースのバックドア手法に由来する。 そこで本稿では,セキュアな暗号技術のプリミティブとの比較分析を行った後,メッセージ認証方式に基づく構築を分岐指標として採用する。 我々は、プロトコルの損失のない性能を削減によって証明する。 さらに,プロトコルに対する潜在的な脅威を分析し,言語モデルに対するセキュアで実現可能な透かしインスタンスを提供する。

With the development of deep learning, high-value and high-cost models have become valuable assets, and related intellectual property protection technologies have become a hot topic. However, existing model watermarking work in black-box scenarios mainly originates from training-based backdoor methods, which probably degrade primary task performance. To address this, we propose a branch backdoor-based model watermarking protocol to protect model intellectual property, where a construction based on a message authentication scheme is adopted as the branch indicator after a comparative analysis with secure cryptographic technologies primitives. We prove the lossless performance of the protocol by reduction. In addition, we analyze the potential threats to the protocol and provide a secure and feasible watermarking instance for language models.
翻訳日:2024-04-16 22:57:53 公開日:2024-04-14
# AM-RADIO: 集合的ビジョン基盤モデル - すべてのドメインをひとつに

AM-RADIO: Agglomerative Vision Foundation Model -- Reduce All Domains Into One ( http://arxiv.org/abs/2312.06709v4 )

ライセンス: Link先を確認
Mike Ranzinger, Greg Heinrich, Jan Kautz, Pavlo Molchanov, (参考訳) いくつかのビジュアルファンデーションモデル(VFM)が、最近、多くの下流タスクのバックボーンとして登場した。 CLIP、DINOv2、SAMなどのVFMは、異なる目的でトレーニングされており、さまざまな下流タスクに固有の特性を示している。 概念的相違にもかかわらず、これらのモデルはマルチティーチンガー蒸留により効果的に統一モデルにマージ可能であることが判明した。 このアプローチをAM-RADIO(Agglomerative Model -- Reduce All Domains Into One)と名付けます。 この統合的アプローチは、個々の教師モデルの性能を上回るだけでなく、ゼロショット視覚言語理解、詳細なピクセルレベルの理解、オープン語彙のセグメンテーション機能など、その特徴と相容れない。 最もハードウェア効率のよいバックボーンを追求するため、同じトレーニングレシピを用いてマルチティーチンガー蒸留パイプラインの多数のアーキテクチャを評価した。 これは、前任者の性能を超え、教師モデルよりも少なくとも7倍高速な新しいアーキテクチャ(E-RADIO)の開発につながった。 包括的なベンチマークプロセスでは、ImageNet分類、ADE20kセマンティックセグメンテーション、COCOオブジェクト検出、LLaVa-1.5フレームワークなどの下流タスクをカバーしています。 コード:https://github.com/NVlabs/RADIO

A handful of visual foundation models (VFMs) have recently emerged as the backbones for numerous downstream tasks. VFMs like CLIP, DINOv2, SAM are trained with distinct objectives, exhibiting unique characteristics for various downstream tasks. We find that despite their conceptual differences, these models can be effectively merged into a unified model through multi-teacher distillation. We name this approach AM-RADIO (Agglomerative Model -- Reduce All Domains Into One). This integrative approach not only surpasses the performance of individual teacher models but also amalgamates their distinctive features, such as zero-shot vision-language comprehension, detailed pixel-level understanding, and open vocabulary segmentation capabilities. In pursuit of the most hardware-efficient backbone, we evaluated numerous architectures in our multi-teacher distillation pipeline using the same training recipe. This led to the development of a novel architecture (E-RADIO) that exceeds the performance of its predecessors and is at least 7x faster than the teacher models. Our comprehensive benchmarking process covers downstream tasks including ImageNet classification, ADE20k semantic segmentation, COCO object detection and LLaVa-1.5 framework. Code: https://github.com/NVlabs/RADIO
翻訳日:2024-04-16 22:57:53 公開日:2024-04-14
# ガウス散乱SLAM

Gaussian Splatting SLAM ( http://arxiv.org/abs/2312.06741v2 )

ライセンス: Link先を確認
Hidenobu Matsuki, Riku Murai, Paul H. J. Kelly, Andrew J. Davison, (参考訳) モノクラーSLAMにおける3次元ガウススプラッティングの最初の応用について述べる。 提案手法は3fpsで動作し,ガウスを唯一の3次元表現として利用し,精度,効率的な追跡,マッピング,高品質なレンダリングに必要な表現を統一する。 本手法は,外界深度センサが利用可能であれば,RGB-D SLAMにシームレスに拡張可能である。 ライブカメラから高忠実度で連続的に3Dシーンを再構築するためには、いくつかの革新が必要である。 まず、オフラインのStructure from Motion (SfM)システムから正確なポーズを必要とする元の3DGSアルゴリズムを超えて、3Dガウスに対する直接最適化を用いて3DGSのカメラトラッキングを定式化し、より広範に収束した高速でロバストなトラッキングを可能にすることを示す。 第二に、ガウスの明示的な性質を生かして、漸進的な3次元密度再構成で生じる曖昧さを扱うために幾何的検証と正規化を導入する。 最後に、新しいビュー合成と軌道推定の最先端結果を得るだけでなく、小型で透明なオブジェクトの再構成を行うSLAMシステムを提案する。

We present the first application of 3D Gaussian Splatting in monocular SLAM, the most fundamental but the hardest setup for Visual SLAM. Our method, which runs live at 3fps, utilises Gaussians as the only 3D representation, unifying the required representation for accurate, efficient tracking, mapping, and high-quality rendering. Designed for challenging monocular settings, our approach is seamlessly extendable to RGB-D SLAM when an external depth sensor is available. Several innovations are required to continuously reconstruct 3D scenes with high fidelity from a live camera. First, to move beyond the original 3DGS algorithm, which requires accurate poses from an offline Structure from Motion (SfM) system, we formulate camera tracking for 3DGS using direct optimisation against the 3D Gaussians, and show that this enables fast and robust tracking with a wide basin of convergence. Second, by utilising the explicit nature of the Gaussians, we introduce geometric verification and regularisation to handle the ambiguities occurring in incremental 3D dense reconstruction. Finally, we introduce a full SLAM system which not only achieves state-of-the-art results in novel view synthesis and trajectory estimation but also reconstruction of tiny and even transparent objects.
翻訳日:2024-04-16 22:57:53 公開日:2024-04-14
# REBEL:人間からのロボット強化学習におけるリワード過最適化のための正規化に基づく解法

REBEL: A Regularization-Based Solution for Reward Overoptimization in Robotic Reinforcement Learning from Human Feedback ( http://arxiv.org/abs/2312.14436v2 )

ライセンス: Link先を確認
Souradip Chakraborty, Anukriti Singh, Amisha Bhaskar, Pratap Tokekar, Dinesh Manocha, Amrit Singh Bedi, (参考訳) 連続制御ロボット作業における強化学習(RL)エージェントの有効性は、基礎となる報酬関数の設計に大きく依存している。 しかし、報酬関数とユーザの意図、価値観、社会的規範の相違は、現実世界では破滅的なものである。 報酬関数を人間の好みから学習することで、このミスアライメント作業を軽減する方法が現在あるが、それは必然的に報酬過多のリスクを伴っている。 本研究では,意図した行動をより正確に反映した正規化報酬関数の導入を提唱することで,この問題に対処する。 本稿では,ロボットRLHF(RL from Human Feedback)フレームワークにおける報酬正規化の新たな概念を提案する。 提案手法は,人からのフィードバックだけでなく,報酬関数学習過程におけるRLエージェント自体の嗜好も考慮している。 この二重考慮は、RLにおける報酬関数過最適化の問題を大幅に軽減する。 本稿では,ロボットRLHF問題を二段階最適化問題として定式化することにより,提案手法の理論的正当性を示す。 我々は,DeepMind Control Suite \cite{tassa2018deepmind} や MetaWorld \cite{yu2021metaworld} や高次元視覚環境など,いくつかの連続制御ベンチマークにおいてアルゴリズムの効率を実証し,現在のSOTAベースラインと比較して70倍以上のサンプル効率を向上した。 これは、報酬関数を真の行動意図と整合させることにおける我々のアプローチの有効性を示し、新しいベンチマークを現場に設置する。

The effectiveness of reinforcement learning (RL) agents in continuous control robotics tasks is heavily dependent on the design of the underlying reward function. However, a misalignment between the reward function and user intentions, values, or social norms can be catastrophic in the real world. Current methods to mitigate this misalignment work by learning reward functions from human preferences; however, they inadvertently introduce a risk of reward overoptimization. In this work, we address this challenge by advocating for the adoption of regularized reward functions that more accurately mirror the intended behaviors. We propose a novel concept of reward regularization within the robotic RLHF (RL from Human Feedback) framework, which we refer to as \emph{agent preferences}. Our approach uniquely incorporates not just human feedback in the form of preferences but also considers the preferences of the RL agent itself during the reward function learning process. This dual consideration significantly mitigates the issue of reward function overoptimization in RL. We provide a theoretical justification for the proposed approach by formulating the robotic RLHF problem as a bilevel optimization problem. We demonstrate the efficiency of our algorithm {\ours} in several continuous control benchmarks including DeepMind Control Suite \cite{tassa2018deepmind} and MetaWorld \cite{yu2021metaworld} and high dimensional visual environments, with an improvement of more than 70\% in sample efficiency in comparison to current SOTA baselines. This showcases our approach's effectiveness in aligning reward functions with true behavioral intentions, setting a new benchmark in the field.
翻訳日:2024-04-16 22:48:02 公開日:2024-04-14
# 反復的プレコンディショニング誘導による拡散モデルによる画像復元

Image Restoration by Denoising Diffusion Models with Iteratively Preconditioned Guidance ( http://arxiv.org/abs/2312.16519v2 )

ライセンス: Link先を確認
Tomer Garber, Tom Tirer, (参考訳) 深層ニューラルネットワークのトレーニングは、画像復元問題に対処するための一般的なアプローチとなっている。 各観測モデルに対して「タスク固有の」ネットワークをトレーニングする別の方法は、事前訓練されたディープデノイザを使用して、追加のトレーニングをすることなく、信号の事前の反復アルゴリズムのみを付与することである。 近年,拡散/スコアベース生成モデルの普及により,本手法のサンプリングに基づく変種が普及している。 一般的な目的の復元にデノイザーを使用するには、観測と信号の一致を保証するために反復を導く必要がある。 低ノイズ環境では、バックプロジェクション(BP)に基づくガイダンスは有望な戦略であることが示されている(最近は"pseudoinverse" や "range/null-space" と呼ばれることもある)。 しかし、観測におけるノイズの存在は、このアプローチの利益を妨げている。 本稿では,BPをベースとしたガイダンスから,修復計画に沿った最小2乗のガイダンスへのトラバースを可能にする,事前条件に基づく新しいガイダンス手法を提案する。 提案手法はノイズに対して堅牢であり、代替手法よりもはるかに単純な実装である(例えば、SVDや多数のイテレーションを必要としない)。 最適化スキームとサンプリングベーススキームの両方で使用し、既存の画像劣化法と超解像法に勝る利点を実証する。

Training deep neural networks has become a common approach for addressing image restoration problems. An alternative for training a "task-specific" network for each observation model is to use pretrained deep denoisers for imposing only the signal's prior within iterative algorithms, without additional training. Recently, a sampling-based variant of this approach has become popular with the rise of diffusion/score-based generative models. Using denoisers for general purpose restoration requires guiding the iterations to ensure agreement of the signal with the observations. In low-noise settings, guidance that is based on back-projection (BP) has been shown to be a promising strategy (used recently also under the names "pseudoinverse" or "range/null-space" guidance). However, the presence of noise in the observations hinders the gains from this approach. In this paper, we propose a novel guidance technique, based on preconditioning that allows traversing from BP-based guidance to least squares based guidance along the restoration scheme. The proposed approach is robust to noise while still having much simpler implementation than alternative methods (e.g., it does not require SVD or a large number of iterations). We use it within both an optimization scheme and a sampling-based scheme, and demonstrate its advantages over existing methods for image deblurring and super-resolution.
翻訳日:2024-04-16 22:48:02 公開日:2024-04-14
# 3次元ガウス平滑化に関する調査研究

A Survey on 3D Gaussian Splatting ( http://arxiv.org/abs/2401.03890v2 )

ライセンス: Link先を確認
Guikun Chen, Wenguan Wang, (参考訳) 3D Gaussian splatting (GS) は、近年、明示的なラディアンス場とコンピュータグラフィックスの領域において、トランスフォーメーション技術として登場した。 この革新的なアプローチは、数百万の学習可能な3Dガウスの活用を特徴とし、主に暗黙的な座標に基づくモデルを用いて空間座標をピクセル値にマッピングする主流の神経放射場アプローチから著しく離れている。 3D GSは、明示的なシーン表現と差別化可能なレンダリングアルゴリズムを持ち、リアルタイムレンダリング能力を約束するだけでなく、前例のないレベルの編集性も導入している。 これにより、3D GSは次世代の3D再構成と表現のための潜在的なゲームチェンジャーとして位置づけられる。 本稿では,3D GSの領域における最近の発展と重要な貢献について,初めて体系的に概説する。 まず、3D GSの出現の背景にある基礎となる原理と推進力の詳細な調査から始め、その意義を理解するための基礎を築き上げます。 議論の焦点は、3D GSの実用性である。 前例のないレンダリング速度を実現することで、3D GSは、仮想現実からインタラクティブメディアまで、さまざまなアプリケーションを開きます。 これは、主要な3D GSモデルの比較分析によって補完され、様々なベンチマークタスクで評価され、パフォーマンスと実用性を強調している。 この調査は、現在の課題を特定し、この領域における将来の研究への潜在的な道を提案することで締めくくられる。 本調査は,新入生研究者と調味研究者の双方にとって貴重な資源を提供することを目標とし,適用可能で明示的な放射野表現のさらなる探索と発展を促進することを目的とする。

3D Gaussian splatting (GS) has recently emerged as a transformative technique in the realm of explicit radiance field and computer graphics. This innovative approach, characterized by the utilization of millions of learnable 3D Gaussians, represents a significant departure from mainstream neural radiance field approaches, which predominantly use implicit, coordinate-based models to map spatial coordinates to pixel values. 3D GS, with its explicit scene representation and differentiable rendering algorithm, not only promises real-time rendering capability but also introduces unprecedented levels of editability. This positions 3D GS as a potential game-changer for the next generation of 3D reconstruction and representation. In the present paper, we provide the first systematic overview of the recent developments and critical contributions in the domain of 3D GS. We begin with a detailed exploration of the underlying principles and the driving forces behind the emergence of 3D GS, laying the groundwork for understanding its significance. A focal point of our discussion is the practical applicability of 3D GS. By enabling unprecedented rendering speed, 3D GS opens up a plethora of applications, ranging from virtual reality to interactive media and beyond. This is complemented by a comparative analysis of leading 3D GS models, evaluated across various benchmark tasks to highlight their performance and practical utility. The survey concludes by identifying current challenges and suggesting potential avenues for future research in this domain. Through this survey, we aim to provide a valuable resource for both newcomers and seasoned researchers, fostering further exploration and advancement in applicable and explicit radiance field representation.
翻訳日:2024-04-16 22:48:02 公開日:2024-04-14
# Convex SGD: 早期停止のない一般化

Convex SGD: Generalization Without Early Stopping ( http://arxiv.org/abs/2401.04067v2 )

ライセンス: Link先を確認
Julien Hendrickx, Alex Olshevsky, (参考訳) コンパクトな集合上の滑らかな凸関数上の確率勾配降下に伴う一般化誤差を考察する。 1/\sqrt{T} + 1/\sqrt{n})$をステップサイズ$\alpha_t = 1/\sqrt{t}$とする。 特に、確率勾配降下がうまく一般化するためには、強い凸性は必要ない。

We consider the generalization error associated with stochastic gradient descent on a smooth convex function over a compact set. We show the first bound on the generalization error that vanishes when the number of iterations $T$ and the dataset size $n$ go to zero at arbitrary rates; our bound scales as $\tilde{O}(1/\sqrt{T} + 1/\sqrt{n})$ with step-size $\alpha_t = 1/\sqrt{t}$. In particular, strong convexity is not needed for stochastic gradient descent to generalize well.
翻訳日:2024-04-16 22:48:02 公開日:2024-04-14
# 生成的抽象推論に向けて:ルール抽象化と選択によるRavenのプログレッシブマトリックスの補完

Towards Generative Abstract Reasoning: Completing Raven's Progressive Matrix via Rule Abstraction and Selection ( http://arxiv.org/abs/2401.09966v3 )

ライセンス: Link先を確認
Fan Shi, Bin Li, Xiangyang Xue, (参考訳) 抽象推論能力を持つエンドウィングマシンは、人工知能における長期的な研究課題である。 Ravenのプログレッシブマトリックス(RPM)は、マシンインテリジェンスにおける抽象的な視覚的推論を探索するために広く使われている。 RPMテストの参加者は、属性変更規則を推論し、組み合わせ、行列の任意の位置で欠落した画像を想像することによって、強力な推論能力を示すことができる。 しかし、既存の解法は現実的なRPMテストでそのような能力を示すことはほとんどできない。 本稿では,ルール AbstractIon and Selection (RAISE) を用いて,回答生成問題に対する潜時変数モデルを提案する。 RAISEはイメージ属性を潜在概念にエンコードし、潜在概念に作用する抽象的な原子規則を記述できる。 RAISEは回答を生成する際に、各潜在概念のグローバル知識から1つの原子ルールを選択し、RPMの基本ルールを構成する。 ボトムライトおよび任意の位置答え生成の実験において、RAISEは現実的なRPMデータセットのほとんどの構成において比較した解法よりも優れる。 奇抜なワンアウトタスクと2つのホールトアウト構成では、RAISEは取得した潜在概念とアトミックルールを利用して行列内のルール破りの画像を見つけ、ルールと属性の目に見えない組み合わせで問題に対処することができる。

Endowing machines with abstract reasoning ability has been a long-term research topic in artificial intelligence. Raven's Progressive Matrix (RPM) is widely used to probe abstract visual reasoning in machine intelligence, where models will analyze the underlying rules and select one image from candidates to complete the image matrix. Participators of RPM tests can show powerful reasoning ability by inferring and combining attribute-changing rules and imagining the missing images at arbitrary positions of a matrix. However, existing solvers can hardly manifest such an ability in realistic RPM tests. In this paper, we propose a deep latent variable model for answer generation problems through Rule AbstractIon and SElection (RAISE). RAISE can encode image attributes into latent concepts and abstract atomic rules that act on the latent concepts. When generating answers, RAISE selects one atomic rule out of the global knowledge set for each latent concept to constitute the underlying rule of an RPM. In the experiments of bottom-right and arbitrary-position answer generation, RAISE outperforms the compared solvers in most configurations of realistic RPM datasets. In the odd-one-out task and two held-out configurations, RAISE can leverage acquired latent concepts and atomic rules to find the rule-breaking image in a matrix and handle problems with unseen combinations of rules and attributes.
翻訳日:2024-04-16 22:38:10 公開日:2024-04-14
# Raidar: GeneRative AI Detection viA 書き換え

Raidar: geneRative AI Detection viA Rewriting ( http://arxiv.org/abs/2401.12970v2 )

ライセンス: Link先を確認
Chengzhi Mao, Carl Vondrick, Hao Wang, Junfeng Yang, (参考訳) 大規模な言語モデル(LLM)は、書き直しのタスクを行うと、AI生成テキストよりも人間の書き起こしテキストを変更する傾向にある。 この傾向は、LLMがAI生成したテキストを高品質と認識し、修正が少なくなるためである。 テキストの書き直しを LLM に促し,出力の編集距離を計算することで,AI 生成コンテンツを検出する手法を提案する。 我々は、ジェネレーティブAI検出viA書き換え方法Raidarと名づけた。 Raidarは、ニュース、クリエイティブな執筆、学生エッセイ、コード、Yelpのレビュー、arXivの論文など、さまざまな分野において、既存のAIコンテンツ検出モデルのF1検出スコアを最大29ポイント向上させる。 本手法は,高次元の特徴を持たない単語記号のみで動作し,ブラックボックスLLMと互換性があり,新しいコンテンツに対して本質的にロバストである。 この結果から,機械自体のレンズを通した機械生成テキストのユニークなインプリントが明らかになった。

We find that large language models (LLMs) are more likely to modify human-written text than AI-generated text when tasked with rewriting. This tendency arises because LLMs often perceive AI-generated text as high-quality, leading to fewer modifications. We introduce a method to detect AI-generated content by prompting LLMs to rewrite text and calculating the editing distance of the output. We dubbed our geneRative AI Detection viA Rewriting method Raidar. Raidar significantly improves the F1 detection scores of existing AI content detection models -- both academic and commercial -- across various domains, including News, creative writing, student essays, code, Yelp reviews, and arXiv papers, with gains of up to 29 points. Operating solely on word symbols without high-dimensional features, our method is compatible with black box LLMs, and is inherently robust on new content. Our results illustrate the unique imprint of machine-generated text through the lens of the machines themselves.
翻訳日:2024-04-16 22:38:10 公開日:2024-04-14
# 公開ソフトウェアパッケージレジストリ4つの署名:量、品質、影響要因

Signing in Four Public Software Package Registries: Quantity, Quality, and Influencing Factors ( http://arxiv.org/abs/2401.14635v2 )

ライセンス: Link先を確認
Taylor R Schorlemmer, Kelechi G Kalu, Luke Chigges, Kyung Myung Ko, Eman Abu Isghair, Saurabh Baghi, Santiago Torres-Arias, James C Davis, (参考訳) 多くのソフトウェアアプリケーションは、パブリックパッケージレジストリによって配布されるオープンソースのサードパーティパッケージを組み込んでいる。 このサプライチェーンに沿った著者の確保は課題である。 パッケージメンテナは、ソフトウェア署名を通じてパッケージオーサシップを保証できる。 しかし、この慣行がどの程度一般的か、結果のシグネチャが適切に作成されているかは定かではない。 以前の作業では、レジストリ署名のプラクティスに関する生のデータを提供していたが、品質を考慮せず、時間も考慮せず、署名に影響を与える可能性のある要因も評価していなかった。 署名のプラクティスの最新の測定は行いませんし、既存の署名の品質も分かっていません。 さらに、署名の採用に影響を与える要因の包括的な理解も欠如しています。 この研究はこのギャップに対処する。 従来のソフトウェア(Maven、PyPI)、コンテナイメージ(DockerHub)、マシンラーニングモデル(Hugging Face)の3種類のパッケージレジストリの測定結果を提供しています。 各レジストリについて、署名されたアーティファクトの性質と、署名の現在の量と品質を説明します。 次に,署名実践における縦断的傾向について検討する。 最後に、準実験を用いて、さまざまな要因がソフトウェア署名プラクティスに与える影響を見積もる。 1)署名の導入を強制することが署名の量を改善すること、(2)専用のツールを提供することで署名の質が向上すること、(3)開始が難しいこと、(3)保守者が署名し始めると、それを継続する傾向があること、(4)多くのサプライチェーン攻撃は署名によって軽減されるが、署名の採用は、攻撃の公的な知識や新しいエンジニアリング標準などよりも、レジストリポリシーによって主に影響を受ける。 これらの調査結果は,ソフトウェアパッケージレジストリマネージャと署名インフラストラクチャの重要性を浮き彫りにしたものだ。

Many software applications incorporate open-source third-party packages distributed by public package registries. Guaranteeing authorship along this supply chain is a challenge. Package maintainers can guarantee package authorship through software signing. However, it is unclear how common this practice is, and whether the resulting signatures are created properly. Prior work has provided raw data on registry signing practices, but only measured single platforms, did not consider quality, did not consider time, and did not assess factors that may influence signing. We do not have up-to-date measurements of signing practices nor do we know the quality of existing signatures. Furthermore, we lack a comprehensive understanding of factors that influence signing adoption. This study addresses this gap. We provide measurements across three kinds of package registries: traditional software (Maven, PyPI), container images (DockerHub), and machine learning models (Hugging Face). For each registry, we describe the nature of the signed artifacts as well as the current quantity and quality of signatures. Then, we examine longitudinal trends in signing practices. Finally, we use a quasi-experiment to estimate the effect that various factors had on software signing practices. To summarize our findings: (1) mandating signature adoption improves the quantity of signatures; (2) providing dedicated tooling improves the quality of signing; (3) getting started is the hard part -- once a maintainer begins to sign, they tend to continue doing so; and (4) although many supply chain attacks are mitigable via signing, signing adoption is primarily affected by registry policy rather than by public knowledge of attacks, new engineering standards, etc. These findings highlight the importance of software package registry managers and signing infrastructure.
翻訳日:2024-04-16 22:38:10 公開日:2024-04-14
# オンライン不均一フェデレーション強化学習の有限時間解析

Finite-Time Analysis of On-Policy Heterogeneous Federated Reinforcement Learning ( http://arxiv.org/abs/2401.15273v2 )

ライセンス: Link先を確認
Chenyu Zhang, Han Wang, Aritra Mitra, James Anderson, (参考訳) フェデレート強化学習(FRL)は,異なるエージェントからの情報を活用することで,強化学習タスクのサンプル複雑性を低減するための,有望なパラダイムとして登場した。 しかしながら、各エージェントが潜在的に異なる環境と相互作用する場合、FRLアルゴリズムの非漸近的性能について理論的にはほとんど知られていない。 マルコフ的サンプリング、線形関数近似、通信の節約のための複数の局所的な更新、報酬関数の不均一性、エージェントのMDPの遷移カーネル、連続状態アクション空間などである。 さらに、政治状況においては、行動方針は時間によって異なり、分析をさらに複雑にしている。 そこで我々は,これらの課題に対処し,包括的有限時間誤差解析を提供するために,線形関数近似を備えた新しいオンライン強化学習手法であるFedSARSAを紹介した。 特に、FedSARSAは、不均一性のレベルに比例して、全てのエージェントにほぼ最適のポリシーに収束する。 さらに,FedSARSAはエージェント協調を利用して,エージェントの数が増加するにつれて線形スピードアップを可能にする。

Federated reinforcement learning (FRL) has emerged as a promising paradigm for reducing the sample complexity of reinforcement learning tasks by exploiting information from different agents. However, when each agent interacts with a potentially different environment, little to nothing is known theoretically about the non-asymptotic performance of FRL algorithms. The lack of such results can be attributed to various technical challenges and their intricate interplay: Markovian sampling, linear function approximation, multiple local updates to save communication, heterogeneity in the reward functions and transition kernels of the agents' MDPs, and continuous state-action spaces. Moreover, in the on-policy setting, the behavior policies vary with time, further complicating the analysis. In response, we introduce FedSARSA, a novel federated on-policy reinforcement learning scheme, equipped with linear function approximation, to address these challenges and provide a comprehensive finite-time error analysis. Notably, we establish that FedSARSA converges to a policy that is near-optimal for all agents, with the extent of near-optimality proportional to the level of heterogeneity. Furthermore, we prove that FedSARSA leverages agent collaboration to enable linear speedups as the number of agents increases, which holds for both fixed and adaptive step-size configurations.
翻訳日:2024-04-16 22:38:10 公開日:2024-04-14
# 校正レンズによる不変リスク最小化の変数理解に向けて

Towards Understanding Variants of Invariant Risk Minimization through the Lens of Calibration ( http://arxiv.org/abs/2401.17541v2 )

ライセンス: Link先を確認
Kotaro Yoshida, Hiroki Naganuma, (参考訳) 機械学習モデルは伝統的に、トレーニングとテストデータは独立して同一に分散されていると仮定する。 しかし、実世界のアプリケーションでは、テスト分布はトレーニングとは異なることが多い。 この問題はアウト・オブ・ディストリビューション一般化(out-of-distriion generalization)と呼ばれ、従来のモデルに挑戦する。 Invariant Risk Minimization (IRM) は、様々な環境にまたがる特徴を識別し、アウト・オブ・ディストリビューションの堅牢性を高めることを目的として、ソリューションとして登場した。 しかし、IRMの複雑さ、特に双レベル最適化は、様々な近似手法の開発に繋がった。 本研究では,これらの近似IRM手法について検討し,予測校正誤差(ECE)を指標として検討した。 モデル予測の信頼性を測定するECEは、モデルが環境不変の特徴を効果的に捉えているかどうかを示す指標となる。 分布変化を伴うデータセットの比較分析により,表現情報を凝縮したインフォメーション・ボトルネックをベースとしたITMは,比較的精度を保ちながら,CEの改善のバランスを保っていることがわかった。 この発見は、正確さを損なうことなく堅牢性を維持するための、実現可能な道筋を示すため、極めて重要である。 それでも、我々の実験は過正規化に注意し、精度を低下させる可能性がある。 このことは、精度とキャリブレーションの間の微妙な相互作用に対処するためには、単なる精度以上のものである、分布外一般化メトリクスを評価するための体系的なアプローチの必要性を浮き彫りにしている。

Machine learning models traditionally assume that training and test data are independently and identically distributed. However, in real-world applications, the test distribution often differs from training. This problem, known as out-of-distribution generalization, challenges conventional models. Invariant Risk Minimization (IRM) emerges as a solution, aiming to identify features invariant across different environments to enhance out-of-distribution robustness. However, IRM's complexity, particularly its bi-level optimization, has led to the development of various approximate methods. Our study investigates these approximate IRM techniques, employing the Expected Calibration Error (ECE) as a key metric. ECE, which measures the reliability of model prediction, serves as an indicator of whether models effectively capture environment-invariant features. Through a comparative analysis of datasets with distributional shifts, we observe that Information Bottleneck-based IRM, which condenses representational information, achieves a balance in improving ECE while preserving accuracy relatively. This finding is pivotal, as it demonstrates a feasible path to maintaining robustness without compromising accuracy. Nonetheless, our experiments also caution against over-regularization, which can diminish accuracy. This underscores the necessity for a systematic approach in evaluating out-of-distribution generalization metrics, one that beyond mere accuracy to address the nuanced interplay between accuracy and calibration.
翻訳日:2024-04-16 22:38:10 公開日:2024-04-14
# 条件拡散のための球面ガウス制約による誘導

Guidance with Spherical Gaussian Constraint for Conditional Diffusion ( http://arxiv.org/abs/2402.03201v2 )

ライセンス: Link先を確認
Lingxiao Yang, Shutong Ding, Yifan Cai, Jingyi Yu, Jingya Wang, Ye Shi, (参考訳) 拡散モデルの最近の進歩は、追加の訓練を必要とせずに、異なる損失関数をガイダンスに利用することで条件付き生成タスクを処理しようとするものである。 これらの手法は一定の成功を収めたが、しばしばサンプルの品質を妥協し、小さなガイダンスのステップサイズを必要とするため、より長いサンプリングプロセスに繋がる。 本稿では, 損失誘導を行う際に, サンプリング過程における多様体偏差の基本的な問題を明らかにする。 損失誘導の推定誤差に対して, 一定の下界を確立することにより, 多様体偏差の存在を理論的に示す。 この問題を軽減するために,高次元ガウス分布における集中現象から着想を得た球状ガウス制約付き拡散(DSG)を提案する。 DSGは、最適化を通じて中間データ多様体内のガイダンスステップを効果的に制限し、より大きなガイダンスステップの使用を可能にする。 さらに、球面ガウスの制約を除いたDSGの閉形式解を提案する。 特にDSGは、既存のトレーニングフリー条件付き拡散メソッドにプラグインモジュールとしてシームレスに統合できる。 DSGを実装するには、余分な計算オーバーヘッドがほとんどない数行の追加コードだけで、パフォーマンスが大幅に向上する。 各種条件生成タスクにおける総合的な実験結果は,サンプル品質と時間効率の両面でDSGの優越性と適応性を検証した。

Recent advances in diffusion models attempt to handle conditional generative tasks by utilizing a differentiable loss function for guidance without the need for additional training. While these methods achieved certain success, they often compromise on sample quality and require small guidance step sizes, leading to longer sampling processes. This paper reveals that the fundamental issue lies in the manifold deviation during the sampling process when loss guidance is employed. We theoretically show the existence of manifold deviation by establishing a certain lower bound for the estimation error of the loss guidance. To mitigate this problem, we propose Diffusion with Spherical Gaussian constraint (DSG), drawing inspiration from the concentration phenomenon in high-dimensional Gaussian distributions. DSG effectively constrains the guidance step within the intermediate data manifold through optimization and enables the use of larger guidance steps. Furthermore, we present a closed-form solution for DSG denoising with the Spherical Gaussian constraint. Notably, DSG can seamlessly integrate as a plugin module within existing training-free conditional diffusion methods. Implementing DSG merely involves a few lines of additional code with almost no extra computational overhead, yet it leads to significant performance improvements. Comprehensive experimental results in various conditional generation tasks validate the superiority and adaptability of DSG in terms of both sample quality and time efficiency.
翻訳日:2024-04-16 22:28:15 公開日:2024-04-14
# 離散的最適輸送によるデジタルコンピュータの高次一般化境界

Tighter Generalization Bounds on Digital Computers via Discrete Optimal Transport ( http://arxiv.org/abs/2402.05576v2 )

ライセンス: Link先を確認
Anastasis Kratsios, A. Martina Neuman, Gudmund Pammer, (参考訳) ユークリッド空間に入力を持つ機械学習モデル $\mathbb{R}^d$ がデジタルコンピュータに実装されると、一般化され、それらの一般化ギャップはサンプルサイズ$N$に対して$c/N^{1/2}$の速度で$0$に収束する。 しかし、古典的手法で得られる定数$c>0$は、周囲次元$d$と機械精度で大きくなり、N$が小さくて現実的に大きい場合の挑戦となる。 本稿では,デジタルコンピュータ上での学習モデルに適した一般化の族$\{c_m/N^{1/(2\vee m)}\}_{m=1}^{\infty}$を導出する。 パラメータ $m$ を$N$ に従って調整すると、実際のサンプルサイズに対するより厳密な一般化境界が$N$ となり、$m$ が $\mathcal{O}(1/N^{1/2})$ の最適次元自由最悪のケース率を維持する。 特に、離散化されたユークリッド領域上の学習モデルに対して$c_{m}\in \mathcal{O}(\sqrt{m})$である。 さらに、我々の適応一般化境界は、計量埋め込みの議論を利用して確立された離散最適輸送における測度集中に関する新しい非漸近結果に基づいて定式化される。

Machine learning models with inputs in a Euclidean space $\mathbb{R}^d$, when implemented on digital computers, generalize, and their {\it generalization gap} converges to $0$ at a rate of $c/N^{1/2}$ concerning the sample size $N$. However, the constant $c>0$ obtained through classical methods can be large in terms of the ambient dimension $d$ and the machine precision, posing a challenge when $N$ is small to realistically large. In this paper, we derive a family of generalization bounds $\{c_m/N^{1/(2\vee m)}\}_{m=1}^{\infty}$ tailored for learning models on digital computers, which adapt to both the sample size $N$ and the so-called geometric {\it representation dimension} $m$ of the discrete learning problem. Adjusting the parameter $m$ according to $N$ results in significantly tighter generalization bounds for practical sample sizes $N$, while setting $m$ small maintains the optimal dimension-free worst-case rate of $\mathcal{O}(1/N^{1/2})$. Notably, $c_{m}\in \mathcal{O}(\sqrt{m})$ for learning models on discretized Euclidean domains. Furthermore, our adaptive generalization bounds are formulated based on our new non-asymptotic result for concentration of measure in discrete optimal transport, established via leveraging metric embedding arguments.
翻訳日:2024-04-16 22:28:15 公開日:2024-04-14
# 最後のダンス : 拡散モデルとベイズ的アプローチによるロバスト・バックドア攻撃

The last Dance : Robust backdoor attack via diffusion models and bayesian approach ( http://arxiv.org/abs/2402.05967v3 )

ライセンス: Link先を確認
Orson Mengara, (参考訳) 拡散モデル (diffusion model) は、ノイズや雑音の進行的な付加による前方および後方拡散過程の学習原理に基づいて訓練された最先端のディープラーニング生成モデルである。 本稿では,Hugging Faceフレームワークなどの音声ベースのDNNモデル,特に,時間を節約し,より効率的に結果を得る強力な機械学習モデルであるトランスフォーマーベースの人工知能モデルに焦点をあてる。 我々は、人工知能研究の世界で人気のあるフレームワークであるHugging Faceから派生したオーディオトランスフォーマーにおけるバックドア攻撃("BacKBayDiffMod`"と呼ばれる)の実現可能性を示す。 本研究で開発されたバックドアアタックは, バックドア拡散サンプリングとベイズ的アプローチを取り入れた有毒モデルトレーニングデータに基づく。

Diffusion models are state-of-the-art deep learning generative models that are trained on the principle of learning forward and backward diffusion processes via the progressive addition of noise and denoising. In this paper, we aim to fool audio-based DNN models, such as those from the Hugging Face framework, primarily those that focus on audio, in particular transformer-based artificial intelligence models, which are powerful machine learning models that save time and achieve results faster and more efficiently. We demonstrate the feasibility of backdoor attacks (called `BacKBayDiffMod`) on audio transformers derived from Hugging Face, a popular framework in the world of artificial intelligence research. The backdoor attack developed in this paper is based on poisoning model training data uniquely by incorporating backdoor diffusion sampling and a Bayesian approach to the distribution of poisoned data.
翻訳日:2024-04-16 22:28:15 公開日:2024-04-14
# 放射線・超音波・電気生理学における生信号データからの深層学習分類の可能性について

On the Feasibility of Deep Learning Classification from Raw Signal Data in Radiology, Ultrasonography and Electrophysiology ( http://arxiv.org/abs/2402.16165v3 )

ライセンス: Link先を確認
Szilard Enyedi, (参考訳) 医療画像は医療において非常に有用なツールであり、生体内を非侵襲的に覗くために様々な技術が用いられている。 放射線学におけるニューラルネットワークによる深層学習は、放射線学者コミュニティから歓迎された。 現在デプロイまたは研究されているディープラーニングソリューションのほとんどは、既に生成された医療スキャンの画像に適用され、ニューラルネットワークを使用してそのような画像の生成を支援したり、スペクトログラフ内の特定の物質マーカーを特定するために使用しています。 この論文の著者は、もしニューラルネットワークがスキャンマシンの生信号に直接トレーニングされたら、既に処理された画像よりもニュアンスな情報にアクセスでき、したがってトレーニングがより正確になる、と示唆している。 本稿では, 放射光, 超音波, 電気生理学における深層学習の主な応用について述べるとともに, 提案したニューラルネットワークが生信号を直接学習できるかどうかを論じる。

Medical imaging is a very useful tool in healthcare, various technologies being employed to non-invasively peek inside the human body. Deep learning with neural networks in radiology was welcome - albeit cautiously - by the radiologist community. Most of the currently deployed or researched deep learning solutions are applied on already generated images of medical scans, use the neural networks to aid in the generation of such images, or use them for identifying specific substance markers in spectrographs. This paper's author posits that if the neural networks were trained directly on the raw signals from the scanning machines, they would gain access to more nuanced information than from the already processed images, hence the training - and later, the inferences - would become more accurate. The paper presents the main current applications of deep learning in radiography, ultrasonography, and electrophysiology, and discusses whether the proposed neural network training directly on raw signals is feasible.
翻訳日:2024-04-16 20:31:43 公開日:2024-04-14
# Z-AGI Labs at ClimateActivism 2024: Stance and Hate Event Detection on Social Media

Z-AGI Labs at ClimateActivism 2024: Stance and Hate Event Detection on Social Media ( http://arxiv.org/abs/2402.17014v2 )

ライセンス: Link先を確認
Nikhil Narayan, Mrutyunjay Biswal, (参考訳) デジタルの世界では、リッチデータは、社会的、政治的、経済的景観の複雑さに関する重要な洞察の源となっている。 イベントに関する情報の質の向上とヘイトスピーチと闘うための必須事項に対処し, ケース2024における気候活動状況とヘイトイベント検出に関する共有タスクの確立に繋がった。 ソーシャルメディア上でヘイトスピーチと競合する気候活動家に焦点をあてて、我々の研究はツイートからのヘイトスピーチの識別に寄与する。 Tf-Idfに基づくLSTM,Xgboost,LGBMの3つのサブタスクを解析し,Hate Speech Detection (Sub-task A),Tate Speech Identification (Sub-task B),Stance Detection (Sub-task C)の3つのサブタスクを解析した。 結果は、Subtask-B (F1: 0.5604) とSubtask-C (F1: 0.7081) で、LGBMはSubtask-A (F1: 0.8684) の最高性能モデルとして登場した。 この研究は、気候ヘイトスピーチと姿勢検出のための古典的機械学習モデルの適合性に関する貴重な洞察を与え、堅牢なメカニズムのための情報モデル選択を支援する。

In the digital realm, rich data serves as a crucial source of insights into the complexities of social, political, and economic landscapes. Addressing the growing need for high-quality information on events and the imperative to combat hate speech, this research led to the establishment of the Shared Task on Climate Activism Stance and Hate Event Detection at CASE 2024. Focused on climate activists contending with hate speech on social media, our study contributes to hate speech identification from tweets. Analyzing three sub-tasks - Hate Speech Detection (Sub-task A), Targets of Hate Speech Identification (Sub-task B), and Stance Detection (Sub-task C) - Team Z-AGI Labs evaluated various models, including LSTM, Xgboost, and LGBM based on Tf-Idf. Results unveiled intriguing variations, with Catboost excelling in Subtask-B (F1: 0.5604) and Subtask-C (F1: 0.7081), while LGBM emerged as the top-performing model for Subtask-A (F1: 0.8684). This research provides valuable insights into the suitability of classical machine learning models for climate hate speech and stance detection, aiding informed model selection for robust mechanisms.
翻訳日:2024-04-16 20:31:43 公開日:2024-04-14
# 喉頭血管分類における2段階異種移行学習の検討 : 課題と改善

Analysis of the Two-Step Heterogeneous Transfer Learning for Laryngeal Blood Vessel Classification: Issue and Improvement ( http://arxiv.org/abs/2402.19001v3 )

ライセンス: Link先を確認
Xinyi Fang, Xu Yang, Chak Fong Chong, Kei Long Wong, Yapeng Wang, Tiankui Zhang, Sio-Kei Im, (参考訳) 喉頭癌の早期発見には良性・悪性の喉頭血管の正確な分類が重要である。 しかし、喉頭血管画像へのアクセスが限られている組織は、効果的な学習のための大規模で均質な公開データセットが欠如しているため、課題に直面している。 この研究は、9つのディープラーニングモデルを用いた喉頭病変分類のための2段階のヘテロジニアストランスファーラーニング(THTL)を探索し、糖尿病網膜症カラーファンドス画像(意味論的に非同一であるが血管画像)を中間領域として利用した。 注意可視化技術であるLayerCAM(LayerCAM)は、中間領域と対象領域の両方が血管構造をある程度反映しているにもかかわらず、中間ドメインの固有な放射状血管パターンは、標的ドメインの悪性クラスを区別するねじれと絡み合った血管の特徴を学習するのを防ぎ、THTLを用いた喉頭病変分類における重要な規則を要約している。 そこで本研究では,SWFT(Step-Wise Fine-Tuning)と呼ばれるTHTLの微調整戦略を導入し,ResNetモデルに適用する。 SWFTは、LayerCAMの可視化結果によって導かれる微調整層を前後に蓄積することで、モデル性能を段階的に改善する。 オリジナルのTHTLアプローチと比較すると、大きな改善が見られた。 ResNet18では精度が26.1%、悪性リコールは79.8%向上し、ResNet50では20.4%、62.2%向上した。

Accurate classification of laryngeal vascular as benign or malignant is crucial for early detection of laryngeal cancer. However, organizations with limited access to laryngeal vascular images face challenges due to the lack of large and homogeneous public datasets for effective learning. Distinguished from the most familiar works, which directly transfer the ImageNet pre-trained models to the target domain for fine-tuning, this work pioneers exploring two-step heterogeneous transfer learning (THTL) for laryngeal lesion classification with nine deep-learning models, utilizing the diabetic retinopathy color fundus images, semantically non-identical yet vascular images, as the intermediate domain. Attention visualization technique, Layer Class Activate Map (LayerCAM), reveals a novel finding that yet the intermediate and the target domain both reflect vascular structure to a certain extent, the prevalent radial vascular pattern in the intermediate domain prevents learning the features of twisted and tangled vessels that distinguish the malignant class in the target domain, summarizes a vital rule for laryngeal lesion classification using THTL. To address this, we introduce an enhanced fine-tuning strategy in THTL called Step-Wise Fine-Tuning (SWFT) and apply it to the ResNet models. SWFT progressively refines model performance by accumulating fine-tuning layers from back to front, guided by the visualization results of LayerCAM. Comparison with the original THTL approach shows significant improvements. For ResNet18, the accuracy and malignant recall increases by 26.1% and 79.8%, respectively, while for ResNet50, these indicators improve by 20.4% and 62.2%, respectively.
翻訳日:2024-04-16 20:31:43 公開日:2024-04-14
# AI生成コンテンツの検索拡張生成:サーベイ

Retrieval-Augmented Generation for AI-Generated Content: A Survey ( http://arxiv.org/abs/2402.19473v3 )

ライセンス: Link先を確認
Penghao Zhao, Hailin Zhang, Qinhan Yu, Zhengren Wang, Yunteng Geng, Fangcheng Fu, Ling Yang, Wentao Zhang, Jie Jiang, Bin Cui, (参考訳) モデルアルゴリズムの進歩、基礎モデルの成長、高品質なデータセットへのアクセスは、人工知能生成コンテンツ(AIGC)の進化を促している。 その顕著な成功にもかかわらず、AIGCは、知識の更新、長期データ処理、データ漏洩の軽減、高いトレーニングと推論コストの管理といったハードルに直面している。 Retrieval-Augmented Generation (RAG) はそのような課題に対処するためのパラダイムとして最近登場した。 特に、RAGは情報検索プロセスを導入し、関連オブジェクトを利用可能なデータストアから取得することで生成プロセスを強化し、より高い精度と堅牢性を実現する。 本稿では,RAG手法をAIGCシナリオに統合する既存の取り組みを概観的にレビューする。 本稿では、まず、レトリバーがジェネレータをどのように拡張するかに応じてRAG基盤を分類し、様々なレトリバーやジェネレータのための拡張手法の基本的抽象化を蒸留する。 この統合された視点は、すべてのRAGシナリオを包含し、将来の進歩に役立つ進歩と重要な技術を示します。 また、RAGシステムの効率的なエンジニアリングと実装を容易にするため、RAGのさらなる拡張手法についても要約する。 そして、別の視点から、様々なモダリティやタスクにまたがるRAGの実践的応用を調査し、研究者や実践者に貴重な参考資料を提供する。 さらに、RAGのベンチマークを導入し、現在のRAGシステムの限界について議論し、今後の研究の方向性を提案する。 Github:https://github.com/PKU-DAIR/RAG-Survey.com

Advancements in model algorithms, the growth of foundational models, and access to high-quality datasets have propelled the evolution of Artificial Intelligence Generated Content (AIGC). Despite its notable successes, AIGC still faces hurdles such as updating knowledge, handling long-tail data, mitigating data leakage, and managing high training and inference costs. Retrieval-Augmented Generation (RAG) has recently emerged as a paradigm to address such challenges. In particular, RAG introduces the information retrieval process, which enhances the generation process by retrieving relevant objects from available data stores, leading to higher accuracy and better robustness. In this paper, we comprehensively review existing efforts that integrate RAG technique into AIGC scenarios. We first classify RAG foundations according to how the retriever augments the generator, distilling the fundamental abstractions of the augmentation methodologies for various retrievers and generators. This unified perspective encompasses all RAG scenarios, illuminating advancements and pivotal technologies that help with potential future progress. We also summarize additional enhancements methods for RAG, facilitating effective engineering and implementation of RAG systems. Then from another view, we survey on practical applications of RAG across different modalities and tasks, offering valuable references for researchers and practitioners. Furthermore, we introduce the benchmarks for RAG, discuss the limitations of current RAG systems, and suggest potential directions for future research. Github: https://github.com/PKU-DAIR/RAG-Survey.
翻訳日:2024-04-16 20:21:55 公開日:2024-04-14
# 時系列物理センシングデータのための仮想アノテーションとしての大規模言語モデルの評価

Evaluating Large Language Models as Virtual Annotators for Time-series Physical Sensing Data ( http://arxiv.org/abs/2403.01133v2 )

ライセンス: Link先を確認
Aritra Hota, Soumyajit Chatterjee, Sandip Chakraborty, (参考訳) 慣性データのような時系列データのための従来のヒューマン・イン・ザ・ループ・ベースのアノテーションは、しばしば環境からのビデオやオーディオのような代替のモダリティにアクセスする必要がある。 これらの代替情報源は人間のアノテータに必要な情報を提供するが、生の数値データは専門家にとっても難解すぎることが多い。 しかしながら、この従来のアプローチには、全体的なコスト、効率、追加のモダリティの保存、時間、スケーラビリティ、プライバシに関する多くの懸念がある。 興味深いことに、最近の大規模言語モデル (LLMs) も、膨大な量の公用アルファ数値データで訓練されており、自然言語処理以外のタスクを理解、実行することができる。 当然、これはLLMを仮想アノテータとして探索するための潜在的な道を開く。そこでは、LLMは代替のモダリティに頼るのではなく、アノテーションのために生のセンサーデータを直接供給する。 当然のことながら、これは従来のヒューマン・イン・ザ・ループ・アプローチの問題を緩和する可能性がある。 本報告では, 時系列物理センシングデータをラベル付けするための仮想アノテータとして, 最先端(SOTA) LLMを使用できるかどうかを詳細に検討する。 これを原則的に実施するために、我々は研究を2つの主要な段階に分けた。 第1段階では,GPT-4のようなLCMが生センサデータを解釈する際に直面する課題について検討する。 フェーズ1の観測から次のフェーズにおいて,SOTA SSLアプローチを用いて生センサデータを符号化し,予測した時系列データを用いてLCMからアノテーションを取得する可能性を検討する。 4つのベンチマークHARデータセットによる詳細な評価は、SSLベースのエンコーディングとメトリックベースのガイダンスにより、計算コストのかかる微調整や高度なプロンプトエンジニアリングを必要とせずに、LSMがより合理的な判断と正確なアノテーションを提供できるようになることを示している。

Traditional human-in-the-loop-based annotation for time-series data like inertial data often requires access to alternate modalities like video or audio from the environment. These alternate sources provide the necessary information to the human annotator, as the raw numeric data is often too obfuscated even for an expert. However, this traditional approach has many concerns surrounding overall cost, efficiency, storage of additional modalities, time, scalability, and privacy. Interestingly, recent large language models (LLMs) are also trained with vast amounts of publicly available alphanumeric data, which allows them to comprehend and perform well on tasks beyond natural language processing. Naturally, this opens up a potential avenue to explore LLMs as virtual annotators where the LLMs will be directly provided the raw sensor data for annotation instead of relying on any alternate modality. Naturally, this could mitigate the problems of the traditional human-in-the-loop approach. Motivated by this observation, we perform a detailed study in this paper to assess whether the state-of-the-art (SOTA) LLMs can be used as virtual annotators for labeling time-series physical sensing data. To perform this in a principled manner, we segregate the study into two major phases. In the first phase, we investigate the challenges an LLM like GPT-4 faces in comprehending raw sensor data. Considering the observations from phase 1, in the next phase, we investigate the possibility of encoding the raw sensor data using SOTA SSL approaches and utilizing the projected time-series data to get annotations from the LLM. Detailed evaluation with four benchmark HAR datasets shows that SSL-based encoding and metric-based guidance allow the LLM to make more reasonable decisions and provide accurate annotations without requiring computationally expensive fine-tuning or sophisticated prompt engineering.
翻訳日:2024-04-16 20:21:55 公開日:2024-04-14
# 量的問題:大規模視覚・言語モデルにおける数的幻覚の評価と緩和に向けて

Quantity Matters: Towards Assessing and Mitigating Number Hallucination in Large Vision-Language Models ( http://arxiv.org/abs/2403.01373v2 )

ライセンス: Link先を確認
Huixuan Zhang, Junzhe Zhang, Xiaojun Wan, (参考訳) 大規模視覚言語モデルは、両方の領域を含むタスクを扱うのに素晴らしいスキルを誇示している。 それでもこれらのモデルは、幻覚である不正確な情報を生成することで、しばしば重大な問題を経験する。 本研究では,画像中の特定の物体の数を誤って識別するモデルを参照しながら,特定の種類の幻覚数幻覚に焦点をあてる。 数幻覚に関する定量的評価を行い、主要なオープンソース大規模視覚言語モデルにおいて重要であることを示す。 さらに,2つの関連するタスクを用いて数幻覚の詳細な解析を行い,全てのタスクの内外矛盾を明らかにした。 本研究は,直視法よりも8%の性能向上につながる幻覚数を減らすために,整合性向上を目的としたトレーニング手法を考案した。 私たちのコードとデータセットはコミュニティにリリースされます。

Large-scale vision-language models have demonstrated impressive skill in handling tasks that involve both areas. Nevertheless, these models frequently experience significant issues with generating inaccurate information, which is hallucination. In this study, we concentrate on a specific type of hallucination-number hallucination, referring to models incorrectly identifying the number of certain objects in pictures. We perform quantitative evaluations regarding number hallucination, showing it to be critical in major open-source large vision-language models. Furthermore, we utilizes two related tasks to conduct an in-depth analysis of number hallucination, revealing the severe inner and outer inconsistency among all tasks. Based on this examination, we devise a training approach aimed at improving consistency to reduce number hallucinations, which leads to an 8% enhancement in performance over direct finetuning methods. Our code and dataset will be released to the community.
翻訳日:2024-04-16 20:21:55 公開日:2024-04-14
# AceMap: 学術グラフによる知識発見

AceMap: Knowledge Discovery through Academic Graph ( http://arxiv.org/abs/2403.02576v2 )

ライセンス: Link先を確認
Xinbing Wang, Luoyi Fu, Xiaoying Gan, Ying Wen, Guanjie Zheng, Jiaxin Ding, Liyao Xiang, Nanyang Ye, Meng Jin, Shiyu Liang, Bin Lu, Haiwen Wang, Yi Xu, Cheng Deng, Shao Zhang, Huquan Kang, Xingli Wang, Qi Li, Zhixin Guo, Jiexing Qi, Pan Liu, Yuyang Ren, Lyuwen Wu, Jungang Yang, Jianping Zhou, Chenghu Zhou, (参考訳) 科学文献の指数的な成長には、効果的な管理と貴重な洞察の抽出が必要である。 既存の科学検索エンジンはリレーショナルデータベースに基づく検索結果の提供に長けているが、科学機関間のコラボレーションの分析やアイデアの進化、さらには学術出版物における内容の詳細な分析は無視されることが多い。 不均一グラフの表現とそのようなグラフの効果的な測定、分析、採掘は重要な課題である。 これらの課題に対処するため,学術グラフによる知識発見を目的とした学術システムであるAceMapを提示する。 本稿では,リッチな視覚情報,テキスト情報,数値情報を含む大規模学術エンティティを用いた総合的なAceMapデータベースを構築するための高度なデータベース構築手法を提案する。 AceMapはまた、学術機関間の関連や論理的関係を探求するために、革新的な可視化、定量化、分析手法も採用している。 AceMapは、ネブラルグラフを中心とした大規模学術ネットワーク可視化技術を導入し、複数の観点から学術ネットワークの総合的なビューを提供する。 さらに、AceMapは、異なる学術団体の知識内容を定量的に測定する構造エントロピーに基づく統一された計量を提案する。 さらに、AceMapは、引用関係や概念共起を通じて学術的アイデアの進化をトレースし、この進化プロセスから得られる簡潔な要約を生成するなど、高度な分析機能を提供する。 さらに、AceMapはマシン読み取り手法を使用して、異なるフィールドの交差点で潜在的な新しいアイデアを生成する。 大規模言語モデルと知識グラフの統合を探求することは、アイデア進化における将来の研究にとって有望な方向である。 さらなる調査のために \url{https://www.acemap.info} を訪れてください。

The exponential growth of scientific literature requires effective management and extraction of valuable insights. While existing scientific search engines excel at delivering search results based on relational databases, they often neglect the analysis of collaborations between scientific entities and the evolution of ideas, as well as the in-depth analysis of content within scientific publications. The representation of heterogeneous graphs and the effective measurement, analysis, and mining of such graphs pose significant challenges. To address these challenges, we present AceMap, an academic system designed for knowledge discovery through academic graph. We present advanced database construction techniques to build the comprehensive AceMap database with large-scale academic entities that contain rich visual, textual, and numerical information. AceMap also employs innovative visualization, quantification, and analysis methods to explore associations and logical relationships among academic entities. AceMap introduces large-scale academic network visualization techniques centered on nebular graphs, providing a comprehensive view of academic networks from multiple perspectives. In addition, AceMap proposes a unified metric based on structural entropy to quantitatively measure the knowledge content of different academic entities. Moreover, AceMap provides advanced analysis capabilities, including tracing the evolution of academic ideas through citation relationships and concept co-occurrence, and generating concise summaries informed by this evolutionary process. In addition, AceMap uses machine reading methods to generate potential new ideas at the intersection of different fields. Exploring the integration of large language models and knowledge graphs is a promising direction for future research in idea evolution. Please visit \url{https://www.acemap.info} for further exploration.
翻訳日:2024-04-16 20:21:55 公開日:2024-04-14
# オフライン強化学習によるAIによる意思決定における人間中心目標の最適化

Towards Optimizing Human-Centric Objectives in AI-Assisted Decision-Making With Offline Reinforcement Learning ( http://arxiv.org/abs/2403.05911v2 )

ライセンス: Link先を確認
Zana Buçinca, Siddharth Swaroop, Amanda E. Paluch, Susan A. Murphy, Krzysztof Z. Gajos, (参考訳) AIによる意思決定支援ツールが、正確な意思決定を補完するだけでなく、スキルの向上、コラボレーションの強化、タスクから得られる喜びの向上なども想像してみてください。 このような人間中心の目的の幅広い範囲を最適化する可能性にもかかわらず、現在のAIツールの設計は意思決定の正確性だけに焦点を絞っている。 本稿では,人間とAIのインタラクションを多種多様な目的のために最適化するための人間とAIの意思決定をモデル化するための一般手法として,オフライン強化学習(RL)を提案する。 RLは、意思決定支援を調整し、適切なタイミングで適切なタイプの支援を提供することによって、そのような目的を最適化することができる。 我々は、意思決定タスクにおける人間-AIの精度と、そのタスクに関する人間の学習と、以前の人間-AIインタラクションデータから意思決定支援ポリシーを学習する2つの目的により、このアプローチをインスタンス化した。 我々は、AIによる意思決定におけるいくつかのベースラインに対して最適化されたポリシーを比較した。 2つの実験(N=316とN=964)において、我々の結果は、精度に最適化されたポリシーと相互作用する人々が、他の種類のAIサポートと相互作用するよりもはるかに優れた精度(および人間とAIの相補性)を達成することを示した。 さらに,学習を最適化することが正確さよりも困難であることが示唆され,学習最適化政策と対話した参加者は,学習改善に有意な効果を示した。 本研究は,人間中心の意思決定をモデル化する上で,オフラインRLが有望なアプローチであることを実証し,人間中心の意思決定を最適化し,AI支援の意思決定空間に関する新たな洞察を提供する政策,および,AI支援の意思決定における意思決定精度を超えた人間中心の意思決定を考えることの重要性を強調し,そのような目的に対する人間とAIのインタラクションを最適化する新たな研究課題を提起する。

Imagine if AI decision-support tools not only complemented our ability to make accurate decisions, but also improved our skills, boosted collaboration, and elevated the joy we derive from our tasks. Despite the potential to optimize a broad spectrum of such human-centric objectives, the design of current AI tools remains focused on decision accuracy alone. We propose offline reinforcement learning (RL) as a general approach for modeling human-AI decision-making to optimize human-AI interaction for diverse objectives. RL can optimize such objectives by tailoring decision support, providing the right type of assistance to the right person at the right time. We instantiated our approach with two objectives: human-AI accuracy on the decision-making task and human learning about the task and learned decision support policies from previous human-AI interaction data. We compared the optimized policies against several baselines in AI-assisted decision-making. Across two experiments (N=316 and N=964), our results demonstrated that people interacting with policies optimized for accuracy achieve significantly better accuracy -- and even human-AI complementarity -- compared to those interacting with any other type of AI support. Our results further indicated that human learning was more difficult to optimize than accuracy, with participants who interacted with learning-optimized policies showing significant learning improvement only at times. Our research (1) demonstrates offline RL to be a promising approach to model human-AI decision-making, leading to policies that may optimize human-centric objectives and provide novel insights about the AI-assisted decision-making space, and (2) emphasizes the importance of considering human-centric objectives beyond decision accuracy in AI-assisted decision-making, opening up the novel research challenge of optimizing human-AI interaction for such objectives.
翻訳日:2024-04-16 20:21:55 公開日:2024-04-14
# マルチサイズデータセットの凝縮

Multisize Dataset Condensation ( http://arxiv.org/abs/2403.06075v2 )

ライセンス: Link先を確認
Yang He, Lingao Xiao, Joey Tianyi Zhou, Ivor Tsang, (参考訳) データセットの凝縮はトレーニング効率を効果的に向上させるが、デバイス上のシナリオにおけるその応用にはユニークな課題が伴う。 1) これらのデバイスの変動する計算資源のため、予め定義されたサイズから分岐するフレキシブルなデータセットサイズが要求される。 2) デバイス上での計算能力の制限により, 余分な凝縮操作が防止されることが多い。 これらの2つの課題は、従来のデータセットの凝縮における「サブセット劣化問題」と結びついている。 本論文では,Nの凝縮過程を1つの凝縮過程に圧縮し,複数のサイズのデータセットを取得することで,MDC(Multisize Dataset Condensation)を提案する。 具体的には、「サブセット劣化問題」を軽減するため、基本凝縮損失の上に「適応部分集合損失」を導入する。 我々のMDC法にはいくつかの利点がある。 1)追加の凝縮処理は不要である。 2) 凝縮画像の再利用による保存要件の低減。 実験では、ConvNet、ResNet、DenseNet、SVHN、CIFAR-10、CIFAR-100、ImageNetなどのデータセットについて実験を行った。 例えば、CIFAR-10を1クラス10枚に縮合すると、平均精度が5.22%-6.40%向上した。 コードは、https://github.com/he-y/Multisize-Dataset-Condensationで入手できる。

While dataset condensation effectively enhances training efficiency, its application in on-device scenarios brings unique challenges. 1) Due to the fluctuating computational resources of these devices, there's a demand for a flexible dataset size that diverges from a predefined size. 2) The limited computational power on devices often prevents additional condensation operations. These two challenges connect to the "subset degradation problem" in traditional dataset condensation: a subset from a larger condensed dataset is often unrepresentative compared to directly condensing the whole dataset to that smaller size. In this paper, we propose Multisize Dataset Condensation (MDC) by compressing N condensation processes into a single condensation process to obtain datasets with multiple sizes. Specifically, we introduce an "adaptive subset loss" on top of the basic condensation loss to mitigate the "subset degradation problem". Our MDC method offers several benefits: 1) No additional condensation process is required; 2) reduced storage requirement by reusing condensed images. Experiments validate our findings on networks including ConvNet, ResNet and DenseNet, and datasets including SVHN, CIFAR-10, CIFAR-100 and ImageNet. For example, we achieved 5.22%-6.40% average accuracy gains on condensing CIFAR-10 to ten images per class. Code is available at: https://github.com/he-y/Multisize-Dataset-Condensation.
翻訳日:2024-04-16 20:21:55 公開日:2024-04-14
# ASTEを再考する: コントラスト学習と並行してミニマリストタッグ方式

Rethinking ASTE: A Minimalist Tagging Scheme Alongside Contrastive Learning ( http://arxiv.org/abs/2403.07342v2 )

ライセンス: Link先を確認
Qiao Sun, Liujia Yang, Minghao Ma, Nanyang Ye, Qinying Gu, (参考訳) Aspect Sentiment Triplet extract (ASTE) は、構造化されていないテキストデータから構造化された感情三重項を抽出することを目的とした、きめ細かな感情分析の活発なサブタスクである。 ASTEへの既存のアプローチは、しばしばタスクを追加構造や外部データで複雑化する。 本研究では,新しいタグ付け手法を提案し,これらの課題を緩和するために対照的な学習手法を用いる。 提案手法は、よりコンパクトな設計と計算オーバーヘッドの低減を特徴とし、最先端技術と比較して同等または優れた性能を示す。 特に,Large Language Models (LLMs) の時代においても,GPT 3.5 や GPT 4 と比較して,数ショットの学習シナリオにおいて優れた効果を示した。 本研究は、大規模言語モデルのパラダイムにおけるASTE技術の進歩に関する貴重な知見を提供する。

Aspect Sentiment Triplet Extraction (ASTE) is a burgeoning subtask of fine-grained sentiment analysis, aiming to extract structured sentiment triplets from unstructured textual data. Existing approaches to ASTE often complicate the task with additional structures or external data. In this research, we propose a novel tagging scheme and employ a contrastive learning approach to mitigate these challenges. The proposed approach demonstrates comparable or superior performance in comparison to state-of-the-art techniques, while featuring a more compact design and reduced computational overhead. Notably, even in the era of Large Language Models (LLMs), our method exhibits superior efficacy compared to GPT 3.5 and GPT 4 in a few-shot learning scenarios. This study also provides valuable insights for the advancement of ASTE techniques within the paradigm of large language models.
翻訳日:2024-04-16 20:21:55 公開日:2024-04-14
# RSBuilding:基礎モデルによる一般的なリモートセンシング画像の抽出と変化検出に向けて

RSBuilding: Towards General Remote Sensing Image Building Extraction and Change Detection with Foundation Model ( http://arxiv.org/abs/2403.07564v2 )

ライセンス: Link先を確認
Mingze Wang, Lili Su, Cilin Yan, Sheng Xu, Pengcheng Yuan, Xiaolong Jiang, Baochang Zhang, (参考訳) 建物のインテリジェントな解釈は、都市計画・管理、マクロ経済分析、人口動態などにおいて重要な役割を果たしている。 リモートセンシング画像構築解釈は、主に建物抽出と変更検出を含む。 しかし、現在の方法論はしばしばこれら2つのタスクを独立したエンティティとして扱うため、共有知識の活用に失敗する。 さらに、リモートセンシング画像シーンの複雑さと多様性は、ほとんどのアルゴリズムが個々の小さなデータセットをモデル化するように設計されており、クロスシーンの一般化が欠如しているため、さらなる課題をもたらす。 本稿では,基礎モデルの観点から,RSBuildingと呼ばれる総合的リモートセンシング画像構築理解モデルを提案する。 RSBuildingはクロスシーンの一般化とタスクの普遍性を高めるように設計されている。 具体的には、ファンデーションモデルの事前知識に基づいて画像の特徴を抽出し、スケール情報を増やすためのマルチレベル特徴サンプリングを考案する。 タスク表現を統一し、画像の時空間的手がかりを統合するために、タスクプロンプト付きクロスアテンションデコーダを導入する。 両方のタスクにアノテーションを組み込んだデータセットの不足に対処するため、いくつかのタスクの監督が欠如している場合でも、スムーズなモデル収束を促進するためのフェデレーショントレーニング戦略を開発し、異なるタスクの相補性を強化した。 我々のモデルは最大245,000の画像からなるデータセットでトレーニングされ、複数のビルの抽出と変更検出データセットで検証された。 実験結果は、RSBuildingが2つの構造的に異なるタスクを同時に処理し、堅牢なゼロショット一般化能力を示すことを実証した。

The intelligent interpretation of buildings plays a significant role in urban planning and management, macroeconomic analysis, population dynamics, etc. Remote sensing image building interpretation primarily encompasses building extraction and change detection. However, current methodologies often treat these two tasks as separate entities, thereby failing to leverage shared knowledge. Moreover, the complexity and diversity of remote sensing image scenes pose additional challenges, as most algorithms are designed to model individual small datasets, thus lacking cross-scene generalization. In this paper, we propose a comprehensive remote sensing image building understanding model, termed RSBuilding, developed from the perspective of the foundation model. RSBuilding is designed to enhance cross-scene generalization and task universality. Specifically, we extract image features based on the prior knowledge of the foundation model and devise a multi-level feature sampler to augment scale information. To unify task representation and integrate image spatiotemporal clues, we introduce a cross-attention decoder with task prompts. Addressing the current shortage of datasets that incorporate annotations for both tasks, we have developed a federated training strategy to facilitate smooth model convergence even when supervision for some tasks is missing, thereby bolstering the complementarity of different tasks. Our model was trained on a dataset comprising up to 245,000 images and validated on multiple building extraction and change detection datasets. The experimental results substantiate that RSBuilding can concurrently handle two structurally distinct tasks and exhibits robust zero-shot generalization capabilities.
翻訳日:2024-04-16 20:21:55 公開日:2024-04-14
# アキレスのアライメント:マルチモーダル大言語モデルのジェイルブレークにおける視覚的脆弱性の爆発的発見

Images are Achilles' Heel of Alignment: Exploiting Visual Vulnerabilities for Jailbreaking Multimodal Large Language Models ( http://arxiv.org/abs/2403.09792v2 )

ライセンス: Link先を確認
Yifan Li, Hangyu Guo, Kun Zhou, Wayne Xin Zhao, Ji-Rong Wen, (参考訳) 本稿では,マルチモーダル大言語モデル(MLLM)の無害アライメント問題について検討する。 代表MLLMの無害性能を系統的に解析し,画像入力がMLLMのアライメント脆弱性を生じさせることを示す。 そこで本研究では,テキスト入力における悪意のある意図の有害性を隠蔽して増幅する,HADESという新しいジェイルブレイク手法を提案する。 実験の結果、HADESは既存のMLLMを効果的にジェイルブレイクし、LLaVA-1.5では90.26%、Gemini Pro Visionでは71.60%の攻撃成功率を達成した。 コードとデータは公開されます。

In this paper, we study the harmlessness alignment problem of multimodal large language models (MLLMs). We conduct a systematic empirical analysis of the harmlessness performance of representative MLLMs and reveal that the image input poses the alignment vulnerability of MLLMs. Inspired by this, we propose a novel jailbreak method named HADES, which hides and amplifies the harmfulness of the malicious intent within the text input, using meticulously crafted images. Experimental results show that HADES can effectively jailbreak existing MLLMs, which achieves an average Attack Success Rate (ASR) of 90.26% for LLaVA-1.5 and 71.60% for Gemini Pro Vision. Our code and data will be publicly released.
翻訳日:2024-04-16 20:12:09 公開日:2024-04-14
# 脆弱性検出のためのLLMによるマルチロールコンセンサス

Multi-role Consensus through LLMs Discussions for Vulnerability Detection ( http://arxiv.org/abs/2403.14274v3 )

ライセンス: Link先を確認
Zhenyu Mao, Jialong Li, Dongming Jin, Munan Li, Kenji Tei, (参考訳) 大規模言語モデル(LLM)の最近の進歩は、ソフトウェア品質保証の重要なコンポーネントである脆弱性検出の可能性を強調している。 このような進歩にもかかわらず、ほとんどの研究は、開発者とテスターの両方を含む典型的なソフトウェア開発ライフサイクルにおいて、さまざまな役割からさまざまな視点を欠いているテスターという、単一の役割の観点に限られている。 そこで本研究では,実生活におけるコードレビュープロセスのシミュレーションと,コード内の脆弱性の存在と分類に関するコンセンサスに向けた議論を行う上で,LLMをさまざまな役割として活用するためのマルチロールアプローチを提案する。 このアプローチの予備評価は、精度が13.48%、リコールレートが18.25%、F1スコアが16.13%上昇していることを示している。

Recent advancements in large language models (LLMs) have highlighted the potential for vulnerability detection, a crucial component of software quality assurance. Despite this progress, most studies have been limited to the perspective of a single role, usually testers, lacking diverse viewpoints from different roles in a typical software development life-cycle, including both developers and testers. To this end, this paper introduces a multi-role approach to employ LLMs to act as different roles simulating a real-life code review process and engaging in discussions toward a consensus on the existence and classification of vulnerabilities in the code. Preliminary evaluation of this approach indicates a 13.48% increase in the precision rate, an 18.25% increase in the recall rate, and a 16.13% increase in the F1 score.
翻訳日:2024-04-16 20:12:09 公開日:2024-04-14
# テキスト分類のための言語モデル:インテクスト学習は十分か?

Language Models for Text Classification: Is In-Context Learning Enough? ( http://arxiv.org/abs/2403.17661v2 )

ライセンス: Link先を確認
Aleksandra Edwards, Jose Camacho-Collados, (参考訳) 最近の基礎言語モデルでは、ゼロショットや少数ショットの設定で多くのNLPタスクで最先端のパフォーマンスが示されている。 微調整に基づくより標準的なアプローチよりもこれらのモデルの利点は、自然言語(prompt)で書かれた命令を理解する能力である。 これにより、アノテーション付きインスタンスが限られているドメインのテキスト分類問題に対処するのに適している。 しかし、既存の研究は規模が限られており、テキスト生成モデルとプロンプト技術を組み合わせる方法の理解に欠けており、微調整されたマスキング言語モデルのようなより確立されたテキスト分類方法と比較されている。 本稿では,バイナリ,マルチクラス,マルチラベルを対象とする16のテキスト分類データセットについて,大規模な評価研究を行うことにより,この研究ギャップに対処する。 特に、大きな言語モデルのゼロショットと少数ショットのアプローチと、より小さな言語モデルの微調整を比較した。 また,プロンプト,分類タイプ,ドメイン数,ラベル数などを用いて分析を行った。 概して、より小型で効率的な言語モデルが、テキスト分類に関して改善の余地のある、より大きな言語モデルの数ショットのアプローチよりも優れていることを示す。

Recent foundational language models have shown state-of-the-art performance in many NLP tasks in zero- and few-shot settings. An advantage of these models over more standard approaches based on fine-tuning is the ability to understand instructions written in natural language (prompts), which helps them generalise better to different tasks and domains without the need for specific training data. This makes them suitable for addressing text classification problems for domains with limited amounts of annotated instances. However, existing research is limited in scale and lacks understanding of how text generation models combined with prompting techniques compare to more established methods for text classification such as fine-tuning masked language models. In this paper, we address this research gap by performing a large-scale evaluation study for 16 text classification datasets covering binary, multiclass, and multilabel problems. In particular, we compare zero- and few-shot approaches of large language models to fine-tuning smaller language models. We also analyse the results by prompt, classification type, domain, and number of labels. In general, the results show how fine-tuning smaller and more efficient language models can still outperform few-shot approaches of larger language models, which have room for improvement when it comes to text classification.
翻訳日:2024-04-16 20:00:41 公開日:2024-04-14
# GOV-REK:ロバストなマルチエージェント強化学習システム設計のためのGoverned Reward Engineering Kernels

GOV-REK: Governed Reward Engineering Kernels for Designing Robust Multi-Agent Reinforcement Learning Systems ( http://arxiv.org/abs/2404.01131v2 )

ライセンス: Link先を確認
Ashish Rana, Michael Oesterle, Jannik Brinkmann, (参考訳) マルチエージェント強化学習システム(MARLS)の場合、問題定式化は一般に、与えられた問題に特有の大規模な報酬工学的努力を投資する。 しかし、この取り組みは、しばしば他の問題に変換できない。さらに悪いことに、システムのダイナミクスが劇的に変化すると、無駄になる。 この問題は、意味のあるヒューリスティックが政策収束タスクを補助できるスパース報酬シナリオにおいてさらに悪化している。 GOVerned Reward Engineering Kernels (GOV-REK) を提案する。 我々はまた、意味のあるエージェント報酬分布を割り当てるために、状態または共同アクション空間の基盤構造を利用するガバナンスカーネルも導入する。 エージェント学習段階では、ハイパーバンドのようなアルゴリズムを用いて様々な報酬分布構成を反復的に探索し、理想的なエージェント報酬モデルを問題に依存しない方法で学習する。 我々の実験は、有意義な報奨が、異なるMARL問題を効果的に学習する学習プロセスを開始することを実証している。

For multi-agent reinforcement learning systems (MARLS), the problem formulation generally involves investing massive reward engineering effort specific to a given problem. However, this effort often cannot be translated to other problems; worse, it gets wasted when system dynamics change drastically. This problem is further exacerbated in sparse reward scenarios, where a meaningful heuristic can assist in the policy convergence task. We propose GOVerned Reward Engineering Kernels (GOV-REK), which dynamically assign reward distributions to agents in MARLS during its learning stage. We also introduce governance kernels, which exploit the underlying structure in either state or joint action space for assigning meaningful agent reward distributions. During the agent learning stage, it iteratively explores different reward distribution configurations with a Hyperband-like algorithm to learn ideal agent reward models in a problem-agnostic manner. Our experiments demonstrate that our meaningful reward priors robustly jumpstart the learning process for effectively learning different MARL problems.
翻訳日:2024-04-16 20:00:41 公開日:2024-04-14
# ボソニック応用によるトロッターおよびゼノ生成物の強境界について

On Strong Bounds for Trotter and Zeno Product Formulas with Bosonic Applications ( http://arxiv.org/abs/2404.01422v2 )

ライセンス: Link先を確認
Tim Möbus, (参考訳) トロッター積公式と量子ゼノ効果は、実験的に実現可能なビルディングブロックを用いて時間進化を構築するために必要なツールである。 本研究では、バナッハ空間上の強作用素位相において量的境界が証明できる仮定について議論し、自然ボソニックな例を示す。 特に、関連する生成元を相対的に有界にし、安定な制限付き極限半群の不変部分空間を生成する、連続的に埋め込まれたバナッハ空間の存在を仮定する。 許容可能部分空間のわずかに強い仮定は、結果が拡張される双曲進化系(時依存半群)の領域においてよく認識される。 連続埋め込みバナッハ空間の階層へのアクセスを仮定することで、鈴木高階境界が証明できる。 ボソニックな応用において、これらの埋め込みバナッハ空間は自然に数演算子を通して生じ、ボース=ハッバードモデル、オルンシュタイン=ウレンベック半群、およびボソニックな誤り訂正に使用される多光子駆動散逸のような顕著な例を含む様々な例をもたらす。

The Trotter product formula and the quantum Zeno effect are both indispensable tools for constructing time-evolutions using experimentally feasible building blocks. In this work, we discuss assumptions under which quantitative bounds can be proven in the strong operator topology on Banach spaces and provide natural bosonic examples. Specially, we assume the existence of a continuously embedded Banach space, which relatively bounds the involved generators and creates an invariant subspace of the limiting semigroup with a stable restriction. The slightly stronger assumption of admissible subspaces is well-recognized in the realm of hyperbolic evolution systems (time-dependent semigroups), to which the results are extended. By assuming access to a hierarchy of continuously embedded Banach spaces, Suzuki-higher-order bounds can be demonstrated. In bosonic applications, these embedded Banach spaces naturally arise through the number operator, leading to a diverse set of examples encompassing notable instances such as the Bose-Hubbard model, the Ornstein-Uhlenbeck semigroup, and multi-photon driven dissipation used in bosonic error correction.
翻訳日:2024-04-16 20:00:41 公開日:2024-04-14
# PiSSA:大言語モデルの主特異値と特異ベクトル適応

PiSSA: Principal Singular Values and Singular Vectors Adaptation of Large Language Models ( http://arxiv.org/abs/2404.02948v2 )

ライセンス: Link先を確認
Fanxu Meng, Zhaohui Wang, Muhan Zhang, (参考訳) LLMのパラメータが大きくなるにつれて、モデル全体を微調整する計算コストは禁じられる。 この課題に対処するために,PEFT法,主特異値および特異ベクトル適応(PiSSA)を導入する。 PiSSA は Intrinsic SAID にインスパイアされており、これは事前訓練された過度にパラメータ化されたモデルが低内在次元の空間に存在することを示唆している。 その結果、PiSSAは2つのトレーニング可能な行列 A と B の積と残差行列 $W^{res}$ でモデル内の行列 W を表す。 SVD は W を分解するために使用され、W の主特異値とベクトルは A と B を初期化する。 特に、PiSSAはLoRAと同じアーキテクチャを共有している。 しかし、LoRA は Delta W をガウスノイズで初期化された A と 0 で初期化された B の2つの行列の積を通じて近似し、一方 PiSSA は A と B を元の行列 W. PiSSA の主特異値とベクトルで初期化する。 比較すると、LoRAは元の行列を凍結し、「ノイズ」を更新する。 この区別により、PiSSAはLoRAよりもはるかに早く収束でき、最終的にはパフォーマンスが向上する。 同じアーキテクチャのため、PiSSAはパラメータ効率や量子化との互換性など、LoRAの利点の多くを継承している。 高速SVD法を利用すると、PiSSAの初期化にはほんの数秒しかかからず、LoRAをPiSSAに切り替える際の無視できるコストが発生する。

As the parameters of LLMs expand, the computational cost of fine-tuning the entire model becomes prohibitive. To address this challenge, we introduce a PEFT method, Principal Singular values and Singular vectors Adaptation (PiSSA), which optimizes a significantly reduced parameter space while achieving or surpassing the performance of full-parameter fine-tuning. PiSSA is inspired by Intrinsic SAID, which suggests that pre-trained, over-parametrized models inhabit a space of low intrinsic dimension. Consequently, PiSSA represents a matrix W within the model by the product of two trainable matrices A and B, plus a residual matrix $W^{res}$ for error correction. SVD is employed to factorize W, and the principal singular values and vectors of W are utilized to initialize A and B. The residual singular values and vectors initialize the residual matrix $W^{res}$, which keeps frozen during fine-tuning. Notably, PiSSA shares the same architecture with LoRA. However, LoRA approximates Delta W through the product of two matrices, A, initialized with Gaussian noise, and B, initialized with zeros, while PiSSA initializes A and B with principal singular values and vectors of the original matrix W. PiSSA can better approximate the outcomes of full-parameter fine-tuning at the beginning by changing the essential parts while freezing the "noisy" parts. In comparison, LoRA freezes the original matrix and updates the "noise". This distinction enables PiSSA to convergence much faster than LoRA and also achieve better performance in the end. Due to the same architecture, PiSSA inherits many of LoRA's advantages, such as parameter efficiency and compatibility with quantization. Leveraging a fast SVD method, the initialization of PiSSA takes only a few seconds, inducing negligible cost of switching LoRA to PiSSA.
翻訳日:2024-04-16 19:50:54 公開日:2024-04-14
# ChangeMamba:時空間空間モデルによるリモートセンシング変化検出

ChangeMamba: Remote Sensing Change Detection with Spatio-Temporal State Space Model ( http://arxiv.org/abs/2404.03425v3 )

ライセンス: Link先を確認
Hongruixuan Chen, Jian Song, Chengxi Han, Junshi Xia, Naoto Yokoya, (参考訳) 畳み込みニューラルネットワーク(CNN)とトランスフォーマーは、リモートセンシング変化検出(CD)の分野で目覚ましい進歩を遂げた。 しかし、両方のアーキテクチャには固有の欠点がある。 近年、状態空間モデルに基づくMambaアーキテクチャは、上記の2つのアーキテクチャの欠点を効果的に補うことができる一連の自然言語処理タスクにおいて、顕著な性能を示している。 本稿では,リモートセンシングCDタスクにおけるMambaアーキテクチャの可能性について検討する。 我々は,2値変化検出 (BCD), 意味変化検出 (SCD), 建物損傷評価 (BDA) に対応するフレームワークであるMambaBCD, MambaSCD, MambaBDAを調整した。 3つのフレームワークはいずれも最先端のVisual Mambaアーキテクチャをエンコーダとして採用しており、入力画像からグローバルな空間的情報を完全に学習することができる。 3つのアーキテクチャで利用可能な変更デコーダについて,Mambaアーキテクチャと自然に結合可能な3つの時空間関係モデリング機構を提案し,その特性をフル活用して複数時空間特徴の時空間相互作用を実現し,正確な変更情報を得る。 5つのベンチマークデータセットにおいて、提案するフレームワークは、複雑なトレーニング戦略やトリックを使わずに、現在のCNNおよびTransformerベースのアプローチより優れており、CDタスクにおけるMambaアーキテクチャの可能性を完全に実証している。 具体的には、3つのBCDデータセットSYSU, LEVIR-CD+, WHU-CDに対して83.11%, 88.39%, 94.19%のF1スコアを取得し, SCDデータセットSECONDでは24.11%のSeK, BDAデータセットxBDでは81.41%の総合F1スコアを得た。 さらなる実験は、アーキテクチャが劣化したデータに対して非常に堅牢であることを示している。 ソースコードはhttps://github.com/ChenHongruixuan/MambaCDで入手できる。

Convolutional neural networks (CNN) and Transformers have made impressive progress in the field of remote sensing change detection (CD). However, both architectures have inherent shortcomings. Recently, the Mamba architecture, based on state space models, has shown remarkable performance in a series of natural language processing tasks, which can effectively compensate for the shortcomings of the above two architectures. In this paper, we explore for the first time the potential of the Mamba architecture for remote sensing CD tasks. We tailor the corresponding frameworks, called MambaBCD, MambaSCD, and MambaBDA, for binary change detection (BCD), semantic change detection (SCD), and building damage assessment (BDA), respectively. All three frameworks adopt the cutting-edge Visual Mamba architecture as the encoder, which allows full learning of global spatial contextual information from the input images. For the change decoder, which is available in all three architectures, we propose three spatio-temporal relationship modeling mechanisms, which can be naturally combined with the Mamba architecture and fully utilize its attribute to achieve spatio-temporal interaction of multi-temporal features, thereby obtaining accurate change information. On five benchmark datasets, our proposed frameworks outperform current CNN- and Transformer-based approaches without using any complex training strategies or tricks, fully demonstrating the potential of the Mamba architecture in CD tasks. Specifically, we obtained 83.11%, 88.39% and 94.19% F1 scores on the three BCD datasets SYSU, LEVIR-CD+, and WHU-CD; on the SCD dataset SECOND, we obtained 24.11% SeK; and on the BDA dataset xBD, we obtained 81.41% overall F1 score. Further experiments show that our architecture is quite robust to degraded data. The source code will be available in https://github.com/ChenHongruixuan/MambaCD
翻訳日:2024-04-16 19:50:54 公開日:2024-04-14
# 良書は複雑な問題である: 文学的品質の異なるカテゴリにまたがる複雑度プロファイルを測る

Good Books are Complex Matters: Gauging Complexity Profiles Across Diverse Categories of Perceived Literary Quality ( http://arxiv.org/abs/2404.04022v2 )

ライセンス: Link先を確認
Yuri Bizzoni, Pascale Feldkamp, Ida Marie Lassen, Mia Jacobsen, Mads Rosendahl Thomsen, Kristoffer Nielbo, (参考訳) 本研究では,Norton Anthology, Penguin Classics series, and the Open Syllabus projectのタイトルを含むコーパスを活用し,同時代のベストセラーやノーベル文学賞受賞者,名誉文学賞受賞者などと対比して,文学的「品質」の異なるカテゴリが独自の言語プロファイルを表示することを示す分類手法を採用した。 分析の結果,他の品質カテゴリー(ベストセラーや人気タイトルなど)と異なる品質モデル(相互排他的ではない)に対応してグループを制御する場合と比較して,標準テキストやいわゆるハイブロウテキストは異なるテキストの特徴を示すことが明らかとなった。 我々は古典的な機械学習手法、すなわちランダムフォレストを用いて、品質小説を「コントロールグループ」と区別し、カテゴリ間の差別化において最大77\%のF1スコアを達成する。 品質カテゴリーは他の品質カテゴリと区別しやすい傾向があり、文学的品質特徴は識別可能であるが、品質プロキシを通して共有されることが示唆される。

In this study, we employ a classification approach to show that different categories of literary "quality" display unique linguistic profiles, leveraging a corpus that encompasses titles from the Norton Anthology, Penguin Classics series, and the Open Syllabus project, contrasted against contemporary bestsellers, Nobel prize winners and recipients of prestigious literary awards. Our analysis reveals that canonical and so called high-brow texts exhibit distinct textual features when compared to other quality categories such as bestsellers and popular titles as well as to control groups, likely responding to distinct (but not mutually exclusive) models of quality. We apply a classic machine learning approach, namely Random Forest, to distinguish quality novels from "control groups", achieving up to 77\% F1 scores in differentiating between the categories. We find that quality category tend to be easier to distinguish from control groups than from other quality categories, suggesting than literary quality features might be distinguishable but shared through quality proxies.
翻訳日:2024-04-16 19:50:54 公開日:2024-04-14
# VMambaMorph: クロススキャンモジュールを用いたビジュアル状態空間モデルに基づく多モードデフォルマブル画像登録フレームワーク

VMambaMorph: a Multi-Modality Deformable Image Registration Framework based on Visual State Space Model with Cross-Scan Module ( http://arxiv.org/abs/2404.05105v2 )

ライセンス: Link先を確認
Ziyang Wang, Jian-Qing Zheng, Chao Ma, Tao Guo, (参考訳) 医用画像における重要なプロセスである画像登録では、異なる医療用画像データを単一の統一座標系に整列させる。 畳み込みニューラルネットワーク(CNN)ベースのVoxelMorph、ビジョントランスフォーマー(ViT)ベースのTransMorph、ステートスペースモデル(SSM)ベースのMambaMorphといったディープラーニングネットワークは、この領域で効果的なパフォーマンスを示している。 最近のVisual State Space Model(VMamba)は、SSMとクロススキャンモジュールを組み込んだもので、コンピュータビジョンタスクの効率的な計算コストで、グローバルレンジの依存関係をモデル化する上で、有望な改善がなされている。 本稿では,VMambaMorphという画像登録機能を備えたVMambaの探索について紹介する。 このハイブリッドVMamba-CNNネットワークは、特に3D画像登録用に設計されている。 U字型ネットワークアーキテクチャを利用するVMambaMorphは、ターゲットとソースのボリュームに基づいて変形場を計算する。 2Dクロススキャンモジュールを備えたVMambaベースのブロックは、3Dボリュームの特徴処理のために再設計された。 マルチモダリティ画像の複雑な動きと構造を克服するため,我々はさらに微細な再帰的登録フレームワークを提案する。 我々は,VMambaMorphを公開ベンチマーク脳MR-CT登録データセットを用いて検証し,その性能を現在の最先端手法と比較した。 その結果,VMambaMorphは競争力のある登録品質を達成できることが示唆された。 VMambaMorphのすべてのベースラインメソッドのコードはGitHubで入手できる。

Image registration, a critical process in medical imaging, involves aligning different sets of medical imaging data into a single unified coordinate system. Deep learning networks, such as the Convolutional Neural Network (CNN)-based VoxelMorph, Vision Transformer (ViT)-based TransMorph, and State Space Model (SSM)-based MambaMorph, have demonstrated effective performance in this domain. The recent Visual State Space Model (VMamba), which incorporates a cross-scan module with SSM, has exhibited promising improvements in modeling global-range dependencies with efficient computational cost in computer vision tasks. This paper hereby introduces an exploration of VMamba with image registration, named VMambaMorph. This novel hybrid VMamba-CNN network is designed specifically for 3D image registration. Utilizing a U-shaped network architecture, VMambaMorph computes the deformation field based on target and source volumes. The VMamba-based block with 2D cross-scan module is redesigned for 3D volumetric feature processing. To overcome the complex motion and structure on multi-modality images, we further propose a fine-tune recursive registration framework. We validate VMambaMorph using a public benchmark brain MR-CT registration dataset, comparing its performance against current state-of-the-art methods. The results indicate that VMambaMorph achieves competitive registration quality. The code for VMambaMorph with all baseline methods is available on GitHub.
翻訳日:2024-04-16 19:41:10 公開日:2024-04-14
# 人間の視線が常に人間のAIチームの分類精度を向上しない機械を対話的に誘導することを可能にする

Allowing humans to interactively guide machines where to look does not always improve human-AI team's classification accuracy ( http://arxiv.org/abs/2404.05238v2 )

ライセンス: Link先を確認
Giang Nguyen, Mohammad Reza Taesiri, Sunnie S. Y. Kim, Anh Nguyen, (参考訳) Explainable AI (XAI) における何千もの論文、注目マップ \cite{vaswani2017attention} と特徴属性マップ \cite{bansal2020sam} が、AIの判断に各入力機能がどの程度重要かを知る共通の手段として確立されている。 ユーザがテスト時に重要な機能を編集できるようにすることで、ダウンストリームタスクにおける人間とAIチームの精度が向上するかどうか、興味深い、未調査の質問である。 本稿では、入力画像とトレーニングセット画像のパッチワイド対応を最初に予測し、それらをベースとして分類決定を行う、最先端のAnte-hoc説明可能な分類器であるCHM-Corrを活用することで、この問題に対処する。 我々はCHM-CorrのインタラクティブインターフェースであるCHM-Corr++を構築し、CHM-Corrが提供する特徴属性マップを編集し、最新のモデル決定を観察する。 CHM-Corr++を使用すると、ユーザーはモデルが出力を変更するかどうか、いつ、どのように変更するかについての洞察を得ることができ、静的な説明以上の理解を改善することができる。 しかし,1400件の意思決定を行った18名のユーザを対象にした調査では,静的な説明よりもCUB-200の鳥画像分類において,対話的アプローチがユーザ精度を向上させるという統計的意義は見つからなかった。 この仮説は、対話性によって人間とAIのチームの精度が向上する、という仮説に挑戦する。 私たちは、画像分類器の注意を編集するインタラクティブツールであるCHM-Corr++をオープンソースにしました(対話型デモである \href{http://137.184.82.109:7080/}{here} を参照)。 1%であり,コンピュータビジョンにおける人間とAIの効果的なインタラクションの実現に向けた今後の研究の基盤を築き上げている。 We release code and data on \href{https://github.com/anguyen8/chm-corr-interactive}{github}.

Via thousands of papers in Explainable AI (XAI), attention maps \cite{vaswani2017attention} and feature attribution maps \cite{bansal2020sam} have been established as a common means for finding how important each input feature is to an AI's decisions. It is an interesting, unexplored question whether allowing users to edit the feature importance at test time would improve a human-AI team's accuracy on downstream tasks. In this paper, we address this question by leveraging CHM-Corr, a state-of-the-art, ante-hoc explainable classifier \cite{taesiri2022visual} that first predicts patch-wise correspondences between the input and training-set images, and then base on them to make classification decisions. We build CHM-Corr++, an interactive interface for CHM-Corr, enabling users to edit the feature attribution map provided by CHM-Corr and observe updated model decisions. Via CHM-Corr++, users can gain insights into if, when, and how the model changes its outputs, improving their understanding beyond static explanations. However, our user study with 18 users who performed 1,400 decisions finds no statistical significance that our interactive approach improves user accuracy on CUB-200 bird image classification over static explanations. This challenges the hypothesis that interactivity can boost human-AI team accuracy~\cite{sokol2020one,sun2022exploring,shen2024towards,singh2024rethinking,mindlin2024beyond,lakkaraju2022ret hinking,cheng2019explaining,liu2021understanding} and raises needs for future research. We open-source CHM-Corr++, an interactive tool for editing image classifier attention (see an interactive demo \href{http://137.184.82.109:7080/}{here}). % , and it lays the groundwork for future research to enable effective human-AI interaction in computer vision. We release code and data on \href{https://github.com/anguyen8/chm-corr-interactive}{github}.
翻訳日:2024-04-16 19:41:10 公開日:2024-04-14
# 動的ビュー合成のための3次元幾何学的変形可能なガウス平滑化

3D Geometry-aware Deformable Gaussian Splatting for Dynamic View Synthesis ( http://arxiv.org/abs/2404.06270v2 )

ライセンス: Link先を確認
Zhicheng Lu, Xiang Guo, Le Hui, Tianrui Chen, Min Yang, Xiao Tang, Feng Zhu, Yuchao Dai, (参考訳) 本稿では,動的ビュー合成のための3次元幾何学的変形可能なガウススメッティング法を提案する。 既存のニューラル放射場(NeRF)ベースの解は、3次元シーン幾何学を組み込むことができない暗黙の方法で変形を学習する。 したがって、学習された変形は幾何学的にコヒーレントであるとは限らないため、不満足な動的ビュー合成と3次元動的再構成をもたらす。 近年,3次元ガウススプラッティングは,複雑な3次元変形の学習に3次元幾何学を活用可能な3次元シーンの新たな表現を提供する。 具体的には、シーンは3Dガウスアンのコレクションとして表現され、各3Dガウスアンは時間とともに動き、回転して変形をモデル化するように最適化される。 変形中の3次元シーンの幾何学的制約を強制するために,3次元の幾何学的特徴を明示的に抽出し,それらを3次元の変形を学習するために統合する。 このようにして、3次元幾何学的変形モデリングを実現し、動的ビュー合成の改善と3次元動的再構成を実現する。 合成データセットと実データセットの両方に対する大規模な実験結果から,新たな最先端性能を実現するソリューションの優位性が確認された。 プロジェクトはhttps://npucvr.github.io/GaGS/で公開されている。

In this paper, we propose a 3D geometry-aware deformable Gaussian Splatting method for dynamic view synthesis. Existing neural radiance fields (NeRF) based solutions learn the deformation in an implicit manner, which cannot incorporate 3D scene geometry. Therefore, the learned deformation is not necessarily geometrically coherent, which results in unsatisfactory dynamic view synthesis and 3D dynamic reconstruction. Recently, 3D Gaussian Splatting provides a new representation of the 3D scene, building upon which the 3D geometry could be exploited in learning the complex 3D deformation. Specifically, the scenes are represented as a collection of 3D Gaussian, where each 3D Gaussian is optimized to move and rotate over time to model the deformation. To enforce the 3D scene geometry constraint during deformation, we explicitly extract 3D geometry features and integrate them in learning the 3D deformation. In this way, our solution achieves 3D geometry-aware deformation modeling, which enables improved dynamic view synthesis and 3D dynamic reconstruction. Extensive experimental results on both synthetic and real datasets prove the superiority of our solution, which achieves new state-of-the-art performance. The project is available at https://npucvr.github.io/GaGS/
翻訳日:2024-04-16 19:31:26 公開日:2024-04-14
# MambaAD:マルチクラスの教師なし異常検出のための状態空間モデル

MambaAD: Exploring State Space Models for Multi-class Unsupervised Anomaly Detection ( http://arxiv.org/abs/2404.06564v3 )

ライセンス: Link先を確認
Haoyang He, Yuhu Bai, Jiangning Zhang, Qingdong He, Hongxu Chen, Zhenye Gan, Chengjie Wang, Xiangtai Li, Guanzhong Tian, Lei Xie, (参考訳) 異常検出の最近の進歩は、CNNおよびトランスフォーマーに基づくアプローチの有効性を見出した。 しかし、CNNは長距離依存に苦しむ一方、トランスフォーマーは二次計算の複雑さに悩まされている。 より優れた長距離モデリングと線形効率を備えたマンバベースのモデルは、大きな注目を集めている。 本研究は,マルチスケールで (ローカリティ拡張状態空間) LSS モジュールを特徴とする (Locality-Enhanced State Space) エンコーダと Mamba decoder から構成される MambaAD を提示する。 提案したLSSモジュールは、並列カスケード(Hybrid State Space)HSSブロックとマルチカーネル畳み込み操作を統合し、長距離情報とローカル情報の両方を効果的にキャプチャする。 HSSブロックは(Hybrid Scanning)HSエンコーダを利用し、特徴マップを5つの走査方法と8つの方向にエンコードすることで、(ステートスペースモデル)SSMによるグローバル接続を強化する。 Hilbertスキャニングと8方向の使用により、特徴系列モデリングが大幅に改善される。 6つの多様な異常検出データセットと7つのメトリクスに関する総合的な実験は、その手法の有効性を実証している。

Recent advancements in anomaly detection have seen the efficacy of CNN- and transformer-based approaches. However, CNNs struggle with long-range dependencies, while transformers are burdened by quadratic computational complexity. Mamba-based models, with their superior long-range modeling and linear efficiency, have garnered substantial attention. This study pioneers the application of Mamba to multi-class unsupervised anomaly detection, presenting MambaAD, which consists of a pre-trained encoder and a Mamba decoder featuring (Locality-Enhanced State Space) LSS modules at multi-scales. The proposed LSS module, integrating parallel cascaded (Hybrid State Space) HSS blocks and multi-kernel convolutions operations, effectively captures both long-range and local information. The HSS block, utilizing (Hybrid Scanning) HS encoders, encodes feature maps into five scanning methods and eight directions, thereby strengthening global connections through the (State Space Model) SSM. The use of Hilbert scanning and eight directions significantly improves feature sequence modeling. Comprehensive experiments on six diverse anomaly detection datasets and seven metrics demonstrate state-of-the-art performance, substantiating the method's effectiveness.
翻訳日:2024-04-16 19:31:26 公開日:2024-04-14
# FiP:因果生成モデリングのための固定点アプローチ

FiP: a Fixed-Point Approach for Causal Generative Modeling ( http://arxiv.org/abs/2404.06969v2 )

ライセンス: Link先を確認
Meyer Scetbon, Joel Jennings, Agrin Hilmkil, Cheng Zhang, Chao Ma, (参考訳) 真の世界データ生成プロセスのモデリングは、実証科学の中心にある。 構造因果モデル(SCM)とそれらの関連した非巡回グラフ(DAG)は、ランダムノイズを観測に変換する因果生成過程を定義することによって、そのような問題に対するより一般的な回答を提供する。 しかし、観測データからそれらを学ぶことは、一般的にNP-ハード逆問題を引き起こす。 本研究では,DAGに記述を要求せず,因果的に順序づけられた変数上の不動点問題と見なされる新しい等価形式論を提案し,トポロジ的順序付け(TO)を考えると,それらが一意に復元できる3つの重要なケースを示す。 我々の知る限り、TOが知られているときの回復の最も弱い条件を得る。 これに基づいて、まずゼロショット方式で観測から因果順序を推定し、探索をバイパスし、次に順序づけられた変数の定点SCMを学習する2段階因果生成モデルを設計する。 to infer TOs from observed, we propose to amortize the learning of TOs on generated datasets by Sequencely predicting the leaves of graphs during training。 固定点SCMを学習するために、我々は、因果構造のモデリングを可能にする新しい注意機構を利用するトランスフォーマーベースのアーキテクチャを設計し、このパラメータ化が我々の形式主義と一致していることを示す。 最後に、各手法を個別に広範囲に評価し、組み合わせると、生成されたアウト・オブ・ディストリビューション問題に対して、モデルが様々なベースラインより優れていることを示す。

Modeling true world data-generating processes lies at the heart of empirical science. Structural Causal Models (SCMs) and their associated Directed Acyclic Graphs (DAGs) provide an increasingly popular answer to such problems by defining the causal generative process that transforms random noise into observations. However, learning them from observational data poses an ill-posed and NP-hard inverse problem in general. In this work, we propose a new and equivalent formalism that does not require DAGs to describe them, viewed as fixed-point problems on the causally ordered variables, and we show three important cases where they can be uniquely recovered given the topological ordering (TO). To the best of our knowledge, we obtain the weakest conditions for their recovery when TO is known. Based on this, we design a two-stage causal generative model that first infers the causal order from observations in a zero-shot manner, thus by-passing the search, and then learns the generative fixed-point SCM on the ordered variables. To infer TOs from observations, we propose to amortize the learning of TOs on generated datasets by sequentially predicting the leaves of graphs seen during training. To learn fixed-point SCMs, we design a transformer-based architecture that exploits a new attention mechanism enabling the modeling of causal structures, and show that this parameterization is consistent with our formalism. Finally, we conduct an extensive evaluation of each method individually, and show that when combined, our model outperforms various baselines on generated out-of-distribution problems.
翻訳日:2024-04-16 19:31:26 公開日:2024-04-14
# InstantMesh: スパースビュー大再構成モデルを用いた単一画像からの効率的な3Dメッシュ生成

InstantMesh: Efficient 3D Mesh Generation from a Single Image with Sparse-view Large Reconstruction Models ( http://arxiv.org/abs/2404.07191v2 )

ライセンス: Link先を確認
Jiale Xu, Weihao Cheng, Yiming Gao, Xintao Wang, Shenghua Gao, Ying Shan, (参考訳) InstantMeshは、単一の画像からインスタント3Dメッシュを生成するためのフィードフォワードフレームワークで、最先端の生成品質とトレーニングのスケーラビリティを特徴とする。 既製のマルチビュー拡散モデルとLRMアーキテクチャに基づくスパースビュー再構成モデルの強みを相乗化することにより、InstantMeshは10秒以内に多様な3Dアセットを作成することができる。 トレーニング効率を向上し,例えば深度や正規度などの幾何学的監督を活用すべく,我々は,微分可能な等表面抽出モジュールを我々のフレームワークに統合し,メッシュ表現を直接最適化する。 公開データセットに関する実験結果によると、InstantMeshは他の最新の画像から3Dのベースラインよりも質的にも定量的にも大幅に上回っている。 InstantMeshのコード、重み、デモをすべてリリースし、3D生成AIのコミュニティに多大な貢献をし、研究者とコンテンツクリエーターの両方に力を与えることを意図しています。

We present InstantMesh, a feed-forward framework for instant 3D mesh generation from a single image, featuring state-of-the-art generation quality and significant training scalability. By synergizing the strengths of an off-the-shelf multiview diffusion model and a sparse-view reconstruction model based on the LRM architecture, InstantMesh is able to create diverse 3D assets within 10 seconds. To enhance the training efficiency and exploit more geometric supervisions, e.g, depths and normals, we integrate a differentiable iso-surface extraction module into our framework and directly optimize on the mesh representation. Experimental results on public datasets demonstrate that InstantMesh significantly outperforms other latest image-to-3D baselines, both qualitatively and quantitatively. We release all the code, weights, and demo of InstantMesh, with the intention that it can make substantial contributions to the community of 3D generative AI and empower both researchers and content creators.
翻訳日:2024-04-16 19:31:26 公開日:2024-04-14
# RMAFF-PSN: 残差マルチスケールアテンション特徴融合光度ステレオネットワーク

RMAFF-PSN: A Residual Multi-Scale Attention Feature Fusion Photometric Stereo Network ( http://arxiv.org/abs/2404.07766v2 )

ライセンス: Link先を確認
Kai Luo, Yakun Ju, Lin Qi, Kaixuan Wang, Junyu Dong, (参考訳) 複雑な構造領域の2次元画像からオブジェクトの正確な正規マップを推定することは,物体形状や表面物質の変化による表面反射特性の影響から,光度ステレオ法を用いて難しい。 この問題に対処するため,RMAFF-PSNと呼ばれる光度ステレオネットワークを提案する。 階層化された畳み込み層のみを用いて入力画像から深い特徴を抽出する従来の手法とは異なり,本手法は画像の解像度とスケールの異なる段階から特徴情報を統合する。 このアプローチは、浅い深さのステージ特徴抽出、二重分岐強化、注意最適化を通じて、複雑な領域における物体のテクスチャや幾何学といった、より物理的な情報を保存する。 実世界の条件下でネットワーク構造をテストするために,様々な構造と材料を持つ複数のオブジェクトを含む,Simple PSデータと呼ばれる新しい実データを提案する。 提案手法は,特に非凸オブジェクト構造の場合において,同数の入力画像に対して,既存の測光ステレオ法よりも優れていることを示す。 また, 照明条件の緩やかな条件下でも良好な結果が得られた。

Predicting accurate normal maps of objects from two-dimensional images in regions of complex structure and spatial material variations is challenging using photometric stereo methods due to the influence of surface reflection properties caused by variations in object geometry and surface materials. To address this issue, we propose a photometric stereo network called a RMAFF-PSN that uses residual multiscale attentional feature fusion to handle the ``difficult'' regions of the object. Unlike previous approaches that only use stacked convolutional layers to extract deep features from the input image, our method integrates feature information from different resolution stages and scales of the image. This approach preserves more physical information, such as texture and geometry of the object in complex regions, through shallow-deep stage feature extraction, double branching enhancement, and attention optimization. To test the network structure under real-world conditions, we propose a new real dataset called Simple PS data, which contains multiple objects with varying structures and materials. Experimental results on a publicly available benchmark dataset demonstrate that our method outperforms most existing calibrated photometric stereo methods for the same number of input images, especially in the case of highly non-convex object structures. Our method also obtains good results under sparse lighting conditions.
翻訳日:2024-04-16 19:21:41 公開日:2024-04-14
# 超広帯域マイクロ波光子の計数統計

Counting statistics of ultra-broadband microwave photons ( http://arxiv.org/abs/2404.07868v2 )

ライセンス: Link先を確認
Simon Bolduc Beaudoin, Edouard Pinsolle, Bertrand Reulet, (参考訳) 未定義周波数のマイクロ波光子(バイクロマティック光子、すなわち2つのよく分離された周波数を含む光子)と「白色」ブロードバンド光子(ブロードバンド光子)の計数統計,平均およびばらつきの測定を行った。 セットアップにより、1-10GHz帯での任意の波形の単一フォトニックモードの検出が可能となる。 測定された時間依存電圧からオンザフライ数値計算により、光子統計を得る。 このような光子のサーマル・アンド・シャークド・放射による方法を検証すると、検出された統計値と、c+dcバイアストンネル接合のスクイーズスペクトルを関連づける。 3.5GHzの帯域幅で1dBよりも良い$\sim$1.5dB、約6GHzの帯域幅で$\sim6$1.5dBの帯域幅でSqueezするのを見る。 また,2色光子の波形を最大スキューズに最適化する方法も示した。

We report measurements of counting statistics, average and variance, of microwave photons of ill-defined frequency: bichromatic photons, i.e. photons involving two well separated frequencies, and "white", broadband photons. Our setup allows for the detection of single photonic modes of arbitrary waveform over the 1-10 GHz frequency range. The photon statistics is obtained by on-the-fly numerical calculation from the measured time-dependent voltage. After validating our procedure with thermal- and squeezed- radiation of such photons, we relate the detected statistics to the squeezing spectrum of an ac+dc biased tunnel junction. We observe an optimal squeezing of $\sim$1.5dB over a bandwidth $>1$ GHz, better than 1dB over 3.5 GHz and still see squeezing over a bandwidth of $\sim6$ GHz around 6 GHz. We also show how the waveform of a bichromatic photon can be optimized for maximum squeezing.
翻訳日:2024-04-16 19:21:41 公開日:2024-04-14
# EGGS: 放射界のためのエッジガイド型ガウス散乱

EGGS: Edge Guided Gaussian Splatting for Radiance Fields ( http://arxiv.org/abs/2404.09105v1 )

ライセンス: Link先を確認
Yuanhao Gong, (参考訳) ガウスの切り抜き法が人気を集めている。 しかし、損失関数には$\ell_1$ノルムとレンダリング画像と入力画像の間の構造的類似性しか含まれていない。 画像の端が重要な情報を提供することはよく知られている。 そこで本稿では,入力画像のエッジを利用するエッジガイドガウススティング(EGGS)手法を提案する。 より具体的には、エッジ領域は平坦領域よりも高い重量を与える。 このようなエッジ誘導により、結果として生じるガウス粒子は平坦な領域ではなく、エッジに集中する。 さらに、このようなエッジガイダンスは、トレーニングとレンダリングの段階で計算コストを損なうことはない。 実験により、これらの単純なエッジ重み付き損失関数は、いくつかの差分データセットにおいて、およそ1\sim2$ dB を改善することが確認された。 エッジガイダンスを単純にプラグインすることで,人間の頭部モデリングや3D再構築など,さまざまなシナリオにおけるガウススプラッティング法を改良することができる。

The Gaussian splatting methods are getting popular. However, their loss function only contains the $\ell_1$ norm and the structural similarity between the rendered and input images, without considering the edges in these images. It is well-known that the edges in an image provide important information. Therefore, in this paper, we propose an Edge Guided Gaussian Splatting (EGGS) method that leverages the edges in the input images. More specifically, we give the edge region a higher weight than the flat region. With such edge guidance, the resulting Gaussian particles focus more on the edges instead of the flat regions. Moreover, such edge guidance does not crease the computation cost during the training and rendering stage. The experiments confirm that such simple edge-weighted loss function indeed improves about $1\sim2$ dB on several difference data sets. With simply plugging in the edge guidance, the proposed method can improve all Gaussian splatting methods in different scenarios, such as human head modeling, building 3D reconstruction, etc.
翻訳日:2024-04-16 15:27:43 公開日:2024-04-14
# ランダム化量子グラフにおける量子輸送

Quantum transport in randomized quantum graphs ( http://arxiv.org/abs/2404.09106v1 )

ライセンス: Link先を確認
Alison A. Silva, D. Bazeia, Fabiano M. Andrade, (参考訳) この研究はオープン量子グラフにおける量子輸送を扱う。 我々は、エッジが取り除かれ、2つのリードにアタッチされた$n$頂点上の完全グラフの場合を、送信係数を計算するための入口と出口のチャネルを表すものとして検討する。 いくつかの頂点が接続されているかどうかを考慮し、ランダム化パラメータ$p$と関連付ける可能性を含める。 この計算を実現するために、ランダム化量子グラフ(RQG)の伝送係数を導入し、そのような伝送係数の正確かつ近似的かつ信頼性の高い結果を得る方法を提案した。 主な結果は,一対の頂点間の接続の除去によって輸送が重要な影響を受けることを示し,また,エッジ除去数が小さすぎる場合でも,伝送が完全に抑制される領域の存在を示す。

This work deals with quantum transport in open quantum graphs. We consider the case of complete graphs on $n$ vertices with an edge removed and attached to two leads, to represent the entrance and exit channels, from where we calculate the transmission coefficient. We include the possibility of several vertices being connected or not and associate it with a randomization parameter $p$. To implement the calculation, we had to introduce the transmission coefficient of randomized quantum graphs (RQG), and we also proposed a procedure to obtain the exact and approximate but reliable results for such transmission coefficients. The main results show that the transport is importantly affected by the removal of connections between pairs of vertices, but they also indicate the presence of a region where the transmission is fully suppressed, even when the number of edge removal is not too small.
翻訳日:2024-04-16 15:27:43 公開日:2024-04-14
# ProSAS: NRとLTEのスペクトル共有のためのO-RANアプローチ

ProSAS: An O-RAN Approach to Spectrum Sharing between NR and LTE ( http://arxiv.org/abs/2404.09110v1 )

ライセンス: Link先を確認
Sneihil Gopal, David Griffith, Richard A. Rouil, Chunmei Liu, (参考訳) 業界主導のOpen Radio Access Network (O-RAN)は、インテリジェントなRadio Access Network(RAN)コントローラとオープンインターフェースを使用して、LTEとNR RAN間の効率的なスペクトル共有を容易にする。 本稿では,データ駆動型O-RAN互換スペクトル共有ソリューションであるProactive Spectrum Adaptation Scheme (ProSAS)を紹介する。 ProSASはインテント駆動型スペクトル管理のためのインテリジェントな無線リソース需要予測と管理スキームであり、RANが経験した余剰や赤字を最小限に抑える。 本稿では、実世界のLTEリソース利用データと、合成されたNRデータを用いて、このソリューションの有効性について述べる。 最後に,提案手法の高レベルなO-RAN互換アーキテクチャについて論じる。

The Open Radio Access Network (O-RAN), an industry-driven initiative, utilizes intelligent Radio Access Network (RAN) controllers and open interfaces to facilitate efficient spectrum sharing between LTE and NR RANs. In this paper, we introduce the Proactive Spectrum Adaptation Scheme (ProSAS), a data-driven, O-RAN-compatible spectrum sharing solution. ProSAS is an intelligent radio resource demand prediction and management scheme for intent-driven spectrum management that minimizes surplus or deficit experienced by both RANs. We illustrate the effectiveness of this solution using real-world LTE resource usage data and synthetically generated NR data. Lastly, we discuss a high-level O-RAN-compatible architecture of the proposed solution.
翻訳日:2024-04-16 15:27:43 公開日:2024-04-14
# 運転データ合成におけるSim2Realのための生成AIの探索

Exploring Generative AI for Sim2Real in Driving Data Synthesis ( http://arxiv.org/abs/2404.09111v1 )

ライセンス: Link先を確認
Haonan Zhao, Yiting Wang, Thomas Bashford-Rogers, Valentina Donzella, Kurt Debattista, (参考訳) データセットは、車両認識アルゴリズムのトレーニングとテストに不可欠である。 しかし、実際の画像の収集とアノテーションは時間と費用がかかる。 ドライビングシミュレータは、対応するアノテーションで様々な駆動シナリオを自動的に生成するソリューションを提供するが、シミュレーションと現実(Sim2Real)ドメインギャップは依然として課題である。 生成人工知能(AI)の大半は、GAN(Generative Adversarial Nets)ベースのデファクトの手法に従っているが、最近の拡散確率モデルは、データ合成を駆動するSim2Realの課題を緩和するために完全には研究されていない。 そこで本研究では,現実的なデータセット作成のためのブリッジとして,運転シミュレータからのセマンティックラベルマップを活用するために,3つの異なる生成AI手法を適用した。 画像の質と知覚の観点から,これらの手法の比較分析を行った。 駆動画像と自動生成された高品質アノテーションを含む新しい合成データセットは、低コストで高シーン変動性で生成される。 実験結果から,手動アノテートラベルを用いた場合,GAN法は高品質な画像生成に適しているが,シミュレータ生成ラベルを用いた場合,より少ないアーティファクトとより構造的忠実度を有する合成データセットを生成することがわかった。 このことは拡散に基づくアプローチによって安定性が向上し、Sim2Real問題に対処するための代替手法が提供されることを示唆している。

Datasets are essential for training and testing vehicle perception algorithms. However, the collection and annotation of real-world images is time-consuming and expensive. Driving simulators offer a solution by automatically generating various driving scenarios with corresponding annotations, but the simulation-to-reality (Sim2Real) domain gap remains a challenge. While most of the Generative Artificial Intelligence (AI) follows the de facto Generative Adversarial Nets (GANs)-based methods, the recent emerging diffusion probabilistic models have not been fully explored in mitigating Sim2Real challenges for driving data synthesis. To explore the performance, this paper applied three different generative AI methods to leverage semantic label maps from a driving simulator as a bridge for the creation of realistic datasets. A comparative analysis of these methods is presented from the perspective of image quality and perception. New synthetic datasets, which include driving images and auto-generated high-quality annotations, are produced with low costs and high scene variability. The experimental results show that although GAN-based methods are adept at generating high-quality images when provided with manually annotated labels, ControlNet produces synthetic datasets with fewer artefacts and more structural fidelity when using simulator-generated labels. This suggests that the diffusion-based approach may provide improved stability and an alternative method for addressing Sim2Real challenges.
翻訳日:2024-04-16 15:27:43 公開日:2024-04-14
# エントロピー正規化による平均場変分推論の拡張:理論と計算

Extending Mean-Field Variational Inference via Entropic Regularization: Theory and Computation ( http://arxiv.org/abs/2404.09113v1 )

ライセンス: Link先を確認
Bohan Wu, David Blei, (参考訳) 変分推論 (VI) は高次元ベイズモデルに対する近似推論の一般的な方法として登場した。 本稿では、エントロピー正則化($\Xi$-variational inference($\Xi$-VI)と呼ばれる)を通じて、ナイーブ平均場を拡張する新しいVI法を提案する。 Xi$-VI はエントロピック最適輸送問題と密接な関係を持ち、計算効率の良いシンクホーンアルゴリズムの恩恵を受けている。 正則化パラメータによって依存度が下降する真の後続依存性を,$\Xi$-variational rearsが効果的に回復することを示す。 パラメータ空間の次元性が$\Xi$-variational approximationの精度およびそれが計算上の考慮にどう影響するかを解析し、$\Xi$-VIにおける統計計算トレードオフの粗い特徴を与える。 また、$\Xi$-VIの頻繁な性質を調査し、一貫性、漸近正規性、高次元漸近性、アルゴリズム安定性について結果を確立する。 この手法を用いて多項式時間近似推論を実現するのに十分な基準を提供する。 最後に、シミュレーションおよび実データに対する平均場変動推定に対する$\Xi$-VIの実用的利点を示す。

Variational inference (VI) has emerged as a popular method for approximate inference for high-dimensional Bayesian models. In this paper, we propose a novel VI method that extends the naive mean field via entropic regularization, referred to as $\Xi$-variational inference ($\Xi$-VI). $\Xi$-VI has a close connection to the entropic optimal transport problem and benefits from the computationally efficient Sinkhorn algorithm. We show that $\Xi$-variational posteriors effectively recover the true posterior dependency, where the dependence is downweighted by the regularization parameter. We analyze the role of dimensionality of the parameter space on the accuracy of $\Xi$-variational approximation and how it affects computational considerations, providing a rough characterization of the statistical-computational trade-off in $\Xi$-VI. We also investigate the frequentist properties of $\Xi$-VI and establish results on consistency, asymptotic normality, high-dimensional asymptotics, and algorithmic stability. We provide sufficient criteria for achieving polynomial-time approximate inference using the method. Finally, we demonstrate the practical advantage of $\Xi$-VI over mean-field variational inference on simulated and real data.
翻訳日:2024-04-16 15:27:43 公開日:2024-04-14
# 機械学習に基づくインテリジェント化学浄化技術

Intelligent Chemical Purification Technique Based on Machine Learning ( http://arxiv.org/abs/2404.09114v1 )

ライセンス: Link先を確認
Wenchao Wu, Hao Xu, Dongxiao Zhang, Fanyang Mo, (参考訳) 本研究では, カラムクロマトグラフィーを用いた人工知能の革新的開発を行い, 不効率を解消し, 化学分離・浄化領域におけるデータの収集を標準化することを目的とする。 高精度なデータ取得と高度な機械学習アルゴリズムを用いた自動プラットフォームを開発することにより,重要な分離パラメータを予測する予測モデルを構築し,クロマトグラフィープロセスの効率と品質を向上させる。 トランスファーラーニングの適用により、モデルは様々な列の仕様に適応し、その実用性を広げることができる。 新規な計量である分離確率(S_p$)は、有効化合物分離の確率を定量化し、実験的な検証によって検証する。 この研究は、化学研究にAIを応用し、従来のクロマトグラフィーの課題に対するスケーラブルなソリューションを提供し、化学分析と浄化における将来の技術進歩の基盤を提供する、重要な一歩である。

We present an innovative of artificial intelligence with column chromatography, aiming to resolve inefficiencies and standardize data collection in chemical separation and purification domain. By developing an automated platform for precise data acquisition and employing advanced machine learning algorithms, we constructed predictive models to forecast key separation parameters, thereby enhancing the efficiency and quality of chromatographic processes. The application of transfer learning allows the model to adapt across various column specifications, broadening its utility. A novel metric, separation probability ($S_p$), quantifies the likelihood of effective compound separation, validated through experimental verification. This study signifies a significant step forward int the application of AI in chemical research, offering a scalable solution to traditional chromatography challenges and providing a foundation for future technological advancements in chemical analysis and purification.
翻訳日:2024-04-16 15:27:43 公開日:2024-04-14
# GCC: 生成キャリブレーションクラスタリング

GCC: Generative Calibration Clustering ( http://arxiv.org/abs/2404.09115v1 )

ライセンス: Link先を確認
Haifeng Xia, Hai Huang, Zhengming Ding, (参考訳) 教師なし表現学習の重要な分野としてのディープクラスタリングは、意味論的に類似したサンプルを同じ特徴空間に埋め込むことに焦点を当てている。 この中核的な需要は、対照的な学習とサブスペースクラスタリングの探求を刺激する。 しかし、これらの解は常に、有効なハイレベル表現を生成するのに十分な、およびカテゴリバランスのサンプルが存在するという基本的な仮定に依存している。 この仮説は現実の応用に満足するには厳密すぎる。 このような課題を克服するために、自然な戦略は、生成モデルを利用してかなりの事例を増大させることである。 クラスタリング性能の改善を効果的に達成するためにこれらの新しいサンプルをどのように使うかは、いまだに困難で未調査である。 本稿では,クラスタリング手法に特徴学習と拡張を微妙に組み込む新しいGCC法を提案する。 まず,実検体と実検体間の固有関係を識別する識別的特徴アライメント機構を開発する。 第2に,条件付き拡散生成を促進するために,より信頼性の高いクラスタ割り当てを生成するための自己教師付きメトリック学習を設計する。 3つのベンチマークによる大規模な実験結果から,提案手法の有効性と有効性を検証した。

Deep clustering as an important branch of unsupervised representation learning focuses on embedding semantically similar samples into the identical feature space. This core demand inspires the exploration of contrastive learning and subspace clustering. However, these solutions always rely on the basic assumption that there are sufficient and category-balanced samples for generating valid high-level representation. This hypothesis actually is too strict to be satisfied for real-world applications. To overcome such a challenge, the natural strategy is utilizing generative models to augment considerable instances. How to use these novel samples to effectively fulfill clustering performance improvement is still difficult and under-explored. In this paper, we propose a novel Generative Calibration Clustering (GCC) method to delicately incorporate feature learning and augmentation into clustering procedure. First, we develop a discriminative feature alignment mechanism to discover intrinsic relationship across real and generated samples. Second, we design a self-supervised metric learning to generate more reliable cluster assignment to boost the conditional diffusion generation. Extensive experimental results on three benchmarks validate the effectiveness and advantage of our proposed method over the state-of-the-art methods.
翻訳日:2024-04-16 15:27:43 公開日:2024-04-14
# 複数の不均一な結果を持つゲノムデータの因果推論

Causal Inference for Genomic Data with Multiple Heterogeneous Outcomes ( http://arxiv.org/abs/2404.09119v1 )

ライセンス: Link先を確認
Jin-Hong Du, Zhenghao Zeng, Edward H. Kennedy, Larry Wasserman, Kathryn Roeder, (参考訳) 単一細胞RNAシークエンシング技術のゲノム学における標準的アプローチへの進化により、単一細胞レベルの測定に基づいてコホートレベルの因果推論を行うことが可能になった。 しかし、個々の遺伝子発現のレベルは直接観察可能ではなく、代わりに、個々の細胞からの反復的なプロキシ測定のみが利用可能であり、多くの遺伝子について基礎となる結果を推定する導出結果を与える。 本稿では,各ユニットの応答が利用可能である場合に,複数の結果の通常の設定を包含する,二重頑健な推定のための一般的な半パラメトリック推論フレームワークを提案する。 不均質な結果の因果効果を確実に定量化するために、標準化された平均処理効果と定量化処理効果に分析を専門化する。 これを通じて、Von Mises展開と推定方程式から導かれる2つの頑健な推定子に対する半パラメトリック推論結果の使用を実証する。 ガウス乗算器ブートストラップに基づく複数の試験手順は、二重頑健な推定器が偽の発見超越率を制御するように調整されている。 単細胞CRISPR摂動解析と個体レベルでの差分式解析の応用は,提案手法の有用性を実証し,ゲノム学における因果推論のための異なる推定値の利用に関する知見を提供する。

With the evolution of single-cell RNA sequencing techniques into a standard approach in genomics, it has become possible to conduct cohort-level causal inferences based on single-cell-level measurements. However, the individual gene expression levels of interest are not directly observable; instead, only repeated proxy measurements from each individual's cells are available, providing a derived outcome to estimate the underlying outcome for each of many genes. In this paper, we propose a generic semiparametric inference framework for doubly robust estimation with multiple derived outcomes, which also encompasses the usual setting of multiple outcomes when the response of each unit is available. To reliably quantify the causal effects of heterogeneous outcomes, we specialize the analysis to the standardized average treatment effects and the quantile treatment effects. Through this, we demonstrate the use of the semiparametric inferential results for doubly robust estimators derived from both Von Mises expansions and estimating equations. A multiple testing procedure based on the Gaussian multiplier bootstrap is tailored for doubly robust estimators to control the false discovery exceedance rate. Applications in single-cell CRISPR perturbation analysis and individual-level differential expression analysis demonstrate the utility of the proposed methods and offer insights into the usage of different estimands for causal inference in genomics.
翻訳日:2024-04-16 15:27:43 公開日:2024-04-14
# Hindsight Instruction Feedback を用いた対話型学習

Provable Interactive Learning with Hindsight Instruction Feedback ( http://arxiv.org/abs/2404.09123v1 )

ライセンス: Link先を確認
Dipendra Misra, Aldo Pacchiano, Robert E. Schapire, (参考訳) エージェントが文脈と指示を与えられた応答(例えば、行動や軌跡)を生成するような環境で対話型学習を学習する。 これとは対照的に,報奨や専門家による対応指導を用いてシステムを訓練する典型的なアプローチとは対照的に,教師がエージェントが生成した応答に最も適した指示を提供する後見指導を用いて学習を学習する。 この後見的な指示のラベル付けは、専門家の知識を必要とする場合や、引き起こすのに実用的でない場合の最適な対応を専門家に監督するよりも、提供し易いことが多い。 後見ラベリングを用いた対話型学習の理論解析を始める。 まず、一般に、任意のアルゴリズムの後悔は、エージェントの応答空間の大きさでスケールしなければならないことを示す。 次に、下層の命令応答分布を低ランク行列として分解できる特殊な設定について検討する。 この設定のためにLORILと呼ばれるアルゴリズムを導入し、その後悔のスケールが$\sqrt{T}$で、$T$はラウンドの数であり、固有のランクに依存するが、エージェントの応答空間のサイズに依存しないことを示す。 2つの領域で実験を行い、低ランクの仮定に違反してもLORILはベースラインを上回ります。

We study interactive learning in a setting where the agent has to generate a response (e.g., an action or trajectory) given a context and an instruction. In contrast, to typical approaches that train the system using reward or expert supervision on response, we study learning with hindsight instruction where a teacher provides an instruction that is most suitable for the agent's generated response. This hindsight labeling of instruction is often easier to provide than providing expert supervision of the optimal response which may require expert knowledge or can be impractical to elicit. We initiate the theoretical analysis of interactive learning with hindsight labeling. We first provide a lower bound showing that in general, the regret of any algorithm must scale with the size of the agent's response space. We then study a specialized setting where the underlying instruction-response distribution can be decomposed as a low-rank matrix. We introduce an algorithm called LORIL for this setting and show that its regret scales as $\sqrt{T}$ where $T$ is the number of rounds and depends on the intrinsic rank but does not depend on the size of the agent's response space. We provide experiments in two domains showing that LORIL outperforms baselines even when the low-rank assumption is violated.
翻訳日:2024-04-16 15:27:43 公開日:2024-04-14
# マルチエージェント検討によるLCMの信頼性校正と合理化

Confidence Calibration and Rationalization for LLMs via Multi-Agent Deliberation ( http://arxiv.org/abs/2404.09127v1 )

ライセンス: Link先を確認
Ruixin Yang, Dheeraj Rajagopa, Shirley Anugrah Hayati, Bin Hu, Dongyeop Kang, (参考訳) 特に人間からのフィードバック(RLHF)から強化学習を行う場合、不確実性推定は、一般的には校正が不十分で過信である現在の大規模言語モデル(LLM)にとって重要な問題である。 人間の決定と信頼は本質的な信念に起因するだけでなく、日々の観察を通して調整することもできるが、従来のLCMの校正法は「集団的な知恵」を最大限に活用せずに個人的信頼を推定または引き出すことに焦点を当てている。 本研究では,複数ツール強化LDMエージェントの協調的・表現的能力を活用した,ポストホックトレーニングフリーキャリブレーション戦略であるCollaborative Calibrationを提案する。 協調校正が様々な領域にわたる生成的QAタスクに与える影響を実証し、総合的な校正された信頼度評価の合理化とモデル予測の信頼性の向上に寄与する可能性を示した。

Uncertainty estimation is a significant issue for current large language models (LLMs) that are generally poorly calibrated and over-confident, especially with reinforcement learning from human feedback (RLHF). Unlike humans, whose decisions and confidences not only stem from intrinsic beliefs but can also be adjusted through daily observations, existing calibration methods for LLMs focus on estimating or eliciting individual confidence without taking full advantage of the "Collective Wisdom": the interaction among multiple LLMs that can collectively improve both accuracy and calibration. In this work, we propose Collaborative Calibration, a post-hoc training-free calibration strategy that leverages the collaborative and expressive capabilities of multiple tool-augmented LLM agents in a simulated group deliberation process. We demonstrate the effectiveness of Collaborative Calibration on generative QA tasks across various domains, showing its potential in harnessing the rationalization of collectively calibrated confidence assessments and improving the reliability of model predictions.
翻訳日:2024-04-16 15:27:43 公開日:2024-04-14
# Hindsightが20/20未満のとき:大規模言語モデルにおけるリフレクティブ思考のテスト限界

When Hindsight is Not 20/20: Testing Limits on Reflective Thinking in Large Language Models ( http://arxiv.org/abs/2404.09129v1 )

ライセンス: Link先を確認
Yanhong Li, Chenghao Yang, Allyson Ettinger, (参考訳) 近年の研究では、Large Language Models (LLMs) の推論能力を大幅に向上させることが示唆されている。 しかしながら、停止基準としての外部フィードバックの使用は、LLMが人間のような自己反射をエミュレートする能力の真の大きさに疑問を呈する。 本稿では,外部からのフィードバックを許さないような,より厳密な評価条件下でこれらの機能を明らかにすることを試みた。 自己回帰はTruthfulQAのパフォーマンスを高めるが,HotpotQAの結果に悪影響を及ぼす。 これらのパターンに寄与する要因を明らかにするためにフォローアップ分析を行い、モデルの初期応答における精度の信頼性の信頼性と全体的な疑問の難しさの両方によって自己回帰の影響が影響されることを見出した。 また、自己回帰は多数決の傾向を低下させる。 そこで本研究では,自己回帰の実施時期を判断するためのガイドラインを提案する。 実験を再現するためのコードベースをhttps://github.com/yanhong-lbh/LLM-SelfReflection-Evalでリリースしています。

Recent studies suggest that self-reflective prompting can significantly enhance the reasoning capabilities of Large Language Models (LLMs). However, the use of external feedback as a stop criterion raises doubts about the true extent of LLMs' ability to emulate human-like self-reflection. In this paper, we set out to clarify these capabilities under a more stringent evaluation setting in which we disallow any kind of external feedback. Our findings under this setting show a split: while self-reflection enhances performance in TruthfulQA, it adversely affects results in HotpotQA. We conduct follow-up analyses to clarify the contributing factors in these patterns, and find that the influence of self-reflection is impacted both by reliability of accuracy in models' initial responses, and by overall question difficulty: specifically, self-reflection shows the most benefit when models are less likely to be correct initially, and when overall question difficulty is higher. We also find that self-reflection reduces tendency toward majority voting. Based on our findings, we propose guidelines for decisions on when to implement self-reflection. We release the codebase for reproducing our experiments at https://github.com/yanhong-lbh/LLM-SelfReflection-Eval.
翻訳日:2024-04-16 15:27:43 公開日:2024-04-14
# ハードウェアノイズの存在下での量子部分空間展開

Quantum subspace expansion in the presence of hardware noise ( http://arxiv.org/abs/2404.09132v1 )

ライセンス: Link先を確認
João C. Getelina, Prachi Sharma, Thomas Iadecola, Peter P. Orth, Yong-Xin Yao, (参考訳) 変分量子固有解法(VQE)のようなアルゴリズムを用いて、現在の量子処理ユニット(QPU)の基底状態エネルギーを求めることは、引き続き課題となる。 ハードウェアノイズはパラメタライズド量子回路の表現性とトレーニング性の両方に大きく影響し、実際は浅い深さに制限される。 ここでは、VQEと量子部分空間の拡張を相乗的に統合することにより、量子コンピューティング能力とコストの最適バランスを実現できることを実証する。 我々は[K]の反復量子支援固有解器の系統的ベンチマーク解析を行う。 Bharti and T. Haug, Phys ハードウェアノイズの存在下でのA {\displaystyle A} 104}, L050401 (2021)] ノイズシミュレータとIBM QPUs ibmq_quito (5 qubits) および ibmq_guadalupe (16 qubits) 上で, 1D と 2D の混合場イジングスピンモデルの基底状態エネルギーを決定する。 精度を最大化するために、雑音重なり行列のトレースに応じて部分空間基底ベクトルを選択するのに適した基準を提案する。 最後に、ノイズの多いバックエンドのフェイク_guadalupe上での確率的誤り低減に基づいて、制御された量子誤差軽減を行うことにより、正確な解に体系的にアプローチする方法を示す。

Finding ground state energies on current quantum processing units (QPUs) using algorithms like the variational quantum eigensolver (VQE) continues to pose challenges. Hardware noise severely affects both the expressivity and trainability of parametrized quantum circuits, limiting them to shallow depths in practice. Here, we demonstrate that both issues can be addressed by synergistically integrating VQE with a quantum subspace expansion, allowing for an optimal balance between quantum and classical computing capabilities and costs. We perform a systematic benchmark analysis of the iterative quantum-assisted eigensolver of [K. Bharti and T. Haug, Phys. Rev. A {\bf 104}, L050401 (2021)] in the presence of hardware noise. We determine ground state energies of 1D and 2D mixed-field Ising spin models on noisy simulators and on the IBM QPUs ibmq_quito (5 qubits) and ibmq_guadalupe (16 qubits). To maximize accuracy, we propose a suitable criterion to select the subspace basis vectors according to the trace of the noisy overlap matrix. Finally, we show how to systematically approach the exact solution by performing controlled quantum error mitigation based on probabilistic error reduction on the noisy backend fake_guadalupe.
翻訳日:2024-04-16 15:27:43 公開日:2024-04-14
# ノイズチャネルによるテレポーテーションの促進:誘発多部絡みの影響

Enhancing teleportation via noisy channels: effects of the induced multipartite entanglement ( http://arxiv.org/abs/2404.09133v1 )

ライセンス: Link先を確認
Victor H. T. Brauer, Andrea Valdés-Hernández, (参考訳) バイパルタイト資源状態に作用するノイズチャネルの存在下での量子テレポーテーションを考察する。 本研究では, 振幅減衰と減音チャネルを連続的に接続する一般ノイズチャネル群について検討し, 遠隔操作の成功率と3部および4部の絡み合い(資源状態の量子ビットと局所環境を表すもの)の関係を考察する。 分析の結果,資源状態の固定的な絡み合いでは,ノイズの有害な影響に対してテレポーテーションの忠実性をよりよく保護するチャネルは,より高量の(GHZ型)多部絡み合いを発生させるチャネルであることが判明した。 このことは、動的に誘導されるマルチパーティイト相関が、プロトコルを補助する能力に応じて、テレポーテーションのための追加のリソースとして機能し、プロセスのキャラクタリゼーションと誘導される絡み合いのタイプに光を投げ込む可能性があることを示唆している。

Quantum teleportation in the presence of noisy channels acting on a bipartite resource state is considered. We consider a family of generalized noisy channels that continuously connect the amplitude damping and the dephasing channels, encompassing a wide family of in-between scenarios, to delve into the relation between the teleportation success and the amount of 3- and 4-partite entanglement (distributed among the qubits of the resource state and those representing local environments) generated during the evolution. Our analysis reveals that for a fixed entanglement of the resource state, the channels that better protect the teleportation fidelity against the detrimental effects of noise are those that generate higher amounts of (GHZ-type) multipartite entanglement. This suggests that the dynamically induced multipartite correlations may serve as an additional resource for teleportation, and throws light into the characterization of processes, and of the type of induced entanglement, according to their capability of assisting the protocol.
翻訳日:2024-04-16 15:17:37 公開日:2024-04-14
# 衛星ネットワーク用対話型生成AIエージェント

Interactive Generative AI Agents for Satellite Networks through a Mixture of Experts Transmission ( http://arxiv.org/abs/2404.09134v1 )

ライセンス: Link先を確認
Ruichen Zhang, Hongyang Du, Yinqiu Liu, Dusit Niyato, Jiawen Kang, Zehui Xiong, Abbas Jamalipour, Dong In Kim, (参考訳) 6Gグローバル通信の必要性に応えて、衛星通信ネットワークが鍵となるソリューションとして登場した。 しかし,衛星通信ネットワークの大規模開発は複雑なシステムモデルによって制約されている。 さらに,衛星とユーザ間の通信干渉は通信性能に深刻な影響を及ぼす。 これらの問題を解決するため、モデル定式化のための生成人工知能(AI)エージェントを開発し、その後、専門家(MoE)アプローチを併用して送信戦略を設計する。 具体的には、大規模言語モデル(LLM)を活用して対話型モデリングパラダイムを構築し、検索強化世代(RAG)を利用して、数学的モデリングをサポートする衛星専門家の知識を抽出する。 その後、複数の特殊コンポーネントの専門知識を統合することにより、定式化問題を解くためのMoE-proximal Policy Optimization (PPO)アプローチを提案する。 各専門家は、自身のネットワークを通じて特別なトレーニングを通じて最適化変数を最適化し、ゲーティングネットワークを介してそれらを集約して共同最適化を行うことができる。 シミュレーション結果は,問題定式化のための生成剤の精度と有効性を検証する。 さらに,定式化問題を解く上で,他のベンチマークよりもMoE-ppoアプローチの方が優れていることが確認された。 様々なカスタマイズされたモデリング問題に対するMoE-PPOの適応性も実証されている。

In response to the needs of 6G global communications, satellite communication networks have emerged as a key solution. However, the large-scale development of satellite communication networks is constrained by the complex system models, whose modeling is challenging for massive users. Moreover, transmission interference between satellites and users seriously affects communication performance. To solve these problems, this paper develops generative artificial intelligence (AI) agents for model formulation and then applies a mixture of experts (MoE) approach to design transmission strategies. Specifically, we leverage large language models (LLMs) to build an interactive modeling paradigm and utilize retrieval-augmented generation (RAG) to extract satellite expert knowledge that supports mathematical modeling. Afterward, by integrating the expertise of multiple specialized components, we propose an MoE-proximal policy optimization (PPO) approach to solve the formulated problem. Each expert can optimize the optimization variables at which it excels through specialized training through its own network and then aggregates them through the gating network to perform joint optimization. The simulation results validate the accuracy and effectiveness of employing a generative agent for problem formulation. Furthermore, the superiority of the proposed MoE-ppo approach over other benchmarks is confirmed in solving the formulated problem. The adaptability of MoE-PPO to various customized modeling problems has also been demonstrated.
翻訳日:2024-04-16 15:17:37 公開日:2024-04-14
# メトリクスに着目したLLM評価の展開:課題と解決

Unveiling LLM Evaluation Focused on Metrics: Challenges and Solutions ( http://arxiv.org/abs/2404.09135v1 )

ライセンス: Link先を確認
Taojun Hu, Xiao-Hua Zhou, (参考訳) 自然言語処理(NLP)は、LLM(Large Language Models)の成功によって、目覚ましいブレークスルーを目の当たりにしている。 LLMは、テキスト生成、質問応答、テキスト要約における汎用的な応用のために、学界や業界全体で大きな注目を集めている。 NLPのランドスケープが発展するにつれて、様々な技術を用いて様々なコーパスで訓練されたドメイン固有のLLMが増加し、これらのモデルの性能評価が最重要となる。 パフォーマンスを定量化するためには、既存のメトリクスを包括的に把握することが重要です。 評価では,LLMの性能を定量化する指標が重要な役割を担っている。 本稿では,メトリクスの観点からLLM評価を包括的に調査し,現在使用されているメトリクスの選択と解釈について考察する。 我々の主な目標は、それらの数学的定式化と統計的解釈を解明することである。 我々は,最近のバイオメディカルLSMを用いて,これらのメトリクスの応用に光を当てた。 さらに、これらのメトリクスを簡潔に比較し、研究者が多様なタスクに対して適切なメトリクスを選択するのを助ける。 総合的な目標は、LLM評価とメートル法選択を効果的に行うための実用的なガイドを研究者に提供し、これらの大きな言語モデルの理解と応用を促進することである。

Natural Language Processing (NLP) is witnessing a remarkable breakthrough driven by the success of Large Language Models (LLMs). LLMs have gained significant attention across academia and industry for their versatile applications in text generation, question answering, and text summarization. As the landscape of NLP evolves with an increasing number of domain-specific LLMs employing diverse techniques and trained on various corpus, evaluating performance of these models becomes paramount. To quantify the performance, it's crucial to have a comprehensive grasp of existing metrics. Among the evaluation, metrics which quantifying the performance of LLMs play a pivotal role. This paper offers a comprehensive exploration of LLM evaluation from a metrics perspective, providing insights into the selection and interpretation of metrics currently in use. Our main goal is to elucidate their mathematical formulations and statistical interpretations. We shed light on the application of these metrics using recent Biomedical LLMs. Additionally, we offer a succinct comparison of these metrics, aiding researchers in selecting appropriate metrics for diverse tasks. The overarching goal is to furnish researchers with a pragmatic guide for effective LLM evaluation and metric selection, thereby advancing the understanding and application of these large language models.
翻訳日:2024-04-16 15:17:37 公開日:2024-04-14
# SemEval-2024 Task 2 におけるTLDR : DeBERTa 報告解析のためのT5-generative-Language summaries

TLDR at SemEval-2024 Task 2: T5-generated clinical-Language summaries for DeBERTa Report Analysis ( http://arxiv.org/abs/2404.09136v1 )

ライセンス: Link先を確認
Spandan Das, Vinay Samuel, Shahriar Noroozizadeh, (参考訳) 本稿では,NLI4CT(Natural Language Inference for Clinical Trials)タスクのための新しい手法を提案する。 本報告では, TLDR (T5- generated clinical-Language summaries for DeBERTa Report Analysis) について述べる。 このアプローチは、小さなコンテキストウィンドウと長い前提によって引き起こされる課題を克服し、マクロF1スコアが大幅に改善された。 詳細な誤り解析や改善を含む包括的実験評価により,意味論的に変化した入力に対する予測において,整合性と忠実性を達成する上でTLDRの優位性が確認された。

This paper introduces novel methodologies for the Natural Language Inference for Clinical Trials (NLI4CT) task. We present TLDR (T5-generated clinical-Language summaries for DeBERTa Report Analysis) which incorporates T5-model generated premise summaries for improved entailment and contradiction analysis in clinical NLI tasks. This approach overcomes the challenges posed by small context windows and lengthy premises, leading to a substantial improvement in Macro F1 scores: a 0.184 increase over truncated premises. Our comprehensive experimental evaluation, including detailed error analysis and ablations, confirms the superiority of TLDR in achieving consistency and faithfulness in predictions against semantically altered inputs.
翻訳日:2024-04-16 15:17:37 公開日:2024-04-14
# バイトからボルシュへ:ウクライナ語表現の微調整とミストラル

From Bytes to Borsch: Fine-Tuning Gemma and Mistral for the Ukrainian Language Representation ( http://arxiv.org/abs/2404.09138v1 )

ライセンス: Link先を確認
Artur Kiulian, Anton Polishko, Mykola Khandoga, Oryna Chubych, Jack Connor, Raghav Ravishankar, Adarsh Shirawalmath, (参考訳) AIとNLPの急速に進歩する分野では、生成型大規模言語モデル(LLM)がイノベーションの最前線に立ち、テキスト理解と生成において非並列的な能力を示している。 しかし、ウクライナ語のような低リソース言語の限られた表現は、この技術のリーチと関連性を制限し、顕著な課題となっている。 本稿は,オープンソースのGemmaとMistral LLMをウクライナのデータセットで微調整し,その言語能力の向上と,ウクライナ語の処理が可能な既存のモデルとのベンチマークを行うことによって,この問題に対処する。 この取り組みは、テクノロジーにおける言語の偏見を軽減することだけでなく、デジタル領域における傾きを促進することを目的としている。 我々の透明で再現可能なアプローチは、さらなるNLP研究と開発を促進する。 さらに,ウクライナのナレッジ・アンド・インストラクション・データセット(UKID)を提示し,言語モデルの微調整における今後の取り組みを支援する。 我々の研究は、NLPの分野を前進させるだけでなく、文化保存、教育、AIのグローバルユーティリティの拡大に欠かせない、AIにおける言語多様性の重要性も強調している。 最終的には、テクノロジーが包括的であり、AIがすべての言語、特に現在表現されていない言語間で効果的にコミュニケーションできる未来を提唱します。

In the rapidly advancing field of AI and NLP, generative large language models (LLMs) stand at the forefront of innovation, showcasing unparalleled abilities in text understanding and generation. However, the limited representation of low-resource languages like Ukrainian poses a notable challenge, restricting the reach and relevance of this technology. Our paper addresses this by fine-tuning the open-source Gemma and Mistral LLMs with Ukrainian datasets, aiming to improve their linguistic proficiency and benchmarking them against other existing models capable of processing Ukrainian language. This endeavor not only aims to mitigate language bias in technology but also promotes inclusivity in the digital realm. Our transparent and reproducible approach encourages further NLP research and development. Additionally, we present the Ukrainian Knowledge and Instruction Dataset (UKID) to aid future efforts in language model fine-tuning. Our research not only advances the field of NLP but also highlights the importance of linguistic diversity in AI, which is crucial for cultural preservation, education, and expanding AI's global utility. Ultimately, we advocate for a future where technology is inclusive, enabling AI to communicate effectively across all languages, especially those currently underrepresented.
翻訳日:2024-04-16 15:17:37 公開日:2024-04-14
# RF拡散:時間周波数拡散による電波発生

RF-Diffusion: Radio Signal Generation via Time-Frequency Diffusion ( http://arxiv.org/abs/2404.09140v1 )

ライセンス: Link先を確認
Guoxuan Chi, Zheng Yang, Chenshu Wu, Jingao Xu, Yuchong Gao, Yunhao Liu, Tony Xiao Han, (参考訳) CVとNLPにおけるAIGCの輝きに加えて、無線領域におけるその可能性も近年現れている。 しかし、既存のRF指向生成ソリューションは、表現能力に制限があるため、高品質で時系列のRFデータを生成するのに不適である。 本研究は, CVおよびNLPにおける拡散モデルの恒星的成果に触発され, RF領域に適応し, RF拡散を提案する。 RF信号の固有特性に対応するため,我々はまず,RF信号の時間・周波数・複素値領域における情報入力を可能にするため,新しい時間周波数拡散理論を導入し,元の拡散モデルを強化する。 そこで本研究では,ネットワークアーキテクチャ,機能ブロック,複雑な数値演算子にまたがる設計により,この理論を実用的なDNNに変換する階層型拡散変換器を提案する。 RF拡散によるWi-Fi信号とFMCW信号の合成における優れた性能を示す。 また、5Gネットワークにおいて、Wi-Fiセンシングシステムを強化し、チャネル推定を行う上で、RF拡散の汎用性を示す。

Along with AIGC shines in CV and NLP, its potential in the wireless domain has also emerged in recent years. Yet, existing RF-oriented generative solutions are ill-suited for generating high-quality, time-series RF data due to limited representation capabilities. In this work, inspired by the stellar achievements of the diffusion model in CV and NLP, we adapt it to the RF domain and propose RF-Diffusion. To accommodate the unique characteristics of RF signals, we first introduce a novel Time-Frequency Diffusion theory to enhance the original diffusion model, enabling it to tap into the information within the time, frequency, and complex-valued domains of RF signals. On this basis, we propose a Hierarchical Diffusion Transformer to translate the theory into a practical generative DNN through elaborated design spanning network architecture, functional block, and complex-valued operator, making RF-Diffusion a versatile solution to generate diverse, high-quality, and time-series RF data. Performance comparison with three prevalent generative models demonstrates the RF-Diffusion's superior performance in synthesizing Wi-Fi and FMCW signals. We also showcase the versatility of RF-Diffusion in boosting Wi-Fi sensing systems and performing channel estimation in 5G networks.
翻訳日:2024-04-16 15:17:37 公開日:2024-04-14
# ToNER: 生成言語モデルを用いた型指向名前付きエンティティ認識

ToNER: Type-oriented Named Entity Recognition with Generative Language Model ( http://arxiv.org/abs/2404.09145v1 )

ライセンス: Link先を確認
Guochao Jiang, Ziqin Luo, Yuchen Shi, Dixuan Wang, Jiaqing Liang, Deqing Yang, (参考訳) 近年、微調整された生成モデルは、名前付きエンティティ認識(NER)タスクにおける以前のタグ付けベースまたはスパンベースモデルよりも強力であることが証明されている。 また、エンティティタイプのようなエンティティに関連する情報は、モデルにNERをより良く達成するよう促すことも見出されている。 しかし、与えられた文の中に実際に存在するエンティティタイプを事前に判断するのは簡単ではなく、潜在的なエンティティタイプを多すぎると、必然的にモデルを混乱させてしまう。 本稿では,NERタスクの促進におけるエンティティタイプのメリットを活用するために,生成モデルに基づく新しいNERフレームワーク,すなわちToNERを提案する。 ToNERでは、文中に最も現れる可能性が最も高いエンティティタイプを特定するために、最初は型マッチングモデルが提案されている。 次に、生成モデルのエンコーダを微調整するために複数のバイナリ分類タスクを追加し、入力文の洗練された表現を生成する。 さらに、モデルがより正確な結果を出力するために、モデルをさらに微調整するエンティティタイプを見つけるための補助的なタスクを追加します。 いくつかのNERベンチマークに関する広範な実験により、エンティティタイプの利用を指向したToNERにおける提案した戦略の有効性が検証された。

In recent years, the fine-tuned generative models have been proven more powerful than the previous tagging-based or span-based models on named entity recognition (NER) task. It has also been found that the information related to entities, such as entity types, can prompt a model to achieve NER better. However, it is not easy to determine the entity types indeed existing in the given sentence in advance, and inputting too many potential entity types would distract the model inevitably. To exploit entity types' merit on promoting NER task, in this paper we propose a novel NER framework, namely ToNER based on a generative model. In ToNER, a type matching model is proposed at first to identify the entity types most likely to appear in the sentence. Then, we append a multiple binary classification task to fine-tune the generative model's encoder, so as to generate the refined representation of the input sentence. Moreover, we add an auxiliary task for the model to discover the entity types which further fine-tunes the model to output more accurate results. Our extensive experiments on some NER benchmarks verify the effectiveness of our proposed strategies in ToNER that are oriented towards entity types' exploitation.
翻訳日:2024-04-16 15:17:37 公開日:2024-04-14
# Fusion-Mamba for Cross-modality Object Detection (特集:一般セッション)

Fusion-Mamba for Cross-modality Object Detection ( http://arxiv.org/abs/2404.09146v1 )

ライセンス: Link先を確認
Wenhao Dong, Haodong Zhu, Shaohui Lin, Xiaoyan Luo, Yunhang Shen, Xuhui Liu, Juan Zhang, Guodong Guo, Baochang Zhang, (参考訳) 異なるモダリティから相補的な情報を融合するクロスモダリティは、オブジェクト検出性能を効果的に向上させ、より広範囲のアプリケーションにとってより有用で堅牢である。 既存の融合戦略は、さまざまなタイプのイメージを組み合わせるか、精巧なニューラルネットワークモジュールを通じて異なるバックボーン機能をマージする。 しかし, カメラ焦点距離, 配置, 角度の異なるモダリティは融解がほとんどないため, モダリティの相違が相互モダリティ融合性能に影響を及ぼすことは無視される。 本稿では, 改良されたマンバとゲーティング機構を用いて, 隠れ状態空間におけるクロスモーダル特徴を関連付けることで, クロスモーダル融合について検討する。 We design a Fusion-Mamba block (FMB) to map cross-modal features into a hidden state space for interaction, makes reduce disparities between cross-modal features and enhance the representation consistency of fused features。 FMBには2つのモジュールがある: State Space Channel Swapping (SSCS)モジュールは浅い特徴融合を容易にし、Dual State Space Fusion (DSSF)は隠れた状態空間で深い融合を可能にする。 提案手法は、公開データセットに関する広範な実験を通じて、m$APで最先端の手法より優れており、M^3FD$で5.9%、FLIR-Alignedデータセットで4.9%、優れたオブジェクト検出性能を示している。 我々の知る限りでは、これはMambaのクロスモーダル核融合の可能性を探究し、クロスモーダル物体検出のための新しいベースラインを確立する最初の研究である。

Cross-modality fusing complementary information from different modalities effectively improves object detection performance, making it more useful and robust for a wider range of applications. Existing fusion strategies combine different types of images or merge different backbone features through elaborated neural network modules. However, these methods neglect that modality disparities affect cross-modality fusion performance, as different modalities with different camera focal lengths, placements, and angles are hardly fused. In this paper, we investigate cross-modality fusion by associating cross-modal features in a hidden state space based on an improved Mamba with a gating mechanism. We design a Fusion-Mamba block (FMB) to map cross-modal features into a hidden state space for interaction, thereby reducing disparities between cross-modal features and enhancing the representation consistency of fused features. FMB contains two modules: the State Space Channel Swapping (SSCS) module facilitates shallow feature fusion, and the Dual State Space Fusion (DSSF) enables deep fusion in a hidden state space. Through extensive experiments on public datasets, our proposed approach outperforms the state-of-the-art methods on $m$AP with 5.9% on $M^3FD$ and 4.9% on FLIR-Aligned datasets, demonstrating superior object detection performance. To the best of our knowledge, this is the first work to explore the potential of Mamba for cross-modal fusion and establish a new baseline for cross-modality object detection.
翻訳日:2024-04-16 15:17:37 公開日:2024-04-14
# STAR-RIS支援ネットワークにおける共同展開とビームフォーミング設計のためのヒューリスティックな解法

Heuristic Solution to Joint Deployment and Beamforming Design for STAR-RIS Aided Networks ( http://arxiv.org/abs/2404.09149v1 )

ライセンス: Link先を確認
Bai Yan, Qi Zhao, Jin Zhang, J. Andrew Zhang, (参考訳) 本稿では,通信システムにおける同時送信・再構成可能なインテリジェントサーフェス(STAR-RIS)の展開課題について述べる。 本稿では,STAR-RISの配置と配置の最適化を共同で行うことを強調する。 これにより、すべてのユーザグループ化可能性の検索が可能になり、システムのパフォーマンスが完全に向上する。 結合最適化とハイブリッドビームフォーミング設計による総和率最大化問題について検討する。 微分進化法と半定値プログラミング法に基づくオフラインヒューリスティックな解法が提案されている。 特に,ユーザグループ化を特徴づけ,活用するためのポイントポイント表現を提案する。 バランスの取れたグループ化手法は、複雑さの低い望ましいユーザグループ化を実現するために設計されている。 数値的な結果は、最適な配置設計によって実現可能な実質的な性能向上を示す。

This paper tackles the deployment challenges of Simultaneous Transmitting and Reflecting Reconfigurable Intelligent Surface (STAR-RIS) in communication systems. Unlike existing works that use fixed deployment setups or solely optimize the location, this paper emphasizes the joint optimization of the location and orientation of STAR-RIS. This enables searching across all user grouping possibilities and fully boosting the system's performance. We consider a sum rate maximization problem with joint optimization and hybrid beamforming design. An offline heuristic solution is proposed for the problem, developed based on differential evolution and semi-definite programming methods. In particular, a point-point representation is proposed for characterizing and exploiting the user-grouping. A balanced grouping method is designed to achieve a desired user grouping with low complexity. Numerical results demonstrate the substantial performance gains achievable through optimal deployment design.
翻訳日:2024-04-16 15:17:37 公開日:2024-04-14
# 新興プラットフォームのLLM: トップダウン開発1年

Emerging Platforms Meet Emerging LLMs: A Year-Long Journey of Top-Down Development ( http://arxiv.org/abs/2404.09151v1 )

ライセンス: Link先を確認
Siyuan Feng, Jiawei Liu, Ruihang Lai, Charlie F. Ruan, Yong Yu, Lingming Zhang, Tianqi Chen, (参考訳) さまざまなコンピューティングプラットフォームに機械学習(ML)をデプロイすることは、アプリケーションの加速と拡張に不可欠である。 しかし、モデル、特に最近の \llmfull{s} (\llm{s}) の急速な進化と新しいコンピューティングプラットフォームの出現により、ソフトウェアエンジニアリングの重大な課題が提示される。 現在のMLフレームワークは、主にCPUとCUDAプラットフォーム向けに設計されており、Metal、Vulkan、WebGPUといった新興のフレームワークを有効にするための大きなギャップを残している。 従来のボトムアップ開発パイプラインはギャップをタイムリーに埋めることができないが、開発者の生産性に最適化されたさまざまなプラットフォームへのMLシステムのデプロイを合理化するトップダウンのアプローチとツーリングであるTapMLを導入する。 広範な手動テストとデバッグを含む従来のボトムアップメソッドとは異なり、TapMLはテスト彫刻を通じてユニットテストを自動化するとともに、成熟したソースプラットフォームから新たなターゲットプラットフォームへのモデル計算を徐々にオフロードする移行ベースの戦略を採用している。 リアルな入力とリモート接続を段階的なターゲットオフロードに活用することにより、TapMLはバリデーションを加速し、デバッグスコープを最小化し、開発作業を大幅に最適化する。 TapMLは1年間にわたる現実世界の取り組みを通じて開発され、重要な新興モデルやプラットフォームをデプロイすることに成功しました。 5つの新興プラットフォームにまたがる17の異なるアーキテクチャで82の新興モデルを本格的にデプロイすることで、TapMLが開発者の生産性を向上し、モデルの信頼性と効率を確保できることを示す。 さらに,新たなMLシステムを開発するためのベストプラクティスを提供するために,実世界の開発から包括的ケーススタディを要約する。

Deploying machine learning (ML) on diverse computing platforms is crucial to accelerate and broaden their applications. However, it presents significant software engineering challenges due to the fast evolution of models, especially the recent \llmfull{s} (\llm{s}), and the emergence of new computing platforms. Current ML frameworks are primarily engineered for CPU and CUDA platforms, leaving a big gap in enabling emerging ones like Metal, Vulkan, and WebGPU. While a traditional bottom-up development pipeline fails to close the gap timely, we introduce TapML, a top-down approach and tooling designed to streamline the deployment of ML systems on diverse platforms, optimized for developer productivity. Unlike traditional bottom-up methods, which involve extensive manual testing and debugging, TapML automates unit testing through test carving and adopts a migration-based strategy for gradually offloading model computations from mature source platforms to emerging target platforms. By leveraging realistic inputs and remote connections for gradual target offloading, TapML accelerates the validation and minimizes debugging scopes, significantly optimizing development efforts. TapML was developed and applied through a year-long, real-world effort that successfully deployed significant emerging models and platforms. Through serious deployments of 82 emerging models in 17 distinct architectures across 5 emerging platforms, we showcase the effectiveness of TapML in enhancing developer productivity while ensuring model reliability and efficiency. Furthermore, we summarize comprehensive case studies from our real-world development, offering best practices for developing emerging ML systems.
翻訳日:2024-04-16 15:17:37 公開日:2024-04-14
# テンソル分解に基づく時間知識グラフ埋め込みのためのリー群マニフォールドによる因子テンソルの不均一性の緩和

Mitigating Heterogeneity among Factor Tensors via Lie Group Manifolds for Tensor Decomposition Based Temporal Knowledge Graph Embedding ( http://arxiv.org/abs/2404.09155v1 )

ライセンス: Link先を確認
Jiang Li, Xiangdong Su, Yeyun Gong, Guanglai Gao, (参考訳) 近年,TKGE(Temporal Knowledge Graphs Embedding)タスクにおけるテンソル分解法の有効性が注目されている。 しかし, テンソル分解における因子テンソルの固有不均一性は, テンソル融合過程を著しく阻害し, さらにリンク予測の性能を阻害することがわかった。 この制限を克服するために、因子テンソルを統一滑らかなリー群多様体に写像し、因子テンソルの分布をテンソル分解で均一に近似させる新しい方法を導入する。 我々は、等質テンソルがテンソル融合における異質テンソルよりも有効であり、テンソル分解に基づくTKGE法のターゲットを近似する動機の理論的証明を提供する。 提案手法は, 余分なパラメータを導入することなく, 既存のテンソル分解に基づくTKGE法に直接統合することができる。 広汎な実験により、不均一性を緩和し、テンソル分解に基づくTKGEモデルを強化する方法の有効性が示された。

Recent studies have highlighted the effectiveness of tensor decomposition methods in the Temporal Knowledge Graphs Embedding (TKGE) task. However, we found that inherent heterogeneity among factor tensors in tensor decomposition significantly hinders the tensor fusion process and further limits the performance of link prediction. To overcome this limitation, we introduce a novel method that maps factor tensors onto a unified smooth Lie group manifold to make the distribution of factor tensors approximating homogeneous in tensor decomposition. We provide the theoretical proof of our motivation that homogeneous tensors are more effective than heterogeneous tensors in tensor fusion and approximating the target for tensor decomposition based TKGE methods. The proposed method can be directly integrated into existing tensor decomposition based TKGE methods without introducing extra parameters. Extensive experiments demonstrate the effectiveness of our method in mitigating the heterogeneity and in enhancing the tensor decomposition based TKGE models.
翻訳日:2024-04-16 15:17:37 公開日:2024-04-14
# StreakNet-Arch:水中キャリアLiDARレーダイメージングのためのアンチ散乱ネットワークベースアーキテクチャ

StreakNet-Arch: An Anti-scattering Network-based Architecture for Underwater Carrier LiDAR-Radar Imaging ( http://arxiv.org/abs/2404.09158v1 )

ライセンス: Link先を確認
Xuelong Li, Hongjun An, Guangying Li, Xing Wang, Guanghua Cheng, Zhe Sun, (参考訳) 本稿では,水中キャリアLiDAR-Radar(UCLR)イメージングシステム用に設計された新しい信号処理アーキテクチャであるStreakNet-Archを紹介し,散乱抑制とリアルタイムイメージングの限界に対処する。 StreakNet-Archは、信号処理をリアルタイムのエンドツーエンドのバイナリ分類タスクとして定式化し、リアルタイムの画像取得を可能にする。 これを実現するために,従来の手法を超越した新たな二重分岐クロスアテンション(DBC-Attention)機構を提案する。 さらに,ストリークチューブカメライメージを注目ネットワークに埋め込み,学習帯域通過フィルタとして効果的に機能する手法を提案する。 さらなる研究を容易にするために、我々は公開のストリークチューブカメラ画像データセットに貢献する。 データセットには2,695,168の現実世界の水中3Dポイントのクラウドデータが含まれている。 これらの進歩はUCLR機能を大幅に改善し、水中イメージングタスクの性能と適用性を高めた。 ソースコードとデータセットはhttps://github.com/BestAnHongjun/StreakNetで確認できる。

In this paper, we introduce StreakNet-Arch, a novel signal processing architecture designed for Underwater Carrier LiDAR-Radar (UCLR) imaging systems, to address the limitations in scatter suppression and real-time imaging. StreakNet-Arch formulates the signal processing as a real-time, end-to-end binary classification task, enabling real-time image acquisition. To achieve this, we leverage Self-Attention networks and propose a novel Double Branch Cross Attention (DBC-Attention) mechanism that surpasses the performance of traditional methods. Furthermore, we present a method for embedding streak-tube camera images into attention networks, effectively acting as a learned bandpass filter. To facilitate further research, we contribute a publicly available streak-tube camera image dataset. The dataset contains 2,695,168 real-world underwater 3D point cloud data. These advancements significantly improve UCLR capabilities, enhancing its performance and applicability in underwater imaging tasks. The source code and dataset can be found at https://github.com/BestAnHongjun/StreakNet .
翻訳日:2024-04-16 15:17:37 公開日:2024-04-14
# オブジェクト検出のためのコアセット選択

Coreset Selection for Object Detection ( http://arxiv.org/abs/2404.09161v1 )

ライセンス: Link先を確認
Hojun Lee, Suyoung Kim, Junhoo Lee, Jaeyoung Yoo, Nojun Kwak, (参考訳) Coreset selectionは、データセット全体の小さな代表サブセットを選択する方法である。 主に画像分類において研究されており、画像ごとに1つの物体しか存在しないと仮定している。 しかし、画像が複数のオブジェクトを含むことができるため、オブジェクト検出のためのコアセットの選択はより困難である。 結果として、この話題についてはまだ多くの研究がなされていない。 そこで我々は新しいアプローチであるCoreset Selection for Object Detection (CSOD)を導入する。 CSODは、画像内の同じクラスの複数のオブジェクトに対して、画像的に、クラス的に代表的な特徴ベクトルを生成する。 その後、代表性と多様性の両方を考慮した部分モジュラ最適化を採用し、部分モジュラ最適化プロセスにおける代表ベクトルを用いてサブセットを選択する。 CSOD を Pascal VOC データセットで評価すると, CSOD は 200 枚の画像を選択する場合, AP$_{50}$ のランダム選択を +6.4% 上回った。

Coreset selection is a method for selecting a small, representative subset of an entire dataset. It has been primarily researched in image classification, assuming there is only one object per image. However, coreset selection for object detection is more challenging as an image can contain multiple objects. As a result, much research has yet to be done on this topic. Therefore, we introduce a new approach, Coreset Selection for Object Detection (CSOD). CSOD generates imagewise and classwise representative feature vectors for multiple objects of the same class within each image. Subsequently, we adopt submodular optimization for considering both representativeness and diversity and utilize the representative vectors in the submodular optimization process to select a subset. When we evaluated CSOD on the Pascal VOC dataset, CSOD outperformed random selection by +6.4%p in AP$_{50}$ when selecting 200 images.
翻訳日:2024-04-16 15:17:37 公開日:2024-04-14
# GeMQuAD : 少数ショット学習を用いた大規模言語モデルからの多言語質問応答データセットの生成

GeMQuAD : Generating Multilingual Question Answering Datasets from Large Language Models using Few Shot Learning ( http://arxiv.org/abs/2404.09163v1 )

ライセンス: Link先を確認
Amani Namboori, Shivam Mangale, Andy Rosenbaum, Saleh Soltan, (参考訳) In-Context Learning(ICL)のような機能を備えたLarge Language Models(LLM)の出現は、広範囲なデータ収集とモデリング技術の必要性を最小限にしつつ、さまざまなドメインにわたるデータ生成の新たな可能性を生み出している。 研究者は、生成された合成データを使用して、より小さな学生モデルを最適化し、デプロイメントコストを削減し、下流タスクのレイテンシを下げる方法を模索している。 しかし、ICLが生成するデータは、タスク特異性に制限があり、ICLで使われる例はほとんどないため、低品質に悩まされることが多い。 本稿では,AlexaTM 20B Seq2Seq LLM を用いて ICL を用いて生成されたデータセットに適用した,半教師付き学習手法 GeMQuAD を提案する。 提案手法により,特に抽出質問応答タスクの文脈における低リソース多言語設定において,モデル性能を向上させるための高品質なデータを反復的に同定する。 我々のフレームワークは、Hindiで0.22/1.68 F1/EM(Exact Match)ポイント、MLQAデータセットで0.82/1.37 F1/EMポイント、Hindiで5.05/6.50 F1/EMポイント、同じデータセットで3.81/3.69ポイントF1/EMでトレーニングされた英語のみのデータセットでトレーニングされたモデルのパフォーマンスを上回っている。 特に、本手法では、ICLの注釈付き例を1つだけ利用してデータ生成を行い、コスト効率の良い開発プロセスを提供する。

The emergence of Large Language Models (LLMs) with capabilities like In-Context Learning (ICL) has ushered in new possibilities for data generation across various domains while minimizing the need for extensive data collection and modeling techniques. Researchers have explored ways to use this generated synthetic data to optimize smaller student models for reduced deployment costs and lower latency in downstream tasks. However, ICL-generated data often suffers from low quality as the task specificity is limited with few examples used in ICL. In this paper, we propose GeMQuAD - a semi-supervised learning approach, extending the WeakDAP framework, applied to a dataset generated through ICL with just one example in the target language using AlexaTM 20B Seq2Seq LLM. Through our approach, we iteratively identify high-quality data to enhance model performance, especially for low-resource multilingual setting in the context of Extractive Question Answering task. Our framework outperforms the machine translation-augmented model by 0.22/1.68 F1/EM (Exact Match) points for Hindi and 0.82/1.37 F1/EM points for Spanish on the MLQA dataset, and it surpasses the performance of model trained on an English-only dataset by 5.05/6.50 F1/EM points for Hindi and 3.81/3.69 points F1/EM for Spanish on the same dataset. Notably, our approach uses a pre-trained LLM for generation with no fine-tuning (FT), utilizing just a single annotated example in ICL to generate data, providing a cost-effective development process.
翻訳日:2024-04-16 15:17:37 公開日:2024-04-14
# 土地取得と土地在留セキュリティにおける男女格差に着目したジェンダーアセットギャップ管理のための計算モデル

A computational model for gender asset gap management with a focus on gender disparity in land acquisition and land tenure security ( http://arxiv.org/abs/2404.09164v1 )

ライセンス: Link先を確認
Oluwatosin Ogundare, Lewis Njualem, (参考訳) ジェンダーの不平等は多くの文化において重要な関心事であり、女性は特に土地の所有と支配に対する大きな障壁に直面している。 土地取得と土地維持のセキュリティは、様々な文化的グループに異なる影響を与える複雑な問題であり、特にジェンダー不平等のような他の社会経済的問題に重きを置くと、アクセスと所有権の格差が生じる。 これらの問題の深刻度を異なる文化集団で測定することは、重度レベルを正しく評価するための測定枠組みの文化的規範、期待、有効性によって困難である。 ジェンダー・アセット・ギャップという名目上の尺度は、土地の取得と維持に関する貴重な洞察を提供する一方で、文化的差異のニュアンスと、土地の所有と管理におけるジェンダー格差に影響を与える政府および企業政策の影響を完全には捉えていない。 提案する枠組みは、ジェンダー資産格差の深刻度を総合的に評価するためのアプローチを標準化する、より堅牢で包括的な指標を備えた新しい測定枠組みを開発する際に、文化的・政策的な要素を取り入れて、このギャップを埋めることを目的としている。

Gender inequality is a significant concern in many cultures, as women face significant barriers to asset acquisition particularly land ownership and control. Land acquisition and land tenure security are complex issues that affect various cultural groups differently, leading to disparities in access and ownership especially when superimposed with other socio-economic issues like gender inequality. Measuring the severity of these issues across different cultural groups is challenging due to variations in cultural norms, expectations and effectiveness of the measurement framework to correctly assess the level of severity. While nominal measures of gender asset gap provide valuable insights into land acquisition and tenure security issues, they do not fully capture the nuances of cultural differences and the impact of governmental and corporate policies that influence gender disparity in land ownership and control. The proposed framework aims to fill this gap by incorporating cultural and policy factors in developing a new measurement framework equipped with a more robust, comprehensive metric to standardize the approach to assessing the severity of gender asset disparity in a general sense but with a focus on land acquisition and tenure security to engender more effective interventions and policy recommendations.
翻訳日:2024-04-16 15:17:37 公開日:2024-04-14
# プライベート多重線形計算:フレキシブル通信計算トレードオフ

Private Multiple Linear Computation: A Flexible Communication-Computation Tradeoff ( http://arxiv.org/abs/2404.09165v1 )

ライセンス: Link先を確認
Jinbao Zhu, Lanping Li, Xiaohu Tang, Ping Deng, (参考訳) 複製ストレージシステム上でのプライベート多重線形計算(PMLC)の問題点について考察する。 このシナリオでは、ユーザがプライベートに$M$のリレーショナルな組み合わせを$N$レプリケーションされたサーバから$M$のリレーショナルな組み合わせを計算し、これらのリニアな組み合わせの係数に関する情報を任意の$T$に公開することなく、ユーザクエリに応答して情報を提供しない$S$レスポンシブなサーバの存在を望んでいる。 私たちの焦点は、ユーザによって引き起こされるコミュニケーションと計算オーバーヘッドが無視されない、より一般的なパフォーマンス指標にあります。 また、サーバの通信と計算のオーバーヘッドも考慮する。 サーバからのダウンロードコストをパフォーマンス指標として重視していた従来の文献とは異なり,通信コストと計算複雑性との柔軟なトレードオフを確立するための新しいPMLCスキームを提案する。

We consider the problem of private multiple linear computation (PMLC) over a replicated storage system with colluding and unresponsive constraints. In this scenario, the user wishes to privately compute $P$ linear combinations of $M$ files from a set of $N$ replicated servers without revealing any information about the coefficients of these linear combinations to any $T$ colluding servers, in the presence of $S$ unresponsive servers that do not provide any information in response to user queries. Our focus is on more general performance metrics where the communication and computational overheads incurred by the user are not neglected. Additionally, the communication and computational overheads for servers are also taken into consideration. Unlike most previous literature that primarily focused on download cost from servers as a performance metric, we propose a novel PMLC scheme to establish a flexible tradeoff between communication costs and computational complexities.
翻訳日:2024-04-16 15:07:53 公開日:2024-04-14
# 知識グラフの埋め込みモデルとその応用に関する調査

Survey on Embedding Models for Knowledge Graph and its Applications ( http://arxiv.org/abs/2404.09167v1 )

ライセンス: Link先を確認
Manita Pote, (参考訳) 知識グラフ(KG)は、ノードが現実世界の実体や抽象的な概念を表現し、エッジが実体間の関係を表現する世界の事実を表現するグラフベースのデータ構造である。 知識の表現としてのグラフには、データの空間性、計算の複雑さ、手動の機能エンジニアリングなど、いくつかの欠点がある。 知識グラフ埋め込みは、それらの間の意味的関係をキャプチャすることで、低次元ベクトル空間における実体と関係を表現することによって、欠点に取り組む。 様々なKG埋め込みモデルが存在する。 ここでは、意味的特性、スコアリング機能、使用するアーキテクチャに基づいて異なる翻訳ベースとニューラルネットワークベースの埋め込みモデルについて議論する。 さらに、深層学習モデルを用いてソーシャルメディアデータを活用する領域におけるKGの適用についても論じる。

Knowledge Graph (KG) is a graph based data structure to represent facts of the world where nodes represent real world entities or abstract concept and edges represent relation between the entities. Graph as representation for knowledge has several drawbacks like data sparsity, computational complexity and manual feature engineering. Knowledge Graph embedding tackles the drawback by representing entities and relation in low dimensional vector space by capturing the semantic relation between them. There are different KG embedding models. Here, we discuss translation based and neural network based embedding models which differ based on semantic property, scoring function and architecture they use. Further, we discuss application of KG in some domains that use deep learning models and leverage social media data.
翻訳日:2024-04-16 15:07:53 公開日:2024-04-14
# セマンティック・シンキング後:大規模言語モデルから推論能力を拡張するためのロバスト戦略

Post-Semantic-Thinking: A Robust Strategy to Distill Reasoning Capacity from Large Language Models ( http://arxiv.org/abs/2404.09170v1 )

ライセンス: Link先を確認
Xiao Chen, Sihang Zhou, Ke Liang, Xinwang Liu, (参考訳) 思考の微調整の連鎖は、質問に対する答えを単に予測するだけでなく、大きな言語モデル(LLM)の推論手順を模倣することで、特定のタスクに対する性能向上のための推論能力を持つ小さな学生モデルを提供することを目的としている。 しかし、既存の方法 1) 解答の前に理性を生成し, 解答の正しさを理性における幻覚に敏感にする; 2) 学生モデルに対して, LLMの理性表現を正確に繰り返すように強制する。 そこで本稿では,理性よりも先に回答を生成するために,PST(Post-Semantic-Thinking)戦略を提案する。 この回答ファースト設定のおかげです。 1) 答弁手続は,合理性における幻覚による悪影響から逃れることができる。 2 複雑な推論手順は、比較的簡潔な解答と密接な結びつきがあり、その解答の先行情報により、質問の推論が容易になる。 3)提案手法の効率性は,推論の実行時に回答が出力された直後に生成を停止できるため,設定の恩恵を受けることができる。 さらに、PST戦略は、生成された論理学に対する制約を語彙空間の代わりに隠された意味空間において LLMs Gold Standard に近いものにすることで、小学生モデルは論理学における意味論的推論論理をよりよく理解する。 12の推論タスクにわたる大規模な実験により、PSTの有効性が示された。

Chain of thought finetuning aims to endow small student models with reasoning capacity to improve their performance towards a specific task by allowing them to imitate the reasoning procedure of large language models (LLMs) beyond simply predicting the answer to the question. However, the existing methods 1) generate rationale before the answer, making their answer correctness sensitive to the hallucination in the rationale;2) force the student model to repeat the exact LLMs rationale expression word-after-word, which could have the model biased towards learning the expression in rationale but count against the model from understanding the core logic behind it. Therefore, we propose a robust Post-Semantic-Thinking (PST) strategy to generate answers before rationale. Thanks to this answer-first setting, 1) the answering procedure can escape from the adverse effects caused by hallucinations in the rationale; 2) the complex reasoning procedure is tightly bound with the relatively concise answer, making the reasoning for questions easier with the prior information in the answer; 3) the efficiency of the method can also benefit from the setting since users can stop the generation right after answers are outputted when inference is conducted. Furthermore, the PST strategy loose the constraint against the generated rationale to be close to the LLMs gold standard in the hidden semantic space instead of the vocabulary space, thus making the small student model better comprehend the semantic reasoning logic in rationale. Extensive experiments conducted across 12 reasoning tasks demonstrate the effectiveness of PST.
翻訳日:2024-04-16 15:07:53 公開日:2024-04-14
# LoopAnimate: Loopable Salient Object Animation

LoopAnimate: Loopable Salient Object Animation ( http://arxiv.org/abs/2404.09172v1 )

ライセンス: Link先を確認
Fanyi Wang, Peng Liu, Haotian Hu, Dan Meng, Jingwen Su, Jinjin Xu, Yanhao Zhang, Xiaoming Ren, Zhiwang Zhang, (参考訳) 拡散モデルに基づく映像生成の研究は急速に進んでいる。 しかし、オブジェクトの忠実度と生成長の制限は、その実用性を妨げている。 さらに、アニメーションの壁紙のような特定のドメインはシームレスなループを必要とし、ビデオの最初のフレームと最後のフレームはシームレスに一致します。 これらの課題に対処するために,一貫した開始フレームと終了フレームでビデオを生成する新しい方法であるLoopAnimateを提案する。 オブジェクトの忠実度を高めるために,複数レベルの画像の外観とテキストの意味情報を分離するフレームワークを導入する。 画像から画像への拡散モデルを構築し,入力画像からの画素レベルの情報と特徴レベルの情報の両方を取り入れ,画像の外観やテキストのセマンティックな埋め込みを拡散モデルの異なる位置に注入する。 既存のUNetベースのビデオ生成モデルは、トレーニング中にビデオ全体を入力し、時間的および位置的な情報を一度にエンコードする必要がある。 しかし、GPUメモリの制限のため、フレームの数は16に制限される。 そこで本研究では,フレーム数が徐々に増加し,微調整モジュールが減少する3段階のトレーニング戦略を提案する。 さらに、時間的・位置的な情報を36フレームまでエンコードする能力を拡張するために、TEMM(Temporal Enhanced Motion Module)を導入する。 提案したLoopAnimateは、UNetベースのビデオ生成モデルのシングルパス生成期間を、高品質なビデオ生成を維持しながら35フレームに拡張した。 実験により、LoopAnimateは、忠実度や時間的整合性などの客観的指標と主観評価結果の両方において、最先端のパフォーマンスを達成することが示された。

Research on diffusion model-based video generation has advanced rapidly. However, limitations in object fidelity and generation length hinder its practical applications. Additionally, specific domains like animated wallpapers require seamless looping, where the first and last frames of the video match seamlessly. To address these challenges, this paper proposes LoopAnimate, a novel method for generating videos with consistent start and end frames. To enhance object fidelity, we introduce a framework that decouples multi-level image appearance and textual semantic information. Building upon an image-to-image diffusion model, our approach incorporates both pixel-level and feature-level information from the input image, injecting image appearance and textual semantic embeddings at different positions of the diffusion model. Existing UNet-based video generation models require to input the entire videos during training to encode temporal and positional information at once. However, due to limitations in GPU memory, the number of frames is typically restricted to 16. To address this, this paper proposes a three-stage training strategy with progressively increasing frame numbers and reducing fine-tuning modules. Additionally, we introduce the Temporal E nhanced Motion Module(TEMM) to extend the capacity for encoding temporal and positional information up to 36 frames. The proposed LoopAnimate, which for the first time extends the single-pass generation length of UNet-based video generation models to 35 frames while maintaining high-quality video generation. Experiments demonstrate that LoopAnimate achieves state-of-the-art performance in both objective metrics, such as fidelity and temporal consistency, and subjective evaluation results.
翻訳日:2024-04-16 15:07:53 公開日:2024-04-14
# TransformerFAM: フィードバックの注意は動作メモリである

TransformerFAM: Feedback attention is working memory ( http://arxiv.org/abs/2404.09173v1 )

ライセンス: Link先を確認
Dongseong Hwang, Weiran Wang, Zhuoyuan Huo, Khe Chai Sim, Pedro Moreno Mengibar, (参考訳) トランスフォーマーはディープラーニングに革命をもたらしたが、その二次的な注意の複雑さは、無限に長い入力を処理する能力を妨げている。 本稿では,フィードバックループを利用する新しいトランスフォーマーアーキテクチャであるFAMを提案する。 この設計により、Transformer内のワーキングメモリの出現が促進され、無限に長いシーケンスを処理できるようになる。 TransformerFAMは追加の重みを必要とせず、事前訓練されたモデルとのシームレスな統合を可能にする。 実験の結果,TransformerFAMは,多種多様なモデルサイズ(1B,8B,24B)にわたる長文タスクにおいて,Transformerのパフォーマンスを著しく向上することがわかった。 これらの結果から,Large Language Models (LLM) を無限長のシーケンスに拡張する可能性が示された。

While Transformers have revolutionized deep learning, their quadratic attention complexity hinders their ability to process infinitely long inputs. We propose Feedback Attention Memory (FAM), a novel Transformer architecture that leverages a feedback loop to enable the network to attend to its own latent representations. This design fosters the emergence of working memory within the Transformer, allowing it to process indefinitely long sequences. TransformerFAM requires no additional weights, enabling seamless integration with pre-trained models. Our experiments show that TransformerFAM significantly improves Transformer performance on long-context tasks across various model sizes (1B, 8B, and 24B). These results showcase the potential to empower Large Language Models (LLMs) to process sequences of unlimited length.
翻訳日:2024-04-16 15:07:53 公開日:2024-04-14
# 音楽タギングのための多視点セルフ教師方式の実験的検討

An Experimental Comparison Of Multi-view Self-supervised Methods For Music Tagging ( http://arxiv.org/abs/2404.09177v1 )

ライセンス: Link先を確認
Gabriel Meseguer-Brocal, Dorian Desblancs, Romain Hennequin, (参考訳) 自己教師付き学習は、大量のラベルのないデータに基づいて、一般化可能な機械学習モデルを事前訓練するための強力な方法として登場した。 特に音楽分野では、ラベル付きデータを取得するのに時間がかかり、エラーが発生し、曖昧である。 自己監督プロセスの間、モデルはプレテキストタスクに基づいて訓練され、主要な目的は、後で特定の下流タスクのために微調整できる堅牢で情報的な機能を取得することである。 プリテキストタスクの選択は、情報エンコーディングに意味のある制約で特徴空間を形作るようモデルに誘導するため、非常に重要である。 音楽の文脈では、ほとんどの作品は対照的な学習やマスキング技術に依存している。 本研究では,音楽タギングのための新たな自己教師型手法の性能を調査・比較することにより,音楽に適用される前提課題の範囲を広げる。 我々は、数百万トラックの多様なカタログに基づいてトレーニングされたシンプルなResNetモデルをオープンソースにしました。 以上の結果から,これらの事前学習手法は,ほぼ同様のダウンストリーム結果をもたらすが,コントラスト学習は,他の自己指導型事前学習手法と比較して連続的にダウンストリーム性能が向上することが示された。 これは、限られたデータダウンストリームのコンテキストで当てはまる。

Self-supervised learning has emerged as a powerful way to pre-train generalizable machine learning models on large amounts of unlabeled data. It is particularly compelling in the music domain, where obtaining labeled data is time-consuming, error-prone, and ambiguous. During the self-supervised process, models are trained on pretext tasks, with the primary objective of acquiring robust and informative features that can later be fine-tuned for specific downstream tasks. The choice of the pretext task is critical as it guides the model to shape the feature space with meaningful constraints for information encoding. In the context of music, most works have relied on contrastive learning or masking techniques. In this study, we expand the scope of pretext tasks applied to music by investigating and comparing the performance of new self-supervised methods for music tagging. We open-source a simple ResNet model trained on a diverse catalog of millions of tracks. Our results demonstrate that, although most of these pre-training methods result in similar downstream results, contrastive learning consistently results in better downstream performance compared to other self-supervised pre-training methods. This holds true in a limited-data downstream context.
翻訳日:2024-04-16 15:07:53 公開日:2024-04-14
# HANet:バイテンポラル超高解像度リモートセンシング画像による変化検出のための階層型注意ネットワーク

HANet: A Hierarchical Attention Network for Change Detection With Bitemporal Very-High-Resolution Remote Sensing Images ( http://arxiv.org/abs/2404.09178v1 )

ライセンス: Link先を確認
Chengxi Han, Chen Wu, Haonan Guo, Meiqi Hu, Hongruixuan Chen, (参考訳) ディープラーニング技術の発展により、自動特徴抽出を用いたディープラーニングベースのアルゴリズムは、変化検出(CD)タスクにおいて顕著なパフォーマンスを達成した。 しかし、既存のディープラーニングベースのCD手法の性能は、変化したピクセルと変化しないピクセルの不均衡によって妨げられる。 この問題に対処するため,本論文では,変化情報を追加しない先進的な事前調整型サンプリング戦略を提案し,初期訓練過程における変化画素の特徴を正確に学習し,検出性能を向上させるとともに,マルチスケールな特徴の統合と詳細特徴の洗練が可能な識別型シームズネットワーク,階層型アテンションネットワーク(HANet)を設計する。 HANetの主な部分は、軽量で効果的な自己認識機構であるHANモジュールである。 極端にバランスの取れないラベルを持つ2つのCDデータセットの大規模な実験とアブレーション研究により,提案手法の有効性と効率が検証された。

Benefiting from the developments in deep learning technology, deep-learning-based algorithms employing automatic feature extraction have achieved remarkable performance on the change detection (CD) task. However, the performance of existing deep-learning-based CD methods is hindered by the imbalance between changed and unchanged pixels. To tackle this problem, a progressive foreground-balanced sampling strategy on the basis of not adding change information is proposed in this article to help the model accurately learn the features of the changed pixels during the early training process and thereby improve detection performance.Furthermore, we design a discriminative Siamese network, hierarchical attention network (HANet), which can integrate multiscale features and refine detailed features. The main part of HANet is the HAN module, which is a lightweight and effective self-attention mechanism. Extensive experiments and ablation studies on two CDdatasets with extremely unbalanced labels validate the effectiveness and efficiency of the proposed method.
翻訳日:2024-04-16 15:07:53 公開日:2024-04-14
# 変更誘導ネットワーク:リモートセンシング画像におけるガイド変更検出に先立って変更を組み込む

Change Guiding Network: Incorporating Change Prior to Guide Change Detection in Remote Sensing Imagery ( http://arxiv.org/abs/2404.09179v1 )

ライセンス: Link先を確認
Chengxi Han, Chen Wu, Haonan Guo, Meiqi Hu, Jiepan Li, Hongruixuan Chen, (参考訳) 自動人工知能アルゴリズムとリモートセンシング機器の急速な進歩は、変化検出(CD)タスクの恩恵を受けている。 しかし、正確な検出、特に変化の特徴のエッジの完全性や内部のホール現象について研究する余地は、まだたくさんある。 これらの問題を解決するために,従来のU-Net構造における変化特徴の表現不足に対処するCGNet(Change Guiding Network)を設計した。 豊富な意味情報を持つ深い特徴から変化マップを生成し、事前情報として使用し、マルチスケールな特徴融合を導くことにより、変化特徴の表現能力を向上させることができる。 一方,CGM(Change Guide Module)と呼ばれる自己注意モジュールは,画素間の長距離依存性を効果的に捉え,従来の畳み込みニューラルネットワークの受容領域が不十分な問題を効果的に克服する。 4つの主要なCDデータセットにおいて,CGNetの有用性と有効性を検証し,CGNetの有効性を実証する実験とアブレーション研究を行った。 コードをhttps://github.com/ChengxiHAN/CGNet-CDでオープンソース化します。

The rapid advancement of automated artificial intelligence algorithms and remote sensing instruments has benefited change detection (CD) tasks. However, there is still a lot of space to study for precise detection, especially the edge integrity and internal holes phenomenon of change features. In order to solve these problems, we design the Change Guiding Network (CGNet), to tackle the insufficient expression problem of change features in the conventional U-Net structure adopted in previous methods, which causes inaccurate edge detection and internal holes. Change maps from deep features with rich semantic information are generated and used as prior information to guide multi-scale feature fusion, which can improve the expression ability of change features. Meanwhile, we propose a self-attention module named Change Guide Module (CGM), which can effectively capture the long-distance dependency among pixels and effectively overcome the problem of the insufficient receptive field of traditional convolutional neural networks. On four major CD datasets, we verify the usefulness and efficiency of the CGNet, and a large number of experiments and ablation studies demonstrate the effectiveness of CGNet. We're going to open-source our code at https://github.com/ChengxiHAN/CGNet-CD.
翻訳日:2024-04-16 15:07:53 公開日:2024-04-14
# 並列TSフロントエンドモデリングのための事前認識型マルチスケールコントラストテキスト-Audio事前学習

Prior-agnostic Multi-scale Contrastive Text-Audio Pre-training for Parallelized TTS Frontend Modeling ( http://arxiv.org/abs/2404.09192v1 )

ライセンス: Link先を確認
Quanxiu Wang, Hui Huang, Mingjie Wang, Yong Dai, Jinzuomu Zhong, Benlai Tang, (参考訳) 過去10年間に渡り、高度に表現力のある制御可能な音声合成システム(TTS)の開発に、さまざまな努力が注がれてきた。 一般に、全体的なTSは、フロントエンドモジュールとバックエンドモジュールの2つの相互接続コンポーネントから構成される。 フロントエンドは、原文入力から言語表現を取得するのに優れ、バックエンドモジュールは言語キューを音声に変換する。 研究コミュニティは、テキスト正規化(TN)、韻律境界予測(PBP)、ポリフォン曖昧化(PD)など、テキスト音声合成システムにおけるその重要な役割を認識し、フロントエンドコンポーネントの研究への関心が高まっている。 それでも、注釈付きテキストデータ不足による制約や、同質なテキスト信号への依存は、教師付き学習の有効性を著しく損なう。 本稿では,この障害を回避するために,TAP-FMと呼ばれる新しい2段階TTSフロントエンド予測パイプラインを提案する。 具体的には、第1学習フェーズにおいて、マルチスケールコントラストテキストオーディオ事前学習プロトコル(MC-TAP)を提案する。 事前学習アプローチにおける同質な特徴をマイニングする代わりに、我々のフレームワークはグローバル・ローカル・テキスト・オーディオ・セマンティックスと音響表現の両方を深く掘り下げる能力を示している。 さらに、第2段階でそれぞれTN、PD、BP予測タスクを実行するように、並列化されたTSフロントエンドモデルを微妙に設計する。 最後に,提案手法の優位性を実証し,最先端性能を実現する。

Over the past decade, a series of unflagging efforts have been dedicated to developing highly expressive and controllable text-to-speech (TTS) systems. In general, the holistic TTS comprises two interconnected components: the frontend module and the backend module. The frontend excels in capturing linguistic representations from the raw text input, while the backend module converts linguistic cues to speech. The research community has shown growing interest in the study of the frontend component, recognizing its pivotal role in text-to-speech systems, including Text Normalization (TN), Prosody Boundary Prediction (PBP), and Polyphone Disambiguation (PD). Nonetheless, the limitations posed by insufficient annotated textual data and the reliance on homogeneous text signals significantly undermine the effectiveness of its supervised learning. To evade this obstacle, a novel two-stage TTS frontend prediction pipeline, named TAP-FM, is proposed in this paper. Specifically, during the first learning phase, we present a Multi-scale Contrastive Text-audio Pre-training protocol (MC-TAP), which hammers at acquiring richer insights via multi-granularity contrastive pre-training in an unsupervised manner. Instead of mining homogeneous features in prior pre-training approaches, our framework demonstrates the ability to delve deep into both global and local text-audio semantic and acoustic representations. Furthermore, a parallelized TTS frontend model is delicately devised to execute TN, PD, and PBP prediction tasks, respectively in the second stage. Finally, extensive experiments illustrate the superiority of our proposed method, achieving state-of-the-art performance.
翻訳日:2024-04-16 15:07:53 公開日:2024-04-14
# FaceCat: 統一生成モデルフレームワークによる顔認識セキュリティの強化

FaceCat: Enhancing Face Recognition Security with a Unified Generative Model Framework ( http://arxiv.org/abs/2404.09193v1 )

ライセンス: Link先を確認
Jiawei Chen, Xiao Yang, Yinpeng Dong, Hang Su, Jianteng Peng, Zhaoxia Yin, (参考訳) 対面防止(FAS)と対向検出(FAD)は、顔認識システムの安全性を確保するための重要な技術であると考えられている。 実用性や一般化が限られているため、既存の手法では、両方の脅威を同時に検出できるフレームワークを考案し、課題に対処することを目的としている。 それでもこれらの手法は、識別モデル固有の欠点のため、一般化の不十分さと最適下限の堅牢性という課題に直面している。 顔生成モデルの豊富な構造的・詳細な特徴を動機として,顔生成モデルを事前学習モデルとして活用し,FASとFADの性能向上を図るFaceCatを提案する。 具体的には、FaceCatは階層的な融合機構を精巧に設計し、生成モデルの豊かな顔の意味的特徴を捉える。 これらの機能は、FASとFADタスクを同時に実行するように設計された軽量ヘッドの堅牢な基盤として機能する。 単一モダリティデータのみに頼っているため、テキストプロンプトを利用して特徴表現を豊かにし、性能を向上させる新しいテキスト誘導型マルチモーダルアライメント戦略を提案する。 公平な評価のために、我々は28種類の攻撃タイプを幅広く含む包括的プロトコルを構築し、性能をベンチマークする。 大規模な実験により、FaceCatの有効性は大幅に向上し、入力変換に対する優れた堅牢性が得られる。

Face anti-spoofing (FAS) and adversarial detection (FAD) have been regarded as critical technologies to ensure the safety of face recognition systems. As a consequence of their limited practicality and generalization, some existing methods aim to devise a framework capable of concurrently detecting both threats to address the challenge. Nevertheless, these methods still encounter challenges of insufficient generalization and suboptimal robustness, potentially owing to the inherent drawback of discriminative models. Motivated by the rich structural and detailed features of face generative models, we propose FaceCat which utilizes the face generative model as a pre-trained model to improve the performance of FAS and FAD. Specifically, FaceCat elaborately designs a hierarchical fusion mechanism to capture rich face semantic features of the generative model. These features then serve as a robust foundation for a lightweight head, designed to execute FAS and FAD tasks simultaneously. As relying solely on single-modality data often leads to suboptimal performance, we further propose a novel text-guided multi-modal alignment strategy that utilizes text prompts to enrich feature representation, thereby enhancing performance. For fair evaluations, we build a comprehensive protocol with a wide range of 28 attack types to benchmark the performance. Extensive experiments validate the effectiveness of FaceCat generalizes significantly better and obtains excellent robustness against input transformations.
翻訳日:2024-04-16 15:07:53 公開日:2024-04-14
# 次世代電力システムにおける多目的最適潮流の高度知能最適化アルゴリズム

Advanced Intelligent Optimization Algorithms for Multi-Objective Optimal Power Flow in Future Power Systems: A Review ( http://arxiv.org/abs/2404.09203v1 )

ライセンス: Link先を確認
Yuyan Li, (参考訳) 本稿では,多目的最適潮流(MOPF)へのインテリジェント最適化アルゴリズムの適用について検討する。 再生可能エネルギーの統合、スマートグリッド、エネルギー需要の増加による課題を掘り下げ、進化的アルゴリズム、群知性、深層強化学習に重点を置いている。 これらのアルゴリズムの有効性,拡張性,適用性について分析し,アルゴリズム選択が目前にある特定のMOPF問題に即していることを示すとともに,ハイブリッドアプローチが有望であることを示す。 ソリューションを検証するための標準的なテストシステムの重要性と、分析を容易にするためのソフトウェアツールの役割が強調される。 将来の研究は、動的最適化に機械学習を活用すること、分散型エネルギーシステムを採用すること、そして電力システムの効率性と持続可能性を改善するために進化する政策フレームワークに適応することを目的としている。 本論は、最先端の方法論を強調し、将来のエネルギー課題に対する革新的なソリューション開発を促進することで、MOPF研究を進めることを目的としている。

This review explores the application of intelligent optimization algorithms to Multi-Objective Optimal Power Flow (MOPF) in enhancing modern power systems. It delves into the challenges posed by the integration of renewables, smart grids, and increasing energy demands, focusing on evolutionary algorithms, swarm intelligence, and deep reinforcement learning. The effectiveness, scalability, and application of these algorithms are analyzed, with findings suggesting that algorithm selection is contingent on the specific MOPF problem at hand, and hybrid approaches offer significant promise. The importance of standard test systems for verifying solutions and the role of software tools in facilitating analysis are emphasized. Future research is directed towards exploiting machine learning for dynamic optimization, embracing decentralized energy systems, and adapting to evolving policy frameworks to improve power system efficiency and sustainability. This review aims to advance MOPF research by highlighting state-of-the-art methodologies and encouraging the development of innovative solutions for future energy challenges.
翻訳日:2024-04-16 15:07:53 公開日:2024-04-14
# TextHawk: マルチモーダル大言語モデルの効率的な微粒化知覚の探索

TextHawk: Exploring Efficient Fine-Grained Perception of Multimodal Large Language Models ( http://arxiv.org/abs/2404.09204v1 )

ライセンス: Link先を確認
Ya-Qi Yu, Minghui Liao, Jihao Wu, Yongxin Liao, Xiaoyu Zheng, Wei Zeng, (参考訳) MLLM(Multimodal Large Language Models)は、様々なマルチモーダルタスクにおいて印象的な結果を示す。 しかし、既存のMLLMの多くは、微細なイメージ認識と情報圧縮を必要とするドキュメント指向タスクには適していない。 本稿では,文書指向タスクに特化して設計されたMLLMであるTextHawkについて述べる。 TextHawkは、4つの専用のコンポーネントを設計することで、効率的なきめ細かな知覚を探求することを目的としている。 まず、ReSampling and ReArrangement (ReSA)モジュールを提案し、文書テキストの冗長性を低減し、MLLMの計算コストを下げる。 様々な画像サイズのスケーラビリティを維持できるSPE(Scalable Positional Embeddings)を提示することで,各局所特徴の位置を符号化する方法について検討する。 その後、クエリ提案ネットワーク(QPN)が採用され、異なるサブイメージ間でクエリを動的に初期化する。 MLLMのよりきめ細かい視覚知覚能力を高めるため,文書画像の階層構造と意味的関係を捉えるマルチレベル・クロス・アテンション(MLCA)機構を設計した。 さらに,マルチモーダル文書データをGemini Proで強化することにより,文書指向タスクのための新しい命令チューニングデータセットを作成する。 我々は、汎用MLLMベンチマークと文書指向MLLMベンチマークの両方で広範な実験を行い、TextHawkは最先端の手法よりも優れており、文書認識や汎用能力におけるその効果と優位性を実証している。

Multimodal Large Language Models (MLLMs) have shown impressive results on various multimodal tasks. However, most existing MLLMs are not well suited for document-oriented tasks, which require fine-grained image perception and information compression. In this paper, we present TextHawk, a MLLM that is specifically designed for document-oriented tasks, while preserving the general capabilities of MLLMs. TextHawk is aimed to explore efficient fine-grained perception by designing four dedicated components. Firstly, a ReSampling and ReArrangement (ReSA) module is proposed to reduce the redundancy in the document texts and lower the computational cost of the MLLM. We explore encoding the positions of each local feature by presenting Scalable Positional Embeddings (SPEs), which can preserve the scalability of various image sizes. A Query Proposal Network (QPN) is then adopted to initialize the queries dynamically among different sub-images. To further enhance the fine-grained visual perceptual ability of the MLLM, we design a Multi-Level Cross-Attention (MLCA) mechanism that captures the hierarchical structure and semantic relations of document images. Furthermore, we create a new instruction-tuning dataset for document-oriented tasks by enriching the multimodal document data with Gemini Pro. We conduct extensive experiments on both general and document-oriented MLLM benchmarks, and show that TextHawk outperforms the state-of-the-art methods, demonstrating its effectiveness and superiority in fine-grained document perception and general abilities.
翻訳日:2024-04-16 15:07:53 公開日:2024-04-14
# 相対論的量子力学における因果関係の明瞭な違反

Apparent violation of causality in relativistic quantum mechanics ( http://arxiv.org/abs/2404.09205v1 )

ライセンス: Link先を確認
Iwo Bialynicki-Birula, Zofia Bialynicka-Birula, (参考訳) 相対論的理論において、微視的因果性の原理は「情報の移動は光の速度よりも速くは行えない」と述べている。 本研究では,相対論的波動関数の時間発展がこの原理に反することを示す。 ここでは、質量を持たない粒子と質量粒子の波動関数を考える。 無質量粒子の場合、微視的因果性に反する波動関数は解析形式を持ち、大質量粒子の場合は数値計算に頼らなければならない。 どちらの場合も、厳密な局所化が$t=0$である波動関数は、後になって将来の光円錐が消えることはない。 \end{abstract}

In relativistic theories the principle of microscopic causality states that ``information cannot travel faster than the speed of light'' \cite{kaku}. In the present work we show that the time evolution of relativistic wave functions violates this principle. We consider here the wave functions of massless and massive particles. In the case of massless particles the wave functions which violate the microscopic causality have an analytic form while in the case of massive particles we have to rely on numerical calculations. In both cases the wave functions which are strictly localized at $t=0$, at later times do not vanish {\it outside} the future light cone. \end{abstract}
翻訳日:2024-04-16 15:07:53 公開日:2024-04-14
# DKE-Research at SemEval-2024 Task 2: Incorporating Data Augmentation with Generative Models and Biomedical Knowledge to Enhance Inference Robustness

DKE-Research at SemEval-2024 Task 2: Incorporating Data Augmentation with Generative Models and Biomedical Knowledge to Enhance Inference Robustness ( http://arxiv.org/abs/2404.09206v1 )

ライセンス: Link先を確認
Yuqi Wang, Zeqiang Wang, Wei Wang, Qi Chen, Kaizhu Huang, Anh Nguyen, Suparna De, (参考訳) 安全で信頼性の高い自然言語推論は、臨床試験レポートから洞察を抽出するために重要であるが、大規模な事前訓練された言語モデルにおけるバイアスによる課題を提起する。 本稿では,生物医学的自然言語推論のためのモデルロバスト性向上のための新しいデータ拡張手法を提案する。 意味的摂動とドメイン固有の語彙置換によって合成例を生成し,数値的・定量的推論のための新しいタスクを追加することにより,多様性の向上とショートカット学習の削減を実現した。 マルチタスク学習とDeBERTaアーキテクチャを組み合わせることで,従来の言語モデルと比較して,NLI4CT 2024ベンチマークで大幅な性能向上を実現した。 アブレーション研究は、それぞれの強化法の堅牢性向上への貢献を検証する。 当社のベストパフォーマンスモデルは,32名中,信頼度では12位,一貫性では8位にランクインした。

Safe and reliable natural language inference is critical for extracting insights from clinical trial reports but poses challenges due to biases in large pre-trained language models. This paper presents a novel data augmentation technique to improve model robustness for biomedical natural language inference in clinical trials. By generating synthetic examples through semantic perturbations and domain-specific vocabulary replacement and adding a new task for numerical and quantitative reasoning, we introduce greater diversity and reduce shortcut learning. Our approach, combined with multi-task learning and the DeBERTa architecture, achieved significant performance gains on the NLI4CT 2024 benchmark compared to the original language models. Ablation studies validate the contribution of each augmentation method in improving robustness. Our best-performing model ranked 12th in terms of faithfulness and 8th in terms of consistency, respectively, out of the 32 participants.
翻訳日:2024-04-16 15:07:53 公開日:2024-04-14
# DEGNN: エッジとノードの両方のノイズを処理するグラフニューラルネットワーク

DEGNN: Dual Experts Graph Neural Network Handling Both Edge and Node Feature Noise ( http://arxiv.org/abs/2404.09207v1 )

ライセンス: Link先を確認
Tai Hasegawa, Sukwon Yun, Xin Liu, Yin Jun Phua, Tsuyoshi Murata, (参考訳) グラフニューラルネットワーク(GNN)は、グラフデータよりも様々なアプリケーションで顕著な成功を収めている。 しかし、近年の研究では、実世界のグラフにはノイズがしばしば含まれており、GNNはグラフ内のノイズに影響を受けやすいことが示されている。 この問題に対処するため、グラフ構造学習(GSL)モデルがいくつか導入されている。 GSLモデルは、エッジ再構成によるエッジノイズに対する堅牢性を高めるために調整されているが、重要な制限面は、ノードの特徴への高い依存である。 この固有の依存は、ノード機能内のノイズに対する感受性を増幅する。 この脆弱性を認識したDGNNは、エッジとノードの特徴の両方においてノイズを効果的に緩和するように設計された、新しいGNNモデルである。 DEGNNの中核となる考え方は、エッジエキスパートとノード機能エキスパートという、2つの別々の専門家を設計することだ。 これらの専門家は、自己教師付き学習技術を使用して、修正されたエッジとノードの特徴を生成する。 これらの修正された表現を活用することで、DGNNは下流のタスクに対処し、実世界のグラフのエッジとノードの特徴の両方に存在するノイズに対して堅牢性を確保する。 特に、修正プロセスはエンドツーエンドでトレーニングすることができ、DGNNが動的に調整し、特定のタスクに対して最適なエッジとノード表現を実現することができる。 総合的な実験は、DECNNがオリジナルの実世界のグラフと合成ノイズのあるグラフの両方でノイズを管理する効果を実証している。

Graph Neural Networks (GNNs) have achieved notable success in various applications over graph data. However, recent research has revealed that real-world graphs often contain noise, and GNNs are susceptible to noise in the graph. To address this issue, several Graph Structure Learning (GSL) models have been introduced. While GSL models are tailored to enhance robustness against edge noise through edge reconstruction, a significant limitation surfaces: their high reliance on node features. This inherent dependence amplifies their susceptibility to noise within node features. Recognizing this vulnerability, we present DEGNN, a novel GNN model designed to adeptly mitigate noise in both edges and node features. The core idea of DEGNN is to design two separate experts: an edge expert and a node feature expert. These experts utilize self-supervised learning techniques to produce modified edges and node features. Leveraging these modified representations, DEGNN subsequently addresses downstream tasks, ensuring robustness against noise present in both edges and node features of real-world graphs. Notably, the modification process can be trained end-to-end, empowering DEGNN to adjust dynamically and achieves optimal edge and node representations for specific tasks. Comprehensive experiments demonstrate DEGNN's efficacy in managing noise, both in original real-world graphs and in graphs with synthetic noise.
翻訳日:2024-04-16 15:07:53 公開日:2024-04-14
# FedDistill:非IIDフェデレーション学習における局所モデル脱生物のためのグローバルモデル蒸留

FedDistill: Global Model Distillation for Local Model De-Biasing in Non-IID Federated Learning ( http://arxiv.org/abs/2404.09210v1 )

ライセンス: Link先を確認
Changlin Song, Divya Saxena, Jiannong Cao, Yuqing Zhao, (参考訳) フェデレートラーニング(FL)は、分散デバイスでトレーニングされたモデルを活用することで、データのプライバシを保ちながら、コラボレーティブな機械学習を可能にする、新しいアプローチである。 しかし、FLは、一様でない分散データ(非ID)がクライアントに分散しているため、モデルの性能と一般化能力に影響を及ぼすため、課題に直面します。 非イド問題に対処するため、近年の取り組みでは、グローバルモデルをローカルモデルの学習メカニズムとして活用している。 しかし,本実験では,局所モデルに偏りを生じさせる不均衡なデータ分布によって,モデルが時間とともに劣化を一般化する「局所的忘れ」現象が生じることが示唆された。 本稿では,グローバルモデルからローカルモデルへの知識伝達を促進するフレームワークであるFedDistillを紹介する。 具体的には、FedDistillはグループ蒸留を採用し、局所的なデータセットの頻度に基づいてクラスを分割し、より少ないサンプルを持つクラスに集中的な蒸留プロセスを促進する。 さらに、FedDistillはグローバルモデルを特徴抽出器と分類器に分解する。 この分離により、より一般化されたデータ表現能力を持つローカルモデルが強化され、すべてのクラスにまたがるより正確な分類が保証される。 FedDistillはデータ不均衡の悪影響を緩和し、ローカルモデルが表現不足のクラスを忘れずに、そのクラスを正確に認識し分類する能力を高める。 我々はFedDistillの有効性を実証し、いくつかのベンチマークデータセットで既存のベースラインを超える精度と収束速度を示した。

Federated Learning (FL) is a novel approach that allows for collaborative machine learning while preserving data privacy by leveraging models trained on decentralized devices. However, FL faces challenges due to non-uniformly distributed (non-iid) data across clients, which impacts model performance and its generalization capabilities. To tackle the non-iid issue, recent efforts have utilized the global model as a teaching mechanism for local models. However, our pilot study shows that their effectiveness is constrained by imbalanced data distribution, which induces biases in local models and leads to a 'local forgetting' phenomenon, where the ability of models to generalize degrades over time, particularly for underrepresented classes. This paper introduces FedDistill, a framework enhancing the knowledge transfer from the global model to local models, focusing on the issue of imbalanced class distribution. Specifically, FedDistill employs group distillation, segmenting classes based on their frequency in local datasets to facilitate a focused distillation process to classes with fewer samples. Additionally, FedDistill dissects the global model into a feature extractor and a classifier. This separation empowers local models with more generalized data representation capabilities and ensures more accurate classification across all classes. FedDistill mitigates the adverse effects of data imbalance, ensuring that local models do not forget underrepresented classes but instead become more adept at recognizing and classifying them accurately. Our comprehensive experiments demonstrate FedDistill's effectiveness, surpassing existing baselines in accuracy and convergence speed across several benchmark datasets.
翻訳日:2024-04-16 14:58:08 公開日:2024-04-14
# 量子ビットゆらぎの物理インフォームドトラッキング

Physics-informed tracking of qubit fluctuations ( http://arxiv.org/abs/2404.09212v1 )

ライセンス: Link先を確認
Fabrizio Berritta, Jan A. Krzywda, Jacob Benestad, Joost van der Heijden, Federico Fedele, Saeed Fallahi, Geoffrey C. Gardner, Michael J. Manfra, Evert van Nieuwenburg, Jeroen Danon, Anasua Chatterjee, Ferdinand Kuemmeth, (参考訳) 環境変動は固体量子ビットの性能を低下させるが、原理的には推定効率によって設定された時間スケールまでリアルタイムハミルトン推定によって緩和することができる。 物理インフォームドおよび適応ベイズ推定戦略を実装し,それを半導体スピン量子ビットにリアルタイムで適用する。 物理インフォームド戦略は、ガリウム-ヒ素中の核スピン拡散の影響を説明するのに適した、フォッカー・プランク方程式に従って量子コントローラ内の確率分布を伝播させる。 所定のキュービットプローブシーケンスによる予測分布の評価と絞りにより、シングルトリップキュービット内の非制御磁場勾配の動的追跡を改善することができる。 適応戦略は、プローブシーケンスを少数のキュービットプローブサイクルに置き換え、前の測定結果に基づいて各プローブ時間を設定することにより、推定効率をさらに高める。 組み合わせたリアルタイム推定戦略は、固体量子ビット内の低周波核スピン変動を効率的に追跡し、適切な更新方程式を調整して異なるノイズ源を捕捉することにより、他の量子ビットプラットフォームに適用することができる。

Environmental fluctuations degrade the performance of solid-state qubits but can in principle be mitigated by real-time Hamiltonian estimation down to time scales set by the estimation efficiency. We implement a physics-informed and an adaptive Bayesian estimation strategy and apply them in real time to a semiconductor spin qubit. The physics-informed strategy propagates a probability distribution inside the quantum controller according to the Fokker-Planck equation, appropriate for describing the effects of nuclear spin diffusion in gallium-arsenide. Evaluating and narrowing the anticipated distribution by a predetermined qubit probe sequence enables improved dynamical tracking of the uncontrolled magnetic field gradient within the singlet-triplet qubit. The adaptive strategy replaces the probe sequence by a small number of qubit probe cycles, with each probe time conditioned on the previous measurement outcomes, thereby further increasing the estimation efficiency. The combined real-time estimation strategy efficiently tracks low-frequency nuclear spin fluctuations in solid-state qubits, and can be applied to other qubit platforms by tailoring the appropriate update equation to capture their distinct noise sources.
翻訳日:2024-04-16 14:58:08 公開日:2024-04-14
# Qandle: ゲートマトリックスキャッシングと回路分割を用いた高速化状態ベクトルシミュレーション

Qandle: Accelerating State Vector Simulation Using Gate-Matrix Caching and Circuit Splitting ( http://arxiv.org/abs/2404.09213v1 )

ライセンス: Link先を確認
Gerhard Stenzel, Sebastian Zielinski, Michael Kölle, Philipp Altmann, Jonas Nüßlein, Thomas Gabor, (参考訳) 量子回路の状態ベクトルシミュレーションに関連する計算複雑性に対処するために,回路実行を高速化する高度な手法の組み合わせを提案する。 量子ゲート行列キャッシングは、各ゲートに分解された部分行列を格納することにより、状態ベクトルにゲート行列を適用する際に、クロネッカー積の繰り返し適用のオーバーヘッドを低減する。 回路分割は、依存グラフを構築することで回路をより少ないゲートでサブ回路に分割し、状態ベクトルの非結合部分集合上で並列またはシーケンシャルな実行を可能にする。 これらのテクニックは、PyTorchの機械学習フレームワークを使って実装されている。 我々は、他のPyTorch互換量子状態ベクトルシミュレータと比較することにより、我々のアプローチの性能を実証する。 我々の実装であるQandleは、既存の機械学習ワークフローとシームレスに統合し、ユーザフレンドリなAPIとOpenQASMフォーマットとの互換性を提供するように設計されています。 QandleはGitHub https://github.com/gstenzel/qandleとPyPI https://pypi.org/project/qandle/でホストされているオープンソースプロジェクトである。

To address the computational complexity associated with state-vector simulation for quantum circuits, we propose a combination of advanced techniques to accelerate circuit execution. Quantum gate matrix caching reduces the overhead of repeated applications of the Kronecker product when applying a gate matrix to the state vector by storing decomposed partial matrices for each gate. Circuit splitting divides the circuit into sub-circuits with fewer gates by constructing a dependency graph, enabling parallel or sequential execution on disjoint subsets of the state vector. These techniques are implemented using the PyTorch machine learning framework. We demonstrate the performance of our approach by comparing it to other PyTorch-compatible quantum state-vector simulators. Our implementation, named Qandle, is designed to seamlessly integrate with existing machine learning workflows, providing a user-friendly API and compatibility with the OpenQASM format. Qandle is an open-source project hosted on GitHub https://github.com/gstenzel/qandle and PyPI https://pypi.org/project/qandle/ .
翻訳日:2024-04-16 14:58:08 公開日:2024-04-14
# PrintListener:指摩擦音による指紋認証の脆弱性発見

PrintListener: Uncovering the Vulnerability of Fingerprint Authentication via the Finger Friction Sound ( http://arxiv.org/abs/2404.09214v1 )

ライセンス: Link先を確認
Man Zhou, Shuao Su, Qian Wang, Qi Li, Yuting Zhou, Xiaojing Ma, Zhengxiong Li, (参考訳) 指紋認証は、その迅速さとコスト効率のために、現代の識別認証システムに広く採用されている。 広く使われているため、指紋の漏洩は機密情報盗難、莫大な経済的・人的損失、さらには国家安全保障の妥協につながる可能性がある。 MasterPrintは指紋認証のセキュリティのためにアラームベルを鳴らします。 本稿では,指紋パターンの特徴(第1レベルの特徴)を抽出するために,画面上の指先スワイプ動作を利用するPrintListenerという,ミツイアベースの自動指紋識別システム(AFIS)に対する新たなサイドチャネル攻撃を提案する。 PrintListenerの攻撃シナリオは広く、隠蔽されている。 ユーザーの指先摩擦音を録音するだけで、多数のソーシャルメディアプラットフォームを活用することで起動できます。 実世界のシナリオにおける大規模な実験結果から、PrindlistenerはMasterPrintの攻撃能力を大幅に改善できることが示された。

Fingerprint authentication has been extensively employed in contemporary identity verification systems owing to its rapidity and cost-effectiveness. Due to its widespread use, fingerprint leakage may cause sensitive information theft, enormous economic and personnel losses, and even a potential compromise of national security. As a fingerprint that can coincidentally match a specific proportion of the overall fingerprint population, MasterPrint rings the alarm bells for the security of fingerprint authentication. In this paper, we propose a new side-channel attack on the minutiae-based Automatic Fingerprint Identification System (AFIS), called PrintListener, which leverages users' fingertip swiping actions on the screen to extract fingerprint pattern features (the first-level features) and synthesizes a stronger targeted PatternMasterPrint with potential second-level features. The attack scenario of PrintListener is extensive and covert. It only needs to record users' fingertip friction sound and can be launched by leveraging a large number of social media platforms. Extensive experimental results in realworld scenarios show that Printlistener can significantly improve the attack potency of MasterPrint.
翻訳日:2024-04-16 14:58:08 公開日:2024-04-14
# DetCLIPv3:Versatile Generative Open-vocabulary Object Detectionを目指して

DetCLIPv3: Towards Versatile Generative Open-vocabulary Object Detection ( http://arxiv.org/abs/2404.09216v1 )

ライセンス: Link先を確認
Lewei Yao, Renjie Pi, Jianhua Han, Xiaodan Liang, Hang Xu, Wei Zhang, Zhenguo Li, Dan Xu, (参考訳) 既存のオープンボキャブラリオブジェクト検出器は、通常、ユーザから事前に定義されたカテゴリのセットを必要とし、アプリケーションのシナリオを著しく詰め込む。 本稿では,オープンボキャブラリオブジェクト検出だけでなく,検出対象の階層ラベルを生成する,高性能な検出器であるDetCLIPv3を紹介する。 DetCLIPv3は3つのコア設計によって特徴づけられる。 1. ヴァーサタイルモデルアーキテクチャ: キャプションヘッドの統合により生成能力を向上する堅牢なオープンセット検出フレームワークを導出する。 2. 高情報密度データ: 視覚的大言語モデルを利用して大規模画像テキストペアのキャプションを洗練させる自動アノテーションパイプラインを開発する。 3. 効率的なトレーニング戦略: オブジェクトキャプタが広い画像とテキストのペアデータから視覚概念の広い範囲を効率的に学習できるような,低解像度のインプットを備えた事前学習段階を採用する。 その後、少数の高分解能サンプルを活用して検出性能をさらに向上する微調整ステージが続く。 これらの効果的な設計により、DETCLIPv3はより優れたオープン語彙検出性能を示し、我々のSwin-Tバックボーンモデルは、LVISのミニバルベンチマークで47.0のゼロショット固定APを達成し、それぞれGLIPv2、GroundingDINO、DetCLIPv2を18.0/19.6/6 APで上回った。 DetCLIPv3はまた、VGデータセット上の高密度キャプションタスクにおける最先端の19.7 APも達成し、その強力な生成能力を示している。

Existing open-vocabulary object detectors typically require a predefined set of categories from users, significantly confining their application scenarios. In this paper, we introduce DetCLIPv3, a high-performing detector that excels not only at both open-vocabulary object detection, but also generating hierarchical labels for detected objects. DetCLIPv3 is characterized by three core designs: 1. Versatile model architecture: we derive a robust open-set detection framework which is further empowered with generation ability via the integration of a caption head. 2. High information density data: we develop an auto-annotation pipeline leveraging visual large language model to refine captions for large-scale image-text pairs, providing rich, multi-granular object labels to enhance the training. 3. Efficient training strategy: we employ a pre-training stage with low-resolution inputs that enables the object captioner to efficiently learn a broad spectrum of visual concepts from extensive image-text paired data. This is followed by a fine-tuning stage that leverages a small number of high-resolution samples to further enhance detection performance. With these effective designs, DetCLIPv3 demonstrates superior open-vocabulary detection performance, \eg, our Swin-T backbone model achieves a notable 47.0 zero-shot fixed AP on the LVIS minival benchmark, outperforming GLIPv2, GroundingDINO, and DetCLIPv2 by 18.0/19.6/6.6 AP, respectively. DetCLIPv3 also achieves a state-of-the-art 19.7 AP in dense captioning task on VG dataset, showcasing its strong generative capability.
翻訳日:2024-04-16 14:58:08 公開日:2024-04-14
# コンパス:東南アジアにおける大規模多言語言語モデル

Compass: Large Multilingual Language Model for South-east Asia ( http://arxiv.org/abs/2404.09220v1 )

ライセンス: Link先を確認
Sophia Maria, (参考訳) 大規模な言語モデルは、英語や中国語などの広範な言語資源が与えられた言語において、非常に熟練している。 それにもかかわらず、インドネシア語のような東南アジアの言語環境の中で、限られた言語資源によって特徴づけられる言語に適用された場合、その効果は顕著に減少する。 これらの言語に対する言語資源の不足は、不十分な訓練、制限された語彙カバレッジ、そして挑戦的な評価プロセスに関連する課題を提示する。 そこで我々は,東南アジア言語に特化した多言語モデルであるCompassLLMを紹介した。 我々の方法論はいくつかの重要な戦略を含んでいる。 多言語習熟度を徐々に向上させるため,カリキュラム学習と統合された多段階事前学習戦略を導入し,低リソース言語への焦点を徐々に強化した。 同時に、低リソースな人的命令をよりよく適応するために、我々は高品質な多言語人的命令のリポジトリを作成し、教師あり命令の微調整によってCompassLLM-SFTモデルを完成させた。 最後に、モデルと人間の嗜好行動との整合性を強化するために、コンパスLLM-DPOモデルを得るための直接選好最適化(DPO)の原則を取り入れた。 CompassLLMモデルの予備的な評価は,Vicuna-7b-v1.5, Sealion, Falcon, SeaLLMといったベンチマークモデルを超える有望な結果をもたらす。 特にインドネシア語などの東南アジアの言語では,本モデルの方が優れた性能を示す。

Large language models have exhibited significant proficiency in languages endowed with extensive linguistic resources, such as English and Chinese. Nevertheless, their effectiveness notably diminishes when applied to languages characterized by limited linguistic resources, particularly within the Southeast Asian linguistic landscape, such as Indonesian. The scarcity of linguistic resources for these languages presents challenges associated with inadequate training, restricted vocabulary coverage, and challenging evaluation processes. In response to these exigencies, we have introduced CompassLLM, a large multilingual model specifically tailored for Southeast Asian languages, with the primary aim of supporting the developmental requirements of Shopee. Our methodology encompasses several key strategies. To progressively enhance multilingual proficiencies, we implemented a multi-stage pre-training strategy integrated with curriculum learning, gradually intensifying the focus on low-resource languages. Concurrently, to better accommodate low-resource human instructions, we curated and generated a repository of high-quality multilingual human instructions, culminating the CompassLLM-SFT model through supervised instruction fine-tuning. Finally, to reinforce the model's alignment with human preference behaviors, we have embraced the principle of Direct Preference Optimization (DPO) to obtain CompassLLM-DPO model. Preliminary evaluation of the CompassLLM model yields promising results, with our model surpassing benchmark models like Vicuna-7b-v1.5, Sealion, Falcon and SeaLLM, across diverse evaluation tasks, as verified through both automated and human-driven assessments. Notably, our model exhibits its superior performance in South-east Asia languages, such as Indonesian language.
翻訳日:2024-04-16 14:58:08 公開日:2024-04-14
# 高速推論に向けて - ブロックワイズ並列ドラフトの探索と改善

Towards Fast Inference: Exploring and Improving Blockwise Parallel Drafts ( http://arxiv.org/abs/2404.09221v1 )

ライセンス: Link先を確認
Taehyeon Kim, Ananda Theertha Suresh, Kishore Papineni, Michael Riley, Sanjiv Kumar, Adrian Benton, (参考訳) 自己回帰言語モデルによる顕著な進歩にもかかわらず、そのポテンシャルはシーケンシャルトークン生成に固有の遅い推論速度によって妨げられることが多い。 言語モデルの推論速度を改善する手段として、Stern et al (2018) によってブロックワイド並列復号法 (BPD) が提案された。 本稿では,BPDドラフトの理解と改善に2つの貢献をする。 まず,BPD予測ヘッドが生成するトークン分布の解析を行う。 第二に、この分析を用いて、小さなn-gramまたはニューラル言語モデルを用いてBPDドラフトを精製することにより、BPD推論速度を改善するアルゴリズムを通知する。 これらの改良されたBPDドラフトは,タスク全体にわたって平均的なプレフィックス長が得られたことを実証的に示す。

Despite the remarkable strides made by autoregressive language models, their potential is often hampered by the slow inference speeds inherent in sequential token generation. Blockwise parallel decoding (BPD) was proposed by Stern et al. (2018) as a way to improve inference speed of language models. In this paper, we make two contributions to understanding and improving BPD drafts. We first offer an analysis of the token distributions produced by the BPD prediction heads. Secondly, we use this analysis to inform algorithms to improve BPD inference speed by refining the BPD drafts using small n-gram or neural language models. We empirically show that these refined BPD drafts yield a higher average verified prefix length across tasks.
翻訳日:2024-04-16 14:58:08 公開日:2024-04-14
# OSS神話とファクト

OSS Myths and Facts ( http://arxiv.org/abs/2404.09223v1 )

ライセンス: Link先を確認
Yukako Iimura, Masanari Kondo, Kazushi Tomoto, Yasutaka Kamei, Naoyasu Ubayashi, Shinobu Saito, (参考訳) 我々はOSSコミュニティに関する6つの神話を選択し、それが真実かどうかを検証した。 本報告の目的は、OSSコミュニティの開発スタイルから学ぶことができる教訓と、企業や組織におけるソフトウェア開発におけるより良い雇用経験(EX)を達成するために必要な課題を特定することである。 OSSコミュニティはハッカーとして知られる熟練した開発者のグループによって率いられている。 私たちはOSSコミュニティのエンジニアや活動に対して非常に尊敬しており、彼らから学ぼうとしています。 一方,期待度が高いと誤解を招くことがあることは認識することが重要である。 過度の期待や懸念がある場合、特に実践者でない個人が実践者の実践を理解するために聞き取りに頼る場合、誤解(神話と呼ばれる)が発生することがある。 文献のレビューとインタビューに基づいて、テスト対象の神話を選択しました。 これらの神話は、OSSコミュニティに直接参加していないソフトウェア開発マネージャや顧客によって保持されます。 私たちはそれぞれの神話に関する質問に答えた。 1)リポジトリデータの独自の分析。 2 前研究によるデータ分析の文献調査又は 3)2つのアプローチの組み合わせ。

We have selected six myths about the OSS community and have tested whether they are true or not. The purpose of this report is to identify the lessons that can be learned from the development style of the OSS community and the issues that need to be addressed in order to achieve better Employee Experience (EX) in software development within companies and organizations. The OSS community has been led by a group of skilled developers known as hackers. We have great respect for the engineers and activities of the OSS community and aim to learn from them. On the other hand, it is important to recognize that having high expectations can sometimes result in misunderstandings. When there are excessive expectations and concerns, misunderstandings (referred to as myths) can arise, particularly when individuals who are not practitioners rely on hearsay to understand the practices of practitioners. We selected the myths to be tested based on a literature review and interviews. These myths are held by software development managers and customers who are not direct participants in the OSS community. We answered questions about each myth through: 1) Our own analysis of repository data, 2) A literature survey of data analysis conducted by previous studies, or 3) A combination of the two approaches.
翻訳日:2024-04-16 14:58:08 公開日:2024-04-14
# ディープトランスファー学習に基づく乳癌画像の分類法

Breast Cancer Image Classification Method Based on Deep Transfer Learning ( http://arxiv.org/abs/2404.09226v1 )

ライセンス: Link先を確認
Weimin Wang, Min Gao, Mingxuan Xiao, Xu Yan, Yufeng Li, (参考訳) 乳がん病理画像の検出・分類において, 限られたサンプル, 時間的特徴設計, 精度の低い課題に対処するために, 深層学習と転写学習を組み合わせた乳癌画像分類モデルを提案する。 このアルゴリズムはディープニューラルネットワークのDenseNet構造に基づいており、注意機構を導入してネットワークモデルを構築し、マルチレベル転送学習を用いて拡張データセットを訓練する。 実験結果から, テストセットの84.0\%以上を効率よく達成し, 従来のモデルと比較して分類精度が大幅に向上し, 医療乳がん検出タスクにも適用可能であることが示された。

To address the issues of limited samples, time-consuming feature design, and low accuracy in detection and classification of breast cancer pathological images, a breast cancer image classification model algorithm combining deep learning and transfer learning is proposed. This algorithm is based on the DenseNet structure of deep neural networks, and constructs a network model by introducing attention mechanisms, and trains the enhanced dataset using multi-level transfer learning. Experimental results demonstrate that the algorithm achieves an efficiency of over 84.0\% in the test set, with a significantly improved classification accuracy compared to previous models, making it applicable to medical breast cancer detection tasks.
翻訳日:2024-04-16 14:58:08 公開日:2024-04-14
# DreamScape: Gaussian Splatting joint correlation Modeling による3次元シーン作成

DreamScape: 3D Scene Creation via Gaussian Splatting joint Correlation Modeling ( http://arxiv.org/abs/2404.09227v1 )

ライセンス: Link先を確認
Xuening Yuan, Hongyu Yang, Yueming Zhao, Di Huang, (参考訳) テキスト・ツー・3D生成の最近の進歩は、テキスト・ツー・イメージ生成から拡散モデルの強大な先行を3Dドメインに統合することで促進されている。 それでも、複数のインスタンスと複雑なアレンジメントを特徴とする3Dシーンの生成は難しいままである。 本研究では,Gussian Splattingの強力な3D表現能力と大規模言語モデル(LLM)の複雑な配置能力を活用することで,テキスト記述のみから高度に一貫した3Dシーンを作成する方法であるDreamScapeを提案する。 提案手法では,3次元ガウスガイド(3{DG^2}$)をシーン表現に適用し,意味的プリミティブ(オブジェクト)とその空間的変換とLLMを用いたテキストプロンプトから直接引き起こされる関係性について検討する。 この構成表現は、シーン全体の局所的-言語的最適化を可能にする。 プログレッシブスケール制御は、局所オブジェクト生成中に調整され、異なるサイズと密度のオブジェクトがシーンに適応することを保証する。 LLM先行の潜在的なバイアスを軽減するため、我々は世界レベルでのオブジェクト間の衝突関係をモデル化し、物理的正しさと全体的なリアリズムを高める。 また, 降雪や降雪などの広範囲に分布する広汎な物体を生成するために, 疎初期化と密度化の戦略を導入する。 実験により、DreamScapeは高いユーザビリティと制御性を提供し、テキストプロンプトのみから高忠実な3Dシーンを生成し、他の方法と比較して最先端のパフォーマンスを達成することができることを示した。

Recent progress in text-to-3D creation has been propelled by integrating the potent prior of Diffusion Models from text-to-image generation into the 3D domain. Nevertheless, generating 3D scenes characterized by multiple instances and intricate arrangements remains challenging. In this study, we present DreamScape, a method for creating highly consistent 3D scenes solely from textual descriptions, leveraging the strong 3D representation capabilities of Gaussian Splatting and the complex arrangement abilities of large language models (LLMs). Our approach involves a 3D Gaussian Guide ($3{DG^2}$) for scene representation, consisting of semantic primitives (objects) and their spatial transformations and relationships derived directly from text prompts using LLMs. This compositional representation allows for local-to-global optimization of the entire scene. A progressive scale control is tailored during local object generation, ensuring that objects of different sizes and densities adapt to the scene, which addresses training instability issue arising from simple blending in the subsequent global optimization stage. To mitigate potential biases of LLM priors, we model collision relationships between objects at the global level, enhancing physical correctness and overall realism. Additionally, to generate pervasive objects like rain and snow distributed extensively across the scene, we introduce a sparse initialization and densification strategy. Experiments demonstrate that DreamScape offers high usability and controllability, enabling the generation of high-fidelity 3D scenes from only text prompts and achieving state-of-the-art performance compared to other methods.
翻訳日:2024-04-16 14:58:08 公開日:2024-04-14
# 手術室におけるシーングラフ生成のためのテンポラルダイナミックスとのトリモーダル・コンフルエンス

Tri-modal Confluence with Temporal Dynamics for Scene Graph Generation in Operating Rooms ( http://arxiv.org/abs/2404.09231v1 )

ライセンス: Link先を確認
Diandian Guo, Manxi Lin, Jialun Pei, He Tang, Yueming Jin, Pheng-Ann Heng, (参考訳) 手術シーンの総合的な理解は、手術過程の監視を可能にし、事故の発生を減らし、医療専門家の効率を向上する。 手術室におけるシーングラフ生成(SGG)タスクとしてのセマンティックモデリングは,長期にわたり微妙な手術行為を連続的に認識するので困難である。 この課題に対処するために、TriTemp-ORと呼ばれる時間動的フレームワークとTri-modal(画像、点雲、言語)の結合を提案する。 メモリグラフを介して時間情報を統合する従来のアプローチから切り離して、我々の手法は2つの利点を受け入れている。 1) 階層的特徴相互作用のためのビデオストリーミングからのバイモーダル時間情報を直接活用する。 2)Large Language Models (LLMs) からの事前の知識を組み込むことにより,オペレーティング・シアターにおけるクラス不均衡問題を緩和する。 具体的には,2次元フレームと3次元点雲間の時間的相互作用を,スケール適応型多視点時間的相互作用 (ViewTemp) と幾何時間的点集合 (PointTemp) を含む。 さらに,バイオメディカルLLM (LLaVA-Med) から知識を伝達し,術中関係の理解を深める。 提案したTriTemp-ORは,関係認識統合による三モーダル特徴の集約を可能にし,シーングラフを生成するために関係を予測する。 4D-ORベンチマークの実験結果から,長期ORストリーミングにおけるモデルの性能が向上したことが示された。

A comprehensive understanding of surgical scenes allows for monitoring of the surgical process, reducing the occurrence of accidents and enhancing efficiency for medical professionals. Semantic modeling within operating rooms, as a scene graph generation (SGG) task, is challenging since it involves consecutive recognition of subtle surgical actions over prolonged periods. To address this challenge, we propose a Tri-modal (i.e., images, point clouds, and language) confluence with Temporal dynamics framework, termed TriTemp-OR. Diverging from previous approaches that integrated temporal information via memory graphs, our method embraces two advantages: 1) we directly exploit bi-modal temporal information from the video streaming for hierarchical feature interaction, and 2) the prior knowledge from Large Language Models (LLMs) is embedded to alleviate the class-imbalance problem in the operating theatre. Specifically, our model performs temporal interactions across 2D frames and 3D point clouds, including a scale-adaptive multi-view temporal interaction (ViewTemp) and a geometric-temporal point aggregation (PointTemp). Furthermore, we transfer knowledge from the biomedical LLM, LLaVA-Med, to deepen the comprehension of intraoperative relations. The proposed TriTemp-OR enables the aggregation of tri-modal features through relation-aware unification to predict relations so as to generate scene graphs. Experimental results on the 4D-OR benchmark demonstrate the superior performance of our model for long-term OR streaming.
翻訳日:2024-04-16 14:58:08 公開日:2024-04-14
# MAP:不完全クラスによるフェデレーション学習におけるモデル集約とパーソナライゼーション

MAP: Model Aggregation and Personalization in Federated Learning with Incomplete Classes ( http://arxiv.org/abs/2404.09232v1 )

ライセンス: Link先を確認
Xin-Chun Li, Shaoming Song, Yinchuan Li, Bingshuai Li, Yunfeng Shao, Yang Yang, De-Chuan Zhan, (参考訳) 一部の実世界のアプリケーションでは、データサンプルは通常、ローカルデバイスに分散され、ユーザのプライベートデータを直接共有することなく、分散学習(FL)技術が分散クライアントのコーディネートとして提案される。 FLは一般にパラメータサーバアーキテクチャに従っており、複数のパーソナライズと集約手順を含んでいる。 非I.I.D.データのようなクライアント間の自然データの不均一性は、FLにおける集約とパーソナライゼーションの目標の両方に挑戦する。 本稿では,クライアントが不完全なクラスを所有している,すなわち各クライアントがクラス全体の部分集合にしかアクセスできない,特別なタイプの非I.I.D.シーンに焦点を当てる。 サーバは、すべてのクラスに一般化可能な完全な分類モデルを集約することを目的としており、クライアントは、観察されたクラスを区別するパフォーマンスを改善する傾向にある。 モデルアグリゲーションを改善するために、標準ソフトマックスは欠落クラスに起因するいくつかの問題に遭遇し、代替として「制限ソフトマックス」を提案することを指摘した。 モデルパーソナライゼーションを改善するために、ハードウォンパーソナライズされたモデルはあまり活用されていないことを指摘し、パーソナライゼーション体験を保存するために「継承されたプライベートモデル」を提案する。 提案するMAPアルゴリズムは,FLにおけるアグリゲーションとパーソナライゼーションの目標を同時に達成できる。 我々のアルゴリズムの優位性を検証する実験結果が得られている。

In some real-world applications, data samples are usually distributed on local devices, where federated learning (FL) techniques are proposed to coordinate decentralized clients without directly sharing users' private data. FL commonly follows the parameter server architecture and contains multiple personalization and aggregation procedures. The natural data heterogeneity across clients, i.e., Non-I.I.D. data, challenges both the aggregation and personalization goals in FL. In this paper, we focus on a special kind of Non-I.I.D. scene where clients own incomplete classes, i.e., each client can only access a partial set of the whole class set. The server aims to aggregate a complete classification model that could generalize to all classes, while the clients are inclined to improve the performance of distinguishing their observed classes. For better model aggregation, we point out that the standard softmax will encounter several problems caused by missing classes and propose "restricted softmax" as an alternative. For better model personalization, we point out that the hard-won personalized models are not well exploited and propose "inherited private model" to store the personalization experience. Our proposed algorithm named MAP could simultaneously achieve the aggregation and personalization goals in FL. Abundant experimental studies verify the superiorities of our algorithm.
翻訳日:2024-04-16 14:58:08 公開日:2024-04-14
# 拡散モデルを用いた移動体ネットワークの故障検出

Fault Detection in Mobile Networks Using Diffusion Models ( http://arxiv.org/abs/2404.09240v1 )

ライセンス: Link先を確認
Mohamad Nabeel, Doumitrou Daniil Nimara, Tahar Zanouda, (参考訳) 今日のハイパーコネクションの世界では、通信ネットワークの信頼性がますます重要になっている。 テレコムネットワークは、多くの基盤となるソフトウェアとハードウェアコンポーネントを含んでおり、それぞれ異なる機能を提供している。 テレコムネットワークの安定性を確保するため、テレコムソフトウェアおよびハードウェアベンダーは、テレコムネットワークの異常な振る舞いを検出し、即時フィードバックと警告を可能にするいくつかの方法を開発した。 これらのアプローチは強力ではあるが、ソフトウェア集約型組み込みシステムの不安定な性質とマルチスタンダードモバイルネットワークの複雑さと多様性のために一般化に苦慮している。 本稿では,生成型AIモデルを用いて通信網の異常を検出するシステムを提案する。 拡散モデルを用いて,多変量時系列データを用いた異常検出モデルの訓練を行う。 本論文の貢献は3つある。 一 通信網における時系列異常検出のための拡散モデルを利用したフレームワークの提案 (II)他の最先端技術より優れた特定の拡散モデルアーキテクチャの提案 三 実世界のデータセットを用いた実験により、我々のモデルが効果的に説明可能な結果を提供し、その限界のいくつかを露呈し、さらなる能力向上に向けた今後の研究の道のりを示唆する。

In today's hyper-connected world, ensuring the reliability of telecom networks becomes increasingly crucial. Telecom networks encompass numerous underlying and intertwined software and hardware components, each providing different functionalities. To ensure the stability of telecom networks, telecom software, and hardware vendors developed several methods to detect any aberrant behavior in telecom networks and enable instant feedback and alerts. These approaches, although powerful, struggle to generalize due to the unsteady nature of the software-intensive embedded system and the complexity and diversity of multi-standard mobile networks. In this paper, we present a system to detect anomalies in telecom networks using a generative AI model. We evaluate several strategies using diffusion models to train the model for anomaly detection using multivariate time-series data. The contributions of this paper are threefold: (i) A proposal of a framework for utilizing diffusion models for time-series anomaly detection in telecom networks, (ii) A proposal of a particular Diffusion model architecture that outperforms other state-of-the-art techniques, (iii) Experiments on a real-world dataset to demonstrate that our model effectively provides explainable results, exposing some of its limitations and suggesting future research avenues to enhance its capabilities further.
翻訳日:2024-04-16 14:58:08 公開日:2024-04-14
# 手作り等価変異体の実証評価

An Empirical Evaluation of Manually Created Equivalent Mutants ( http://arxiv.org/abs/2404.09241v1 )

ライセンス: Link先を確認
Philipp Straubinger, Alexander Degenhart, Gordon Fraser, (参考訳) 突然変異テストは、ソースコード中の人工的にシードされた欠陥を検出するのにテストスイートがいかに効果的かを評価し、テストスイートの改善を導くことで構成される。 突然変異検査ツールは実際はますます採用されているが、等価な突然変異体、すなわち構文だけが異なるが意味論ではない変異体は、このプロセスを妨げている。 以前の研究では、突然変異検査ツールによって同等の変異がどれだけ頻繁に生産されるか、これらの等価変異体を検出する既存の方法がどれほど有効かが研究されていたが、人間が同等の変異体をどの程度生成するか、そしてそれらの同定にどの程度の効果があるかは、まだ不明である。 そこで我々は,これらの質問を,突然変異テストゲームであるCode Defendersの文脈で研究する。 手動検査と自動識別手法を用いることで、手動で作成したミュータントのうち10%未満が等価であることが確かめられる。 驚くべきことに、我々の研究結果は、開発者が同等の変異体を正確に識別するのに苦労していることを示し、検出機構の改善と突然変異検査の開発者トレーニングの必要性を強調している。

Mutation testing consists of evaluating how effective test suites are at detecting artificially seeded defects in the source code, and guiding the improvement of the test suites. Although mutation testing tools are increasingly adopted in practice, equivalent mutants, i.e., mutants that differ only in syntax but not semantics, hamper this process. While prior research investigated how frequently equivalent mutants are produced by mutation testing tools and how effective existing methods of detecting these equivalent mutants are, it remains unclear to what degree humans also create equivalent mutants, and how well they perform at identifying these. We therefore study these questions in the context of Code Defenders, a mutation testing game, in which players competitively produce mutants and tests. Using manual inspection as well as automated identification methods we establish that less than 10 % of manually created mutants are equivalent. Surprisingly, our findings indicate that a significant portion of developers struggle to accurately identify equivalent mutants, emphasizing the need for improved detection mechanisms and developer training in mutation testing.
翻訳日:2024-04-16 14:58:08 公開日:2024-04-14
# LSROM: 高速不均衡ストリーミングデータクラスタリングのための自己組織化マップ学習

LSROM: Learning Self-Refined Organizing Map for Fast Imbalanced Streaming Data Clustering ( http://arxiv.org/abs/2404.09243v1 )

ライセンス: Link先を確認
Yongqi Xu, Yujian Lee, Rong Zou, Yiqun Zhang, Yiu-Ming Cheung, (参考訳) データクラスタリングは、データマイニングと機械学習の分野で人気のある研究トピックである。 静的データと比較すると、通常データチャンクで分析されるストリーミングデータは、動的クラスタの不均衡問題に遭遇する可能性が高い。 すなわち、クラスタの不均衡度は、異なるストリーミングデータチャンクによって異なり、既存のクラスタリング手法に基づいたストリーミングデータ解析の正確さと効率のどちらかが劣化する。 そこで我々は,不均衡なストリーミングデータクラスタリング問題に対処するため,LSROM(Learning Self-Refined Organizing Map)と呼ばれる効率的な手法を提案する。 構築されたSOMは、データセットの分割を誘導して多数のマイクロクラスタを形成し、不均衡なデータの小さなクラスタの欠落を避けるために、最初に洗練されている。 次に、SOMに基づく高速検索により、マイクロクラスタの効率的なマージを行い、真の数の不均衡クラスタを自動生成する。 既存の不均衡なデータクラスタリングアプローチと比較して、LSROMは、非常に競争力のあるクラスタリング精度を達成しつつ、より低い時間複雑性の$O(n\log n)$を持つ。 さらに、LSROMは解釈可能で、ハイパーパラメータには感受性がない。 大規模な実験でその効果が確認された。

Streaming data clustering is a popular research topic in the fields of data mining and machine learning. Compared to static data, streaming data, which is usually analyzed in data chunks, is more susceptible to encountering the dynamic cluster imbalanced issue. That is, the imbalanced degree of clusters varies in different streaming data chunks, leading to corruption in either the accuracy or the efficiency of streaming data analysis based on existing clustering methods. Therefore, we propose an efficient approach called Learning Self-Refined Organizing Map (LSROM) to handle the imbalanced streaming data clustering problem, where we propose an advanced SOM for representing the global data distribution. The constructed SOM is first refined for guiding the partition of the dataset to form many micro-clusters to avoid the missing small clusters in imbalanced data. Then an efficient merging of the micro-clusters is conducted through quick retrieval based on the SOM, which can automatically yield a true number of imbalanced clusters. In comparison to existing imbalanced data clustering approaches, LSROM is with a lower time complexity $O(n\log n)$, while achieving very competitive clustering accuracy. Moreover, LSROM is interpretable and insensitive to hyper-parameters. Extensive experiments have verified its efficacy.
翻訳日:2024-04-16 14:58:08 公開日:2024-04-14
# Arena:エッジ支援ビデオ分析のための興味あるViT推論高速化システム

Arena: A Patch-of-Interest ViT Inference Acceleration System for Edge-Assisted Video Analytics ( http://arxiv.org/abs/2404.09245v1 )

ライセンス: Link先を確認
Haosong Peng, Wei Feng, Hao Li, Yufeng Zhan, Qihua Zhou, Yuanqing Xia, (参考訳) エッジコンピューティングの出現により、リアルタイムのインテリジェントなビデオ分析が可能になった。 従来のモデルアーキテクチャ(例えば、CNN、RNNなど)に基づいて、帯域幅と計算消費を最小限に抑えるために、関心のないコンテンツをフィルタリングする様々な戦略を採用しているが、悪環境下では性能が劣っている。 近年, 変換器をベースとした視覚基礎モデルは, 驚くほどの一般化能力により, 悪環境下での優れた性能を示した。 しかし、それらは大量の計算能力を必要としており、リアルタイムのインテリジェントなビデオ分析における応用を制限している。 本稿では、視覚変換器(ViT)のような視覚基盤モデルにも、ビデオ解析のための専用の加速度機構があることを見出した。 そこで本研究では,ViTに基づくエッジ・ツー・エンドのビデオ推論高速化システムであるArenaを紹介する。 We leverage the capabilities of ViT which can accelerated through token pruning by only offloading and feed Patches-of-Interest (PoIs) to the downstream model。 さらに、確率に基づくパッチサンプリングを用いて、オブジェクトの可能な位置が後続のフレームにあるかどうかをPoIを決定するための、シンプルだが効率的なメカニズムを提供する。 公開データセットに対する広範な評価により、Arenaは平均1.58\times$と1.82\times$の推論速度を向上でき、それぞれ帯域幅の54%と34%しか消費していないことが明らかになった。

The advent of edge computing has made real-time intelligent video analytics feasible. Previous works, based on traditional model architecture (e.g., CNN, RNN, etc.), employ various strategies to filter out non-region-of-interest content to minimize bandwidth and computation consumption but show inferior performance in adverse environments. Recently, visual foundation models based on transformers have shown great performance in adverse environments due to their amazing generalization capability. However, they require a large amount of computation power, which limits their applications in real-time intelligent video analytics. In this paper, we find visual foundation models like Vision Transformer (ViT) also have a dedicated acceleration mechanism for video analytics. To this end, we introduce Arena, an end-to-end edge-assisted video inference acceleration system based on ViT. We leverage the capability of ViT that can be accelerated through token pruning by only offloading and feeding Patches-of-Interest (PoIs) to the downstream models. Additionally, we employ probability-based patch sampling, which provides a simple but efficient mechanism for determining PoIs where the probable locations of objects are in subsequent frames. Through extensive evaluations on public datasets, our findings reveal that Arena can boost inference speeds by up to $1.58\times$ and $1.82\times$ on average while consuming only 54% and 34% of the bandwidth, respectively, all with high inference accuracy.
翻訳日:2024-04-16 14:48:15 公開日:2024-04-14
# Code Critters Mutation Gameを用いた若手学習者のテスト

Engaging Young Learners with Testing Using the Code Critters Mutation Game ( http://arxiv.org/abs/2404.09246v1 )

ライセンス: Link先を確認
Philipp Straubinger, Lena Bloch, Gordon Fraser, (参考訳) 今や誰もがプログラミングを学びます。 しかし、コードの記述はテストなしでは行われないが、残念ながら明示的に教えられることはめったにない。 テストは十分に重要ではない、あるいは十分にエキサイティングでないと思われることが少なくない。 この論文では、テストの概念を積極的に教えるために設計された真剣なゲームであるCode Crittersを紹介します。 一般的なタワーディフェンスゲームでは、プレイヤーは、正しいコードで記述された行動を示す生物と、変異している生物とを区別するために必要な魔法のポータルを戦略的に配置する。 ポータルを置くとき、プレイヤーは暗黙的にテストを行う:彼らはテストインプット(すなわち、ポータルを置く場所)を選択し、オーラクル(すなわち、期待すべき行動)をテストし、プレイヤーのポータルを通過する風景をさまようときに、テスト実行を観察する。 40人の子供を巻き込んだ実証的研究は、Code Crittersに積極的に関与していることを示している。 彼らの肯定的なフィードバックは、彼らがゲームを楽しむのを楽しんだ証拠となり、子供たちの一部は、私たちの研究の教育的状況の外で、自宅でCode Crittersをプレイし続けた。

Everyone learns to code nowadays. Writing code, however, does not go without testing, which unfortunately rarely seems to be taught explicitly. Testing is often not deemed important enough or is just not perceived as sufficiently exciting. Testing can be exciting: In this paper, we introduce Code Critters, a serious game designed to teach testing concepts engagingly. In the style of popular tower defense games, players strategically position magical portals that need to distinguish between creatures exhibiting the behavior described by correct code from those that are mutated, and thus faulty. When placing portals, players are implicitly testing: They choose test inputs (i.e., where to place portals), as well as test oracles (i.e., what behavior to expect), and they observe test executions as the creatures wander across the landscape passing the players' portals. An empirical study involving 40 children demonstrates that they actively engage with Code Critters. Their positive feedback provides evidence that they enjoyed playing the game, and some of the children even continued to play Code Critters at home, outside the educational setting of our study.
翻訳日:2024-04-16 14:48:15 公開日:2024-04-14
# 補償フィードバックによる学習における一般化誤差境界

Generalization Error Bounds for Learning under Censored Feedback ( http://arxiv.org/abs/2404.09247v1 )

ライセンス: Link先を確認
Yifan Yang, Ali Payani, Parinaz Naghizadeh, (参考訳) 学習理論からの一般化誤差は、以前に見つからなかったデータに対してアルゴリズムがどれだけうまく機能するかを統計的に保証する。 本稿では、検閲されたフィードバック(選択的なラベル付けバイアス)によるデータ非IIDnessの影響を特徴付ける。 まず、IIDデータから得られる経験的CDFと理論的CDFのギャップを特徴付けるDKW不等式を、検閲されたフィードバックによる非IIDデータの問題に拡張する。 次に、このCDFエラー境界を用いて、そのような非IIDデータに基づいて訓練された分類器の一般化誤差保証のバウンダリを提供する。 既存の一般化誤差境界(検閲されたフィードバックを考慮しない)はモデルの一般化保証を正しく捉えず、その境界の必要性を検証できないことを示す。 我々は,近年の文献で提案されている,検閲されたフィードバックを緩和する手法である(純粋で有界な)探索手法の有効性を,エラー境界を改善するためにさらに分析する。 この結果から,アルゴリズムの一般化保証の強化と,検閲されたフィードバックによって将来的なデータ可用性が制限される場合のデータ収集に伴うコストとのトレードオフを,意思決定者が考慮すべきであることを示す。

Generalization error bounds from learning theory provide statistical guarantees on how well an algorithm will perform on previously unseen data. In this paper, we characterize the impacts of data non-IIDness due to censored feedback (a.k.a. selective labeling bias) on such bounds. We first derive an extension of the well-known Dvoretzky-Kiefer-Wolfowitz (DKW) inequality, which characterizes the gap between empirical and theoretical CDFs given IID data, to problems with non-IID data due to censored feedback. We then use this CDF error bound to provide a bound on the generalization error guarantees of a classifier trained on such non-IID data. We show that existing generalization error bounds (which do not account for censored feedback) fail to correctly capture the model's generalization guarantees, verifying the need for our bounds. We further analyze the effectiveness of (pure and bounded) exploration techniques, proposed by recent literature as a way to alleviate censored feedback, on improving our error bounds. Together, our findings illustrate how a decision maker should account for the trade-off between strengthening the generalization guarantees of an algorithm and the costs incurred in data collection when future data availability is limited by censored feedback.
翻訳日:2024-04-16 14:48:15 公開日:2024-04-14
# 大規模言語モデルロールアウトからのオフライン強化学習による知識エージェント

Knowledgeable Agents by Offline Reinforcement Learning from Large Language Model Rollouts ( http://arxiv.org/abs/2404.09248v1 )

ライセンス: Link先を確認
Jing-Cheng Pang, Si-Hang Yang, Kaiyuan Li, Jiaji Zhang, Xiong-Hui Chen, Nan Tang, Yang Yu, (参考訳) 強化学習(Reinforcement Learning, RL)は、環境相互作用データを通じて複雑なタスクを遂行するエージェントを訓練するが、その能力は利用可能なデータの範囲によって制限される。 知識のあるエージェントを得るには、大きな言語モデル(LLM)からの知識を活用することが望まれる。 LLMとRLを組み合わせた以前の研究にもかかわらず、2つのコンポーネントのシームレスな統合はセマンティックなギャップのために難しいままである。 本稿では,言語モデルロールアウト(KALM)から知識を抽出する新たな手法について紹介する。 KALMの主な課題は、LLMが本質的にテキストデータに限定されているのに対して、環境データはLLMに見えない数値ベクトルで構成されているため、LLMの接地である。 これを解決するため、KALMはLLMを微調整し、スキルの自然言語記述とそれに対応するロールアウトデータとの双方向翻訳を含む環境データに基づいて様々なタスクを実行する。 この基盤となるプロセスは、LLMの環境力学の理解を高め、新しいスキルを反映した多様で有意義な想像上のロールアウトを生成できる。 CLEVR-Robot環境における実験的な評価は、エージェントがタスク目標の複雑な表現を完了し、前例のない最適な振る舞いを必要とする新しいタスクにその能力を拡張できることを示している。 KALMは未確認の目標を持つタスクの実行において46%の成功率を達成し、ベースライン手法によって達成された26%の成功率を大幅に上回っている。 さらに、KALMはLLMを効果的に環境力学の理解を可能にし、新たなスキルを反映した意味ある仮想ロールアウトを生成し、大規模言語モデルのシームレスな統合と強化学習を実証する。

Reinforcement learning (RL) trains agents to accomplish complex tasks through environmental interaction data, but its capacity is also limited by the scope of the available data. To obtain a knowledgeable agent, a promising approach is to leverage the knowledge from large language models (LLMs). Despite previous studies combining LLMs with RL, seamless integration of the two components remains challenging due to their semantic gap. This paper introduces a novel method, Knowledgeable Agents from Language Model Rollouts (KALM), which extracts knowledge from LLMs in the form of imaginary rollouts that can be easily learned by the agent through offline reinforcement learning methods. The primary challenge of KALM lies in LLM grounding, as LLMs are inherently limited to textual data, whereas environmental data often comprise numerical vectors unseen to LLMs. To address this, KALM fine-tunes the LLM to perform various tasks based on environmental data, including bidirectional translation between natural language descriptions of skills and their corresponding rollout data. This grounding process enhances the LLM's comprehension of environmental dynamics, enabling it to generate diverse and meaningful imaginary rollouts that reflect novel skills. Initial empirical evaluations on the CLEVR-Robot environment demonstrate that KALM enables agents to complete complex rephrasings of task goals and extend their capabilities to novel tasks requiring unprecedented optimal behaviors. KALM achieves a success rate of 46% in executing tasks with unseen goals, substantially surpassing the 26% success rate achieved by baseline methods. Furthermore, KALM effectively enables the LLM to comprehend environmental dynamics, resulting in the generation of meaningful imaginary rollouts that reflect novel skills and demonstrate the seamless integration of large language models and reinforcement learning.
翻訳日:2024-04-16 14:48:15 公開日:2024-04-14
# 2段階生成モデルを用いた通信ソフトウェアシステムのテストコード生成

Test Code Generation for Telecom Software Systems using Two-Stage Generative Model ( http://arxiv.org/abs/2404.09249v1 )

ライセンス: Link先を確認
Mohamad Nabeel, Doumitrou Daniil Nimara, Tahar Zanouda, (参考訳) 近年、インテリジェントで自律的でオープンなネットワークを実現するためのTelecomの進化により、Telecom Softwareはますます複雑になり、様々な異種展開シナリオをサポートし、マルチスタンダードとマルチベンダをサポートするようになった。 結果として、大規模Telecomソフトウェア企業にとって、すべてのデプロイメントシナリオのためのソフトウェアの開発とテストが課題となる。 これらの課題に対処するため,大規模テレコムソフトウェアシステムを対象とした自動テスト生成フレームワークを提案する。 まず、フィールドトライアル中に、過去のテレコムネットワークデータに基づいてトレーニングされた時系列生成モデルを用いて観測されたテストシナリオの入力データを生成する。 さらに、時系列生成モデルは、Telecomデータのプライバシ保護に役立つ。 生成した時系列ソフトウェアの性能データは、自然言語で書かれたテスト記述で利用され、生成的大言語モデルを用いてテストスクリプトを生成する。 運用中のTelecom Networksから得られた公開データセットとTelecomデータセットに関する総合的な実験により、このフレームワークは包括的なテストケースデータ入力と有用なテストコードを生成することができることを示した。

In recent years, the evolution of Telecom towards achieving intelligent, autonomous, and open networks has led to an increasingly complex Telecom Software system, supporting various heterogeneous deployment scenarios, with multi-standard and multi-vendor support. As a result, it becomes a challenge for large-scale Telecom software companies to develop and test software for all deployment scenarios. To address these challenges, we propose a framework for Automated Test Generation for large-scale Telecom Software systems. We begin by generating Test Case Input data for test scenarios observed using a time-series Generative model trained on historical Telecom Network data during field trials. Additionally, the time-series Generative model helps in preserving the privacy of Telecom data. The generated time-series software performance data are then utilized with test descriptions written in natural language to generate Test Script using the Generative Large Language Model. Our comprehensive experiments on public datasets and Telecom datasets obtained from operational Telecom Networks demonstrate that the framework can effectively generate comprehensive test case data input and useful test code.
翻訳日:2024-04-16 14:48:15 公開日:2024-04-14
# TEXT2TASTE:大規模言語モデルを用いた知的読解支援システム

TEXT2TASTE: A Versatile Egocentric Vision System for Intelligent Reading Assistance Using Large Language Model ( http://arxiv.org/abs/2404.09254v1 )

ライセンス: Link先を確認
Wiktor Mucha, Florin Cuconasu, Naome A. Etori, Valia Kalokyri, Giovanni Trappolini, (参考訳) 文章から重要な情報を読み、理解し、見つけ出す能力は、我々の独立、快適、安全のために日々の生活において重要なスキルである。 しかし、我々の社会のかなりの部分は部分的な視覚障害の影響を受けており、日常生活における不快感や依存につながっている。 社会のこの部分の限界に対処するため,RGBカメラを内蔵したスマートグラスと,補正レンズを超越したLarge Language Model (LLM) を用いたインテリジェントリーディングアシスタントを提案する。 眼鏡をかけている人の自我中心から見た映像を処理し、オブジェクト検出と光学文字認識方法を用いてテキスト情報をローカライズする。 LLMはデータを処理し、ユーザがテキストと対話し、所定のクエリに応答できるようにする。 提案手法を評価するために,ユーザがシステムと対話できるチャットベースのアプリケーションを開発した。 評価は、レストランのメニューを読むなどの現実世界の設定で行われ、4人の参加者が参加する。 その結果,テキスト検索の精度は良好であった。 このシステムは、正確な食事提案を提供するだけでなく、ユーザー満足度も高く、特殊なニーズを持つ人々を支援するためのスマートグラスやLCMの可能性を強調している。

The ability to read, understand and find important information from written text is a critical skill in our daily lives for our independence, comfort and safety. However, a significant part of our society is affected by partial vision impairment, which leads to discomfort and dependency in daily activities. To address the limitations of this part of society, we propose an intelligent reading assistant based on smart glasses with embedded RGB cameras and a Large Language Model (LLM), whose functionality goes beyond corrective lenses. The video recorded from the egocentric perspective of a person wearing the glasses is processed to localise text information using object detection and optical character recognition methods. The LLM processes the data and allows the user to interact with the text and responds to a given query, thus extending the functionality of corrective lenses with the ability to find and summarize knowledge from the text. To evaluate our method, we create a chat-based application that allows the user to interact with the system. The evaluation is conducted in a real-world setting, such as reading menus in a restaurant, and involves four participants. The results show robust accuracy in text retrieval. The system not only provides accurate meal suggestions but also achieves high user satisfaction, highlighting the potential of smart glasses and LLMs in assisting people with special needs.
翻訳日:2024-04-16 14:48:15 公開日:2024-04-14
# MEGの基本GPTモデル

Foundational GPT Model for MEG ( http://arxiv.org/abs/2404.09256v1 )

ライセンス: Link先を確認
Richard Csaky, Mats W. J. van Es, Oiwi Parker Jones, Mark Woolrich, (参考訳) ディープラーニングのテクニックは、教師なしのモデルを大量の不正なデータで訓練した後、特定のタスクでモデルを微調整するために使用することができる。 このアプローチは、画像、言語、オーディオなど、さまざまな種類のデータに対して大きな成功を収め、さまざまな下流タスク(例えば、脳データのエンコーディングや復号化)のパフォーマンス向上を約束している。 しかし、磁気/電気脳波(M/EEG)のような脳波をモデル化するためのアプローチの進歩は限られている。 本稿では,未学習MEGの予測を用いて学習可能なディープラーニング基礎モデルの2つのクラスを提案する。 まず、改良されたWavenetを検討し、次に、改良されたTransformer-based (GPT2)モデルを検討する。 改良されたGPT2は、トークン化と埋め込みの新たな応用を含んでおり、言語独立領域のために最初に開発されたモデルを連続したマルチチャネル時系列データに適用することができる。 また、予測フレームワークを拡張して、条件ラベルを入力として含み、タスクデータのより優れたモデリング(エンコーディング)を可能にします。 我々は,これらのディープラーニングモデルの性能を,MEGデータに基づく標準的な線形自己回帰(AR)モデルと比較する。 これにより、実データとタスクデータにおける誘発活動の時間的・空間的・スペクトル的特性をよりよく再現することにより、GPT2ベースのモデルの方がWavenetや線形ARモデルよりも優れたモデリング能力が得られることを示す。 GPT2モデルが複数の対象に対してどのようにスケールするかを示すとともに,各対象に対して対象埋め込みによりモデルを適応させる。 最後に、データシミュレーションにより、下流の復号化タスクにおいて、そのようなモデルがどのように役立つかを示す。 すべてのコードはGitHubで入手できる(https://github.com/ricsinaruto/MEG-transfer-decoding)。

Deep learning techniques can be used to first training unsupervised models on large amounts of unlabelled data, before fine-tuning the models on specific tasks. This approach has seen massive success for various kinds of data, e.g. images, language, audio, and holds the promise of improving performance in various downstream tasks (e.g. encoding or decoding brain data). However, there has been limited progress taking this approach for modelling brain signals, such as Magneto-/electroencephalography (M/EEG). Here we propose two classes of deep learning foundational models that can be trained using forecasting of unlabelled MEG. First, we consider a modified Wavenet; and second, we consider a modified Transformer-based (GPT2) model. The modified GPT2 includes a novel application of tokenisation and embedding methods, allowing a model developed initially for the discrete domain of language to be applied to continuous multichannel time series data. We also extend the forecasting framework to include condition labels as inputs, enabling better modelling (encoding) of task data. We compare the performance of these deep learning models with standard linear autoregressive (AR) modelling on MEG data. This shows that GPT2-based models provide better modelling capabilities than Wavenet and linear AR models, by better reproducing the temporal, spatial and spectral characteristics of real data and evoked activity in task data. We show how the GPT2 model scales well to multiple subjects, while adapting its model to each subject through subject embedding. Finally, we show how such a model can be useful in downstream decoding tasks through data simulation. All code is available on GitHub (https://github.com/ricsinaruto/MEG-transfer-decoding).
翻訳日:2024-04-16 14:48:15 公開日:2024-04-14
# FedCCL:Federated Dual-Clustered Feature Contrast under Domain Heterogeneity

FedCCL: Federated Dual-Clustered Feature Contrast Under Domain Heterogeneity ( http://arxiv.org/abs/2404.09259v1 )

ライセンス: Link先を確認
Yu Qiao, Huy Q. Le, Mengchun Zhang, Apurba Adhikary, Chaoning Zhang, Choong Seon Hong, (参考訳) フェデレートラーニング(FL)は、エッジクライアントと中央サーバとのコラボレーションを通じて、プライバシ保護のニューラルネットワークトレーニングパラダイムを促進する。 重要な課題の1つは、分散データが独立で同一の分散(非IID)ではなく、通常、ドメイン内およびドメイン間不均一性の両方を含むことである。 しかし、最近の研究は、単に正規化の一形態として平均信号を使い、これらの非IID課題の1つの側面にのみ焦点をあてることに限られている。 これらの制約を踏まえ、本論文はこれらの2つの非IID課題を明らかにし、局所的およびグローバル的視点からそれらに対処するためのクラスタ表現の導入を試みる。 具体的には、デュアルフォーカスを持つ二重クラスタ型特徴コントラストベースのFLフレームワークを提案する。 まず、各クライアントのローカル表現にクラスタリングを導入し、これらのローカルクラスタに基づいたクラス内情報を高い粒度で取得する。 そして、類似のセマンティクスでクライアントが共有するクラスタに局所的な表現を近づけ、異なるセマンティクスでそれらをクラスタから切り離すことにより、クロスクライアントの知識共有を容易にする。 第2に、同一クラスに属するローカルクラスタのサイズがクライアントごとに異なる可能性があるため、グローバル側でのクラスタリングをさらに活用し、平均化を行い、各ローカルトレーニングを対照的にガイドするための一貫したグローバル信号を生成する。 複数のデータセットに対する実験結果から,ドメイン内およびドメイン間不均一性において,提案手法が同等あるいは優れた性能向上を達成することが示された。

Federated learning (FL) facilitates a privacy-preserving neural network training paradigm through collaboration between edge clients and a central server. One significant challenge is that the distributed data is not independently and identically distributed (non-IID), typically including both intra-domain and inter-domain heterogeneity. However, recent research is limited to simply using averaged signals as a form of regularization and only focusing on one aspect of these non-IID challenges. Given these limitations, this paper clarifies these two non-IID challenges and attempts to introduce cluster representation to address them from both local and global perspectives. Specifically, we propose a dual-clustered feature contrast-based FL framework with dual focuses. First, we employ clustering on the local representations of each client, aiming to capture intra-class information based on these local clusters at a high level of granularity. Then, we facilitate cross-client knowledge sharing by pulling the local representation closer to clusters shared by clients with similar semantics while pushing them away from clusters with dissimilar semantics. Second, since the sizes of local clusters belonging to the same class may differ for each client, we further utilize clustering on the global side and conduct averaging to create a consistent global signal for guiding each local training in a contrastive manner. Experimental results on multiple datasets demonstrate that our proposal achieves comparable or superior performance gain under intra-domain and inter-domain heterogeneity.
翻訳日:2024-04-16 14:48:15 公開日:2024-04-14
# JaFIn:日本の金融インストラクションデータセット

JaFIn: Japanese Financial Instruction Dataset ( http://arxiv.org/abs/2404.09260v1 )

ライセンス: Link先を確認
Kota Tanabe, Masahiro Suzuki, Hiroki Sakaji, Itsuki Noda, (参考訳) 本研究では,日本語金融分野における大規模言語モデル(LLM)の指導データセットを構築した。 LLMを含む言語モデルのドメイン適応は、言語モデルの人気が高まるにつれて、より注目を集めている。 本研究は,命令チューニングによる領域適応の有効性を実証する。 そこで本研究では,日本金融インストラクション・データセットであるJaFInを日本語で指導する。 JaFInは、日本政府のWebサイトを含む複数のデータソースに基づいて手動で構築され、豊富な財務知識を提供する。 次に、 JaFIn を用いて、複数の LLM に対して命令チューニングを適用し、金融に特化したモデルが元のモデルよりもドメイン適応性が高いことを示す。 得られた財務特化LDMは,定量的な日本の財務指標と質的応答比較を用いて評価され,原案よりも性能が向上した。

We construct an instruction dataset for the large language model (LLM) in the Japanese finance domain. Domain adaptation of language models, including LLMs, is receiving more attention as language models become more popular. This study demonstrates the effectiveness of domain adaptation through instruction tuning. To achieve this, we propose an instruction tuning data in Japanese called JaFIn, the Japanese Financial Instruction Dataset. JaFIn is manually constructed based on multiple data sources, including Japanese government websites, which provide extensive financial knowledge. We then utilize JaFIn to apply instruction tuning for several LLMs, demonstrating that our models specialized in finance have better domain adaptability than the original models. The financial-specialized LLMs created were evaluated using a quantitative Japanese financial benchmark and qualitative response comparisons, showing improved performance over the originals.
翻訳日:2024-04-16 14:48:15 公開日:2024-04-14
# タスク駆動探索:共同モーメント検索とハイライト検出のためのデカップリングとタスク間フィードバック

Task-Driven Exploration: Decoupling and Inter-Task Feedback for Joint Moment Retrieval and Highlight Detection ( http://arxiv.org/abs/2404.09263v1 )

ライセンス: Link先を確認
Jin Yang, Ping Wei, Huan Li, Ziyang Ren, (参考訳) ビデオモーメント検索とハイライト検出は、ビデオ理解において非常に価値のある2つのタスクであるが、最近まで共同で研究されてきた。 既存の研究は近年顕著な進歩を遂げているが、主にデータ駆動ボトムアップパラダイムに従っている。 このようなパラダイムはタスク固有の効果とタスク間効果を見落とし、結果としてモデルパフォーマンスが低下する。 本稿では,協調モーメント検索とハイライト検出のためのタスク駆動型トップダウンフレームワークTaskWeaveを提案する。 このフレームワークはタスク固有の共通表現をキャプチャするタスク分離ユニットを導入している。 2つのタスク間の相互作用を調べるために,タスク間のフィードバック機構を提案する。 既存の手法とは違って,モデル最適化のためのタスク依存型共同損失関数を提案する。 QVHighlights、TVSum、Charades-STAデータセットに関する総合的な実験と詳細なアブレーション研究は、提案フレームワークの有効性と柔軟性を裏付けるものである。 コードはhttps://github.com/EdenGabriel/TaskWeave.comで入手できる。

Video moment retrieval and highlight detection are two highly valuable tasks in video understanding, but until recently they have been jointly studied. Although existing studies have made impressive advancement recently, they predominantly follow the data-driven bottom-up paradigm. Such paradigm overlooks task-specific and inter-task effects, resulting in poor model performance. In this paper, we propose a novel task-driven top-down framework TaskWeave for joint moment retrieval and highlight detection. The framework introduces a task-decoupled unit to capture task-specific and common representations. To investigate the interplay between the two tasks, we propose an inter-task feedback mechanism, which transforms the results of one task as guiding masks to assist the other task. Different from existing methods, we present a task-dependent joint loss function to optimize the model. Comprehensive experiments and in-depth ablation studies on QVHighlights, TVSum, and Charades-STA datasets corroborate the effectiveness and flexibility of the proposed framework. Codes are available at https://github.com/EdenGabriel/TaskWeave.
翻訳日:2024-04-16 14:48:15 公開日:2024-04-14
# ヒジャックではなくスプリットを作る - スプリットラーニングにおける特徴空間ヒジャック攻撃の防止

Make Split, not Hijack: Preventing Feature-Space Hijacking Attacks in Split Learning ( http://arxiv.org/abs/2404.09265v1 )

ライセンス: Link先を確認
Tanveer Khan, Mindaugas Budzys, Antonis Michalas, (参考訳) 機械学習(ML)の人気は、機密データのプライバシをこれまで以上に重要視している。 Split Learning (SL)のような協調学習技術は、MLプロセスを拡張しながらクライアントデータを保護することを目的としている。 有望ではあるが、SLは多くの攻撃に対して脆弱であることが証明されており、データプライバシの有効性に対する懸念が高まっている。 本研究では,クライアントデータのプライバシを確保するために,SLとFSS(Function Secret Sharing)を組み合わせたハイブリッドアプローチを提案する。 クライアントは、サーバに送信する前に、アクティベーションマップにランダムマスクを追加する。 サーバは元の関数にアクセスすることはできないが、代わりにFSSを使って生成された共有を扱う。 これにより、サーバはアクティベーションマップからクライアントの生データを再構築できない。 さらに、視覚的可逆性により、FSSを使用する場合、活性化マップから生画像データを再構成することができないことを示す。 サーバがクライアント入力情報にアクセス可能な他のSLベースのアプローチと比較して、プライバシリークを低減することにより、プライバシを向上させる。 当社のアプローチは、機能空間のハイジャック攻撃に対するセキュリティを確保し、潜在的な操作から機密情報を保護します。 我々のプロトコルは有望な結果をもたらし、SLを使わずに通信オーバヘッドを2倍以上削減し、FSSと同じモデルと比較して訓練時間を7倍以上短縮する。 また,本手法は精度が96%以上であり,平文モデルと等価であることを示す。

The popularity of Machine Learning (ML) makes the privacy of sensitive data more imperative than ever. Collaborative learning techniques like Split Learning (SL) aim to protect client data while enhancing ML processes. Though promising, SL has been proved to be vulnerable to a plethora of attacks, thus raising concerns about its effectiveness on data privacy. In this work, we introduce a hybrid approach combining SL and Function Secret Sharing (FSS) to ensure client data privacy. The client adds a random mask to the activation map before sending it to the servers. The servers cannot access the original function but instead work with shares generated using FSS. Consequently, during both forward and backward propagation, the servers cannot reconstruct the client's raw data from the activation map. Furthermore, through visual invertibility, we demonstrate that the server is incapable of reconstructing the raw image data from the activation map when using FSS. It enhances privacy by reducing privacy leakage compared to other SL-based approaches where the server can access client input information. Our approach also ensures security against feature space hijacking attack, protecting sensitive information from potential manipulation. Our protocols yield promising results, reducing communication overhead by over 2x and training time by over 7x compared to the same model with FSS, without any SL. Also, we show that our approach achieves >96% accuracy and remains equivalent to the plaintext models.
翻訳日:2024-04-16 14:48:15 公開日:2024-04-14
# PANet:物理誘導型パラメトリック拡張ネット

PANet: A Physics-guided Parametric Augmentation Net for Image Dehazing by Hazing ( http://arxiv.org/abs/2404.09269v1 )

ライセンス: Link先を確認
Chih-Ling Chang, Fu-Jen Tsai, Zi-Ling Huang, Lin Gu, Chia-Wen Lin, (参考訳) 画像のデハージングは、現実のシナリオで派手なイメージを扱う場合、課題に直面します。 合成ヘイズ画像と実世界のヘイズ画像のドメインギャップは、現実的な環境でのデハージング性能を低下させる。 しかしながら、デハジングモデルのトレーニングのために実際の画像データセットを収集することは困難である。 本稿では,リアルなデハージング性能を効果的に向上するために,光リアルなヘイジーとクリーンなトレーニングペアを生成する物理誘導型パラメトリック拡張ネットワーク(PANet)を提案する。 PANetは、ヘイズ画像をパラメータ空間に投影するHaze-to-Parameter Mapper(HPM)と、サンプル化したHazeパラメータをヘイズイメージにマッピングするパラメーター-to-Haze Mapper(PHM)を備える。 パラメータ空間では、個々のヘイズパラメータマップをピクセル的に再サンプリングして、トレーニングセットにない物理的に説明可能なヘイズ条件の多様なヘイズ画像を生成することができる。 実験の結果,PANetは多様なリアルなハジーイメージを拡張し,既存のハジーイメージベンチマークを充実させ,最先端のイメージデハージングモデルの性能を効果的に向上させることができることがわかった。

Image dehazing faces challenges when dealing with hazy images in real-world scenarios. A huge domain gap between synthetic and real-world haze images degrades dehazing performance in practical settings. However, collecting real-world image datasets for training dehazing models is challenging since both hazy and clean pairs must be captured under the same conditions. In this paper, we propose a Physics-guided Parametric Augmentation Network (PANet) that generates photo-realistic hazy and clean training pairs to effectively enhance real-world dehazing performance. PANet comprises a Haze-to-Parameter Mapper (HPM) to project hazy images into a parameter space and a Parameter-to-Haze Mapper (PHM) to map the resampled haze parameters back to hazy images. In the parameter space, we can pixel-wisely resample individual haze parameter maps to generate diverse hazy images with physically-explainable haze conditions unseen in the training set. Our experimental results demonstrate that PANet can augment diverse realistic hazy images to enrich existing hazy image benchmarks so as to effectively boost the performances of state-of-the-art image dehazing models.
翻訳日:2024-04-16 14:48:15 公開日:2024-04-14
# VRS-NeRF: スパースニューラル放射場を用いた視覚的再局在

VRS-NeRF: Visual Relocalization with Sparse Neural Radiance Field ( http://arxiv.org/abs/2404.09271v1 )

ライセンス: Link先を確認
Fei Xue, Ignas Budvytis, Daniel Olmeda Reino, Roberto Cipolla, (参考訳) 視覚的再ローカライゼーションは、自律運転、ロボティクス、バーチャル/拡張現実にとって重要なテクニックである。 数十年にわたる探索の後、絶対ポーズ回帰(APR)、シーン座標回帰(SCR)、階層的手法(HM)が最も人気のあるフレームワークとなった。 しかし、高効率にもかかわらず、特に大規模な屋外シーンではAPRとSCRは精度が限られており、HMは正確であるが、マッチングのために多数の2Dディスクリプタを格納する必要があるため、効率が低下する。 本稿では,スパルス神経放射場を用いた視覚的再局在化のための,VRS-NeRF(VRS-NeRF)という,効率的かつ正確なフレームワークを提案する。 正確には、3次元地図表現のための明示的幾何学地図 (EGM) と、スパースパッチレンダリングのための暗黙学習地図 (ILM) を導入する。 このローカライズプロセスでは、EGPはスペアな2Dポイントの先行を提供し、ILMはこれらのスパースポイントを使用して、スパースなNeRFでパッチを描画する。 これにより、マップサイズを減らすために、多数の2Dディスクリプタを捨てることができます。 さらに、画像全体のすべてのピクセルではなく、有用なポイントにのみパッチをレンダリングすることで、レンダリング時間が大幅に短縮される。 このフレームワークはHMの精度を継承し、その低効率を破棄する。 7Scenes、CambridgeLandmarks、Aachenのデータセットによる実験では、我々の手法はAPRやSCRよりもはるかに精度が高く、HMsに近いが、より効率的である。

Visual relocalization is a key technique to autonomous driving, robotics, and virtual/augmented reality. After decades of explorations, absolute pose regression (APR), scene coordinate regression (SCR), and hierarchical methods (HMs) have become the most popular frameworks. However, in spite of high efficiency, APRs and SCRs have limited accuracy especially in large-scale outdoor scenes; HMs are accurate but need to store a large number of 2D descriptors for matching, resulting in poor efficiency. In this paper, we propose an efficient and accurate framework, called VRS-NeRF, for visual relocalization with sparse neural radiance field. Precisely, we introduce an explicit geometric map (EGM) for 3D map representation and an implicit learning map (ILM) for sparse patches rendering. In this localization process, EGP provides priors of spare 2D points and ILM utilizes these sparse points to render patches with sparse NeRFs for matching. This allows us to discard a large number of 2D descriptors so as to reduce the map size. Moreover, rendering patches only for useful points rather than all pixels in the whole image reduces the rendering time significantly. This framework inherits the accuracy of HMs and discards their low efficiency. Experiments on 7Scenes, CambridgeLandmarks, and Aachen datasets show that our method gives much better accuracy than APRs and SCRs, and close performance to HMs but is much more efficient.
翻訳日:2024-04-16 14:48:15 公開日:2024-04-14
# TrafficVLM: トラフィックビデオキャプションのための制御可能なビジュアル言語モデル

TrafficVLM: A Controllable Visual Language Model for Traffic Video Captioning ( http://arxiv.org/abs/2404.09275v1 )

ライセンス: Link先を確認
Quang Minh Dinh, Minh Khoi Ho, Anh Quan Dang, Hung Phong Tran, (参考訳) 近年,効率的で信頼性の高い都市監視システムの需要が高まっているため,交通映像の記述や分析に注目が集まっている。 既存のほとんどのメソッドは、トラフィックイベントセグメントの特定のみに焦点を当てており、イベントに関心のあるすべての主題の振る舞いとコンテキストに関する記述的な詳細を欠いている。 本稿では,車載エゴカメラビューのためのマルチモーダル高密度映像キャプションモデルであるTrafficVLMを提案する。 TrafficVLMは、ビデオイベントを空間的にも時間的にも、さまざまなレベルの分析レベルでモデル化し、イベントの異なるフェーズにおける車両と歩行者の詳細な説明を生成する。 また,TrafficVLMが生成出力を制御するための条件コンポーネントと,TrafficVLMの学習能力を高めるためのマルチタスク微調整パラダイムを提案する。 実験によると、TrafficVLMは車とカメラの両方でうまく機能している。 私たちのソリューションは、AI City Challenge 2024のトラック2で傑出した成果を上げました。 私たちのコードはhttps://github.com/quangminhdinh/TrafficVLM.comで公開されています。

Traffic video description and analysis have received much attention recently due to the growing demand for efficient and reliable urban surveillance systems. Most existing methods only focus on locating traffic event segments, which severely lack descriptive details related to the behaviour and context of all the subjects of interest in the events. In this paper, we present TrafficVLM, a novel multi-modal dense video captioning model for vehicle ego camera view. TrafficVLM models traffic video events at different levels of analysis, both spatially and temporally, and generates long fine-grained descriptions for the vehicle and pedestrian at different phases of the event. We also propose a conditional component for TrafficVLM to control the generation outputs and a multi-task fine-tuning paradigm to enhance TrafficVLM's learning capability. Experiments show that TrafficVLM performs well on both vehicle and overhead camera views. Our solution achieved outstanding results in Track 2 of the AI City Challenge 2024, ranking us third in the challenge standings. Our code is publicly available at https://github.com/quangminhdinh/TrafficVLM.
翻訳日:2024-04-16 14:48:15 公開日:2024-04-14
# SyntStereo2Real:ステレオ制約を維持しながら、リモートセンシングによる画像間変換のためのエッジ対応GAN

SyntStereo2Real: Edge-Aware GAN for Remote Sensing Image-to-Image Translation while Maintaining Stereo Constraint ( http://arxiv.org/abs/2404.09277v1 )

ライセンス: Link先を確認
Vasudha Venkatesan, Daniel Panangian, Mario Fuentes Reyes, Ksenia Bittner, (参考訳) リモートセンシングの分野では、ステレオマッチングの欠如、特に正確な地平データの欠如は、ディープニューラルネットワークのトレーニングを妨げることが多い。 合成画像の代替としての利用によりこの問題は緩和されるが、領域一般化の問題に悩まされる。 画像から画像への変換とステレオマッチングの能力を統一することは、領域一般化の問題に対処するための効果的な解決策となる。 現在の手法では、2つのネットワーク、未ペア画像変換ネットワークとステレオマッチングネットワークを組み合わせるとともに、それらを共同で最適化している。 両タスクを同時に処理するエッジ対応のGANネットワークを提案する。 我々は、Sobel演算子から入力画像のエッジマップを取得し、生成器内のエンコーダへの追加入力として使用し、翻訳中に幾何的一貫性を強制する。 また、ステレオ一貫性を維持するために、変換画像から算出した歪みを補正する。 我々は,既存のモデルよりも定性的かつ定量的に優れた結果が得られ,その適用性は自律運転を含む多様な領域にまで及んでいることを示した。

In the field of remote sensing, the scarcity of stereo-matched and particularly lack of accurate ground truth data often hinders the training of deep neural networks. The use of synthetically generated images as an alternative, alleviates this problem but suffers from the problem of domain generalization. Unifying the capabilities of image-to-image translation and stereo-matching presents an effective solution to address the issue of domain generalization. Current methods involve combining two networks, an unpaired image-to-image translation network and a stereo-matching network, while jointly optimizing them. We propose an edge-aware GAN-based network that effectively tackles both tasks simultaneously. We obtain edge maps of input images from the Sobel operator and use it as an additional input to the encoder in the generator to enforce geometric consistency during translation. We additionally include a warping loss calculated from the translated images to maintain the stereo consistency. We demonstrate that our model produces qualitatively and quantitatively superior results than existing models, and its applicability extends to diverse domains, including autonomous driving.
翻訳日:2024-04-16 14:48:15 公開日:2024-04-14
# ユニタリ制御によるマルコフ量子ビットの最適制御

Optimal Control of a Markovian Qubit with Unitary Control ( http://arxiv.org/abs/2404.09279v1 )

ライセンス: Link先を確認
Emanuel Malvetti, (参考訳) 我々はリンドブラッドマスター方程式によって支配される1つのマルコフ量子ビットを高速なユニタリ制御の対象として研究する。 還元制御系と最適制御理論を用いて決定する 一 冷暖房の制御及び時限最適方法 (ii) ブロッホ球における安定化状態の集合。 リンドブラッド方程式の制限は仮定されず、例えばブロッホ方程式のいくつかの既知の結果が復元される。 さらに、積分系を導入し、解は特によい形を取る。 これらの積分系は、実リンドブラッド項を持つ全ての系と全ての冷却可能な系を含む。 この手法は直感的な視覚化を可能にし、解析的であり、基本的な数値法のみを用いる。

We study a single Markovian qubit governed by a Lindblad master equation and subject to fast unitary control. Using reduced control systems and optimal control theory we determine (i) controls for cooling and heating such systems in a time-optimal way as well as (ii) the set of stabilizable states in the Bloch ball. No restrictions on the Lindblad equation are assumed, and several known results, for instance for the Bloch equations, are recovered. Furthermore we introduce integral systems, for which the solutions take a particularly nice form. These integral systems include all systems with real Lindblad terms as well as all coolable systems. The method allows for intuitive visualizations and is mostly analytical, making use of only basic numerical methods.
翻訳日:2024-04-16 14:38:22 公開日:2024-04-14
# ニューラルネット量子状態の最適化とクロムダイマー試験

Improved Optimization for the Neural-network Quantum States and Tests on the Chromium Dimer ( http://arxiv.org/abs/2404.09280v1 )

ライセンス: Link先を確認
Xiang Li, Jia-Cheng Huang, Guang-Ze Zhang, Hao-En Li, Zhu-Ping Shen, Chen Zhao, Han-Shi Hu, (参考訳) ニューラル・ネットワーク量子状態(NQS)の出現は、かなり先進的な波動関数アンザッツの研究をもたらし、軌道空間の変動であるモンテカルロ探査(VMC)の復活を引き起こした。 本研究は, 適応学習率アルゴリズム, 制約付き最適化, ブロック最適化という, NQSを用いたVMC最適化の計算要求を削減するアルゴリズムを3つ導入した。 我々は、cc-pVDZ基底集合内の複素多重参照結合の$\rm H_2O$および$\rm N_2$の洗練されたアルゴリズムを評価し、Ahlrichs SV基底集合における強相関クロム二量(\rm Cr_2$)の基底状態エネルギーを計算する。 この結果は,CPUコストが比較的低い場合に,結合クラスタ理論よりも高い精度が得られる。 この研究は、これらの戦略を用いて最適化効率とロバスト性を高める方法を示し、大規模制限ボルツマンマシン(RBM)ベースのNQSをより効率的に最適化するための新しい経路を開き、NQSの実用的な量子化学応用の大幅な進歩を示す。

The advent of Neural-network Quantum States (NQS) has significantly advanced wave function ansatz research, sparking a resurgence in orbital space variational Monte Carlo (VMC) exploration. This work introduces three algorithmic enhancements to reduce computational demands of VMC optimization using NQS: an adaptive learning rate algorithm, constrained optimization, and block optimization. We evaluate the refined algorithm on complex multireference bond stretches of $\rm H_2O$ and $\rm N_2$ within the cc-pVDZ basis set and calculate the ground-state energy of the strongly correlated chromium dimer ($\rm Cr_2$) in the Ahlrichs SV basis set. Our results achieve superior accuracy compared to coupled cluster theory at a relatively modest CPU cost. This work demonstrates how to enhance optimization efficiency and robustness using these strategies, opening a new path to optimize large-scale Restricted Boltzmann Machine (RBM)-based NQS more effectively and marking a substantial advancement in NQS's practical quantum chemistry applications.
翻訳日:2024-04-16 14:38:22 公開日:2024-04-14
# Blowfishアルゴリズムを用いたリアルタイムシナリオにおける人工知能によるセキュリティ問題の改善

Artificial Intelligence enhanced Security Problems in Real-Time Scenario using Blowfish Algorithm ( http://arxiv.org/abs/2404.09286v1 )

ライセンス: Link先を確認
Yuvaraju Chinnam, Bosubabu Sambana, (参考訳) クラウド(クラウド)とは、インターネットのような大規模なリアルタイム通信ネットワークによって実現された、相互接続されたコンピューティングリソースの集合である。 処理コストを削減できる可能性から、クラウドコンピューティングの新たなパラダイムは、最近多くの学者を惹きつけている。 クラウドコンピューティングの指数的拡大により、クラウドサービスの急速な拡張が非常に目覚ましいものになった。 今日の相互接続された世界で個人情報のセキュリティを確保することは容易ではない。 最近は、セキュリティがとても重要だ。 クラウドコンピューティングに関連するセキュリティモデルには、機密性、信頼性、アクセシビリティ、データの完全性、リカバリなどがある。 この研究では、Hybrid Encryptionを使用して、クラウドインフラストラクチャのセキュリティ問題とリークをすべてカバーしています。

In a nutshell, "the cloud" refers to a collection of interconnected computing resources made possible by an extensive, real-time communication network like the internet. Because of its potential to reduce processing costs, the emerging paradigm of cloud computing has recently attracted a large number of academics. The exponential expansion of cloud computing has made the rapid expansion of cloud services very remarkable. Ensuring the security of personal information in today's interconnected world is no easy task. These days, security is really crucial. Models of security that are relevant to cloud computing include confidentiality, authenticity, accessibility, data integrity, and recovery. Using the Hybrid Encryption this study, we cover all the security issues and leaks in cloud infrastructure.
翻訳日:2024-04-16 14:38:22 公開日:2024-04-14
# ハードウェアエントロピー源を用いた新しい暗号のクラス

New Class of Ciphers Using Hardware Entropy Source ( http://arxiv.org/abs/2404.09288v1 )

ライセンス: Link先を確認
Jan J. Tatarkiewicz, Wieslaw B. Kuzmicz, (参考訳) 本稿では,秘密鍵を用いて任意のメッセージをランダムなビット列に隠蔽する方法を提案する。 この方法はBARN (Bury among Random Numbers) と呼ばれる。 ハードウェアベースの真の乱数生成器(TRNG)において、物理過程のエントロピーを抽出してランダムビットのストリームを生成する。 メッセージのビットをランダムビットのストリームに配置するプロセスは、その後の挿入の間にスキップされたランダムビットの数によって制御される。 BARNのステップに対応する数値の集合は、TRNGによって提供される乱数から導かれる。 したがって、BARN暗号はいかなる算術関数にも依存しない。 与えられた乱数ビットからランダム鍵を効率的に計算する方法を提案する。 各種キー長に対する新しい暗号に対するブルートフォース攻撃時にテストする必要がある置換数を推定する。 新しい対称暗号のクラスに対するいくつかの実践的応用について論じる。

We present a novel, computationally simple method of hiding any message in the stream of random bits by using a secret key. The method is called Bury Among Random Numbers (BARN). A stream of random bits is produced by extracting the entropy of a physical process in a hardware-based true random number generator (TRNG). The process of placing bits of a message into the stream of random bits is governed by the number of random bits skipped between subsequent insertions. The set of numbers that correspond to the steps of BARN is derived from a random number also provided by TRNG. Hence BARN cipher does not depend on any arithmetic function. We propose an effective method of computing random keys from a given number of random bits. We estimate the number of permutations that need to be tested during a brute-force attack on the new cipher for various key lengths. Some practical applications for the new class of symmetrical ciphers are discussed.
翻訳日:2024-04-16 14:38:22 公開日:2024-04-14
# ルーフ拡散: 急激な崩壊点データからのルーフの拡散による構成

RoofDiffusion: Constructing Roofs from Severely Corrupted Point Data via Diffusion ( http://arxiv.org/abs/2404.09290v1 )

ライセンス: Link先を確認
Kyle Shih-Huang Lo, Jörg Peters, Eric Spellman, (参考訳) 屋上マップの正確な完成とデノナイズは,高品質な3Dビルの再建に不可欠である。 スパースポイントの修理は低コストのセンサーの使用を促進し、UAVの飛行オーバーラップを減らすことができる。 RoofDiffusionは、特に難易度の高い屋根の高さマップを頑健に完成する、エンドツーエンドの自己教師付き拡散技術である。 RoofDiffusionは、広く利用可能なキュレートされたフットプリントを活用し、最大99\%の点間隔と80\%の屋根面積閉塞(地域的不完全性)を処理できる。 変種であるNo-FP RoofDiffusionは、建物の足跡と高さを同時に予測する。 屋根固有のベンチマークとBuildingNetデータセットの両方で、最先端の未案内深度補完とDEM(Digital Elevation Models)の代表的な塗装方法の両方を定量的に上回る。 質的な評価は、AHN3、Dales3D、USGS 3DEP LiDARなどの実世界のスキャンによるデータセットに対するRoofDiffusionの有効性を示している。 先行するCity3DアルゴリズムでテストされたRoofDiffusionによる高さマップの事前処理は、3Dビルの再構築を著しく改善する。 RoofDiffusionは、リモートセンシングにおける長い尾の問題に焦点をあてた、13kの複雑な屋根のジオメトリからなる新しいデータセット、ツリー閉塞の新たなシミュレーション、およびデータ拡張とベンチマークのための広範囲にわたる屋根のカットアウトによって補完される。

Accurate completion and denoising of roof height maps are crucial to reconstructing high-quality 3D buildings. Repairing sparse points can enhance low-cost sensor use and reduce UAV flight overlap. RoofDiffusion is a new end-to-end self-supervised diffusion technique for robustly completing, in particular difficult, roof height maps. RoofDiffusion leverages widely-available curated footprints and can so handle up to 99\% point sparsity and 80\% roof area occlusion (regional incompleteness). A variant, No-FP RoofDiffusion, simultaneously predicts building footprints and heights. Both quantitatively outperform state-of-the-art unguided depth completion and representative inpainting methods for Digital Elevation Models (DEM), on both a roof-specific benchmark and the BuildingNet dataset. Qualitative assessments show the effectiveness of RoofDiffusion for datasets with real-world scans including AHN3, Dales3D, and USGS 3DEP LiDAR. Tested with the leading City3D algorithm, preprocessing height maps with RoofDiffusion noticeably improves 3D building reconstruction. RoofDiffusion is complemented by a new dataset of 13k complex roof geometries, focusing on long-tail issues in remote sensing; a novel simulation of tree occlusion; and a wide variety of large-area roof cut-outs for data augmentation and benchmarking.
翻訳日:2024-04-16 14:38:22 公開日:2024-04-14
# ブリッジングデータ諸島:地理的不均一性を考慮した協調的リモートセンシングセマンティックセマンティックセマンティックセグメンテーションのためのフェデレーション学習

Bridging Data Islands: Geographic Heterogeneity-Aware Federated Learning for Collaborative Remote Sensing Semantic Segmentation ( http://arxiv.org/abs/2404.09292v1 )

ライセンス: Link先を確認
Jieyi Tan, Yansheng Li, Sergey A. Bartalev, Bo Dang, Wei Chen, Yongjun Zhang, Liangqi Yuan, (参考訳) リモートセンシングセマンティックセグメンテーション(RSS)は、地球観測ミッションにおいて重要な課題である。 データプライバシの懸念から、アノテーションによる高品質なリモートセンシング画像は組織間で十分に共有できないため、一般化されたモデルをトレーニングするためにRSSデータを十分に活用することは困難である。 プライバシ保護のための協調学習技術であるフェデレートラーニング(FL)は潜在的なソリューションである。 しかし、RSSにFLを効果的に適用する方法に関する現在の研究は依然として乏しく、さらなる調査が必要である。 様々な施設におけるリモートセンシング画像は、しばしば強い地理的不均一性を示す。 より具体的には、クラス分布の不均一性とオブジェクト出現不均一性の観点から反映される。 残念なことに、既存のFL研究では地理的不均一性に不適切な焦点が当てられており、グローバルモデルの性能低下につながっている。 上記の問題を考慮し、プライバシー保護RSSに対処する新しい地理異質性認識フェデレートラーニング(GeoFed)フレームワークを提案する。 Global Feature ExtensionとTail Regenerationモジュールを通じて、クラス分布の不均一性が軽減される。 さらに、本質的な特徴を構築することにより、オブジェクトの外観の不均一性を緩和する、本質的な特徴マイニング戦略を設計する。 3つのデータセット(例えば、FBP、CASID、Inria)に対する大規模な実験は、GeoFedが現在の最先端手法を一貫して上回っていることを示している。 コードは公開されます。

Remote sensing semantic segmentation (RSS) is an essential task in Earth Observation missions. Due to data privacy concerns, high-quality remote sensing images with annotations cannot be well shared among institutions, making it difficult to fully utilize RSS data to train a generalized model. Federated Learning (FL), a privacy-preserving collaborative learning technology, is a potential solution. However, the current research on how to effectively apply FL in RSS is still scarce and requires further investigation. Remote sensing images in various institutions often exhibit strong geographical heterogeneity. More specifically, it is reflected in terms of class-distribution heterogeneity and object-appearance heterogeneity. Unfortunately, most existing FL studies show inadequate focus on geographical heterogeneity, thus leading to performance degradation in the global model. Considering the aforementioned issues, we propose a novel Geographic Heterogeneity-Aware Federated Learning (GeoFed) framework to address privacy-preserving RSS. Through Global Feature Extension and Tail Regeneration modules, class-distribution heterogeneity is alleviated. Additionally, we design an Essential Feature Mining strategy to alleviate object-appearance heterogeneity by constructing essential features. Extensive experiments on three datasets (i.e., FBP, CASID, Inria) show that our GeoFed consistently outperforms the current state-of-the-art methods. The code will be available publicly.
翻訳日:2024-04-16 14:38:22 公開日:2024-04-14
# 局所的拡張と状態共有による画像融合のための新しい状態空間モデル

A Novel State Space Model with Local Enhancement and State Sharing for Image Fusion ( http://arxiv.org/abs/2404.09293v1 )

ライセンス: Link先を確認
Zihan Cao, Xiao Wu, Liang-Jian Deng, Yu Zhong, (参考訳) 画像融合タスクでは、異なるソースからのイメージは異なる特徴を持つ。 これにより、様々な手法が開発され、それぞれの特性を保ちながら、それらを融合させるより良い方法が研究されるようになった。 状態空間モデルとしてのMambaは自然言語処理の分野で登場している。 近年、多くの研究がマンバを視覚タスクに拡張しようと試みている。 しかし、カジュアルな言語配列とは異なる画像の性質のため、マンバの限られた状態容量は画像情報をモデル化する能力を弱める。 さらに、マンバのシーケンスモデリング能力は空間情報しか得られず、画像中のリッチスペクトル情報を効果的にキャプチャできない。 これらの課題に感化されて、画像融合タスク用に設計されたMambaネットワークをカスタマイズし、改善する。 具体的には、LEVMと呼ばれるローカル拡張ビジョンのMambaブロックを提案する。 LEVMブロックは、ネットワークのローカル情報知覚を改善し、同時にローカルおよびグローバル空間情報を学ぶことができる。 さらに,空間的詳細性を高め,空間的・スペクトル的情報を統合するための状態共有手法を提案する。 最後に、全体的なネットワークはLE-Mambaと呼ばれる視覚マンバに基づくマルチスケール構造である。 広汎な実験により,マルチスペクトル・ハイパースペクトル画像融合データセットを用いて,提案手法の有効性を実証し,提案手法の有効性を実証した。 コードは利用可能になる。

In image fusion tasks, images from different sources possess distinct characteristics. This has driven the development of numerous methods to explore better ways of fusing them while preserving their respective characteristics. Mamba, as a state space model, has emerged in the field of natural language processing. Recently, many studies have attempted to extend Mamba to vision tasks. However, due to the nature of images different from casual language sequences, the limited state capacity of Mamba weakens its ability to model image information. Additionally, the sequence modeling ability of Mamba is only capable of spatial information and cannot effectively capture the rich spectral information in images. Motivated by these challenges, we customize and improve the vision Mamba network designed for the image fusion task. Specifically, we propose the local-enhanced vision Mamba block, dubbed as LEVM. The LEVM block can improve local information perception of the network and simultaneously learn local and global spatial information. Furthermore, we propose the state sharing technique to enhance spatial details and integrate spatial and spectral information. Finally, the overall network is a multi-scale structure based on vision Mamba, called LE-Mamba. Extensive experiments show the proposed methods achieve state-of-the-art results on multispectral pansharpening and multispectral and hyperspectral image fusion datasets, and demonstrate the effectiveness of the proposed approach. Code will be made available.
翻訳日:2024-04-16 14:38:22 公開日:2024-04-14
# 2元系ボース-アインシュタイン凝縮体の$p$波相互作用による相溶性

Miscibility of Binary Bose-Einstein Condensates with $p$-wave Interaction ( http://arxiv.org/abs/2404.09294v1 )

ライセンス: Link先を確認
Min Deng, Ming Xue, Jinghan Pang, Hui Luo, Zhiguo Wang, Jinbin Li, Dayou Yang, (参考訳) 本稿では,Bose-Einstein Condensates (BECs) の2成分混合系の基底状態相図と,競合する種間相互作用である$s$-および$p$-waveについて検討する。 a pseudopotential model for the $l=1$ partial wave, developed a extended Gross-Pitaevskii (GP) equation for the BEC mix that includess$- and $p$-wave interaction。 そこで本研究では,GP方程式の数値解とガウス変分解析を組み合わせることにより,2成分系BEC混合物の種間相互作用の存在下でのミスシブル・イミューシブルな遷移について検討した。 我々の研究は、適切な実験パラメータを調整して正確に制御できる正の相互作用である$p$-wave相互作用の二重効果(不一致性を高めるか減少させる)を明らかにした。 相似位相図の完全特徴化により、高部分波相互作用による二成分系BEC混合物の相似性の実験的制御に向けた有望な経路を確立する。

We investigate the ground-state phase diagram of a binary mixture of Bose-Einstein condensates (BECs) with competing interspecies $s$- and $p$-wave interactions. Exploiting a pseudopotential model for the $l=1$ partial wave, we derive an extended Gross-Pitaevskii (GP) equation for the BEC mixture that incorporates both $s$- and $p$-wave interactions. Based on it, we study the miscible-immiscible transition of a binary BEC mixture in the presence of interspecies $p$-wave interaction, by combining numerical solution of the GP equation and Gaussian variational analysis. Our study uncovers a dual effect -- either enhance or reduce miscibility -- of positive interspecies $p$-wave interaction, which can be precisely controlled by adjusting relevant experimental parameters. By complete characterizing the miscibility phase diagram, we establish a promising avenue towards experimental control of the miscibility of binary BEC mixtures via high partial-wave interactions.
翻訳日:2024-04-16 14:38:22 公開日:2024-04-14
# LLM対応教育質問応答システムのためのクロスデータ知識グラフ構築:A〜Case〜Study〜at〜HCMUT

Cross-Data Knowledge Graph Construction for LLM-enabled Educational Question-Answering System: A~Case~Study~at~HCMUT ( http://arxiv.org/abs/2404.09296v1 )

ライセンス: Link先を確認
Tuan Bui, Oanh Tran, Phuong Nguyen, Bao Ho, Long Nguyen, Thang Bui, Tho Quan, (参考訳) 今日の人工知能の急速な発展の中で、大きな言語モデル(LLM)は活気ある研究トピックとして現れている。 LLMは様々な分野の応用を見つけ、大きく貢献する。 事前訓練された言語モデル(PLM)と同様、強力な言語機能にもかかわらず、LLMはイベントの記憶、新しい情報の導入、ドメイン固有の問題や幻覚への対処といった課題に直面している。 これらの制限を克服するため、研究者はRAG(Retrieval-Augmented Generation)技術を提案し、また、実際のコンテキストを提供するためにLLMとKG(Knowledge Graphs)の統合を提案し、それによってパフォーマンスを改善し、ユーザクエリにより正確なフィードバックを提供する。 教育は人間の発達と進歩において重要な役割を担っている。 技術革新により、伝統的な教育はデジタルまたはブレンド教育に置き換えられている。 そのため,デジタル環境における教育データは日々増加傾向にある。 高等教育機関のデータは多様で、構造化されていない/構造化されたテキスト、リレーショナルデータベース、Web/アプリベースのAPIアクセスなど、さまざまなソースで構成されています。 これらのデータソースから知識グラフを構築するのは簡単な作業ではありません。 本稿では,複数のデータソースから知識グラフを自動的に構築する手法を提案する。

In today's rapidly evolving landscape of Artificial Intelligence, large language models (LLMs) have emerged as a vibrant research topic. LLMs find applications in various fields and contribute significantly. Despite their powerful language capabilities, similar to pre-trained language models (PLMs), LLMs still face challenges in remembering events, incorporating new information, and addressing domain-specific issues or hallucinations. To overcome these limitations, researchers have proposed Retrieval-Augmented Generation (RAG) techniques, some others have proposed the integration of LLMs with Knowledge Graphs (KGs) to provide factual context, thereby improving performance and delivering more accurate feedback to user queries. Education plays a crucial role in human development and progress. With the technology transformation, traditional education is being replaced by digital or blended education. Therefore, educational data in the digital environment is increasing day by day. Data in higher education institutions are diverse, comprising various sources such as unstructured/structured text, relational databases, web/app-based API access, etc. Constructing a Knowledge Graph from these cross-data sources is not a simple task. This article proposes a method for automatically constructing a Knowledge Graph from multiple data sources and discusses some initial applications (experimental trials) of KG in conjunction with LLMs for question-answering tasks.
翻訳日:2024-04-16 14:38:22 公開日:2024-04-14
# ロバストフォトニック量子ゲートの大規模セグメンテーション設計

Large Segmentation Design of Robust Photonic Quantum Gates ( http://arxiv.org/abs/2404.09298v1 )

ライセンス: Link先を確認
Khen Cohen, Haim Suchowski, Yaron Oz, (参考訳) 結合光導波路のセグメント化により実装されたフォトニック量子ゲートの忠実度と電力損失をセグメント数の関数として解析する。 多数のセグメントを持つ設計は、広範囲の誤差相関強度と分散の体系的誤差を効果的に緩和することを示す。 電力損失に対する設計粗さ効果の定量化と導波路構成の平滑化のための各種手法の性能解析を行う。 ゲートの忠実度と電力損失の漸近的スケーリング挙動をセグメント数で観測する。

We analyze the fidelity and power loss of photonic quantum gates, implemented by a segmentation of coupled optical waveguides, as functions of the number of segments. We show that designs with a large number of segments mitigate effectively the systematic errors for a wide range of error correlation strength and variance. We quantify the design roughness effect on the power loss and analyze the performance of various methods for smoothing the configuration of the waveguides. We observe an asymptotic scaling behaviour of the gate fidelity and power loss with the number of segments.
翻訳日:2024-04-16 14:38:22 公開日:2024-04-14
# 大規模ニュースコーパスでメディアの嵐を検知する「ワイルド・ウィンド」

Reap the Wild Wind: Detecting Media Storms in Large-Scale News Corpora ( http://arxiv.org/abs/2404.09299v1 )

ライセンス: Link先を確認
Dror K. Markus, Effi Levi, Tamir Sheafer, Shaul R. Shenhav, (参考訳) メディア・ストーム(メディア・ストーム)は、メディア・ダイナミクスと注目の風景の中心的な構成要素である。 その重要性にもかかわらず、測定と運用の問題のため、この概念に関する体系的で実証的な研究はほとんど行われていない。 本稿では,大規模ニュース記事のコーパスにおいて,メディア・ストームを識別する反復的ヒューマン・イン・ザ・ループ手法を提案する。 テキストは、まず、複数のテキスト特性に基づいて分散信号に変換される。 各イテレーションにおいて、教師なし異常検出をこれらの信号に適用し、各異常を専門家によって検証し、嵐の存在を確認し、それらの結果を用いて次のイテレーションで異常検出をチューニングする。 本手法の適用性は,まず,特定の時間枠内にメディアストームの最初のリストを補足すること,および新しい時間帯におけるメディアストームを検出することの2つのシナリオで実証する。 両方のシナリオでコンパイルされたメディアストームデータセットを利用可能にしています。 この方法とデータセットはいずれも、主流メディアやソーシャルメディアプラットフォームにおいて、メディアストームの概念を特徴づけたり、そのアウトバーストや期間を予測することを含む、包括的な実証研究の基盤を提供する。

Media Storms, dramatic outbursts of attention to a story, are central components of media dynamics and the attention landscape. Despite their significance, there has been little systematic and empirical research on this concept due to issues of measurement and operationalization. We introduce an iterative human-in-the-loop method to identify media storms in a large-scale corpus of news articles. The text is first transformed into signals of dispersion based on several textual characteristics. In each iteration, we apply unsupervised anomaly detection to these signals; each anomaly is then validated by an expert to confirm the presence of a storm, and those results are then used to tune the anomaly detection in the next iteration. We demonstrate the applicability of this method in two scenarios: first, supplementing an initial list of media storms within a specific time frame; and second, detecting media storms in new time periods. We make available a media storm dataset compiled using both scenarios. Both the method and dataset offer the basis for comprehensive empirical research into the concept of media storms, including characterizing them and predicting their outbursts and durations, in mainstream media or social media platforms.
翻訳日:2024-04-16 14:38:22 公開日:2024-04-14
# 部分視点画像からの身体推定のための簡易的手法

A Simple Strategy for Body Estimation from Partial-View Images ( http://arxiv.org/abs/2404.09301v1 )

ライセンス: Link先を確認
Yafei Mao, Xuelu Li, Brandon Smith, Jinjin Li, Raja Bala, (参考訳) 仮想試行と製品パーソナライズは、現代オンラインショッピングにおいてますます重要になってきており、正確な身体計測推定の必要性を強調している。 前回の研究では、RGB画像から3次元の身体形状を推定する研究が進んでいるが、画像中の人間の観察スケールは、距離と体次元の2つの未知の要因に依存するため、本質的に不明瞭である。 この曖昧さは、特に部分的なシナリオで顕著である。 この課題に対処するために,モジュール式で単純な高さ正規化法を提案する。 この解は対象の骨格を所望の位置に移動させ、スケールを正規化し、2つの変数の関係を解消する。 この手法を最先端のヒューマンメッシュ再構成モデルに組み込むことで,部分体計測の精度が著しく向上することを示す実験結果を得た。 さらに、マルチビュー設定へのこのアプローチの適用性を説明し、その汎用性を示す。

Virtual try-on and product personalization have become increasingly important in modern online shopping, highlighting the need for accurate body measurement estimation. Although previous research has advanced in estimating 3D body shapes from RGB images, the task is inherently ambiguous as the observed scale of human subjects in the images depends on two unknown factors: capture distance and body dimensions. This ambiguity is particularly pronounced in partial-view scenarios. To address this challenge, we propose a modular and simple height normalization solution. This solution relocates the subject skeleton to the desired position, thereby normalizing the scale and disentangling the relationship between the two variables. Our experimental results demonstrate that integrating this technique into state-of-the-art human mesh reconstruction models significantly enhances partial body measurement estimation. Additionally, we illustrate the applicability of this approach to multi-view settings, showcasing its versatility.
翻訳日:2024-04-16 14:38:22 公開日:2024-04-14
# Azure Core Workload Insightsにおける重要な障害検出

High Significant Fault Detection in Azure Core Workload Insights ( http://arxiv.org/abs/2404.09302v1 )

ライセンス: Link先を確認
Pranay Lohia, Laurent Boue, Sharath Rangappa, Vijay Agneeswaran, (参考訳) Azure Coreのワークロードインサイトは、さまざまなメトリックユニットによる時系列データを持っている。 これらの時系列データには、メートル法名、資源領域、次元、およびデータに関連するその次元値に関して観測された断層により、断層または異常が観測される。 Azure Coreにとって重要なタスクは、ダッシュボード上のユーザに対して、容易に認識可能な障害や異常をハイライトすることだ。 報告された異常件数は極めて多く,1時間に報告される5~20件の異常件数は限られている。 報告された異常は、どの時系列予測モデルにおいても大きなユーザ認識と高い再構成誤差を持つ。 そこで,本課題は,ユーザ認識のための「重要な異常」とその関連情報を自動的に識別することである。

Azure Core workload insights have time-series data with different metric units. Faults or Anomalies are observed in these time-series data owing to faults observed with respect to metric name, resources region, dimensions, and its dimension value associated with the data. For Azure Core, an important task is to highlight faults or anomalies to the user on a dashboard that they can perceive easily. The number of anomalies reported should be highly significant and in a limited number, e.g., 5-20 anomalies reported per hour. The reported anomalies will have significant user perception and high reconstruction error in any time-series forecasting model. Hence, our task is to automatically identify 'high significant anomalies' and their associated information for user perception.
翻訳日:2024-04-16 14:38:22 公開日:2024-04-14
# モンテカルロ木探索用語を探索するモンテカルロ探索アルゴリズム

Monte Carlo Search Algorithms Discovering Monte Carlo Tree Search Exploration Terms ( http://arxiv.org/abs/2404.09304v1 )

ライセンス: Link先を確認
Tristan Cazenave, (参考訳) モンテカルロ木探索とモンテカルロ探索は多くの組合せ問題に対して良い結果が得られる。 本稿ではモンテカルロ探索を用いてモンテカルロ木探索アルゴリズムの探索語として用いられる数式を設計する。 最適化されたモンテカルロ木探索アルゴリズムはPUCTとSHUSSである。 PUCTとSHUSSのルート探索用語を自動設計する。 32の評価の小さな探索予算に対して、発見されたルート探索用語は、両方のアルゴリズムを通常のPUCTと競合させる。

Monte Carlo Tree Search and Monte Carlo Search have good results for many combinatorial problems. In this paper we propose to use Monte Carlo Search to design mathematical expressions that are used as exploration terms for Monte Carlo Tree Search algorithms. The optimized Monte Carlo Tree Search algorithms are PUCT and SHUSS. We automatically design the PUCT and the SHUSS root exploration terms. For small search budgets of 32 evaluations the discovered root exploration terms make both algorithms competitive with usual PUCT.
翻訳日:2024-04-16 14:38:22 公開日:2024-04-14
# OWLOOP:OWLの公理をOOP階層にマッピングするためのインターフェース

OWLOOP: Interfaces for Mapping OWL Axioms into OOP Hierarchies ( http://arxiv.org/abs/2404.09305v1 )

ライセンス: Link先を確認
Luca Buoncompagni, Fulvio Mastrogiovanni, (参考訳) 本稿では、オブジェクト指向プログラミング(OOP)パラダイムにおいて、オントロジーWeb言語(OWL)で形式化された論理公理のマッピング問題に取り組む。 OWLの公理階層とOOPオブジェクトの階層は、OWLベースの推論アルゴリズムが実行時にOWL階層を変更する可能性があるためである。 リフレクションに基づくプログラミングパラダイムは、実行時にOOP階層を変更し、OWLの公理を動的にマッピングすることを可能にするが、推論アルゴリズムを制限しないメカニズムは今のところ存在しない。 したがって、ファクトリベースのパラダイムはOWLとOOPの階層を分離するため、一般的に使用される。 しかし、このファクトリはOOP多型を阻害し、広く受け入れられているOOPパラダイムに対するパラダイムシフトを導入します。 本稿では、推論アルゴリズムを制限しないためにファクトリを利用するOWLOOP APIを紹介し、オントロジーにおける公理に関する新しいOOPインターフェースを提供する。 OWLOOPは、論理推論を利用するソフトウェアアーキテクチャのモジュラリティであるOOPライクなポリモルフィズムを通じて改善しながら、オントロジの使用に必要なパラダイムシフトを制限するように設計されています。 本稿では,私たちのOWLからOOPマッピング機構について詳述し,スマート環境におけるロボットの事例を通してOWLOOPのメリットと限界を示す。

The paper tackles the issue of mapping logic axioms formalised in the Ontology Web Language (OWL) within the Object-Oriented Programming (OOP) paradigm. The issues of mapping OWL axioms hierarchies and OOP objects hierarchies are due to OWL-based reasoning algorithms, which might change an OWL hierarchy at runtime; instead, OOP hierarchies are usually defined as static structures. Although programming paradigms based on reflection allow changing the OOP hierarchies at runtime and mapping OWL axioms dynamically, there are no currently available mechanisms that do not limit the reasoning algorithms. Thus, the factory-based paradigm is typically used since it decouples the OWL and OOP hierarchies. However, the factory inhibits OOP polymorphism and introduces a paradigm shift with respect to widely accepted OOP paradigms. We present the OWLOOP API, which exploits the factory to not limit reasoning algorithms, and it provides novel OOP interfaces concerning the axioms in an ontology. OWLOOP is designed to limit the paradigm shift required for using ontologies while improving, through OOP-like polymorphism, the modularity of software architectures that exploit logic reasoning. The paper details our OWL to OOP mapping mechanism, and it shows the benefits and limitations of OWLOOP through examples concerning a robot in a smart environment.
翻訳日:2024-04-16 14:38:22 公開日:2024-04-14
# 私が思うに、私の手の中で:正確なエゴセントリックな2Dハンドポースとアクション認識

In My Perspective, In My Hands: Accurate Egocentric 2D Hand Pose and Action Recognition ( http://arxiv.org/abs/2404.09308v1 )

ライセンス: Link先を確認
Wiktor Mucha, Martin Kampel, (参考訳) アクション認識は、エゴセントリックなビデオ理解に不可欠であり、ユーザの努力なしに日々の生活活動(ADL)の自動的かつ継続的なモニタリングを可能にする。 既存の文献では、計算集約的な深度推定ネットワークを必要とする3Dハンドポーズ入力や、不快な深度センサーを装着することに焦点を当てている。 対照的に、ユーザフレンドリーなスマートグラスが市場に出回っているにもかかわらず、エゴセントリックなアクション認識のための2Dハンドポーズを理解するには不十分な研究がある。 本研究は,エゴセントリックな行動認識のための2次元手ポーズ推定の分野を探求し,この研究ギャップを埋めることを目的としている。 まず,手動ポーズ推定のための2つの新しいアプローチ,すなわち手動ポーズ推定のためのEffHandEgoNetと,手動ポーズ推定のためのEffHandEgoNetを紹介する。 どちらの手法もH2OとFPHAの公開ベンチマークで最先端のモデルより優れている。 次に、2次元手とオブジェクトのポーズから頑健なアクション認識アーキテクチャを提案する。 本手法は、EffHandEgoNetと、トランスフォーマーに基づく行動認識方法を含む。 H2OデータセットとFPHAデータセットに基づいて、我々のアーキテクチャはより高速な推論時間を持ち、それぞれ91.32%と94.43%の精度を達成し、3Dベースの手法を含む最先端の手法を上回っている。 我々の研究は、2次元骨格データを使用することが、自我中心の行動理解のための堅牢なアプローチであることを実証している。 広範囲な評価とアブレーション研究は、手ポーズ推定アプローチの影響と、各入力が全体のパフォーマンスにどのように影響するかを示している。

Action recognition is essential for egocentric video understanding, allowing automatic and continuous monitoring of Activities of Daily Living (ADLs) without user effort. Existing literature focuses on 3D hand pose input, which requires computationally intensive depth estimation networks or wearing an uncomfortable depth sensor. In contrast, there has been insufficient research in understanding 2D hand pose for egocentric action recognition, despite the availability of user-friendly smart glasses in the market capable of capturing a single RGB image. Our study aims to fill this research gap by exploring the field of 2D hand pose estimation for egocentric action recognition, making two contributions. Firstly, we introduce two novel approaches for 2D hand pose estimation, namely EffHandNet for single-hand estimation and EffHandEgoNet, tailored for an egocentric perspective, capturing interactions between hands and objects. Both methods outperform state-of-the-art models on H2O and FPHA public benchmarks. Secondly, we present a robust action recognition architecture from 2D hand and object poses. This method incorporates EffHandEgoNet, and a transformer-based action recognition method. Evaluated on H2O and FPHA datasets, our architecture has a faster inference time and achieves an accuracy of 91.32% and 94.43%, respectively, surpassing state of the art, including 3D-based methods. Our work demonstrates that using 2D skeletal data is a robust approach for egocentric action understanding. Extensive evaluation and ablation studies show the impact of the hand pose estimation approach, and how each input affects the overall performance.
翻訳日:2024-04-16 14:28:37 公開日:2024-04-14
# 効率的な量子力学のための排他的あるいはエンコードされた代数構造

Exclusive-or encoded algebraic structure for efficient quantum dynamics ( http://arxiv.org/abs/2404.09312v1 )

ライセンス: Link先を確認
Lukas Broers, Ludwig Mathey, (参考訳) 本稿では,多体2レベル量子系の代数構造を捉える形式的手法を提案する。 この形式主義は、対応するリー代数の元の列挙指標のバイナリ表現に基づいている。 その代数の任意の大きな要素の作用は、ビット単位の排他的操作に還元される。 この形式主義は自然に多体密度作用素のスパース表現を生成し、そのサイズは動的トランケーション法によって制御される。 我々は、この形式主義がリアルタイム進化、消散的リンドブラッド作用、想像的時間進化、および射影的測定プロセスにどのように適用されるかを実証する。 量子力学計算のこのアプローチは、密度演算子の非零成分の数と線形に近似する。 この排他的あるいは表現的量子代数をORQAと呼ぶ。 概念実証として、最大22の2レベルシステムに対する最大独立集合問題に対する量子アニール過程をシミュレートすることで、この形式性の数値的な実証を行う。

We propose a formalism that captures the algebraic structure of many-body two-level quantum systems, and directly motivates an efficient numerical method. This formalism is based on the binary representation of the enumeration-indices of the elements of the corresponding Lie algebra. The action of arbitrarily large elements of that algebra reduces to a few bit-wise exclusive-or operations. This formalism naturally produces sparse representations of many-body density operators, the size of which we control through a dynamic truncation method. We demonstrate how this formalism applies to real-time evolution, dissipative Lindblad action, imaginary-time evolution, and projective measurement processes. We find that this approach to calculating quantum dynamics scales close to linearly with the number of non-zero components in the density operator. We refer to this exclusive-or represented quantum algebra as ORQA. As a proof of concept, we provide a numerical demonstration of this formalism by simulating quantum annealing processes for the maximum independent set problem for up to 22 two-level systems.
翻訳日:2024-04-16 14:28:37 公開日:2024-04-14
# テキストから歌へ:声と伴奏を取り入れた制御可能な音楽生成を目指して

Text-to-Song: Towards Controllable Music Generation Incorporating Vocals and Accompaniment ( http://arxiv.org/abs/2404.09313v1 )

ライセンス: Link先を確認
Hong Zhiqing, Huang Rongjie, Cheng Xize, Wang Yongqi, Li Ruiqi, You Fuming, Zhao Zhou, Zhang Zhimeng, (参考訳) 歌は歌声と伴奏の組み合わせである。 しかし、既存の作品では、歌声合成と音楽生成を独立して重視している。 歌の合成を探求するためにはほとんど注意が払われなかった。 そこで本研究では,音声と伴奏の両方を組み込んだテキスト・ツー・サング・シンセサイザーという新しいタスクを提案する。 我々は,歌唱音声合成 (SVS) とV2A合成 (V2A) を組み合わせた2段階音声合成法であるメロディストを開発した。 メロディストは、トリトウワーコントラスト事前学習を利用して、制御可能なV2A合成のためのより効果的なテキスト表現を学習する。 音楽サイトから発掘された中国の歌のデータセットは、我々の研究のためにデータ不足を軽減するために構築されている。 評価結果は,メロディストが同等の品質とスタイルの整合性で楽曲を合成できることを実証した。 オーディオサンプルはhttps://text2songMelodist.github.io/Sample/で見ることができる。

A song is a combination of singing voice and accompaniment. However, existing works focus on singing voice synthesis and music generation independently. Little attention was paid to explore song synthesis. In this work, we propose a novel task called text-to-song synthesis which incorporating both vocals and accompaniments generation. We develop Melodist, a two-stage text-to-song method that consists of singing voice synthesis (SVS) and vocal-to-accompaniment (V2A) synthesis. Melodist leverages tri-tower contrastive pretraining to learn more effective text representation for controllable V2A synthesis. A Chinese song dataset mined from a music website is built up to alleviate data scarcity for our research. The evaluation results on our dataset demonstrate that Melodist can synthesize songs with comparable quality and style consistency. Audio samples can be found in https://text2songMelodist.github.io/Sample/.
翻訳日:2024-04-16 14:28:37 公開日:2024-04-14
# バイナリバイブレーサーと暗号への応用

Binary bi-braces and applications to cryptography ( http://arxiv.org/abs/2404.09315v1 )

ライセンス: Link先を確認
Roberto Civino, Valerio Fedele, (参考訳) XORベースの交互化ブロック暗号では、平文は、それぞれ異なる動作を行う複数の層によって隠蔽される:高い非線形置換、線形変換、ビットワイズキー付加。 古典的微分攻撃に対する抵抗を評価する場合(XORに関して差が計算される場合)、暗号解析者は非線形層によって導入された微分確率を考慮に入れなければならず、これは微分遷移が決定論的ではない唯一の方法である。 他の差分演算に対する差分演算の誘惑は、差分が暗号のXOR-アフィンレベルを通してどのように伝播するかを理解するのが困難になる。 本稿では,XOR ベースの交互ブロック暗号のすべての層との相互作用を理解することができる相違点の集合の導出を可能にする,特別な括弧群を提案する。 そのような括弧は、nilpotency class 2 の双対代数の交互化の観点からも記述できることを示す。 さらに、双線型写像間の同値性を通じて、これらの構造の自己同型群を計算する方法を提案する。 これにより、新しい差に対する差分遷移が決定論的であり、代替的な差分攻撃を促進するXOR-線形置換を特徴づける。

In a XOR-based alternating block cipher the plaintext is masked by a sequence of layers each performing distinct actions: a highly nonlinear permutation, a linear transformation, and the bitwise key addition. When assessing resistance against classical differential attacks (where differences are computed with respect to XOR), the cryptanalysts must only take into account differential probabilities introduced by the nonlinear layer, this being the only one whose differential transitions are not deterministic. The temptation of computing differentials with respect to another difference operation runs into the difficulty of understanding how differentials propagate through the XOR-affine levels of the cipher. In this paper we introduce a special family of braces that enable the derivation of a set of differences whose interaction with every layer of an XOR-based alternating block cipher can be understood. We show that such braces can be described also in terms of alternating binary algebras of nilpotency class two. Additionally, we present a method to compute the automorphism group of these structures through an equivalence between bilinear maps. By doing so, we characterise the XOR-linear permutations for which the differential transitions with respect to the new difference are deterministic, facilitating an alternative differential attack.
翻訳日:2024-04-16 14:28:37 公開日:2024-04-14
# Arm's Ethos-U55 Embedded Machine Learning Acceleratorにおけるソフトエラーレジリエンスの特徴

Characterizing Soft-Error Resiliency in Arm's Ethos-U55 Embedded Machine Learning Accelerator ( http://arxiv.org/abs/2404.09317v1 )

ライセンス: Link先を確認
Abhishek Tyagi, Reiley Jeyapaul, Chuteng Zhu, Paul Whatmough, Yuhao Zhu, (参考訳) ニューラル・プロセッシング・ユニット(NPU)やアクセラレーターは、自律走行車や医療画像などの安全クリティカルなアプリケーションなど、様々な用途に展開されているため、NPUのフォールトトレランスの性質を理解することが重要である。 我々は、組み込みおよびIoTアプリケーションで利用される重要な産業規模のNPUであるArmのEthos-U55の信頼性調査を示す。 自動運転車などの安全クリティカルなアプリケーションに一般的に使用される自動車安全統一レベルD (ASIL-D) に対するEthos-U55を特徴付けるため,大規模なRTLレベルの障害注入を実施している。 ソフトエラーの下では、NPU上で動作するさまざまなニューラルネットワークにおいて、NPUの4つの構成はすべて、必要なレベルのレジリエンスに欠けることを示す。 領域のオーバーヘッドが100%であるDual Core Lock Step(DCLS)のような従来の戦略を使わずにASIL-Dレベルのレジリエンスを満たすことができることを示す。 ハードウェア構造を選択的に保護し(例えば、複製、硬化)、ソフトエラーやシリコン領域に対する感度に基づいて、ハードウェア構造を選択的に保護する。 ASIL-D標準を満たしている場合の領域オーバーヘッドを最小限に抑える最適構成を特定するためには、時間を要するRTLシミュレーションに付随する巨大な検索空間が大きな課題である。 この課題に対処するために、Armシリコンに対して検証された統計解析ツールを提案する。 機能ブロックのごく一部を慎重に複製し、他のブロックでFlopsを硬化させることで、ASIL-D安全基準に適合し、領域オーバーヘッドはわずか38%である。

As Neural Processing Units (NPU) or accelerators are increasingly deployed in a variety of applications including safety critical applications such as autonomous vehicle, and medical imaging, it is critical to understand the fault-tolerance nature of the NPUs. We present a reliability study of Arm's Ethos-U55, an important industrial-scale NPU being utilised in embedded and IoT applications. We perform large scale RTL-level fault injections to characterize Ethos-U55 against the Automotive Safety Integrity Level D (ASIL-D) resiliency standard commonly used for safety-critical applications such as autonomous vehicles. We show that, under soft errors, all four configurations of the NPU fall short of the required level of resiliency for a variety of neural networks running on the NPU. We show that it is possible to meet the ASIL-D level resiliency without resorting to conventional strategies like Dual Core Lock Step (DCLS) that has an area overhead of 100%. We achieve so through selective protection, where hardware structures are selectively protected (e.g., duplicated, hardened) based on their sensitivity to soft errors and their silicon areas. To identify the optimal configuration that minimizes the area overhead while meeting the ASIL-D standard, the main challenge is the large search space associated with the time-consuming RTL simulation. To address this challenge, we present a statistical analysis tool that is validated against Arm silicon and that allows us to quickly navigate hundreds of billions of fault sites without exhaustive RTL fault injections. We show that by carefully duplicating a small fraction of the functional blocks and hardening the Flops in other blocks meets the ASIL-D safety standard while introducing an area overhead of only 38%.
翻訳日:2024-04-16 14:28:37 公開日:2024-04-14
# クラウドコンピューティングモデルにおける財務情報リスクの知的予測と評価

The intelligent prediction and assessment of financial information risk in the cloud computing model ( http://arxiv.org/abs/2404.09322v1 )

ライセンス: Link先を確認
Yufu Wang, Mingwei Zhu, Jiaqiang Yuan, Guanghui Wang, Hong Zhou, (参考訳) クラウドコンピューティング(クラウドコンピューティング)は、分散コンピューティングの一種であり、ネットワーク"クラウド"は、数え切れないほど小さなプログラムに巨大なデータ計算と処理プログラムを持ち、その後、複数のサーバで構成されたシステムを通じて、これらの小さなプログラムを処理し、分析して結果を取得し、ユーザに戻る。 本報告では,クラウドコンピューティングと金融情報処理の共通点を考察し,クラウド技術導入における金融機関の直面するリスクと課題を明らかにする。 セキュリティとプライバシの懸念に対処しながら、データ処理の効率性と正確性を向上させるインテリジェントなソリューションの必要性について論じる。 規制枠組みに基づき、この報告書は、金融業界におけるクラウドコンピューティングに関連する集中リスクを軽減するための政策勧告を提案している。 この研究は、インテリジェントな予測と評価技術とクラウドコンピューティングモデルを組み合わせることにより、金融データ処理と管理のための効果的なソリューションを提供することを目標とし、業界がデジタルトランスフォーメーションへ移行することを容易にする。

Cloud computing (cloud computing) is a kind of distributed computing, referring to the network "cloud" will be a huge data calculation and processing program into countless small programs, and then, through the system composed of multiple servers to process and analyze these small programs to get the results and return to the user. This report explores the intersection of cloud computing and financial information processing, identifying risks and challenges faced by financial institutions in adopting cloud technology. It discusses the need for intelligent solutions to enhance data processing efficiency and accuracy while addressing security and privacy concerns. Drawing on regulatory frameworks, the report proposes policy recommendations to mitigate concentration risks associated with cloud computing in the financial industry. By combining intelligent forecasting and evaluation technologies with cloud computing models, the study aims to provide effective solutions for financial data processing and management, facilitating the industry's transition towards digital transformation.
翻訳日:2024-04-16 14:28:37 公開日:2024-04-14
# 視覚変換器のFew-Shot蒸留における軽量コピーと低ランク適応

Weight Copy and Low-Rank Adaptation for Few-Shot Distillation of Vision Transformers ( http://arxiv.org/abs/2404.09326v1 )

ライセンス: Link先を確認
Diana-Nicoleta Grigore, Mariana-Iuliana Georgescu, Jon Alvarez Justo, Tor Johansen, Andreea Iuliana Ionescu, Radu Tudor Ionescu, (参考訳) 近年、限られたデータと計算資源を用いて、大規模事前学習モデルの知識を活用するための有効な方法として、知識蒸留が登場した。 本稿では,視覚変換器のための新規な数発的特徴蒸留手法を提案する。 私たちのアプローチは2つの重要なステップに基づいています。 視覚変換器が一貫した深度構造を持つという事実を利用して、私たちはまず既存の学習済み視覚変換器(教師)の断続的な層からより浅いアーキテクチャ(学生)へと重みをコピーします。 次に,Low-Rank Adaptation (LoRA) の強化版を用いて,教師層が行う情報処理の回復を目的とした,数ショットのシナリオで学生に知識を抽出する。 自然画像,医療画像,衛星画像を含む5つの領域のデータセットについて,教師としての教師と教師としての自己指導型トランスフォーマーを用いた総合的な実験を行った。 実験結果から, 競争基準に対するアプローチの優位性が確認された。 さらに, アブレーションの結果から, 提案したパイプラインの各コンポーネントの有用性が示された。

Few-shot knowledge distillation recently emerged as a viable approach to harness the knowledge of large-scale pre-trained models, using limited data and computational resources. In this paper, we propose a novel few-shot feature distillation approach for vision transformers. Our approach is based on two key steps. Leveraging the fact that vision transformers have a consistent depth-wise structure, we first copy the weights from intermittent layers of existing pre-trained vision transformers (teachers) into shallower architectures (students), where the intermittence factor controls the complexity of the student transformer with respect to its teacher. Next, we employ an enhanced version of Low-Rank Adaptation (LoRA) to distill knowledge into the student in a few-shot scenario, aiming to recover the information processing carried out by the skipped teacher layers. We present comprehensive experiments with supervised and self-supervised transformers as teachers, on five data sets from various domains, including natural, medical and satellite images. The empirical results confirm the superiority of our approach over competitive baselines. Moreover, the ablation results demonstrate the usefulness of each component of the proposed pipeline.
翻訳日:2024-04-16 14:28:37 公開日:2024-04-14
# トラッピングイオンの測定による加熱

Measurement-Induced Heating of Trapped Ions ( http://arxiv.org/abs/2404.09327v1 )

ライセンス: Link先を確認
A. J. Rasmusson, Ilyoung Jung, Frank Schroer, Antonis Kyprianidis, Philip Richerme, (参考訳) 内部量子ビット状態の測定中に捕捉された原子イオンの加熱を実験的に検討した。 測定中、イオンは2つの基底状態の1つに投影され、状態依存蛍光によって識別される。 蛍光状態のイオンは、異常なイオン加熱速度より30ドル速い$\dot{\bar{n}}\sim 2\times 10^4$ Quanta/sで急速に散乱し、熱を発散する。 本稿では,実験結果を正確に再現し,連続的および離散的なソースに対してイオン加熱を統一的に記述する量子軌道に基づくフレームワークを提案する。

We experimentally study the heating of trapped atomic ions during measurement of their internal qubit states. During measurement, ions are projected into one of two basis states and discriminated by their state-dependent fluorescence. We observe that ions in the fluorescing state rapidly scatter photons and heat at a rate of $\dot{\bar{n}}\sim 2\times 10^4$ quanta/s, which is $\sim 30$ times faster than the anomalous ion heating rate. We introduce a quantum trajectory-based framework that accurately reproduces the experimental results and provides a unified description of ion heating for both continuous and discrete sources.
翻訳日:2024-04-16 14:28:37 公開日:2024-04-14
# 大規模言語モデルは人間と同じくらい説得力があるが、なぜ?LLM論の認知的努力と道徳的感情言語について

Large Language Models are as persuasive as humans, but why? About the cognitive effort and moral-emotional language of LLM arguments ( http://arxiv.org/abs/2404.09329v1 )

ライセンス: Link先を確認
Carlos Carrasco-Farre, (参考訳) 大型言語モデル(LLM)はすでに人間と同じくらい説得力がある。 しかし、その理由についてはほとんど分かっていない。 本稿では, LLMの説得戦略について, 人為的議論と比較し検討する。 実験における1,251人の参加者のデータセットを用いて、認知的努力(語彙的・文法的複雑さ)と道徳的感情言語(感情的・道徳的分析)を用いて、LLM生成・人為的議論の説得戦略を分析した。 研究によると、LLMは高い認知力を必要とする議論を生み出し、人間よりも複雑な文法構造と語彙構造を示す。 加えて、LLMは道徳言語に深く関わり、ポジティブとネガティブの両方の道徳的基盤を人間よりも頻繁に利用している。 前回の研究では、LLMとヒトの感情内容に有意な差は見られなかった。 これらの知見はAIと説得についての談話に寄与し、デジタル説得のためのコミュニケーション戦略を通じて情報整合性を高め、弱体化させるLLMの2つの可能性を強調している。

Large Language Models (LLMs) are already as persuasive as humans. However, we know very little about why. This paper investigates the persuasion strategies of LLMs, comparing them with human-generated arguments. Using a dataset of 1,251 participants in an experiment, we analyze the persuaion strategies of LLM-generated and human-generated arguments using measures of cognitive effort (lexical and grammatical complexity) and moral-emotional language (sentiment and moral analysis). The study reveals that LLMs produce arguments that require higher cognitive effort, exhibiting more complex grammatical and lexical structures than human counterparts. Additionally, LLMs demonstrate a significant propensity to engage more deeply with moral language, utilizing both positive and negative moral foundations more frequently than humans. In contrast with previous research, no significant difference was found in the emotional content produced by LLMs and humans. These findings contribute to the discourse on AI and persuasion, highlighting the dual potential of LLMs to both enhance and undermine informational integrity through communication strategies for digital persuasion.
翻訳日:2024-04-16 14:28:37 公開日:2024-04-14
# SNN4Agents: 自律エージェントのためのエネルギー効率の良いスパイクニューラルネットワーク構築のためのフレームワーク

SNN4Agents: A Framework for Developing Energy-Efficient Embodied Spiking Neural Networks for Autonomous Agents ( http://arxiv.org/abs/2404.09331v1 )

ライセンス: Link先を確認
Rachmad Vidya Wicaksana Putra, Alberto Marchisio, Muhammad Shafique, (参考訳) 近年、自律型地上車両(AGVs)、無人航空車両(UAVs)、移動ロボットなどの自律型エージェントが、多様なタスクの解決において、人間の生産性を効果的に向上させることが示されている。 しかしながら、これらのエージェントは一般的に携帯型電池で駆動されるため、長い寿命で運用するには非常に低電力/エネルギー消費を必要とする。 この課題を解決するために、バイオインスパイアされたスパイキングニューラルネットワーク(SNN)は、イベントベースのカメラやデータ変換前処理からのスパイクを使用して、スパース計算を効率的に行う、有望なソリューションとして、ニューロモルフィックコンピューティングが登場した。 しかしながら、自律エージェントのためのSNNデプロイメントの研究はまだ初期段階にある。 したがって、自律エージェントのための効率的なSNNデプロイメントを実現するための最適化段階は、体系的に定義されていない。 そこで本研究では,自律エージェントアプリケーションを対象としたエネルギー効率のよいSNNを設計するための最適化手法からなる,SNN4Agentsと呼ばれる新しいフレームワークを提案する。 我々のSNN4Agentsは、ウェイト量子化、タイムステップ削減、アテンションウインドウ削減を利用して、エネルギー効率を共同で改善し、メモリフットプリントを削減し、処理遅延を最適化し、高精度を維持している。 本評価では,イベントベースカー認識の使用事例を調査し,精度,レイテンシ,メモリ,エネルギー消費のトレードオフについて検討する。 実験の結果,提案フレームワークは,NAARSデータセットの最先端処理と比較して,68.75%のメモリ節約,3.58倍のスピードアップ,4.03倍のエネルギー効率向上を達成でき,自律エージェントのエネルギー効率の高いSNN配置を実現することができることがわかった。

Recent trends have shown that autonomous agents, such as Autonomous Ground Vehicles (AGVs), Unmanned Aerial Vehicles (UAVs), and mobile robots, effectively improve human productivity in solving diverse tasks. However, since these agents are typically powered by portable batteries, they require extremely low power/energy consumption to operate in a long lifespan. To solve this challenge, neuromorphic computing has emerged as a promising solution, where bio-inspired Spiking Neural Networks (SNNs) use spikes from event-based cameras or data conversion pre-processing to perform sparse computations efficiently. However, the studies of SNN deployments for autonomous agents are still at an early stage. Hence, the optimization stages for enabling efficient embodied SNN deployments for autonomous agents have not been defined systematically. Toward this, we propose a novel framework called SNN4Agents that consists of a set of optimization techniques for designing energy-efficient embodied SNNs targeting autonomous agent applications. Our SNN4Agents employs weight quantization, timestep reduction, and attention window reduction to jointly improve the energy efficiency, reduce the memory footprint, optimize the processing latency, while maintaining high accuracy. In the evaluation, we investigate use cases of event-based car recognition, and explore the trade-offs among accuracy, latency, memory, and energy consumption. The experimental results show that our proposed framework can maintain high accuracy (i.e., 84.12% accuracy) with 68.75% memory saving, 3.58x speed-up, and 4.03x energy efficiency improvement as compared to the state-of-the-art work for NCARS dataset, thereby enabling energy-efficient embodied SNN deployments for autonomous agents.
翻訳日:2024-04-16 14:28:37 公開日:2024-04-14
# 大規模言語モデル推論の高速化のための自己選択型注意スパン

Self-Selected Attention Span for Accelerating Large Language Model Inference ( http://arxiv.org/abs/2404.09336v1 )

ライセンス: Link先を確認
Tian Jin, Wanzin Yazar, Zifei Xu, Sayeh Sharify, Xin Wang, (参考訳) 大規模言語モデル(LLM)は困難なタスクを解くことができる。 しかし、最新のGPU上での推論計算は、新しいトークンを生成する際に従わなければならないトークンの数が増えるため、非常に非効率である。 この非効率性に対処するために、LLMの問題解決能力を活用して、推論時間効率を最適化する。 私たちは2つの特定のタスクを実演します。 (a)複雑な算術表現を評価して (b)ニュース記事の要約 両方のタスクに対して、LLMを微調整するカスタムデータセットを作成します。 まず、LCMが評価タスクや要約タスクを解くことを学ばせるようにし、次に、タスクの各ステップに必要な最小限の注意範囲を特定するように訓練する。 その結果、微調整されたモデルでは、自己識別された最小限の注意範囲を、推論中に飛行中のまばらな注意マスクに変換することができる。 我々は、参加するコンテキストの削減を生かしたカスタムCUDAカーネルを開発する。 このカスタムCUDAカーネルを使用することで,LLM推論のスループットが28%向上することが実証された。 我々の研究は、LLMを自己選択する訓練が、現実のタスクを解く際の自己回帰推論を高速化することを示すエンドツーエンドのデモンストレーションを提示する。

Large language models (LLMs) can solve challenging tasks. However, their inference computation on modern GPUs is highly inefficient due to the increasing number of tokens they must attend to as they generate new ones. To address this inefficiency, we capitalize on LLMs' problem-solving capabilities to optimize their own inference-time efficiency. We demonstrate with two specific tasks: (a) evaluating complex arithmetic expressions and (b) summarizing news articles. For both tasks, we create custom datasets to fine-tune an LLM. The goal of fine-tuning is twofold: first, to make the LLM learn to solve the evaluation or summarization task, and second, to train it to identify the minimal attention spans required for each step of the task. As a result, the fine-tuned model is able to convert these self-identified minimal attention spans into sparse attention masks on-the-fly during inference. We develop a custom CUDA kernel to take advantage of the reduced context to attend to. We demonstrate that using this custom CUDA kernel improves the throughput of LLM inference by 28%. Our work presents an end-to-end demonstration showing that training LLMs to self-select their attention spans speeds up autoregressive inference in solving real-world tasks.
翻訳日:2024-04-16 14:28:37 公開日:2024-04-14
# エントロピーガイド付き外挿デコードによる大規模言語モデルのファクタリティ向上

Entropy Guided Extrapolative Decoding to Improve Factuality in Large Language Models ( http://arxiv.org/abs/2404.09338v1 )

ライセンス: Link先を確認
Souvik Das, Lifeng Jin, Linfeng Song, Haitao Mi, Baolin Peng, Dong Yu, (参考訳) 大きな言語モデル(LLM)は印象的な自然言語能力を示すが、幻覚に苦しむ。 最近の研究は、LLMの事実知識の階層的表現を活用し、予測された分布を推論時に操作することにより、推論中の事実性を改善するための復号化技術に重点を置いている。 現在の最先端技術は、モデルフォワードプロシージャ内の事実性に関連する情報を活用するために、下層から最終層への早期出力分布を対比することにより、精巧な復号化にアプローチしている。 しかし、このような手法はしばしば最終層が最も信頼性が高く、下位層の選択プロセスがそれに依存すると仮定する。 そこで本研究では, より正確なコントラスト化のために, 臨界トークン確率を最終層を超えて外挿する手法を提案する。 また,最終層から選択過程を分離し,層ワイドエントロピー誘導下層選択を採用する。 実験では、複数の異なるデータセットの最先端を大きなマージンで超越した、強力なパフォーマンスを示す。 分析は、異なる選択戦略に対応する異なる種類のプロンプトを示す。

Large language models (LLMs) exhibit impressive natural language capabilities but suffer from hallucination -- generating content ungrounded in the realities of training data. Recent work has focused on decoding techniques to improve factuality during inference by leveraging LLMs' hierarchical representation of factual knowledge, manipulating the predicted distributions at inference time. Current state-of-the-art approaches refine decoding by contrasting early-exit distributions from a lower layer with the final layer to exploit information related to factuality within the model forward procedure. However, such methods often assume the final layer is the most reliable and the lower layer selection process depends on it. In this work, we first propose extrapolation of critical token probabilities beyond the last layer for more accurate contrasting. We additionally employ layer-wise entropy-guided lower layer selection, decoupling the selection process from the final layer. Experiments demonstrate strong performance - surpassing state-of-the-art on multiple different datasets by large margins. Analyses show different kinds of prompts respond to different selection strategies.
翻訳日:2024-04-16 14:28:37 公開日:2024-04-14
# LLMの継続的な学習のための実践的ツール利用に向けて

Towards Practical Tool Usage for Continually Learning LLMs ( http://arxiv.org/abs/2404.09339v1 )

ライセンス: Link先を確認
Jerry Huang, Prasanna Parthasarathi, Mehdi Rezagholizadeh, Sarath Chandar, (参考訳) 大規模言語モデル(LLM)は、言語ベースのタスクを解くための固有のスキルを示している。 しかし洞察は、情報やタスク解決のスキルが時代遅れになるような調整ができないことを示唆している。 ツールの使用は、LLMがインターフェイスを通じてアクセス可能なシステムに作業をオフロードするのに役立つが、それを使用するLCMは、新しいツールが出現し、既存のツールが変更される可能性があるため、長期間使用するためには、非定常環境に適応する必要がある。 それにもかかわらず、ツールには専門知識が不足しているため、タスクの解決にパラメトリックメモリを必要とせず、事前に定義されたツールをいつ適用すべきかを学ぶことに集中するため、継続学習(CL)に適していると仮定する。 これを検証するために,我々は,既存のNLPタスクを集約して,より現実的なテストシナリオを形成することによって,合成ベンチマークを開発し,それに従う。 ツールの使用によらず、継続学習技術は、ツールLLMをより高速に適応できると同時に、少ないことを忘れて、継続学習者としての可能性を強調します。

Large language models (LLMs) show an innate skill for solving language based tasks. But insights have suggested an inability to adjust for information or task-solving skills becoming outdated, as their knowledge, stored directly within their parameters, remains static in time. Tool use helps by offloading work to systems that the LLM can access through an interface, but LLMs that use them still must adapt to nonstationary environments for prolonged use, as new tools can emerge and existing tools can change. Nevertheless, tools require less specialized knowledge, therefore we hypothesize they are better suited for continual learning (CL) as they rely less on parametric memory for solving tasks and instead focus on learning when to apply pre-defined tools. To verify this, we develop a synthetic benchmark and follow this by aggregating existing NLP tasks to form a more realistic testing scenario. While we demonstrate scaling model size is not a solution, regardless of tool usage, continual learning techniques can enable tool LLMs to both adapt faster while forgetting less, highlighting their potential as continual learners.
翻訳日:2024-04-16 14:28:37 公開日:2024-04-14
# フェースボイス・アソシエーションと多言語環境(FAME) : 2024年度評価計画

Face-voice Association in Multilingual Environments (FAME) Challenge 2024 Evaluation Plan ( http://arxiv.org/abs/2404.09342v1 )

ライセンス: Link先を確認
Muhammad Saad Saeed, Shah Nawaz, Muhammad Salman Tahir, Rohan Kumar Das, Muhammad Zaigham Zaheer, Marta Moscati, Markus Schedl, Muhammad Haris Khan, Karthik Nandakumar, Muhammad Haroon Yousaf, (参考訳) 技術の進歩により、様々な現実世界のアプリケーションにマルチモーダルシステムが使われるようになった。 その中でも、オーディオ視覚システムは広く使われているマルチモーダルシステムの一つである。 近年,人の顔と声の関連付けが注目されている。 フェース・ボイス・アソシエーション・イン・マルチ言語環境(FAME)チャレンジ2024は,多言語シナリオのユニークな条件下でのフェース・ボイス・アソシエーションの探求に焦点を当てている。 この状態は、世界の人口の半分がバイリンガルであり、ほとんどの人は多言語シナリオの下でコミュニケーションしているという事実から着想を得ている。 この課題は、マルチ言語環境における顔声関連を探索するために、Multilingual Audio-Visual (MAV-Celeb) というデータセットを使用する。 本報告では、FAME Challengeの課題、データセット、ベースライン、タスクの詳細について説明する。

The advancements of technology have led to the use of multimodal systems in various real-world applications. Among them, the audio-visual systems are one of the widely used multimodal systems. In the recent years, associating face and voice of a person has gained attention due to presence of unique correlation between them. The Face-voice Association in Multilingual Environments (FAME) Challenge 2024 focuses on exploring face-voice association under a unique condition of multilingual scenario. This condition is inspired from the fact that half of the world's population is bilingual and most often people communicate under multilingual scenario. The challenge uses a dataset namely, Multilingual Audio-Visual (MAV-Celeb) for exploring face-voice association in multilingual environments. This report provides the details of the challenge, dataset, baselines and task details for the FAME Challenge.
翻訳日:2024-04-16 14:28:37 公開日:2024-04-14
# スケーリング学習による対人ロバスト性限界と人的アライメント研究

Adversarial Robustness Limits via Scaling-Law and Human-Alignment Studies ( http://arxiv.org/abs/2404.09349v1 )

ライセンス: Link先を確認
Brian R. Bartoldson, James Diffenderfer, Konstantinos Parasyris, Bhavya Kailkhura, (参考訳) 本稿では、画像分類器を知覚不能な摂動に対して堅牢にするという、単純で長期に渡り、未解決の問題を再考する。 CIFAR10を例にすると、SOTAのクリーン精度は約100ドル%だが、$\ell_{\infty}$-normの有界摂動に対するSOTAの堅牢性は70ドル%を超える。 このギャップを理解するために, モデルサイズ, データセットサイズ, 合成データ品質が, 対戦型トレーニングのための最初のスケーリング法則を開発することによって, 堅牢性にどのように影響するかを分析する。 我々のスケーリング法則は、先行技術における非効率性を明らかにし、現場を前進させるための実用的なフィードバックを提供する。 例えば、SOTA法は計算最適設定から特に分岐し、過剰な計算を頑健さのレベルに用いた。 計算効率のセットアップを活用することで、以前のSOTAよりも20ドル%(70ドル%)少ないトレーニング(推論)FLOPを達成できます。 私たちは、AutoAttackの精度(+3$%のゲイン)を7,4$%達成して、さまざまな計算効率のモデルをトレーニングしました。 しかし、我々のスケーリング法則はまた、ロバスト性は徐々に成長し、90ドル%の高原を予測している: スケーリングによって新しいSOTAを軽視することは非現実的であり、完全なロバスト性は不可能である。 この予測限界をよりよく理解するために、私たちはAutoAttackデータに対して、私たちの最高のパフォーマンスモデルを騙した小規模の人間評価を実行します。 そこで,本研究では,90ドル近くで人為的性能が低下すると推定し,その原因は,元ラベルと一致しない不正な画像の生成に$\ell_{\infty}$-constrained attackが関与していることが示唆された。 道路封鎖の限界を特徴として、今後の研究に期待できる道筋を概説する。

This paper revisits the simple, long-studied, yet still unsolved problem of making image classifiers robust to imperceptible perturbations. Taking CIFAR10 as an example, SOTA clean accuracy is about $100$%, but SOTA robustness to $\ell_{\infty}$-norm bounded perturbations barely exceeds $70$%. To understand this gap, we analyze how model size, dataset size, and synthetic data quality affect robustness by developing the first scaling laws for adversarial training. Our scaling laws reveal inefficiencies in prior art and provide actionable feedback to advance the field. For instance, we discovered that SOTA methods diverge notably from compute-optimal setups, using excess compute for their level of robustness. Leveraging a compute-efficient setup, we surpass the prior SOTA with $20$% ($70$%) fewer training (inference) FLOPs. We trained various compute-efficient models, with our best achieving $74$% AutoAttack accuracy ($+3$% gain). However, our scaling laws also predict robustness slowly grows then plateaus at $90$%: dwarfing our new SOTA by scaling is impractical, and perfect robustness is impossible. To better understand this predicted limit, we carry out a small-scale human evaluation on the AutoAttack data that fools our top-performing model. Concerningly, we estimate that human performance also plateaus near $90$%, which we show to be attributable to $\ell_{\infty}$-constrained attacks' generation of invalid images not consistent with their original labels. Having characterized limiting roadblocks, we outline promising paths for future research.
翻訳日:2024-04-16 14:28:37 公開日:2024-04-14
# 機械学習によるガイア天文外惑星軌道の同定

Machine learning-based identification of Gaia astrometric exoplanet orbits ( http://arxiv.org/abs/2404.09350v1 )

ライセンス: Link先を確認
Johannes Sahlmann, Pablo Gómez, (参考訳) 第3次ガイアデータリリース(DR3)は、太陽の500pcの範囲内に位置する2体の天体の軌道解の$\sim$170 000を含む。 これらの系における成分質量の決定、特に太陽系外惑星を公転する恒星は、通常、アストロメトリー、eg分光、放射速度に加えて、補完的な観測を取り入れることに重点を置いている。 この方法では、外惑星、ブラウンドワーフ、恒星、ブラックホールを含むいくつかのDR3二体系が確認されている。 我々は、外惑星とブラウンドワーフコンパニオンの最適候補を特定することを目的として、DR3軌道解のみを用いる機械学習アプローチを開発した。 文献で確認されたサブステア・コンパニオンに基づいて, 半教師付き異常検出法と極度の勾配上昇とランダム森林分類器を併用して, 非特異源の個体群における低質量流出率を推定する。 提案手法の妥当性について検討し,22の候補のうち4つの候補が太陽系外惑星候補であり,さらに5つの候補が超大質量のブラウン小星か超低質量の質量星であることを示す。 1つの初期の太陽系外惑星候補を含む3つの候補は、より長い周期の連星運動が短周期の軌道に偏っている偽陽性の解に対応する。 優先的なフォローアップのために,ブラウンドワーフ仲間の候補者9名に注目する。 太陽に似た恒星 G 15-6 の周囲の候補の1つは、外部の放射速度データを用いて、真の茶色の小星として確認できる。 この新しいアプローチは、ガイアの天文軌道における星下伴星の従来の同定方法の強力な補完である。 特にガイア DR4 の文脈と期待される太陽系外惑星の発見に関係している。

The third Gaia data release (DR3) contains $\sim$170 000 astrometric orbit solutions of two-body systems located within $\sim$500 pc of the Sun. Determining component masses in these systems, in particular of stars hosting exoplanets, usually hinges on incorporating complementary observations in addition to the astrometry, e.g. spectroscopy and radial velocities. Several DR3 two-body systems with exoplanet, brown-dwarf, stellar, and black-hole components have been confirmed in this way. We developed an alternative machine learning approach that uses only the DR3 orbital solutions with the aim of identifying the best candidates for exoplanets and brown-dwarf companions. Based on confirmed substellar companions in the literature, we use semi-supervised anomaly detection methods in combination with extreme gradient boosting and random forest classifiers to determine likely low-mass outliers in the population of non-single sources. We employ and study feature importance to investigate the method's plausibility and produced a list of 22 best candidates of which four are exoplanet candidates and another five are either very-massive brown dwarfs or very-low mass stars. Three candidates, including one initial exoplanet candidate, correspond to false-positive solutions where longer-period binary star motion was fitted with a biased shorter-period orbit. We highlight nine candidates with brown-dwarf companions for preferential follow-up. One candidate companion around the Sun-like star G 15-6 could be confirmed as a genuine brown dwarf using external radial-velocity data. This new approach is a powerful complement to the traditional identification methods for substellar companions among Gaia astrometric orbits. It is particularly relevant in the context of Gaia DR4 and its expected exoplanet discovery yield.
翻訳日:2024-04-16 14:18:53 公開日:2024-04-14
# 将来のマルウェア予測による学習によるコンセプトドリフトの防止

Counteracting Concept Drift by Learning with Future Malware Predictions ( http://arxiv.org/abs/2404.09352v1 )

ライセンス: Link先を確認
Branislav Bosansky, Lada Hospodkova, Michal Najman, Maria Rigaki, Elnaz Babayeva, Viliam Lisy, (参考訳) デプロイされたマルウェア検出分類器の精度は、データ分散の変化と、トレーニングとテストデータの差異の増加により、時間の経過とともに低下する。 この現象は概念ドリフトとして知られている。 コンセプトドリフトは、一般的に様々な理由で引き起こされるが、マルウェアの作者が検出を避けるという明確な意図で、新しい悪意のあるファイルを生成する。 意図の存在は、そのような将来のサンプルを予測する可能性を開く。 その結果、予測サンプルをトレーニングデータに含めることで、新しいテストデータに対する分類器の精度が向上する。 本研究では,(1)対人訓練と(2)GAN(Generative Adversarial Network)の2つの手法を比較した。 最初の方法は、トレーニングデータの一部として使用される分類器に対する逆例を明示的に求めている。 同様に、GANは合成トレーニングデータも生成する。 トレーニングデータの異なる期間におけるデータ分散の変化を学習するために、GANを使用して、これらの変更を適用して、テストデータに含まれる可能性のあるサンプルを生成します。 本研究では,これらの予測手法を,(1)Ember公開データセットと(2)Avastに受信したファイルの内部データセットの2つの異なるデータセットで比較する。 敵の訓練はより堅牢な分類器を生成するが、この手法は将来のマルウェアの予測には適さないことを示す。 これは、異なるドメイン(自然言語処理やスパム検出を含む)で以前報告された肯定的な結果とは対照的である。 一方,今後のマルウェアの予測にはGANが有効であることを示す。 本研究では, 時間とともにデータ分布に大きな変化を示すマルウェア群について検討し, 実験結果から, GANに基づく予測により, 未確認データに対する分類器の精度が著しく向上することを確認した。

The accuracy of deployed malware-detection classifiers degrades over time due to changes in data distributions and increasing discrepancies between training and testing data. This phenomenon is known as the concept drift. While the concept drift can be caused by various reasons in general, new malicious files are created by malware authors with a clear intention of avoiding detection. The existence of the intention opens a possibility for predicting such future samples. Including predicted samples in training data should consequently increase the accuracy of the classifiers on new testing data. We compare two methods for predicting future samples: (1) adversarial training and (2) generative adversarial networks (GANs). The first method explicitly seeks for adversarial examples against the classifier that are then used as a part of training data. Similarly, GANs also generate synthetic training data. We use GANs to learn changes in data distributions within different time periods of training data and then apply these changes to generate samples that could be in testing data. We compare these prediction methods on two different datasets: (1) Ember public dataset and (2) the internal dataset of files incoming to Avast. We show that while adversarial training yields more robust classifiers, this method is not a good predictor of future malware in general. This is in contrast with previously reported positive results in different domains (including natural language processing and spam detection). On the other hand, we show that GANs can be successfully used as predictors of future malware. We specifically examine malware families that exhibit significant changes in their data distributions over time and the experimental results confirm that GAN-based predictions can significantly improve the accuracy of the classifier on new, previously unseen data.
翻訳日:2024-04-16 14:18:53 公開日:2024-04-14
# 依存関係試験と微生物関連研究への応用のための統合統合フレームワーク

A Unified Combination Framework for Dependent Tests with Applications to Microbiome Association Studies ( http://arxiv.org/abs/2404.09353v1 )

ライセンス: Link先を確認
Xiufan Yu, Linjun Zhang, Arun Srinivasan, Min-ge Xie, Lingzhou Xue, (参考訳) 一般設定下で依存型テストを組み合わせるための新しいメタ分析フレームワークを導入し,同じデータセットから計算された様々なマイクロバイオーム関連試験の合成に利用した。 我々の開発は、$p$-valuesを集約する古典的メタ分析法と、信頼性分布を結合するより最近の一般的な方法に基づいているが、依存するテストを扱うために一般化されている。 提案手法は厳密な統計的保証を保証し、包括的研究を行い、既存の様々な組み合わせ法と比較する。 特に,本論文ではバニラ・コーシー・コンビネーション(vanilla Cauchy combination)と呼ばれる,依存テストに広く用いられているコーシー・コンビネーション法が,我々のフレームワークにおいて特別なケースとみなせることを示す。 さらに、提案フレームワークは、バニラコーシー結合の下の分布仮定が違反した場合に、この問題に対処する方法を提供する。 以上の結果から,To-be-combined 成分間の依存性を無視すると,大きな歪み現象が生じる可能性が示唆された。 バニラコーシー結合法を含む既存の$p$-valueの組み合わせ手法と比較して,提案した組み合わせフレームワークは依存性を正確に処理し,精度の高いサイズと高機能なテストを構築するために効率的に情報を利用することができる。 開発はMicrobiome Association Studiesに適用され、同じデータセットを使用して複数の既存のテストから情報を収集します。 組み合わせテストは、幅広い代替空間にわたる個々のテストの強度を利用し、%は幅広い代替空間におけるテスト能力の大幅な向上に寄与し、より効率的で有意義なバイオーム関連の発見を可能にした。

We introduce a novel meta-analysis framework to combine dependent tests under a general setting, and utilize it to synthesize various microbiome association tests that are calculated from the same dataset. Our development builds upon the classical meta-analysis methods of aggregating $p$-values and also a more recent general method of combining confidence distributions, but makes generalizations to handle dependent tests. The proposed framework ensures rigorous statistical guarantees, and we provide a comprehensive study and compare it with various existing dependent combination methods. Notably, we demonstrate that the widely used Cauchy combination method for dependent tests, referred to as the vanilla Cauchy combination in this article, can be viewed as a special case within our framework. Moreover, the proposed framework provides a way to address the problem when the distributional assumptions underlying the vanilla Cauchy combination are violated. Our numerical results demonstrate that ignoring the dependence among the to-be-combined components may lead to a severe size distortion phenomenon. Compared to the existing $p$-value combination methods, including the vanilla Cauchy combination method, the proposed combination framework can handle the dependence accurately and utilizes the information efficiently to construct tests with accurate size and enhanced power. The development is applied to Microbiome Association Studies, where we aggregate information from multiple existing tests using the same dataset. The combined tests harness the strengths of each individual test across a wide range of alternative spaces, %resulting in a significant enhancement of testing power across a wide range of alternative spaces, enabling more efficient and meaningful discoveries of vital microbiome associations.
翻訳日:2024-04-16 14:18:53 公開日:2024-04-14
# LLeMpower: 大規模言語モデルの制御とアクセスにおける差異を理解する

LLeMpower: Understanding Disparities in the Control and Access of Large Language Models ( http://arxiv.org/abs/2404.09356v1 )

ライセンス: Link先を確認
Vishwas Sathish, Hannah Lin, Aditya K Kamath, Anish Nyayachavadi, (参考訳) LLM(Large Language Models)は、蒸気エンジンやインターネットのような新しい機会を生み出すために人間のスキルを増強する強力な技術である。 しかし、LSMには高いコストが伴う。 トレーニングとサービスには、かなりのコンピューティングリソースとエネルギーが必要です。 規制とアクセスの不平等は、少数の企業の所有と権限の集中につながった。 本研究では,様々なLSMのトレーニングと推論の要件を収集する。 そして、これらのモデルの開発と提供という文脈において、国家や組織の経済的強みを分析します。 さらに、世界中の個人がこの新興技術にアクセスして利用できるかどうかも検討しています。 これらの技術が驚くほど少数のエンティティによって独占されていることを示すために、これらのグループを比較して比較する。 分析の結果の倫理的含意について質的研究を行い、LCMアクセスにおける株式に対する今後の方向性について論じる。

Large Language Models (LLMs) are a powerful technology that augment human skill to create new opportunities, akin to the development of steam engines and the internet. However, LLMs come with a high cost. They require significant computing resources and energy to train and serve. Inequity in their control and access has led to concentration of ownership and power to a small collection of corporations. In our study, we collect training and inference requirements for various LLMs. We then analyze the economic strengths of nations and organizations in the context of developing and serving these models. Additionally, we also look at whether individuals around the world can access and use this emerging technology. We compare and contrast these groups to show that these technologies are monopolized by a surprisingly few entities. We conclude with a qualitative study on the ethical implications of our findings and discuss future directions towards equity in LLM access.
翻訳日:2024-04-16 14:18:53 公開日:2024-04-14
# Service Weaver: クラウドネイティブシステムのプロミージングディレクタ?

Service Weaver: A Promising Direction for Cloud-native Systems? ( http://arxiv.org/abs/2404.09357v1 )

ライセンス: Link先を確認
Jacoby Johnson, Subash Kharel, Alan Mannamplackal, Amr S. Abdelfattah, Tomas Cerny, (参考訳) クラウドネイティブとマイクロサービスのアーキテクチャは、開発世界を嵐によって乗っ取りました。 信じられないほどスケーラブルでレジリエントですが、マイクロサービスアーキテクチャは、ビルドとメンテナンスのオーバーヘッドを増大させるコストも伴います。 GoogleのService Weaverは、エージェントのようなコンポーネントで構成された単一のモジュールバイナリの概念を導入し、個々のサービスというマイクロサービスアーキテクチャの概念を抽象化することによって、クラウドネイティブシステムの実装に関連する複雑さを単純化することを目的としている。 Service Weaverは、クラウドネイティブアプリケーションの開発を合理化し、従来のクラウドネイティブシステムのほとんどすべての重要な側面に対処する、有望なアプローチを提供する一方で、システム全体の機能に影響を及ぼす既存のトレードオフが存在する。 特に、Service Weaverの素直な実装とコンポーネントのデプロイは、複雑なマイクロサービスアーキテクチャを構築するオーバーヘッドを軽減する。 しかしながら、別のコードベース、ルーティングメカニズム、レジリエンス、セキュリティなど、特定の機能が現在、フレームワークに欠けていることを認識しておくことが重要です。

Cloud-native and microservice architectures have taken over the development world by storm. While being incredibly scalable and resilient, microservice architectures also come at the cost of increased overhead to build and maintain. Google's Service Weaver aims to simplify the complexities associated with implementing cloud-native systems by introducing the concept of a single modular binary composed of agent-like components, thereby abstracting away the microservice architecture notion of individual services. While Service Weaver presents a promising approach to streamline the development of cloud-native applications and addresses nearly all significant aspects of conventional cloud-native systems, there are existing tradeoffs affecting the overall functionality of the system. Notably, Service Weaver's straightforward implementation and deployment of components alleviate the overhead of constructing a complex microservice architecture. However, it is important to acknowledge that certain features, including separate code bases, routing mechanisms, resiliency, and security, are presently lacking in the framework.
翻訳日:2024-04-16 14:18:53 公開日:2024-04-14
# 骨格運動自動評価におけるフィードバック生成の探索 : 概観

Exploring Feedback Generation in Automated Skeletal Movement Assessment: A Comprehensive Overview ( http://arxiv.org/abs/2404.09359v1 )

ライセンス: Link先を確認
Tal Hakim, (参考訳) 近年,スケルトンビデオからの運動評価への機械学習の応用が注目されている。 この進歩により、在宅でのリハビリテーションがより容易になり、2Dや3Dビデオから人間のポーズを検知するための安価な機器で操作できる運動評価アルゴリズムが利用できるようになった。 自動評価タスクの主目的は運動を評価することであるが、重要な運動課題を強調したフィードバックの自動生成は、リハビリテーションプロセスを大幅に強化し、加速する可能性がある。 本研究では, 生成可能なフィードバックの種類を説明し, 自動フィードバック生成のための既存のソリューションをレビューし, 今後の研究方向性について議論する。 我々の知る限り、骨格運動評価におけるフィードバック生成の総合的なレビューはこれが初めてである。

The application of machine-learning solutions to movement assessment from skeleton videos has attracted significant research attention in recent years. This advancement has made rehabilitation at home more accessible, utilizing movement assessment algorithms that can operate on affordable equipment for human pose detection from 2D or 3D videos. While the primary objective of automatic assessment tasks is to score movements, the automatic generation of feedback highlighting key movement issues has the potential to significantly enhance and accelerate the rehabilitation process. In this study, we explain the types of feedback that can be generated, review existing solutions for automatic feedback generation, and discuss future research directions. To our knowledge, this is the first comprehensive review of feedback generation in skeletal movement assessment.
翻訳日:2024-04-16 14:18:53 公開日:2024-04-14
# モーメントに基づくリー群の勾配降下法

Momentum-based gradient descent methods for Lie groups ( http://arxiv.org/abs/2404.09363v1 )

ライセンス: Link先を確認
Cédric M. Campos, David Martín de Diego, José Torrente, (参考訳) Polyak's Heavy Ball (PHB; Polyak, 1964), a.k. Classical Momentum, and Nesterov's Accelerated Gradient (NAG; Nesterov, 1983) は運動量差法による最適化の例である。 後者は前者よりも優れているが、PHBのような手法の非線形空間への一般化は文献で説明されている。 本稿では、古典的運動量法と加速的運動量法との変分1対1対応に基づくリー群最適化のためのNAG様手法の一般化を提案する(Campos et al , 2023)。 数値実験が行なわれている。

Polyak's Heavy Ball (PHB; Polyak, 1964), a.k.a. Classical Momentum, and Nesterov's Accelerated Gradient (NAG; Nesterov, 1983) are well know examples of momentum-descent methods for optimization. While the latter outperforms the former, solely generalizations of PHB-like methods to nonlinear spaces have been described in the literature. We propose here a generalization of NAG-like methods for Lie group optimization based on the variational one-to-one correspondence between classical and accelerated momentum methods (Campos et al., 2023). Numerical experiments are shown.
翻訳日:2024-04-16 14:18:53 公開日:2024-04-14
# 多関係グラフの階層的注意モデル

Hierarchical Attention Models for Multi-Relational Graphs ( http://arxiv.org/abs/2404.09365v1 )

ライセンス: Link先を確認
Roshni G. Iyer, Wei Wang, Yizhou Sun, (参考訳) 本稿では,2レベルアテンションに基づくリレーショナルグラフ畳み込みネットワーク(BR-GCN)を提案する。 BR-GCNモデルは,(1)ノードレベルの注意,(2)関係レベルの注意を通じてノードの埋め込みを学習する。 ノードレベルの自己注意層は、関係性のあるノード埋め込みをスパース部分グラフ領域の近傍特徴の重み付け集合を用いて学習するために、関係性内のグラフ相互作用を用いる。 関係レベル自己注意層は関係グラフ間相互作用を用いて関係固有ノード埋め込みの重み付け集約を用いて最終ノード埋め込みを学習する。 BR-GCNのバイレベルアテンション機構は、Transformerベースの乗法的アテンションを自然言語処理(NLP)ドメインから拡張し、グラフアテンションネットワーク(GAT)ベースのアテンションを大規模ヘテロジニアスグラフ(HG)へと拡張する。 ノード分類では、BR-GCNはスタンドアロンモデルとして0.29%から14.95%のベースライン、リンク予測では、自動エンコーダモデルとして0.02%から7.40%のベースラインを上回っている。 また、BR-GCNの関係レベルの注意の質を評価するためにアブレーション研究を行い、グラフ構造の学習が他のグラフニューラルネットワーク(GNN)にどのように移行されるかについて議論した。 BR-GCNの注意機構は, 最先端のGNNと比較して, スケーラブルで, 学習に有効であることを示す。

We present Bi-Level Attention-Based Relational Graph Convolutional Networks (BR-GCN), unique neural network architectures that utilize masked self-attentional layers with relational graph convolutions, to effectively operate on highly multi-relational data. BR-GCN models use bi-level attention to learn node embeddings through (1) node-level attention, and (2) relation-level attention. The node-level self-attentional layers use intra-relational graph interactions to learn relation-specific node embeddings using a weighted aggregation of neighborhood features in a sparse subgraph region. The relation-level self-attentional layers use inter-relational graph interactions to learn the final node embeddings using a weighted aggregation of relation-specific node embeddings. The BR-GCN bi-level attention mechanism extends Transformer-based multiplicative attention from the natural language processing (NLP) domain, and Graph Attention Networks (GAT)-based attention, to large-scale heterogeneous graphs (HGs). On node classification, BR-GCN outperforms baselines from 0.29% to 14.95% as a stand-alone model, and on link prediction, BR-GCN outperforms baselines from 0.02% to 7.40% as an auto-encoder model. We also conduct ablation studies to evaluate the quality of BR-GCN's relation-level attention and discuss how its learning of graph structure may be transferred to enrich other graph neural networks (GNNs). Through various experiments, we show that BR-GCN's attention mechanism is both scalable and more effective in learning compared to state-of-the-art GNNs.
翻訳日:2024-04-16 14:18:53 公開日:2024-04-14
# GPT-4による逆質問生成における温度の役割の理解

Understanding the Role of Temperature in Diverse Question Generation by GPT-4 ( http://arxiv.org/abs/2404.09366v1 )

ライセンス: Link先を確認
Arav Agarwal, Karthik Mittal, Aidan Doyle, Pragnya Sridhar, Zipiao Wan, Jacob Arthur Doughty, Jaromir Savelka, Majd Sakr, (参考訳) 我々は,GPT4生成質問の多様性に及ぼすGPTの温度パラメータの影響について予備的検討を行った。 高い温度値を使用することで、異なる温度が生成した質問の集合間の異なる種類の類似性を露呈し、多様性が著しく向上することがわかった。 また,ブルーム分類の下位レベルを対象とする質問に対して,多様な質問生成が特に困難であることを示す。

We conduct a preliminary study of the effect of GPT's temperature parameter on the diversity of GPT4-generated questions. We find that using higher temperature values leads to significantly higher diversity, with different temperatures exposing different types of similarity between generated sets of questions. We also demonstrate that diverse question generation is especially difficult for questions targeting lower levels of Bloom's Taxonomy.
翻訳日:2024-04-16 14:18:53 公開日:2024-04-14
# データ分割戦略がモデル一般化性に及ぼす影響:形態的セグメンテーションを事例として

The Effect of Data Partitioning Strategy on Model Generalizability: A Case Study of Morphological Segmentation ( http://arxiv.org/abs/2404.09371v1 )

ライセンス: Link先を確認
Zoey Liu, Bonnie J. Dorr, (参考訳) より現実的なモデル評価のためのデータパーティショニング戦略を強化するための最近の取り組みは、明確な最適な選択肢を提供する上で課題に直面している。 本研究はこれらの課題に対処し,言語多様性に関連する形態的セグメンテーションと合成の限界,複数のデータセットと分割の採用,詳細なモデル比較に焦点をあてる。 本研究は,多種多様な形態素系(多義語,融合語,凝集語)を持つ10の言語族にまたがる10の言語・絶滅危惧言語を含む19の言語からのデータと,さまざまなデータ利用度を活用している。 我々は,新しいテストデータだけでなく,様々な規模のトレーニングと評価セットの組み合わせで大規模な実験を行う。 その結果,(1) ランダムスプリットから学習したモデルでは高い数値のスコアが得られ,(2) ランダムスプリットから得られたモデルランキングはより一貫して一般化する傾向にあることがわかった。

Recent work to enhance data partitioning strategies for more realistic model evaluation face challenges in providing a clear optimal choice. This study addresses these challenges, focusing on morphological segmentation and synthesizing limitations related to language diversity, adoption of multiple datasets and splits, and detailed model comparisons. Our study leverages data from 19 languages, including ten indigenous or endangered languages across 10 language families with diverse morphological systems (polysynthetic, fusional, and agglutinative) and different degrees of data availability. We conduct large-scale experimentation with varying sized combinations of training and evaluation sets as well as new test data. Our results show that, when faced with new test data: (1) models trained from random splits are able to achieve higher numerical scores; (2) model rankings derived from random splits tend to generalize more consistently.
翻訳日:2024-04-16 14:18:53 公開日:2024-04-14
# 知的・インタラクティブな筆記アシスタントの知覚パターン

Deceptive Patterns of Intelligent and Interactive Writing Assistants ( http://arxiv.org/abs/2404.09375v1 )

ライセンス: Link先を確認
Karim Benharrak, Tim Zindulka, Daniel Buschek, (参考訳) 大規模言語モデルは、新しいインテリジェントでインタラクティブな書き込みアシスタントの不可欠な部分となっている。 多くはChatGPTのようなチャットボットのようなUIで商業的に提供されており、内部動作に関する情報はほとんど提供されていない。 これにより、この新しいタイプの広汎なシステムは、偽造デザインパターンの潜在的なターゲットとなる。 例えば、そのようなアシスタントは隠れたコストを利用して、ある時点までガイダンスを提供して、残りを見るための料金を求める。 別の例として、望ましくないコンテンツ/編集を、より長い生成または修正されたテキスト片(例えば、表現された意見に影響を与えるために)にこっそり忍び込むことがある。 これらと他の例により、文献からAI記述アシスタントの新しい文脈へ、いくつかの偽りのパターンを概念的に転送する。 私たちのゴールは、認識を高め、そのようなシステムのUIとインタラクション設計が人々とその執筆にどのように影響するかについて、将来の研究を促進することです。

Large Language Models have become an integral part of new intelligent and interactive writing assistants. Many are offered commercially with a chatbot-like UI, such as ChatGPT, and provide little information about their inner workings. This makes this new type of widespread system a potential target for deceptive design patterns. For example, such assistants might exploit hidden costs by providing guidance up until a certain point before asking for a fee to see the rest. As another example, they might sneak unwanted content/edits into longer generated or revised text pieces (e.g. to influence the expressed opinion). With these and other examples, we conceptually transfer several deceptive patterns from the literature to the new context of AI writing assistants. Our goal is to raise awareness and encourage future research into how the UI and interaction design of such systems can impact people and their writing.
翻訳日:2024-04-16 14:18:53 公開日:2024-04-14
# 接触のない手血管生体計測実験のためのオープンソースのモジュラープラットフォーム \textit{sweet}

\textit{sweet} -- An Open Source Modular Platform for Contactless Hand Vascular Biometric Experiments ( http://arxiv.org/abs/2404.09376v1 )

ライセンス: Link先を確認
David Geissbühler, Sushil Bhattacharjee, Ketan Kotwal, Guillaume Clivaz, Sébastien Marcel, (参考訳) 現在のフィンガーベインまたはパームベイン認識システムは、通常、被検体と機器を直接接触する必要がある。 これは衛生が重要な環境において問題となることがある。 本研究は,手の血管バイオメトリックス研究(毛髪,手のひら,指先)やヤシプリントなどの表面特性に使用できる,接触のない血管バイオメトリックスセンサプラットフォームである \sweet を提案する。 マルチスペクトル近赤外線(NIR)、RGBカラー、ステレオビジョン(SV)、フォトメトリックステレオ(PS)など、いくつかの取得モードをサポートしている。 このプラットフォームを使用して、120人の被験者の指、手のひら、手首の血管データからなるデータセットを収集し、このデータの事前処理のための強力な3Dパイプラインを開発する。 次に,FVR(Finger-Vein Recognition)に着目し,生体計測実験を行った。 最後に、ヤシ-ベインとヤシ-プリントバイオメトリックスを組み合わせたマルチモーダルの融合について論じる。 買収ソフトウェア、ハードウェア設計の一部、新しいFVデータセット、そして我々の実験のためのソースコードは、研究目的で公開されています。

Current finger-vein or palm-vein recognition systems usually require direct contact of the subject with the apparatus. This can be problematic in environments where hygiene is of primary importance. In this work we present a contactless vascular biometrics sensor platform named \sweet which can be used for hand vascular biometrics studies (wrist-, palm- and finger-vein) and surface features such as palmprint. It supports several acquisition modalities such as multi-spectral Near-Infrared (NIR), RGB-color, Stereo Vision (SV) and Photometric Stereo (PS). Using this platform we collect a dataset consisting of the fingers, palm and wrist vascular data of 120 subjects and develop a powerful 3D pipeline for the pre-processing of this data. We then present biometric experimental results, focusing on Finger-Vein Recognition (FVR). Finally, we discuss fusion of multiple modalities, such palm-vein combined with palm-print biometrics. The acquisition software, parts of the hardware design, the new FV dataset, as well as source-code for our experiments are publicly available for research purposes.
翻訳日:2024-04-16 14:18:53 公開日:2024-04-14
# カメラを用いた顔写真撮影のための方位条件付き顔テクスチャマッピング

Orientation-conditioned Facial Texture Mapping for Video-based Facial Remote Photoplethysmography Estimation ( http://arxiv.org/abs/2404.09378v1 )

ライセンス: Link先を確認
Sam Cantrill, David Ahmedt-Aristizabal, Lars Petersson, Hanna Suominen, Mohammad Ali Armin, (参考訳) カメラベースのリモート光胸腺撮影(rPPG)は、パルスレート(PR)などの重要な生理的信号の接触のない計測を可能にする。 しかし、動的・非拘束な被写体運動は、映像における顔の外観に顕著なばらつきをもたらし、rPPG信号を正確に抽出するビデオベース手法の能力を欠いている。 本研究では,既存の映像ベース顔rPPG推定手法の動作ロバスト性を改善するために,3次元顔表面を利用して,新しい配向条件の顔テクスチャ映像表現を構築した。 提案手法は、PUREでトレーニングしたPhysNetモデルを用いて、MMPD上でのクロスデータセットテストにおいて、18.2%の性能向上を実現し、設計したビデオ表現の有効性と一般化の利点を強調した。 MMPDにおけるクロスデータセットテストでは, 動的・非拘束な対象運動の存在下においても, 最大29.6%の性能向上が見られた。 3次元顔表面をモデリングすることで、動きの頑健なrPPG推定をモデル化することで、動きを遠ざける利点を強調する。 アブレーション研究により, 設計決定の有効性と, 異なる映像処理工程の影響を検証した。 本研究は3次元顔表面を動的・非拘束な被写体運動に対処するための一般的な戦略として活用する可能性を示した。 コードはhttps://samcantrill.github.io/orientation-uv-rppg/で公開されている。

Camera-based remote photoplethysmography (rPPG) enables contactless measurement of important physiological signals such as pulse rate (PR). However, dynamic and unconstrained subject motion introduces significant variability into the facial appearance in video, confounding the ability of video-based methods to accurately extract the rPPG signal. In this study, we leverage the 3D facial surface to construct a novel orientation-conditioned facial texture video representation which improves the motion robustness of existing video-based facial rPPG estimation methods. Our proposed method achieves a significant 18.2% performance improvement in cross-dataset testing on MMPD over our baseline using the PhysNet model trained on PURE, highlighting the efficacy and generalization benefits of our designed video representation. We demonstrate significant performance improvements of up to 29.6% in all tested motion scenarios in cross-dataset testing on MMPD, even in the presence of dynamic and unconstrained subject motion. Emphasizing the benefits the benefits of disentangling motion through modeling the 3D facial surface for motion robust facial rPPG estimation. We validate the efficacy of our design decisions and the impact of different video processing steps through an ablation study. Our findings illustrate the potential strengths of exploiting the 3D facial surface as a general strategy for addressing dynamic and unconstrained subject motion in videos. The code is available at https://samcantrill.github.io/orientation-uv-rppg/.
翻訳日:2024-04-16 14:18:53 公開日:2024-04-14
# 言語横断的, 文字レベルニューラル条件付きランダムフィールドを用いた低音源名前付きエンティティ認識

Low-Resource Named Entity Recognition with Cross-Lingual, Character-Level Neural Conditional Random Fields ( http://arxiv.org/abs/2404.09383v1 )

ライセンス: Link先を確認
Ryan Cotterell, Kevin Duh, (参考訳) 低リソースのエンティティ認識は、まだNLPでは未解決の問題である。 ほとんどの最先端システムは、高い性能を得るために数万の注釈付き文を必要とする。 しかし、世界のほとんどの言語において、そのような注釈を得ることは不可能である。 本稿では,高リソース言語と低リソース言語の両方で名前付きエンティティを共同で予測するために,文字レベルのニューラルCRFを訓練するトランスファーラーニング手法を提案する。 複数の関連言語の文字表現を学習することで、F1を対数CRFベースラインで最大9.8ポイント改善することができる。

Low-resource named entity recognition is still an open problem in NLP. Most state-of-the-art systems require tens of thousands of annotated sentences in order to obtain high performance. However, for most of the world's languages, it is unfeasible to obtain such annotation. In this paper, we present a transfer learning scheme, whereby we train character-level neural CRFs to predict named entities for both high-resource languages and low resource languages jointly. Learning character representations for multiple related languages allows transfer among the languages, improving F1 by up to 9.8 points over a loglinear CRF baseline.
翻訳日:2024-04-16 14:18:53 公開日:2024-04-14
# Tasks People Prompt: ソフトウェア検証とFalsificationアプローチにおけるLLM下流タスクの分類

Tasks People Prompt: A Taxonomy of LLM Downstream Tasks in Software Verification and Falsification Approaches ( http://arxiv.org/abs/2404.09384v1 )

ライセンス: Link先を確認
Víctor A. Braberman, Flavia Bonomo-Braberman, Yiannis Charalambous, Juan G. Colonna, Lucas C. Cordeiro, Rosiane de Freitas, (参考訳) Promptingは、大規模言語モデル(Brown et al NeurIPS 2020、Wei et al TMLR 2022、Wei et al NeurIPS 2022)の創発的能力を活用する主要なアプローチの1つになっています。 昨年、研究者や実践者たちは、LLMを最大限に活用する方法を探るため、プロンプトで遊んできた。 80の論文を均質に解剖することにより、ソフトウェアテストと検証研究コミュニティがどのようにしてLLM対応ソリューションを抽象的に設計しているかを深く調査する。 より正確には、まず下流タスクがプロンプトベースのソリューションの青写真を伝えるのに適切な概念であるかどうかを検証する。 また、そのようなタスクの数と性質を解法で特定することを目的とする。 このような目的のために、我々は、テスト、ファジィング、デバッグ、脆弱性検出、静的解析、プログラム検証アプローチを含むソフトウェア工学の問題の、かなり多様な範囲で、いくつかのエンジニアリングパターンを特定できる新しいダウンストリームタスク分類を開発する。

Prompting has become one of the main approaches to leverage emergent capabilities of Large Language Models [Brown et al. NeurIPS 2020, Wei et al. TMLR 2022, Wei et al. NeurIPS 2022]. During the last year, researchers and practitioners have been playing with prompts to see how to make the most of LLMs. By homogeneously dissecting 80 papers, we investigate in deep how software testing and verification research communities have been abstractly architecting their LLM-enabled solutions. More precisely, first, we want to validate whether downstream tasks are an adequate concept to convey the blueprint of prompt-based solutions. We also aim at identifying number and nature of such tasks in solutions. For such goal, we develop a novel downstream task taxonomy that enables pinpointing some engineering patterns in a rather varied spectrum of Software Engineering problems that encompasses testing, fuzzing, debugging, vulnerability detection, static analysis and program verification approaches.
翻訳日:2024-04-16 14:18:53 公開日:2024-04-14