このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。
公開日が20240630となっている論文です。
Title | Authors | Abstract | 論文公表日・翻訳日 |
---|---|---|---|
# 多相産業プロセスデータ分析とソフトセンシングの強化のための因果性駆動シーケンスセグメンテーション
Causality-driven Sequence Segmentation for Enhancing Multiphase Industrial Process Data Analysis and Soft Sensing ( http://arxiv.org/abs/2407.05954v1 ) ライセンス: Link先を確認 | Yimeng He, Le Yao, Xinmin Zhang, Xiangyin Kong, Zhihuan Song, | (参考訳) 多相産業プロセスの動的特性は、産業ビッグデータモデリングの分野において重要な課題である。
従来のソフトセンシングモデルはプロセスのダイナミクスをしばしば無視し、相転移のような過渡現象を捉えるのに困難である。
この問題に対処するために,本論文では因果型シーケンスセグメンテーション(CDSS)モデルを紹介する。
このモデルはまず、変数間の因果関係の局所的動的性質を同定する。
その後、相転移中に起こる因果機構の急激なシフトに基づいて、配列を異なる相に分割する。
さらに、因果的類似性距離と安定な類似性距離の両方を含む因果的機構の時間的一貫性を評価するために、新しい計量である類似性距離が設計された。
各相の因果関係は時間因果グラフ(TCG)として表される。
さらに、時間拡張データとTCGの隣接行列を用いて、時間-因果グラフ畳み込みネットワーク(TC-GCN)と呼ばれるソフトセンシングモデルを各位相毎に訓練する。
数値的な例を用いて提案したCDSSモデルの有効性を検証し,CDSSが安定および不安定な多相系列のセグメンテーションにおいて優れた性能を示すことを示す。
特に、他の方法と比較して非定常時系列を分離する際の精度が高い。
また, ペニシリン発酵法により, 提案したCDSSモデルとTC-GCNモデルの有効性を検証した。
実験の結果,CDSSにより発見されたブレークポイントは反応機構とよく一致し,TC-GCNは予測精度に優れていた。
The dynamic characteristics of multiphase industrial processes present significant challenges in the field of industrial big data modeling. Traditional soft sensing models frequently neglect the process dynamics and have difficulty in capturing transient phenomena like phase transitions. To address this issue, this article introduces a causality-driven sequence segmentation (CDSS) model. This model first identifies the local dynamic properties of the causal relationships between variables, which are also referred to as causal mechanisms. It then segments the sequence into different phases based on the sudden shifts in causal mechanisms that occur during phase transitions. Additionally, a novel metric, similarity distance, is designed to evaluate the temporal consistency of causal mechanisms, which includes both causal similarity distance and stable similarity distance. The discovered causal relationships in each phase are represented as a temporal causal graph (TCG). Furthermore, a soft sensing model called temporal-causal graph convolutional network (TC-GCN) is trained for each phase, by using the time-extended data and the adjacency matrix of TCG. The numerical examples are utilized to validate the proposed CDSS model, and the segmentation results demonstrate that CDSS has excellent performance on segmenting both stable and unstable multiphase series. Especially, it has higher accuracy in separating non-stationary time series compared to other methods. The effectiveness of the proposed CDSS model and the TC-GCN model is also verified through a penicillin fermentation process. Experimental results indicate that the breakpoints discovered by CDSS align well with the reaction mechanisms and TC-GCN significantly has excellent predictive accuracy. | 翻訳日:2024-07-22 14:19:18 公開日:2024-06-30 |
# 共通ハール状態モデルにおける暗号の可能性と分離
Cryptography in the Common Haar State Model: Feasibility Results and Separations ( http://arxiv.org/abs/2407.07908v1 ) ライセンス: Link先を確認 | Prabhanjan Ananth, Aditya Gulati, Yao-Ting Lin, | (参考訳) 共通ランダム文字列モデル(Common random string model)は、古典暗号において一般的なモデルである。
我々は、このモデルの量子アナログであるコモン・ハール状態(英語版)(CHS)モデルについて研究する。
このモデルでは、暗号システムに参加するすべてのパーティが1つ以上のハール状態の多くのコピーを受け取ります。
このモデルとその変種における暗号プリミティブの実現可能性と限界について検討する: - 敵が(事前の)有界コピーのみを受信する限り、計算不能な敵に対するセキュリティを備えた擬似乱数関数のような状態の構築を提案する。
CHSモデルを適切にインスタンス化することにより、プレーンモデルに擬似ランダム関数のような状態を構築するための新しいアプローチを得る。
-疑似ランダム関数のような状態(超対数長)と、古典的な通信による対話的鍵合意やビットコミットメントといった量子暗号プリミティブの分離を提示する。
これらの分離を示すために, LOCC(ローカルオペレーション, 古典的コミュニケーション)敵に対する独立なHaar状態と同一のHaar状態の区別が困難であることを示す。
Common random string model is a popular model in classical cryptography. We study a quantum analogue of this model called the common Haar state (CHS) model. In this model, every party participating in the cryptographic system receives many copies of one or more i.i.d Haar random states. We study feasibility and limitations of cryptographic primitives in this model and its variants: - We present a construction of pseudorandom function-like states with security against computationally unbounded adversaries, as long as the adversaries only receive (a priori) bounded number of copies. By suitably instantiating the CHS model, we obtain a new approach to construct pseudorandom function-like states in the plain model. - We present separations between pseudorandom function-like states (with super-logarithmic length) and quantum cryptographic primitives, such as interactive key agreement and bit commitment, with classical communication. To show these separations, we prove new results on the indistinguishability of identical versus independent Haar states against LOCC (local operations, classical communication) adversaries. | 翻訳日:2024-07-22 13:58:01 公開日:2024-06-30 |
# 大規模言語モデルにおける医療専門家に向けたバイアスの評価
Evaluation of Bias Towards Medical Professionals in Large Language Models ( http://arxiv.org/abs/2407.12031v1 ) ライセンス: Link先を確認 | Xi Chen, Yang Xu, MingKe You, Li Wang, WeiZhi Liu, Jian Li, | (参考訳) 本研究は,大規模言語モデル(LLM)が医療専門家に偏見を示すか否かを評価する。
一定の資格を維持しつつ、アイデンティティーファクターを制御するために、架空の候補者履歴書が作成された。
3つのLCM(GPT-4、Claude-3-haiku、Mistral-Large)を標準化されたプロンプトを用いて試験し、特定の居住プログラムの履歴を評価する。
明示バイアスは性別や人種情報を変えることによってテストされ、暗黙バイアスは人種や性別を隠蔽しながら名前を変えることによってテストされた。
アメリカ医学大学協会の医師データは、現実世界の人口統計と比較するために用いられた。
9万の履歴書が評価された。
すべてのLSMは、医療専門分野において有意な性別と人種的偏見を示した。
性別の好みは様々で、手術や整形外科の男性候補を好んだが、皮膚科、家族医学、産婦人科、小児科、精神科では女性を好んだ。
Claude-3とMistral-Largeは一般的にアジア系の候補を好んだが、GPT-4は黒とヒスパニック系の候補を好んだ。
実験の結果、ヒスパニック系の女性とアジア系の男性に対して、様々な専門分野の強い嗜好が示された。
実世界のデータと比較すると、LSMは医療従事者における実際の代表者よりも、女性や少数派の人種的候補者の割合を常に高い割合で選択した。
GPT-4, Claude-3, Mistral-Largeは, 医療従事者の居住選択に有意な性差と人種的偏見を示した。
これらの知見は、適切なバイアス緩和戦略を使わずに、LCMがバイアスを持続させ、医療従事者の多様性を損なう可能性を浮き彫りにした。
This study evaluates whether large language models (LLMs) exhibit biases towards medical professionals. Fictitious candidate resumes were created to control for identity factors while maintaining consistent qualifications. Three LLMs (GPT-4, Claude-3-haiku, and Mistral-Large) were tested using a standardized prompt to evaluate resumes for specific residency programs. Explicit bias was tested by changing gender and race information, while implicit bias was tested by changing names while hiding race and gender. Physician data from the Association of American Medical Colleges was used to compare with real-world demographics. 900,000 resumes were evaluated. All LLMs exhibited significant gender and racial biases across medical specialties. Gender preferences varied, favoring male candidates in surgery and orthopedics, while preferring females in dermatology, family medicine, obstetrics and gynecology, pediatrics, and psychiatry. Claude-3 and Mistral-Large generally favored Asian candidates, while GPT-4 preferred Black and Hispanic candidates in several specialties. Tests revealed strong preferences towards Hispanic females and Asian males in various specialties. Compared to real-world data, LLMs consistently chose higher proportions of female and underrepresented racial candidates than their actual representation in the medical workforce. GPT-4, Claude-3, and Mistral-Large showed significant gender and racial biases when evaluating medical professionals for residency selection. These findings highlight the potential for LLMs to perpetuate biases and compromise healthcare workforce diversity if used without proper bias mitigation strategies. | 翻訳日:2024-07-22 11:20:27 公開日:2024-06-30 |
# 行動経済学のための大規模言語モデル:内的妥当性とメンタルモデルの排除
Large Language Models for Behavioral Economics: Internal Validity and Elicitation of Mental Models ( http://arxiv.org/abs/2407.12032v1 ) ライセンス: Link先を確認 | Brian Jabarian, | (参考訳) 本稿では,生成型AI,特にLarge Language Models(LLMs)を行動経済学や実験経済学に統合し,内部妥当性を高めるための変革の可能性について検討する。
AIツールを活用することで、研究者は主要な排除制限への順守を改善し、特にインセンティブメカニズムへの人間の介入を必要とするメンタルモデルの内部的妥当性を確実にすることができる。
本研究では, LLMが実験設計, 参加意識, 精神モデル測定の妥当性をいかに向上させるかを示すケーススタディを提案する。
In this article, we explore the transformative potential of integrating generative AI, particularly Large Language Models (LLMs), into behavioral and experimental economics to enhance internal validity. By leveraging AI tools, researchers can improve adherence to key exclusion restrictions and in particular ensure the internal validity measures of mental models, which often require human intervention in the incentive mechanism. We present a case study demonstrating how LLMs can enhance experimental design, participant engagement, and the validity of measuring mental models. | 翻訳日:2024-07-22 11:20:27 公開日:2024-06-30 |
# N-gram Statistics による変圧器の理解
Understanding Transformers via N-gram Statistics ( http://arxiv.org/abs/2407.12034v1 ) ライセンス: Link先を確認 | Timothy Nguyen, | (参考訳) トランスフォーマーをベースとした大言語モデル(LLM)は言語に非常に熟練しているが、その動作の正確な理解はいまだに解明されていない。
トランスフォーマー予測のデミスティフィケーションの1つの方法は、単純なテンプレート関数の観点から、それらがどのようにコンテキストに依存するかを記述することである。
本論文は,N-gramに基づく単純な統計データから得られる関数の族(すなわち規則)を考えることにより,この方向への第一歩を踏み出す。
これらの規則がいかにしてトランスフォーマー予測を近似するかを研究することで、ホールトアウトセットを使わずにトレーニング中のオーバーフィッティングを検出する単純な方法、トレーニング中に単純からより複雑な統計規則を学習する方法の定量的尺度、トランスフォーマー予測がN-gramルールによって記述される傾向にある場合のモデル分散基準、そしてこれらの規則セットがますます複雑になる限界において、トランスフォーマーがN-gramルールセットによっていかにうまく近似できるかについての洞察など、様々な新しい発見が得られる。
後者の方向では、TinyStories上の次トーケン分布の78%において、上位1の予測は、我々のN-gramルールセットが提供するものと一致している。
Transformer based large-language models (LLMs) display extreme proficiency with language yet a precise understanding of how they work remains elusive. One way of demystifying transformer predictions would be to describe how they depend on their context in terms of simple template functions. This paper takes a first step in this direction by considering families of functions (i.e. rules) formed out of simple N-gram based statistics of the training data. By studying how well these rulesets approximate transformer predictions, we obtain a variety of novel discoveries: a simple method to detect overfitting during training without using a holdout set, a quantitative measure of how transformers progress from learning simple to more complex statistical rules over the course of training, a model-variance criterion governing when transformer predictions tend to be described by N-gram rules, and insights into how well transformers can be approximated by N-gram rulesets in the limit where these rulesets become increasingly complex. In this latter direction, we find that for 78% of LLM next-token distributions on TinyStories, their top-1 predictions agree with those provided by our N-gram rulesets. | 翻訳日:2024-07-22 11:20:27 公開日:2024-06-30 |
# 「なぜこの成績を得たのか理解している」:フィードバック付き自動短解答答書
"I understand why I got this grade": Automatic Short Answer Grading with Feedback ( http://arxiv.org/abs/2407.12818v1 ) ライセンス: Link先を確認 | Dishank Aggarwal, Pushpak Bhattacharyya, Bhaskaran Raman, | (参考訳) 教育制度がデジタルプラットフォームに移行するにつれ, 効率的かつ正確な評価手法の需要が高まっている。
フィードバックを提供することは教育的な設定に不可欠であり、割り当てられたマークを正当化するために単にマークを伝達するだけではない。
この文脈では、自動短解答(ASAG)タスクに対する参照回答と質問を伴う5.8kの学生回答のデータセットであるEngineering Short Answer Feedback (EngSAF)を導入することにより、自動階調の大幅な進歩を示す。
EngSAFデータセットは、複数のエンジニアリングドメインのさまざまな主題、質問、回答パターンをカバーするために、慎重にキュレートされている。
LLM(State-of-the-art large language model)の生成機能と、ラベル認識合成フィードバック生成(LASFG)戦略を活用して、データセットにフィードバックを含めます。
本稿では、実践的な教育環境でのフィードバック強化の重要性を強調し、データセットアノテーションとフィードバック生成プロセスを概説し、EngSAF分析を徹底的に実施し、将来の比較のために異なるLLMベースのゼロショットと微調整ベースラインを提供する。
さらに,インド工科大学ボンベイ(IITB)における実世界の終末試験への展開を通じて,ASAGシステムの有効性と効果を実証し,その実用性と教育機関における広範な実施の可能性を示した。
The demand for efficient and accurate assessment methods has intensified as education systems transition to digital platforms. Providing feedback is essential in educational settings and goes beyond simply conveying marks as it justifies the assigned marks. In this context, we present a significant advancement in automated grading by introducing Engineering Short Answer Feedback (EngSAF) -- a dataset of 5.8k student answers accompanied by reference answers and questions for the Automatic Short Answer Grading (ASAG) task. The EngSAF dataset is meticulously curated to cover a diverse range of subjects, questions, and answer patterns from multiple engineering domains. We leverage state-of-the-art large language models' (LLMs) generative capabilities with our Label-Aware Synthetic Feedback Generation (LASFG) strategy to include feedback in our dataset. This paper underscores the importance of enhanced feedback in practical educational settings, outlines dataset annotation and feedback generation processes, conducts a thorough EngSAF analysis, and provides different LLMs-based zero-shot and finetuned baselines for future comparison. Additionally, we demonstrate the efficiency and effectiveness of the ASAG system through its deployment in a real-world end-semester exam at the Indian Institute of Technology Bombay (IITB), showcasing its practical viability and potential for broader implementation in educational institutions. | 翻訳日:2024-07-22 08:47:38 公開日:2024-06-30 |
# OxonFair:アルゴリズムフェアネスのための柔軟なツールキット
OxonFair: A Flexible Toolkit for Algorithmic Fairness ( http://arxiv.org/abs/2407.13710v1 ) ライセンス: Link先を確認 | Eoin Delaney, Zihao Fu, Sandra Wachter, Brent Mittelstadt, Chris Russell, | (参考訳) OxonFairはバイナリ分類における公平性を高めるための新しいオープンソースツールキットである。
既存のツールキットと比較してみましょう。
(i)NLPとコンピュータビジョンの分類と標準表問題をサポートする。
(二)検証データに対する公正性の強化をサポートし、広範囲のオーバーフィット課題に対して堅牢化を図る。
三 当社のアプローチは、真陽性、偽陰性、偽陰性、真陰性に基づくあらゆる尺度を最適化することができる。
これにより、既存のツールキットよりも容易に拡張可能で表現力がある。
2つの人気のあるレビュー論文の意思決定ベースのグループメトリクスの9/9と10/10をサポートします。
(4)パフォーマンス目標を共同で最適化する。
これは公平さを保ちながら劣化を最小限に抑えるだけでなく、不当に調整された不公平なベースラインの性能を向上させることができる。
OxonFairはsklearn、Autogluon、PyTorchなどの標準のMLツールキットと互換性があり、https://github.com/oxfordinternetinstitute/oxonfairでオンラインで入手できる。
We present OxonFair, a new open source toolkit for enforcing fairness in binary classification. Compared to existing toolkits: (i) We support NLP and Computer Vision classification as well as standard tabular problems. (ii) We support enforcing fairness on validation data, making us robust to a wide range of overfitting challenges. (iii) Our approach can optimize any measure based on True Positives, False Positive, False Negatives, and True Negatives. This makes it easily extendable and much more expressive than existing toolkits. It supports 9/9 and 10/10 of the decision-based group metrics of two popular review papers. (iv) We jointly optimize a performance objective. This not only minimizes degradation while enforcing fairness, but can improve the performance of otherwise inadequately tuned unfair baselines. OxonFair is compatible with standard ML toolkits including sklearn, Autogluon, and PyTorch and is available online at https://github.com/oxfordinternetinstitute/oxonfair | 翻訳日:2024-07-22 08:07:30 公開日:2024-06-30 |
# モアレTMD超格子におけるウィグナー分子超結晶形成における結晶場効果
Crystal-field effects in the formation of Wigner-molecule supercrystals in moiré TMD superlattices ( http://arxiv.org/abs/2407.02527v1 ) ライセンス: Link先を確認 | Constantine Yannouleas, Uzi Landman, | (参考訳) モワール-量子ドット(MQD)電荷担持クーロン相互作用と周囲のモワール-電子ポケットの結晶場効果(インターモーア-QD相互作用)を考慮に入れたフルコンフィグレーション-相互作用(FCI)計算が提示される。
このようなFCI計算により、効果的な計算埋め込み戦略が実現され、最近報告された直観的実験観測の完全な解釈が、整数フィリングにおける moir\'e TMD 超格子の文脈において、$\nu=2$ および 4 で可能である。
2つの新しい物質状態が報告されている。
i) ひずみのないモア'e TMD材料に対する真に量子力学的なウィグナー分子(WMs)の超結晶(結晶場が各埋め込みMQDにおける収束ポテンシャルのトライロバル対称性と調和している場合)と
(ii) ひずみが関与し、結晶場が各埋め込みMQDの凝縮ポテンシャルのトライロバル対称性と一致しないとき、ウィグナー分子の超結晶。
$\nu=3$のケースは例外であり、制約のないケースと歪んだケースの両方が、内在的(WMのそれ)と外的(MQDの収束ポテンシャルの)な(C_3$点群対称性による)ピン付きWMの超結晶を生成する。
さらに、制限のないハートリー・フォック法は、制約のない場合におけるスライドWMの超結晶を記述することができず、ピン付きWMの超結晶の場合のみ定性的な合意を与える。
For moir\'e bilayer TMD superlattices, full-configuration-interaction (FCI) calculations are presented that take into account both the intra-moir\'e-quantum-dot (MQD) charge-carrier Coulombic interactions, as well as the crystal-field effect from the surrounding moir\'e pockets (inter-moir\'e-QD interactions). Such FCI calculations enable an effective computational embedding strategy and allow for a complete interpretation of the counterintuitive experimental observations reported recently in the context of moir\'e TMD superlattices at integer fillings $\nu=2$ and 4. Two novel states of matter are reported: (i) a genuinely quantum-mechanical supercrystal of {\it sliding\/} Wigner molecules (WMs) for unstrained moir\'e TMD materials (when the crystal field is commensurate with the trilobal symmetry of the confining potential in each embedded MQD) and (ii) a supercrystal of {\it pinned\/} Wigner molecules when strain is involved and the crystal field is incommensurate with the trilobal symmetry of the confining potential in each embedded MQD. The case of $\nu=3$ is an exception, in that both unstrained and strained cases produce a supercrystal of pinned WMs, which is due to the congruence of intrinsic (that of the WM) and external (that of the confining potential of the MQD) $C_3$ point-group symmetries. Furthermore, it is shown that the unrestricted Hartree-Fock approach fails to describe the supercrystal of sliding WMs in the unstrained case, providing a qualitative agreement only in the case of a supercrystal of pinned WMs | 翻訳日:2024-07-04 18:53:35 公開日:2024-06-30 |
# 知識グラフと大規模言語モデルを用いた行動可能なサイバー脅威インテリジェンス
Actionable Cyber Threat Intelligence using Knowledge Graphs and Large Language Models ( http://arxiv.org/abs/2407.02528v1 ) ライセンス: Link先を確認 | Romy Fieblinger, Md Tanvirul Alam, Nidhi Rastogi, | (参考訳) サイバー脅威は常に進化している。
サイバーセキュリティ決定を導くためには、構造化されていないサイバー脅威情報(CTI)データから実行可能な洞察を抽出することが不可欠である。
Microsoft、Trend Micro、CrowdStrikeといった組織は、CTI抽出を促進するために生成AIを使用している。
本稿では,Large Language Models(LLMs)とKGs(KGs)の進歩を利用して,実行可能なCTIの抽出を自動化するという課題に対処する。
我々は,Llama 2 シリーズ,Mistral 7B インストラクション,Zephyr など,最先端のオープンソース LLM を用いて,CTI テキストから有意義な三重項を抽出する方法について検討する。
本手法は,情報抽出と構造化を最適化するために,プロンプトエンジニアリング,ガイダンスフレームワーク,微調整などの手法を評価する。
抽出したデータはKGの構築に利用され、構造化されたクエリ可能な脅威インテリジェンス表現を提供する。
実験により,本手法が関連する情報抽出に有効であることを示すとともに,指導と微調整により,迅速な工学よりも優れた性能を示した。
しかし,本手法は小規模実験では有効であるが,KG構築のための大規模データにLLMを適用し,リンク予測が現在進行中の課題である。
Cyber threats are constantly evolving. Extracting actionable insights from unstructured Cyber Threat Intelligence (CTI) data is essential to guide cybersecurity decisions. Increasingly, organizations like Microsoft, Trend Micro, and CrowdStrike are using generative AI to facilitate CTI extraction. This paper addresses the challenge of automating the extraction of actionable CTI using advancements in Large Language Models (LLMs) and Knowledge Graphs (KGs). We explore the application of state-of-the-art open-source LLMs, including the Llama 2 series, Mistral 7B Instruct, and Zephyr for extracting meaningful triples from CTI texts. Our methodology evaluates techniques such as prompt engineering, the guidance framework, and fine-tuning to optimize information extraction and structuring. The extracted data is then utilized to construct a KG, offering a structured and queryable representation of threat intelligence. Experimental results demonstrate the effectiveness of our approach in extracting relevant information, with guidance and fine-tuning showing superior performance over prompt engineering. However, while our methods prove effective in small-scale tests, applying LLMs to large-scale data for KG construction and Link Prediction presents ongoing challenges. | 翻訳日:2024-07-04 18:43:43 公開日:2024-06-30 |
# MIMOSA: 分子最適化のためのマルチ制約分子サンプリング
MIMOSA: Multi-constraint Molecule Sampling for Molecule Optimization ( http://arxiv.org/abs/2010.02318v4 ) ライセンス: Link先を確認 | Tianfan Fu, Cao Xiao, Xinhao Li, Lucas M. Glass, Jimeng Sun, | (参考訳) 分子最適化は薬物発見を促進するための基本的な課題であり、入力分子と類似性を保ちながら、複数の薬物特性を最大化する新しい有効な分子を生成することを目的としている。
既存の生成モデルと強化学習アプローチは最初は成功したが、同時に複数の薬物特性を最適化することは困難に直面した。
このような課題に対処するために,MultI-Constraint MOlecule SAmpling (MIMOSA)アプローチ,初期推定として入力分子を用いるサンプリングフレームワーク,ターゲット分布からのサンプル分子を提案する。
MIMOSAはまず、分子トポロジーとサブ構造型予測のための2つの特性非依存グラフニューラルネットワーク(GNN)を事前訓練する。
各イテレーションに対して、MIMOSAはGNNの予測を使い、3つの基本的なサブ構造演算(追加、置換、削除)を使用して新しい分子と関連する重みを生成する。
重みは類似性や薬物特性の制約を含む複数の制約を符号化し、次のイテレーションで有望な分子を選択する。
MIMOSAは、複数の特性制約と類似性制約の柔軟な符号化を可能にし、様々な特性制約を満たす新しい分子を効率的に生成し、成功率の点で最高のベースラインに対して49.6%の相対的な改善を達成できる。
コードリポジトリ(readmeファイル、データ前処理、モデル構築、評価を含む)はhttps://github.com/futianfan/MIMOSA.comで入手できる。
Molecule optimization is a fundamental task for accelerating drug discovery, with the goal of generating new valid molecules that maximize multiple drug properties while maintaining similarity to the input molecule. Existing generative models and reinforcement learning approaches made initial success, but still face difficulties in simultaneously optimizing multiple drug properties. To address such challenges, we propose the MultI-constraint MOlecule SAmpling (MIMOSA) approach, a sampling framework to use input molecule as an initial guess and sample molecules from the target distribution. MIMOSA first pretrains two property agnostic graph neural networks (GNNs) for molecule topology and substructure-type prediction, where a substructure can be either atom or single ring. For each iteration, MIMOSA uses the GNNs' prediction and employs three basic substructure operations (add, replace, delete) to generate new molecules and associated weights. The weights can encode multiple constraints including similarity and drug property constraints, upon which we select promising molecules for next iteration. MIMOSA enables flexible encoding of multiple property- and similarity-constraints and can efficiently generate new molecules that satisfy various property constraints and achieved up to 49.6% relative improvement over the best baseline in terms of success rate. The code repository (including readme file, data preprocessing and model construction, evaluation) is available https://github.com/futianfan/MIMOSA. | 翻訳日:2024-07-04 10:45:46 公開日:2024-06-30 |
# 渋滞緩和のための共同諮問・残留政策
Cooperative Advisory Residual Policies for Congestion Mitigation ( http://arxiv.org/abs/2407.00553v1 ) ライセンス: Link先を確認 | Aamir Hasan, Neeloy Chakraborty, Haonan Chen, Jung-Hoon Cho, Cathy Wu, Katherine Driggs-Campbell, | (参考訳) 自動運転車の艦隊は単純な行動を通じて交通渋滞を緩和し、通勤時間やガスコストなどの社会経済的要因を改善できる。
しかし、これらのアプローチは、自律走行車両の正確な制御、集中型センサーエコシステムの設置コストの増大、運転者の行動の不確実性を考慮できないため、実際には制限されている。
この目的のために、我々は、協力的な諮問システムで使用でき、人間ドライバーとの1台の車両の使用しか必要としない、学習された残留ポリシーのクラスを開発する。
当社のポリシーでは,ドライバの多様な動作,特に指示に対するドライバの反応を考慮に入れながら,交通渋滞を軽減し,ユーザエクスペリエンスを向上させる方法をドライバーに推奨している。
このようなポリシーを実現するために,渋滞緩和と運転者のアドバイスに対する態度を明確に対処する改良された報酬関数を導入する。
残余ポリシーは,変分オートエンコーダを用いて教師なしの方法で学習した推論されたドライバ特性を条件にすることでパーソナライズできることを示す。
本研究の方針は,本モデルによるシミュレーションで訓練され,シミュレーションやユーザスタディ (N=16) を通じて人間の運転者の感情を捉えている。
シミュレーションテストとユーザスタディでは, 速度と速度の偏差の組合せによって, 最大20%, 40%の改善が得られた。
我々のユーザー調査は、私たちのポリシーが人間と互換性があり、ドライバーにパーソナライズされていることを示している。
Fleets of autonomous vehicles can mitigate traffic congestion through simple actions, thus improving many socioeconomic factors such as commute time and gas costs. However, these approaches are limited in practice as they assume precise control over autonomous vehicle fleets, incur extensive installation costs for a centralized sensor ecosystem, and also fail to account for uncertainty in driver behavior. To this end, we develop a class of learned residual policies that can be used in cooperative advisory systems and only require the use of a single vehicle with a human driver. Our policies advise drivers to behave in ways that mitigate traffic congestion while accounting for diverse driver behaviors, particularly drivers' reactions to instructions, to provide an improved user experience. To realize such policies, we introduce an improved reward function that explicitly addresses congestion mitigation and driver attitudes to advice. We show that our residual policies can be personalized by conditioning them on an inferred driver trait that is learned in an unsupervised manner with a variational autoencoder. Our policies are trained in simulation with our novel instruction adherence driver model, and evaluated in simulation and through a user study (N=16) to capture the sentiments of human drivers. Our results show that our approaches successfully mitigate congestion while adapting to different driver behaviors, with up to 20% and 40% improvement as measured by a combination metric of speed and deviations in speed across time over baselines in our simulation tests and user study, respectively. Our user study further shows that our policies are human-compatible and personalize to drivers. | 翻訳日:2024-07-04 02:36:46 公開日:2024-06-30 |
# テキスト概念を用いた胸部X線病理モデルの記述
Explaining Chest X-ray Pathology Models using Textual Concepts ( http://arxiv.org/abs/2407.00557v1 ) ライセンス: Link先を確認 | Vijay Sadashivaiah, Mannudeep K. Kalra, Pingkun Yan, James A. Hendler, | (参考訳) 深層学習モデルは、医療画像と診断に革命をもたらしたが、その不透明な性質は、臨床導入と信頼性に課題をもたらしている。
モデル解釈可能性を改善するアプローチの中で、概念に基づく説明は任意の分類器の簡潔で人間の理解可能な説明を提供することを目的としている。
しかし、そのような手法は通常、医療領域では不十分な概念アノテーションを伴う大量の手作業によるデータを必要とする。
本稿では,既存の視覚言語モデル (VLM) の組込み空間を利用して,注釈付きデータセットを必要とせずにブラックボックス分類結果を説明する,Chest X-ray (CoCoX) のコンセプト対実説明を提案する。
具体的には,胸部X線撮影と胸部X線撮影を併用したVLMを用いて,一般的な心胸部疾患の3つを解説する。
本稿では,本手法が生み出す説明が意味論的に意味を持ち,根底にある病理に忠実であることを示す。
Deep learning models have revolutionized medical imaging and diagnostics, yet their opaque nature poses challenges for clinical adoption and trust. Amongst approaches to improve model interpretability, concept-based explanations aim to provide concise and human understandable explanations of any arbitrary classifier. However, such methods usually require a large amount of manually collected data with concept annotation, which is often scarce in the medical domain. In this paper, we propose Conceptual Counterfactual Explanations for Chest X-ray (CoCoX) that leverage existing vision-language models (VLM) joint embedding space to explain black-box classifier outcomes without the need for annotated datasets. Specifically, we utilize textual concepts derived from chest radiography reports and a pre-trained chest radiography-based VLM to explain three common cardiothoracic pathologies. We demonstrate that the explanations generated by our method are semantically meaningful and faithful to underlying pathologies. | 翻訳日:2024-07-04 02:36:46 公開日:2024-06-30 |
# コンテキストアベレーティブ・バンドのネゴシエーションへのアプローチ
A Contextual Combinatorial Bandit Approach to Negotiation ( http://arxiv.org/abs/2407.00567v1 ) ライセンス: Link先を確認 | Yexin Li, Zhancun Mu, Siyuan Qi, | (参考訳) 効果的な交渉戦略の学習は、探索・探索ジレンマと大きな行動空間を扱うという2つの重要な課題を提起する。
しかし、交渉においてこれらの課題を効果的に解決する学習ベースのアプローチは存在しない。
本稿では,様々な交渉問題に対処するための包括的定式化を提案する。
提案手法は,探索・探索ジレンマを解き,組み合わせの性質が大きな行動空間を扱えるように,文脈的組合せ型マルチアーム・バンディットを活用している。
この定式化に基づいて、交渉における部分的な観察や複雑な報酬関数といった共通問題にも対処する新しい手法であるNegUCBを導入する。
NegUCBは文脈的であり、報酬関数に制約を加えることなくフルバンドフィードバックに適合する。
軽微な仮定の下では、サブ線形後悔の上界が保証される。
3つの交渉課題で行われた実験は、我々のアプローチの優位性を実証している。
Learning effective negotiation strategies poses two key challenges: the exploration-exploitation dilemma and dealing with large action spaces. However, there is an absence of learning-based approaches that effectively address these challenges in negotiation. This paper introduces a comprehensive formulation to tackle various negotiation problems. Our approach leverages contextual combinatorial multi-armed bandits, with the bandits resolving the exploration-exploitation dilemma, and the combinatorial nature handles large action spaces. Building upon this formulation, we introduce NegUCB, a novel method that also handles common issues such as partial observations and complex reward functions in negotiation. NegUCB is contextual and tailored for full-bandit feedback without constraints on the reward functions. Under mild assumptions, it ensures a sub-linear regret upper bound. Experiments conducted on three negotiation tasks demonstrate the superiority of our approach. | 翻訳日:2024-07-04 02:36:46 公開日:2024-06-30 |
# 視覚・言語モデルにおけるマルチモーダルハロシン化雪玉の探索と緩和
Investigating and Mitigating the Multimodal Hallucination Snowballing in Large Vision-Language Models ( http://arxiv.org/abs/2407.00569v1 ) ライセンス: Link先を確認 | Weihong Zhong, Xiaocheng Feng, Liang Zhao, Qiming Li, Lei Huang, Yuxuan Gu, Weitao Ma, Yuan Xu, Bing Qin, | (参考訳) 視覚情報を人間の言語で理解する手法は進歩しているが、LVLM(Large Vision-Language Models)は多モード幻覚に悩まされている。
自然な懸念は、マルチモーダル相互作用の間、生成された幻覚がLVLMの次の世代に影響を与える可能性があることである。
先述した幻覚に関する質問を提示した場合、LVLMは、地上の視覚情報が存在するとしても、誤解され、誤った反応をするのか?
そこで我々はMMHalSnowball (MMHalSnowball) というフレームワークを提案し,LVLMが学習した幻覚的会話の中で,特定の視覚的質問に答えることが求められている。
我々の実験は、オープンソースのLVLMの性能が少なくとも311\%低下していることを示し、LVLMは生成した幻覚を受け入れる傾向があり、邪魔なしにはサポートできないという誤った主張をすることを示している。
この現象をマルチモーダル・ハロシン化スノーボールと呼ぶ。
これを軽減するために,残差視覚入力からの出力分布を補正し,視覚情報に直接アクセス可能なモデルを提供するResidual Visual Decodingと呼ばれるトレーニング不要な手法を提案する。
実験により,雪玉型多モード幻覚の2,4 %以上を低減できることを確認した。
Though advanced in understanding visual information with human languages, Large Vision-Language Models (LVLMs) still suffer from multimodal hallucinations. A natural concern is that during multimodal interaction, the generated hallucinations could influence the LVLMs' subsequent generation. Thus, we raise a question: When presented with a query relevant to the previously generated hallucination, will LVLMs be misled and respond incorrectly, even though the ground visual information exists? To answer this, we propose a framework called MMHalSnowball to evaluate LVLMs' behaviors when encountering generated hallucinations, where LVLMs are required to answer specific visual questions within a curated hallucinatory conversation. Crucially, our experiment shows that the performance of open-source LVLMs drops by at least $31\%$, indicating that LVLMs are prone to accept the generated hallucinations and make false claims that they would not have supported without distractions. We term this phenomenon Multimodal Hallucination Snowballing. To mitigate this, we further propose a training-free method called Residual Visual Decoding, where we revise the output distribution of LVLMs with the one derived from the residual visual input, providing models with direct access to the visual information. Experiments show that our method can mitigate more than $24\%$ of the snowballed multimodal hallucination while maintaining capabilities. | 翻訳日:2024-07-04 02:36:46 公開日:2024-06-30 |
# 時間フィードバックグラフを用いた対人オンライン学習
Adversarial Online Learning with Temporal Feedback Graphs ( http://arxiv.org/abs/2407.00571v1 ) ライセンス: Link先を確認 | Khashayar Gatmiry, Jon Schneider, | (参考訳) 本稿では,ラウンド$t$における学習者の行動がラウンドの特定のサブセットの損失にのみ依存できるような,専門家のアドバイスによる予測のバリエーションについて検討する。
本稿では,このグラフのサブ閥間で損失を分配する戦略に基づいて,この設定のための新しい学習アルゴリズムを提案する。
我々はこれを、多くの実践的な設定において厳密な下限で補完し、最適の定数要素内にあると推測する。
推移的フィードバックグラフの重要なクラスについて、このアルゴリズムは効率的に実装可能であり、最適後悔境界(普遍定数まで)が得られることを証明する。
We study a variant of prediction with expert advice where the learner's action at round $t$ is only allowed to depend on losses on a specific subset of the rounds (where the structure of which rounds' losses are visible at time $t$ is provided by a directed "feedback graph" known to the learner). We present a novel learning algorithm for this setting based on a strategy of partitioning the losses across sub-cliques of this graph. We complement this with a lower bound that is tight in many practical settings, and which we conjecture to be within a constant factor of optimal. For the important class of transitive feedback graphs, we prove that this algorithm is efficiently implementable and obtains the optimal regret bound (up to a universal constant). | 翻訳日:2024-07-04 02:36:46 公開日:2024-06-30 |
# OfCaM:最適化不要カメラモーションスケールキャリブレーションによるグローバルヒューマンメッシュのリカバリ
OfCaM: Global Human Mesh Recovery via Optimization-free Camera Motion Scale Calibration ( http://arxiv.org/abs/2407.00574v1 ) ライセンス: Link先を確認 | Fengyuan Yang, Kerui Gu, Ha Linh Nguyen, Angela Yao, | (参考訳) 正確なカメラの動き推定は、地球空間における人間の動きを推定するために重要である。
カメラモーションを推定するための標準的かつ広く使われている方法は、同時局所化とマッピング(SLAM)である。
しかし、SLAMは未知のスケールファクタまでの軌道のみを提供する。
スケールファクターを最適化する従来の試みとは違って,人間のメッシュリカバリ(HMR)モデルからの事前知識を利用して未知のスケールファクターを直接校正する,OfCaM(Optimization-free Camera Motion Scale Calibration)を提案する。
具体的には、OFCaMはHMR予測からの人体と背側の接触継手の絶対深度を校正基準として利用し、世界空間におけるSLAMカメラ軌道スケールの正確な回復を可能にする。
この正確なスケールのカメラモーションとHMRの局所的なモーション予測により、より正確なグローバルな人間のモーション推定が可能となる。
SLAMの故障を検知する場面を補うため,従来の動きと融合して強靭性を高めるため,局所-グローバルな動きマッピングを採用する。
提案手法は,グローバルなヒューマンメッシュ推定タスクの新しい標準を設定し,従来のSOTAに比べてグローバルなヒューマンメッシュの動作誤差を60%削減すると同時に,最適化に基づく手法に比べて桁違いに少ない推論時間を求める。
Accurate camera motion estimation is critical to estimate human motion in the global space. A standard and widely used method for estimating camera motion is Simultaneous Localization and Mapping (SLAM). However, SLAM only provides a trajectory up to an unknown scale factor. Different from previous attempts that optimize the scale factor, this paper presents Optimization-free Camera Motion Scale Calibration (OfCaM), a novel framework that utilizes prior knowledge from human mesh recovery (HMR) models to directly calibrate the unknown scale factor. Specifically, OfCaM leverages the absolute depth of human-background contact joints from HMR predictions as a calibration reference, enabling the precise recovery of SLAM camera trajectory scale in global space. With this correctly scaled camera motion and HMR's local motion predictions, we achieve more accurate global human motion estimation. To compensate for scenes where we detect SLAM failure, we adopt a local-to-global motion mapping to fuse with previously derived motion to enhance robustness. Simple yet powerful, our method sets a new standard for global human mesh estimation tasks, reducing global human motion error by 60% over the prior SOTA while also demanding orders of magnitude less inference time compared with optimization-based methods. | 翻訳日:2024-07-04 02:36:46 公開日:2024-06-30 |
# 未知の強いモノトーンゲームを制御するための学習
Learning to Control Unknown Strongly Monotone Games ( http://arxiv.org/abs/2407.00575v1 ) ライセンス: Link先を確認 | Siddharth Chandak, Ilai Bistritz, Nicholas Bambos, | (参考訳) それぞれ$d$-dimensionalアクションセットを持つ$N$プレーヤーを考えてみましょう。
プレイヤーの効用関数はそれぞれ、報酬関数と各次元に対する線形項を含み、管理者によって制御される係数を持つ。
ゲームは強い単調であると仮定するので、各プレイヤーが勾配降下を実行すると、ダイナミクスはユニークなナッシュ均衡(NE)に収束する。
NEは通常、グローバルパフォーマンスの点で非効率である。
システム全体の性能は、NEに$K$次元の線形制約を課すことで改善することができる。
したがって、我々はマネージャが NE に所望の制約を課す制御係数を選択することを望んでいます。
しかし、プレイヤーの報酬関数とアクションセットを知る必要がある。
このゲーム構造情報の取得は、大規模ネットワークでは不可能であり、ユーザのプライバシを侵害する。
そこで本研究では,制御された係数をオンラインに調整することで,ゲームのNEを線形制約に合わせるための簡単なアルゴリズムを提案する。
我々のアルゴリズムは線形制約違反をフィードバックとして要求するだけであり、報酬関数やアクションセットを知る必要はない。
我々は,2つの時間スケール確率近似に基づくアルゴリズムが,対象線形制約を満たすNEの集合への確率1との収束を保証することを証明した。
次に、アルゴリズムに対して平均2乗収束率を$O(t^{-1/4})$とする。
これは、2つの時間スケール確率近似に対する最初の境界であり、遅い時間スケールは非拡張写像を持つ固定点反復である。
本稿では,NEにおけるグローバル2次コストの最適化と資源配分ゲームにおけるロードバランシングに,我々の手法を適用する方法を示す。
これらのシナリオに対するアルゴリズムのシミュレーションを提供する。
Consider $N$ players each with a $d$-dimensional action set. Each of the players' utility functions includes their reward function and a linear term for each dimension, with coefficients that are controlled by the manager. We assume that the game is strongly monotone, so if each player runs gradient descent, the dynamics converge to a unique Nash equilibrium (NE). The NE is typically inefficient in terms of global performance. The resulting global performance of the system can be improved by imposing $K$-dimensional linear constraints on the NE. We therefore want the manager to pick the controlled coefficients that impose the desired constraint on the NE. However, this requires knowing the players' reward functions and their action sets. Obtaining this game structure information is infeasible in a large-scale network and violates the users' privacy. To overcome this, we propose a simple algorithm that learns to shift the NE of the game to meet the linear constraints by adjusting the controlled coefficients online. Our algorithm only requires the linear constraints violation as feedback and does not need to know the reward functions or the action sets. We prove that our algorithm, which is based on two time-scale stochastic approximation, guarantees convergence with probability 1 to the set of NE that meet target linear constraints. We then provide a mean square convergence rate of $O(t^{-1/4})$ for our algorithm. This is the first such bound for two time-scale stochastic approximation where the slower time-scale is a fixed point iteration with a non-expansive mapping. We demonstrate how our scheme can be applied to optimizing a global quadratic cost at NE and load balancing in resource allocation games. We provide simulations of our algorithm for these scenarios. | 翻訳日:2024-07-04 02:36:46 公開日:2024-06-30 |
# SemEval-2024 Task 10: Emotion Discovery and Flip Reasoning with Consembleation with Transformer and Prompting (英語)
MasonTigers at SemEval-2024 Task 10: Emotion Discovery and Flip Reasoning in Conversation with Ensemble of Transformers and Prompting ( http://arxiv.org/abs/2407.00581v1 ) ライセンス: Link先を確認 | Al Nahian Bin Emran, Amrita Ganguly, Sadiya Sayara Chowdhury Puspo, Nishat Raihan, Dhiman Goswami, | (参考訳) 本稿では,SemEval-2024 Task 10におけるMasonTigersの参加について述べる。
このタスクは3つの異なるサブタスクから構成される - ヒンディー語のコードミックス対話のための会話における感情認識、ヒンディー語のコードミックス対話のための感情フリップ推論、英語対話のための感情フリップ推論。
当社のMasonTigersチームは各サブタスクにコントリビュートし、正確な感情認識と推論の手法の開発に重点を置いています。
アプローチを活用することで、第1タスクで0.78、第2タスクと第3タスクの両方で0.79という印象的なF1スコアを達成しました。
この性能は,タスクの異なる側面にまたがるメソッドの有効性を裏付けるだけでなく,第1サブタスクと第3サブタスクの上位,第2サブタスクの2番目のランクも確保する。
大規模な実験と分析を通じて、システムのパフォーマンスと各サブタスクへのコントリビューションに関する洞察を提供する。
In this paper, we present MasonTigers' participation in SemEval-2024 Task 10, a shared task aimed at identifying emotions and understanding the rationale behind their flips within monolingual English and Hindi-English code-mixed dialogues. This task comprises three distinct subtasks - emotion recognition in conversation for Hindi-English code-mixed dialogues, emotion flip reasoning for Hindi-English code-mixed dialogues, and emotion flip reasoning for English dialogues. Our team, MasonTigers, contributed to each subtask, focusing on developing methods for accurate emotion recognition and reasoning. By leveraging our approaches, we attained impressive F1-scores of 0.78 for the first task and 0.79 for both the second and third tasks. This performance not only underscores the effectiveness of our methods across different aspects of the task but also secured us the top rank in the first and third subtasks, and the 2nd rank in the second subtask. Through extensive experimentation and analysis, we provide insights into our system's performance and contributions to each subtask. | 翻訳日:2024-07-04 02:36:46 公開日:2024-06-30 |
# ランダム化アルゴリズムのハイパーパラメータ最適化:ランダム特徴のケーススタディ
Hyperparameter Optimization for Randomized Algorithms: A Case Study for Random Features ( http://arxiv.org/abs/2407.00584v1 ) ライセンス: Link先を確認 | Oliver R. A. Dunbar, Nicholas H. Nelsen, Maya Mutic, | (参考訳) ランダム化アルゴリズムは計算複雑性を減らすために確率性を利用する。
1つの重要な例は、ガウス過程回帰(GPR)を加速するランダム特徴回帰(RFR)である。
RFRは、確率分布から隠れた重みとバイアスをサンプリングするランダムニューラルネットワークと未知の関数を近似する。
最終的な出力層だけがデータに適合する。
RFRのようなランダム化アルゴリズムでは、サンプリング分布を特徴付けるハイパーパラメータは性能に大きな影響を及ぼすが、サンプルから直接はアクセスできない。
これにより、標準(段階的な)最適化ツールによるハイパーパラメータの最適化が不可能になる。
GPRのベイズ的アイデアに触発されて、ベクトル値のランダムな特徴のハイパーパラメータチューニングに適したランダムな目的関数を導入する。
目的はアンサンブル・カルマン・インバージョン(EKI)で最小化される。
EKIは、高次元にスケーラブルで、目的関数のランダム性に頑健な勾配のない粒子ベース最適化器である。
2つの大域感度分析、カオス力学系の統合、大気圧力学からのベイズ逆問題の解法である。
RFRのためのEKIベースのアルゴリズムの成功は、他のランダム化アルゴリズムで生じるハイパーパラメータの自動最適化の可能性を示している。
Randomized algorithms exploit stochasticity to reduce computational complexity. One important example is random feature regression (RFR) that accelerates Gaussian process regression (GPR). RFR approximates an unknown function with a random neural network whose hidden weights and biases are sampled from a probability distribution. Only the final output layer is fit to data. In randomized algorithms like RFR, the hyperparameters that characterize the sampling distribution greatly impact performance, yet are not directly accessible from samples. This makes optimization of hyperparameters via standard (gradient-based) optimization tools inapplicable. Inspired by Bayesian ideas from GPR, this paper introduces a random objective function that is tailored for hyperparameter tuning of vector-valued random features. The objective is minimized with ensemble Kalman inversion (EKI). EKI is a gradient-free particle-based optimizer that is scalable to high-dimensions and robust to randomness in objective functions. A numerical study showcases the new black-box methodology to learn hyperparameter distributions in several problems that are sensitive to the hyperparameter selection: two global sensitivity analyses, integrating a chaotic dynamical system, and solving a Bayesian inverse problem from atmospheric dynamics. The success of the proposed EKI-based algorithm for RFR suggests its potential for automated optimization of hyperparameters arising in other randomized algorithms. | 翻訳日:2024-07-04 02:36:46 公開日:2024-06-30 |
# CANバスとOBD-IIデータによる新しい経路推論攻撃
Your Car Tells Me Where You Drove: A Novel Path Inference Attack via CAN Bus and OBD-II Data ( http://arxiv.org/abs/2407.00585v1 ) ライセンス: Link先を確認 | Tommaso Bianchi, Alessandro Brighente, Mauro Conti, Andrea Valori, | (参考訳) そのよく知られたセキュリティ問題にもかかわらず、コントローラエリアネットワーク(CAN)は依然として車内通信の主要な技術である。
診断サービスやCANバスにアクセスする攻撃者は、ドライバーの位置情報のプライバシーを脅かして、特定の時点の正確な位置を知るか、訪問したエリアを推測する。
これはユーザーのプライバシーに対する深刻な脅威であると同時に、警察による位置情報に基づく証拠収集のメリットでもある。
本稿では,車載モデルを用いた新しい経路推論攻撃であるOn Path Diagnostic - Intrusion \& Inference (OPD-II) と,CANバスデータに基づいて車両が駆動する経路を推定するマップマッチングアルゴリズムを提案する。
利用可能な攻撃とは違って、我々のアプローチでは、攻撃者は被害者の車の初期位置と方向を知ることしか必要とせず、訓練データ、道路構成、または他の犠牲者のデバイス(例えばスマートフォン)にアクセスする必要性によって制限されない。
我々は4台の異なる車両と41トラックの道路および交通シナリオに対する攻撃を実行した。
提案手法は,提案手法の75%と89%の精度を向上する動的マップマッチングアルゴリズムを用いて,仮定の集合を除去し,記録経路の座標を平均95%の精度で再現する。
Despite its well-known security issues, the Controller Area Network (CAN) is still the main technology for in-vehicle communications. Attackers posing as diagnostic services or accessing the CAN bus can threaten the drivers' location privacy to know the exact location at a certain point in time or to infer the visited areas. This represents a serious threat to users' privacy, but also an advantage for police investigations to gather location-based evidence. In this paper, we present On Path Diagnostic - Intrusion \& Inference (OPD-II), a novel path inference attack leveraging a physical car model and a map matching algorithm to infer the path driven by a car based on CAN bus data. Differently from available attacks, our approach only requires the attacker to know the initial location and heading of the victim's car and is not limited by the availability of training data, road configurations, or the need to access other victim's devices (e.g., smartphones). We implement our attack on a set of four different cars and a total number of 41 tracks in different road and traffic scenarios. We achieve an average of 95% accuracy on reconstructing the coordinates of the recorded path by leveraging a dynamic map-matching algorithm that outperforms the 75% and 89% accuracy values of other proposals while removing their set of assumptions. | 翻訳日:2024-07-04 02:26:49 公開日:2024-06-30 |
# CLIP内のバグを画像エンコードするディープダイブ
Unveiling Glitches: A Deep Dive into Image Encoding Bugs within CLIP ( http://arxiv.org/abs/2407.00592v1 ) ライセンス: Link先を確認 | Ayush Ranjan, Daniel Wen, Karthik Bhat, | (参考訳) 人工知能における最先端モデルの限界と弱点を理解することは、その改善と責任ある応用に不可欠である。
本研究では,視覚と言語処理の統合で有名なCLIPに着目した。
私たちの目的は、CLIPの画像理解における繰り返し発生する問題と盲点を明らかにすることである。
CLIPと人間のイメージ理解の共通点と相違点の両方を掘り下げることで、これらのモデルの能力に関する理解を深めることができます。
解析により,CLIPのイメージ解釈における人間の知覚との大きな相違が明らかとなり,改善を必要とする領域に光を当てることができた。
提案手法は,CLIP の分散分析フレームワーク (DAF) と Transformative Caption Analysis for CLIP (TCAC) であり,CLIP の性能を総合的に評価することができる。
画像中の物体の移動方向や位置の特定に失敗したこと,水のような特徴の幻覚,地理的文脈の誤帰など,14のシステム障害を同定する。
これらの制限に対処することで、より正確でニュアンスの高い画像埋め込みモデルの開発の基礎を築き、人工知能の進歩に寄与する。
Understanding the limitations and weaknesses of state-of-the-art models in artificial intelligence is crucial for their improvement and responsible application. In this research, we focus on CLIP, a model renowned for its integration of vision and language processing. Our objective is to uncover recurring problems and blind spots in CLIP's image comprehension. By delving into both the commonalities and disparities between CLIP and human image understanding, we augment our comprehension of these models' capabilities. Through our analysis, we reveal significant discrepancies in CLIP's interpretation of images compared to human perception, shedding light on areas requiring improvement. Our methodologies, the Discrepancy Analysis Framework (DAF) and the Transformative Caption Analysis for CLIP (TCAC), enable a comprehensive evaluation of CLIP's performance. We identify 14 systemic faults, including Action vs. Stillness confusion, Failure to identify the direction of movement or positioning of objects in the image, Hallucination of Water-like Features, Misattribution of Geographic Context, among others. By addressing these limitations, we lay the groundwork for the development of more accurate and nuanced image embedding models, contributing to advancements in artificial intelligence. | 翻訳日:2024-07-04 02:26:49 公開日:2024-06-30 |
# 大規模表面データと地下データのセグメンテーションのための完全可逆双曲型ニューラルネットワーク
Fully invertible hyperbolic neural networks for segmenting large-scale surface and sub-surface data ( http://arxiv.org/abs/2407.00595v1 ) ライセンス: Link先を確認 | Bas Peters, Eldad Haber, Keegan Lensink, | (参考訳) 地科学とリモートセンシングデータセットの大規模な空間的・時間的・周波数的スケールは、(サブ)表面データセグメンテーションに畳み込みニューラルネットワークを使用する際のメモリ問題を引き起こす。
近年開発された完全可逆的ネットワークや完全可逆的ネットワークは、後方通過時に状態を再計算することで、主にメモリ制限を回避することができる。
これにより、ネットワーク深さの典型的な線形メモリ成長とは対照的に、ネットワーク状態を保存するための低メモリ要件と固定メモリ要件が実現される。
本研究は電信方程式に基づく完全可逆ネットワークに焦点を当てる。
可逆性は、データによって深層ネットワークで使用される大量のメモリを節約するが、畳み込みカーネルは、完全な可逆性ネットワークが複数の可逆性プーリング/粗い層を含んでいる場合、ほとんどのメモリを取り込み得る。
完全可逆ネットワークと畳み込みカーネルを含む層を直接圧縮形式で結合することにより、畳み込みカーネル数の爆発に対処する。
第二の課題は、インバータブルネットワークがその入力と同じ大きさのテンソルを出力することである。
この特性は、異なる入力出力次元の間をマッピングするアプリケーションへの可逆ネットワークの直接的な適用を防ぎ、入力データよりも多くのチャネルを持つ出力にマップする必要がある、あるいは入力データよりも解像度を減少/増加させる欲求出力を防ぎます。
しかし,非標準方式で非可逆ネットワークを利用することで,これらのタスクに使用することができることを示す。
超スペクトル土地利用分類、空中物理探査、および地震探査の例では、1チャンクで大きなデータ量を入力でき、小さなパッチで作業したり、次元的削減を使ったり、パッチを1つの中央ピクセルに分類する手法を使わなくてもよいことを示している。
The large spatial/temporal/frequency scale of geoscience and remote-sensing datasets causes memory issues when using convolutional neural networks for (sub-) surface data segmentation. Recently developed fully reversible or fully invertible networks can mostly avoid memory limitations by recomputing the states during the backward pass through the network. This results in a low and fixed memory requirement for storing network states, as opposed to the typical linear memory growth with network depth. This work focuses on a fully invertible network based on the telegraph equation. While reversibility saves the major amount of memory used in deep networks by the data, the convolutional kernels can take up most memory if fully invertible networks contain multiple invertible pooling/coarsening layers. We address the explosion of the number of convolutional kernels by combining fully invertible networks with layers that contain the convolutional kernels in a compressed form directly. A second challenge is that invertible networks output a tensor the same size as its input. This property prevents the straightforward application of invertible networks to applications that map between different input-output dimensions, need to map to outputs with more channels than present in the input data, or desire outputs that decrease/increase the resolution compared to the input data. However, we show that by employing invertible networks in a non-standard fashion, we can still use them for these tasks. Examples in hyperspectral land-use classification, airborne geophysical surveying, and seismic imaging illustrate that we can input large data volumes in one chunk and do not need to work on small patches, use dimensionality reduction, or employ methods that classify a patch to a single central pixel. | 翻訳日:2024-07-04 02:26:49 公開日:2024-06-30 |
# HATs:パノラマ画像解析のための階層的適応型分類セグメンテーション
HATs: Hierarchical Adaptive Taxonomy Segmentation for Panoramic Pathology Image Analysis ( http://arxiv.org/abs/2407.00596v1 ) ライセンス: Link先を確認 | Ruining Deng, Quan Liu, Can Cui, Tianyuan Yao, Juming Xiong, Shunxing Bao, Hao Li, Mengmeng Yin, Yu Wang, Shilin Zhao, Yucheng Tang, Haichun Yang, Yuankai Huo, | (参考訳) パノラマ画像分割は、形態学的に複雑で可変スケールの解剖学のため、顕著な課題である。
例えば、腎臓病理学における複雑な組織は、大脳皮質や髄質のような領域から、糸球体、尿細管、血管などの機能単位まで、複数の層にまたがる。
本稿では, 詳細な解剖学的知見を活用して, 腎臓構造のパノラマ像を網羅的に区分する新しい階層型適応型分類分類分類法を提案する。
提案手法は,15の異なる対象クラス間の空間的関係を,領域,機能単位,細胞にまたがる汎用的な「プラグ・アンド・プレイ」損失関数に変換する革新的なHAT技術,(2)解剖学的階層の組み入れと,すべてのパノラマエンティティに対する統一された単純な行列表現へのスケール考察,(3)モデルの適応性を向上する機能抽出ツールとしての最新のAI基盤モデル(EfficientSAM)の採用,そして従来のセグメントモデル(SAM)において手動のプロンプト生成の必要性を排除した。
実験結果から,HATs法は臨床所見と画像前例を15以上のカテゴリにまたがる統合セグメンテーションモデルに統合するための効率的かつ効果的な方法であることが示された。
公式実装はhttps://github.com/hrlblab/HATsで公開されている。
Panoramic image segmentation in computational pathology presents a remarkable challenge due to the morphologically complex and variably scaled anatomy. For instance, the intricate organization in kidney pathology spans multiple layers, from regions like the cortex and medulla to functional units such as glomeruli, tubules, and vessels, down to various cell types. In this paper, we propose a novel Hierarchical Adaptive Taxonomy Segmentation (HATs) method, which is designed to thoroughly segment panoramic views of kidney structures by leveraging detailed anatomical insights. Our approach entails (1) the innovative HATs technique which translates spatial relationships among 15 distinct object classes into a versatile "plug-and-play" loss function that spans across regions, functional units, and cells, (2) the incorporation of anatomical hierarchies and scale considerations into a unified simple matrix representation for all panoramic entities, (3) the adoption of the latest AI foundation model (EfficientSAM) as a feature extraction tool to boost the model's adaptability, yet eliminating the need for manual prompt generation in conventional segment anything model (SAM). Experimental findings demonstrate that the HATs method offers an efficient and effective strategy for integrating clinical insights and imaging precedents into a unified segmentation model across more than 15 categories. The official implementation is publicly available at https://github.com/hrlblab/HATs. | 翻訳日:2024-07-04 02:26:49 公開日:2024-06-30 |
# Parm: 定型スケジューリングによる大規模疎活性化モデルの効率的なトレーニング
Parm: Efficient Training of Large Sparsely-Activated Models with Dedicated Schedules ( http://arxiv.org/abs/2407.00599v1 ) ライセンス: Link先を確認 | Xinglin Pan Wenxiang Lin, Shaohuai Shi, Xiaowen Chu, Weinong Sun, Bo Li, | (参考訳) 少量に活性化されたMixture-of-Expert(MoE)層は、大規模基盤モデルのモデルサイズを拡大する実践的な応用を見出した。
モデル並列性、エキスパート並列性、エキスパートシャーディング並列性(MP+EP+ESP)といったハイブリッド並列パラダイムが広く採用されているにもかかわらず、トレーニング効率はこれらの並列パラダイムによって導入された通信コストによって妨げられる。
そこで本稿では,MP+EP+ESP学習を高速化するParmを提案する。
提案したスケジュールは冗長な計算と通信を排除し、ノード内通信とノード間通信の重複を可能にする。
2つのスケジュールは相互に排他的ではないため、包括的な理論的分析を提供し、異なるシナリオにどのスケジュールを適用するべきかを決定するための自動的かつ正確な解決策を導出する。
8-GPUサーバと32-GPUクラスタの実験結果によると、Parmは最先端のMoEトレーニングシステムであるDeepSpeed-MoEより優れており、手動で設定された1296上の1.13$\times$と5.77$\times$のスピードアップ、BERTとGPT-2に基づく2つの現実世界のMoEモデルの約3$\times$の改善を実現している。
Sparsely-activated Mixture-of-Expert (MoE) layers have found practical applications in enlarging the model size of large-scale foundation models, with only a sub-linear increase in computation demands. Despite the wide adoption of hybrid parallel paradigms like model parallelism, expert parallelism, and expert-sharding parallelism (i.e., MP+EP+ESP) to support MoE model training on GPU clusters, the training efficiency is hindered by communication costs introduced by these parallel paradigms. To address this limitation, we propose Parm, a system that accelerates MP+EP+ESP training by designing two dedicated schedules for placing communication tasks. The proposed schedules eliminate redundant computations and communications and enable overlaps between intra-node and inter-node communications, ultimately reducing the overall training time. As the two schedules are not mutually exclusive, we provide comprehensive theoretical analyses and derive an automatic and accurate solution to determine which schedule should be applied in different scenarios. Experimental results on an 8-GPU server and a 32-GPU cluster demonstrate that Parm outperforms the state-of-the-art MoE training system, DeepSpeed-MoE, achieving 1.13$\times$ to 5.77$\times$ speedup on 1296 manually configured MoE layers and approximately 3$\times$ improvement on two real-world MoE models based on BERT and GPT-2. | 翻訳日:2024-07-04 02:26:49 公開日:2024-06-30 |
# GenderBias-\emph{VL}: 対実探索による視覚言語モデルにおけるジェンダーバイアスのベンチマーク
GenderBias-\emph{VL}: Benchmarking Gender Bias in Vision Language Models via Counterfactual Probing ( http://arxiv.org/abs/2407.00600v1 ) ライセンス: Link先を確認 | Yisong Xiao, Aishan Liu, QianJia Cheng, Zhenfei Yin, Siyuan Liang, Jiapeng Li, Jing Shao, Xianglong Liu, Dacheng Tao, | (参考訳) LVLM(Large Vision-Language Models)は様々な用途で広く採用されているが、男女差が顕著である。
既存のベンチマークは、主に人口集団レベルで性別バイアスを評価し、類似した個人の平等を尊重する。
この研究のギャップは、グループフェアネスが見落としているかもしれないバイアスのよりきめ細かい検査を提供するため、差別的行動の検出を制限する。
本稿では,LVLMにおける職業関連性バイアスを,個別の公正度基準下での対実的視覚的質問を用いて評価するために,GenderBias-\emph{VL}ベンチマークを初めて導入する。
このベンチマークを構築するために、まずテキストから画像への拡散モデルを用いて、職業画像とそのジェンダーカウンターファクトを生成する。
その後、実世界の統計において、意味的類似度が高いが性別比の逆のステレオタイプ化された職業ペアを識別することにより、対応するテキストの職業オプションを生成する。
本手法は,LVLMにおいて,性別属性を特定のモダリティで変化させることにより,多モーダル・ユニモーダルの両文脈に適用可能な,大規模な視覚的疑似事実の作成を可能にする。
総じて、GenderBias-\emph{VL} ベンチマークは、34,581の視覚的質問対を対象とし、177の職業をカバーしている。
GPT-4o や Gemini-Pro など15のオープンソース LVLM (\eg, LLaVA) と最先端の商用 API を幅広く評価した。
既存のLVLMでは男女差が広くみられた。
本ベンチマークでは,(1)職業関連性バイアス評価のための包括的データセット,(2)LVLMバイアスに関する最新のリーダーボード,(3)これらのモデルが提示するバイアスの微妙な理解を提供する。
データセットとコードは \href{https://genderbiasvl.github.io/}{website} で公開されている。
※
Large Vision-Language Models (LVLMs) have been widely adopted in various applications; however, they exhibit significant gender biases. Existing benchmarks primarily evaluate gender bias at the demographic group level, neglecting individual fairness, which emphasizes equal treatment of similar individuals. This research gap limits the detection of discriminatory behaviors, as individual fairness offers a more granular examination of biases that group fairness may overlook. For the first time, this paper introduces the GenderBias-\emph{VL} benchmark to evaluate occupation-related gender bias in LVLMs using counterfactual visual questions under individual fairness criteria. To construct this benchmark, we first utilize text-to-image diffusion models to generate occupation images and their gender counterfactuals. Subsequently, we generate corresponding textual occupation options by identifying stereotyped occupation pairs with high semantic similarity but opposite gender proportions in real-world statistics. This method enables the creation of large-scale visual question counterfactuals to expose biases in LVLMs, applicable in both multimodal and unimodal contexts through modifying gender attributes in specific modalities. Overall, our GenderBias-\emph{VL} benchmark comprises 34,581 visual question counterfactual pairs, covering 177 occupations. Using our benchmark, we extensively evaluate 15 commonly used open-source LVLMs (\eg, LLaVA) and state-of-the-art commercial APIs, including GPT-4o and Gemini-Pro. Our findings reveal widespread gender biases in existing LVLMs. Our benchmark offers: (1) a comprehensive dataset for occupation-related gender bias evaluation; (2) an up-to-date leaderboard on LVLM biases; and (3) a nuanced understanding of the biases presented by these models. \footnote{The dataset and code are available at the \href{https://genderbiasvl.github.io/}{website}.} | 翻訳日:2024-07-04 02:26:49 公開日:2024-06-30 |
# 脂質膜上に埋没したソリトンによる断熱的進化
Adiabatic evolution of solitons embedded on lipid membranes ( http://arxiv.org/abs/2407.00601v1 ) ライセンス: Link先を確認 | O. Pavón-Torres, M. A. Agüero-Granados, R. Valencia-Torres, | (参考訳) ハインブルク・ジャクソンモデル(Heimburg-Jackson model)または神経インパルスの熱力学的ソリトン理論は、神経インパルスと脂質二層膜の力学を研究するための代替モデルとして確立された記録を持つ。
この枠組みの中では、神経インパルスは減衰された非線形シュリンガー方程式で表される低振幅の非線形励起として表現することができ、その断熱進化は直接摂動法を用いて解析することができる。
本研究は, 粘弾性流体の影響を受け, 脂質二層膜に埋没したソリトンの断熱的進化を得るために, 準定常法を用いて研究を行っている。
この分析は、それぞれ暗いソリトンと明るいソリトンが生じる脂質二分子膜の液-ゲル転移を含む。
The Heimburg-Jackson model, or thermodynamic soliton theory of nervous impulses, has a well-established record as an alternative model for studying the dynamics of nerve impulses and lipid bilayers. Within this framework, nerve impulses can be represented as nonlinear excitations of low amplitude depicted by the damped nonlinear Schr\"odinger equation and their adiabatic evolution can be analyzed using direct perturbative methods. Based on the foregoing, we carry out the current study using the quasi-stationary approach to obtain the adiabatic evolution of solitons embedded in lipid bilayers under the influence of a viscous elastic fluid. This analysis encompasses liquid-to-gel transition of the lipid bilayers, for whose dark and bright solitons arise, respectively. | 翻訳日:2024-07-04 02:26:49 公開日:2024-06-30 |
# 長時間ビデオQAのための階層記憶
Hierarchical Memory for Long Video QA ( http://arxiv.org/abs/2407.00603v1 ) ライセンス: Link先を確認 | Yiqin Wang, Haoji Zhang, Yansong Tang, Yong Liu, Jiashi Feng, Jifeng Dai, Xiaojie Jin, | (参考訳) 本稿では,LOVEU Challenge @ CVPR'24, Track 1 (Long Video VQA)のチャンピオンソリューションについて述べる。
視覚トークンの長いシーケンスを処理するのは計算コストが高く、メモリ集約的であり、長いビデオ質問の答えは難しい作業である。
鍵となるのは、ビジュアルトークンを効果的に圧縮し、メモリフットプリントを減らし、遅延を減らし、正確な質問応答に必要な情報を保存することである。
我々は、Flash-VStreamで提案されている、GPUメモリ(VRAM)に制限のある長いビデオの処理が可能な階層記憶機構STAR Memoryを採用する。
さらに,MovieChat-1K トレーニングセットの映像と音声データを利用して,Flash-VStream がリリースした事前学習重量を微調整し,課題の1位を達成した。
コードはプロジェクトのホームページ https://invinciblewyq.github.io/vstream-page で公開されている。
This paper describes our champion solution to the LOVEU Challenge @ CVPR'24, Track 1 (Long Video VQA). Processing long sequences of visual tokens is computationally expensive and memory-intensive, making long video question-answering a challenging task. The key is to compress visual tokens effectively, reducing memory footprint and decoding latency, while preserving the essential information for accurate question-answering. We adopt a hierarchical memory mechanism named STAR Memory, proposed in Flash-VStream, that is capable of processing long videos with limited GPU memory (VRAM). We further utilize the video and audio data of MovieChat-1K training set to fine-tune the pretrained weight released by Flash-VStream, achieving 1st place in the challenge. Code is available at project homepage https://invinciblewyq.github.io/vstream-page | 翻訳日:2024-07-04 02:26:49 公開日:2024-06-30 |
# バーサタイルフラッグシェアリングシンドローム抽出回路による量子誤差補正オーバーヘッドの低減
Reducing Quantum Error Correction Overhead with Versatile Flag-Sharing Syndrome Extraction Circuits ( http://arxiv.org/abs/2407.00607v1 ) ライセンス: Link先を確認 | Pei-Hao Liou, Ching-Yi Lai, | (参考訳) 量子誤り訂正プロセスが信頼できないことを考えると、効率的なエラーシンドローム抽出回路は、回路深度を低く保ちながら、補助量子ビット、量子ゲート、測定を少なくし、回路深度と物理量子ビットの積として大まかに定義された回路面積を最小化する。
量子安定化器符号のための共有フラグ量子ビットを用いた並列フラグ付きシンドローム抽出の設計を提案する。
所要回路面積を最小限に抑えるため,バーサタイル並列化技術が採用され,エラー閾値と全体的な性能が向上した。
具体的には、複数ラウンドのシンドローム抽出の結果をルックアップテーブルデコーダに統合し、共有フラグ量子ビットで複数の安定化器測定を並列化できるようにする。
我々は[17,1,5]と[19,1,5]のCalderbank-Shor-Steane(CSS)コードに対して,フラグ共有と完全に並列なスキームを提案する。
この方法論は[5,1,3]非CSSコードにまで拡張され、最小の既知の回路領域を達成する。
数値シミュレーションにより、これらの符号の擬似閾値は、文献の以前のスキームに比べて最大で1桁改善されていることが示されている。
Given that quantum error correction processes are unreliable, an efficient error syndrome extraction circuit should use fewer ancillary qubits, quantum gates, and measurements, while maintaining low circuit depth, to minimizing the circuit area, roughly defined as the product of circuit depth and the number of physical qubits. We propose to design parallel flagged syndrome extraction with shared flag qubits for quantum stabilizer codes. Versatile parallelization techniques are employed to minimize the required circuit area, thereby improving the error threshold and overall performance. Specifically, all the measurement outcomes in multiple rounds of syndrome extraction are integrated into a lookup table decoder, allowing us to parallelize multiple stabilizer measurements with shared flag qubits. We present flag-sharing and fully parallel schemes for the [[17,1,5]] and [[19,1,5]] Calderbank-Shor-Steane (CSS) codes. This methodology extends to the [[5,1,3]] non-CSS code, achieving the minimum known circuit area. Numerical simulations have demonstrated improved pseudothresholds for these codes by up to an order of magnitude compared to previous schemes in the literature. | 翻訳日:2024-07-04 02:26:49 公開日:2024-06-30 |
# テキストサブスペースの活用によるパーソナライズドテキスト画像生成の効率化
Efficient Personalized Text-to-image Generation by Leveraging Textual Subspace ( http://arxiv.org/abs/2407.00608v1 ) ライセンス: Link先を確認 | Shian Du, Xiaotian Cheng, Qi Qian, Henglu Wei, Yi Xu, Xiangyang Ji, | (参考訳) 個人化されたテキスト・画像生成は、入力概念データセットと新しいテキスト・プロンプトを用いて、高度に個人化された画像を生成するというユニークな能力により、ここ数年で前例のない注目を集めている。
しかし, 従来の手法では, 復元作業の性能にのみ焦点が当てられており, 異なるテキストプロンプトと組み合わせる能力は低下していた。
さらに、高次元埋め込み空間の最適化は、通常、不要な時間を要するトレーニングプロセスと緩やかな収束をもたらす。
これらの問題に対処するため,本論文では,自己表現性からインスピレーションを得て,テキストサブスペースへのターゲット埋め込みを効率的に探索する手法を提案する。
さらに,テキスト部分空間の基底ベクトルを決定するための効率的な選択戦略を提案する。
実験により, 学習した埋め込みは入力画像を忠実に再構成するだけでなく, 新たな入力テキストプロンプトとの整合性も向上することが示された。
さらに,テキスト部分空間の最適化は,初期単語に対するロバスト性を大幅に向上させ,ユーザが最も関連性の高い初期単語を入力しなければならない制約を緩和する。
本手法は、個人化されたテキスト・画像生成のためのより効率的な表現学習への扉を開く。
Personalized text-to-image generation has attracted unprecedented attention in the recent few years due to its unique capability of generating highly-personalized images via using the input concept dataset and novel textual prompt. However, previous methods solely focus on the performance of the reconstruction task, degrading its ability to combine with different textual prompt. Besides, optimizing in the high-dimensional embedding space usually leads to unnecessary time-consuming training process and slow convergence. To address these issues, we propose an efficient method to explore the target embedding in a textual subspace, drawing inspiration from the self-expressiveness property. Additionally, we propose an efficient selection strategy for determining the basis vectors of the textual subspace. The experimental evaluations demonstrate that the learned embedding can not only faithfully reconstruct input image, but also significantly improves its alignment with novel input textual prompt. Furthermore, we observe that optimizing in the textual subspace leads to an significant improvement of the robustness to the initial word, relaxing the constraint that requires users to input the most relevant initial word. Our method opens the door to more efficient representation learning for personalized text-to-image generation. | 翻訳日:2024-07-04 02:26:49 公開日:2024-06-30 |
# ESGNN:3次元シーン理解のための等変Scene Graph Neural Networkを目指して
ESGNN: Towards Equivariant Scene Graph Neural Network for 3D Scene Understanding ( http://arxiv.org/abs/2407.00609v1 ) ライセンス: Link先を確認 | Quang P. M. Pham, Khoi T. N. Nguyen, Lan C. Ngo, Truong Do, Truong Son Hy, | (参考訳) シーングラフは、コンパクトで明示的な性質のため、様々なシーン理解タスクに有用であることが証明されている。
しかし、既存のアプローチは3次元点雲からシーングラフを生成する際に対称性保存性を維持することの重要性を無視することが多い。
この監視は、特にノイズの多いマルチビュー3Dデータを扱う場合、結果のシーングラフの精度と堅牢性を低下させる可能性がある。
この研究は、私たちの知る限り、シーン理解のための3Dポイントクラウドからのセマンティックなシーングラフ生成に、Equivariant Graph Neural Networkを初めて実装したものです。
提案手法であるESGNNは、既存の最先端手法よりも優れており、より高速な収束によるシーン推定の大幅な改善が示されている。
ESGNNは低い計算リソースを必要とし、利用可能なフレームワークから容易に実装でき、ロボット工学やコンピュータビジョンのようなリアルタイムアプリケーションへの道を開く。
Scene graphs have been proven to be useful for various scene understanding tasks due to their compact and explicit nature. However, existing approaches often neglect the importance of maintaining the symmetry-preserving property when generating scene graphs from 3D point clouds. This oversight can diminish the accuracy and robustness of the resulting scene graphs, especially when handling noisy, multi-view 3D data. This work, to the best of our knowledge, is the first to implement an Equivariant Graph Neural Network in semantic scene graph generation from 3D point clouds for scene understanding. Our proposed method, ESGNN, outperforms existing state-of-the-art approaches, demonstrating a significant improvement in scene estimation with faster convergence. ESGNN demands low computational resources and is easy to implement from available frameworks, paving the way for real-time applications such as robotics and computer vision. | 翻訳日:2024-07-04 02:26:49 公開日:2024-06-30 |
# Diff-BBO:ブラックボックス最適化のための拡散に基づく逆モデリング
Diff-BBO: Diffusion-Based Inverse Modeling for Black-Box Optimization ( http://arxiv.org/abs/2407.00610v1 ) ライセンス: Link先を確認 | Dongxia Wu, Nikki Lijing Kuang, Ruijia Niu, Yi-An Ma, Rose Yu, | (参考訳) Black-box Optimization (BBO) は、ブラックボックスのオラクルを反復的にクエリすることで目的関数を最適化することを目的としている。
このプロセスは、関数評価の計算コストが高いため、サンプル効率の最適化を必要とする。
先行研究では、未知の目的関数のサロゲートを学習するための前方アプローチに焦点が当てられていたが、実世界のタスクに共通する小さな部分空間(例えば、有効なタンパク質配列)を形成するような高次元入力に苦慮していた。
近年,拡散モデルにより高次元データ多様体の学習能力が向上している。
彼らはブラックボックス最適化タスクで有望なパフォーマンスを示したが、オフライン設定でのみであった。
本研究では,オンラインBBO問題に対する拡散モデルを利用した最初の逆モデルであるブラックボックス最適化(Diff-BBO)の拡散に基づく逆モデリングを提案する。
Diff-BBOは、獲得関数の設計を通じて前方アプローチと区別する。
Diff-BBOは、設計分野の候補を提案する代わりに、目的関数値の提案のために、新しい取得機能である不確実性対応探索(UaE)を採用し、条件拡散モデルの不確実性を利用して設計分野のサンプルを生成する。
理論的には、UaEの使用が最適な最適化結果をもたらすことが証明される。
経験的に、オンライン設定のためのDesign-Benchベンチマークの実験を再設計し、Diff-BBOが最先端のパフォーマンスを達成することを示す。
Black-box optimization (BBO) aims to optimize an objective function by iteratively querying a black-box oracle. This process demands sample-efficient optimization due to the high computational cost of function evaluations. While prior studies focus on forward approaches to learn surrogates for the unknown objective function, they struggle with high-dimensional inputs where valid inputs form a small subspace (e.g., valid protein sequences), which is common in real-world tasks. Recently, diffusion models have demonstrated impressive capability in learning the high-dimensional data manifold. They have shown promising performance in black-box optimization tasks but only in offline settings. In this work, we propose diffusion-based inverse modeling for black-box optimization (Diff-BBO), the first inverse approach leveraging diffusion models for online BBO problem. Diff-BBO distinguishes itself from forward approaches through the design of acquisition function. Instead of proposing candidates in the design space, Diff-BBO employs a novel acquisition function Uncertainty-aware Exploration (UaE) to propose objective function values, which leverages the uncertainty of a conditional diffusion model to generate samples in the design space. Theoretically, we prove that using UaE leads to optimal optimization outcomes. Empirically, we redesign experiments on the Design-Bench benchmark for online settings and show that Diff-BBO achieves state-of-the-art performance. | 翻訳日:2024-07-04 02:26:49 公開日:2024-06-30 |
# 機械学習におけるハイパーパラメータチューニングのための線形計画型遺伝的アルゴリズム
A Linear Programming Enhanced Genetic Algorithm for Hyperparameter Tuning in Machine Learning ( http://arxiv.org/abs/2407.00613v1 ) ライセンス: Link先を確認 | Ankur Sinha, Paritosh Pankaj, | (参考訳) 本稿では,機械学習におけるハイパーパラメータチューニング問題をバイレベルプログラムとして定式化する。
線形プログラムで強化されたマイクロ遺伝的アルゴリズムを用いて、バイレベルプログラムを解く。
遺伝的アルゴリズムは離散的なハイパーパラメータを探索するが、線形プログラムの拡張は連続したハイパーパラメータを超局所的に探索することを可能にする。
本研究の主な貢献は,連続したハイパーパラメータを高速に探索する線形プログラムの定式化であり,任意のハイパーパラメータ探索手法と統合可能である。
微調整のためにトレーニングされた機械学習やディープラーニングモデルに直接適用することもできる。
提案手法の性能を,MNISTとCIFAR-10の2つのデータセットで検証した。
以上の結果から, 線形プログラム拡張は, ハイパーパラメータチューニングのための集団ベースアプローチを組み込んだ場合, 有意な期待が得られた。
In this paper, we formulate the hyperparameter tuning problem in machine learning as a bilevel program. The bilevel program is solved using a micro genetic algorithm that is enhanced with a linear program. While the genetic algorithm searches over discrete hyperparameters, the linear program enhancement allows hyper local search over continuous hyperparameters. The major contribution in this paper is the formulation of a linear program that supports fast search over continuous hyperparameters, and can be integrated with any hyperparameter search technique. It can also be applied directly on any trained machine learning or deep learning model for the purpose of fine-tuning. We test the performance of the proposed approach on two datasets, MNIST and CIFAR-10. Our results clearly demonstrate that using the linear program enhancement offers significant promise when incorporated with any population-based approach for hyperparameter tuning. | 翻訳日:2024-07-04 02:26:49 公開日:2024-06-30 |
# Dexterous Roboticsにおけるツールベース機能グラスピングのための人間と物体の相互作用による粒度認識精度の学習
Learning Granularity-Aware Affordances from Human-Object Interaction for Tool-Based Functional Grasping in Dexterous Robotics ( http://arxiv.org/abs/2407.00614v1 ) ライセンス: Link先を確認 | Fan Yang, Wenrui Chen, Kailun Yang, Haoran Lin, DongSheng Luo, Conghui Tang, Zhiyong Li, Yaonan Wang, | (参考訳) ロボットがツールを使えるようにするために、最初のステップは、タスクが実行された特定の領域に正確に触れるための巧妙なジェスチャーをロボットに教えることだ。
オブジェクトの付加的な特徴は、エージェントとオブジェクト間の機能的な相互作用のブリッジとして機能する。
しかし、ロボットが機能的なツールをつかむのを助けるためにこれらの余裕の手段を活用することは未解決のままである。
そこで本研究では,機能的アベイランス領域の特定と粗いジェスチャーの予測を行うための,粒度を考慮したアベイランス特徴抽出手法を提案する。
ヒトの道具使用の本質的なメカニズムについて検討する。
一方,機能的手指接触領域の細粒度化機能を用いて機能的手指接触領域の特定を行う。
一方,手動物体間相互作用領域において,高活性な粗粒度機能を用いて動作の把握を行う。
さらに,機能的な指座標の定位,指対端の座標変換,力フィードバックによる粗さと微細さの把握を含むモデルベースの後処理モジュールを提案する。
GAAF-Dexは、Dexterous Roboticsにおけるツールベースの機能的把握のための人間と物体の相互作用からグラニュラリティ・アウェア・アフォーマンスを学習する。
広範囲なデータアノテーションを必要とする完全教師付き手法とは違って,エゴセントリック(エゴ)画像の特徴抽出を監督するために,手動物体相互作用のエクソセントリック(Exo)画像から関連する手がかりを抽出する弱い教師付き手法を用いる。
我々は,機能的ハンドオブジェクトインタラクションの約6Kイメージを含む小型データセットFAHを構築した。
データセットに関する大規模な実験は、我々の手法が最先端の手法より優れていることを示す。
コードはhttps://github.com/yangfan293/GAAF-DEXで公開される。
To enable robots to use tools, the initial step is teaching robots to employ dexterous gestures for touching specific areas precisely where tasks are performed. Affordance features of objects serve as a bridge in the functional interaction between agents and objects. However, leveraging these affordance cues to help robots achieve functional tool grasping remains unresolved. To address this, we propose a granularity-aware affordance feature extraction method for locating functional affordance areas and predicting dexterous coarse gestures. We study the intrinsic mechanisms of human tool use. On one hand, we use fine-grained affordance features of object-functional finger contact areas to locate functional affordance regions. On the other hand, we use highly activated coarse-grained affordance features in hand-object interaction regions to predict grasp gestures. Additionally, we introduce a model-based post-processing module that includes functional finger coordinate localization, finger-to-end coordinate transformation, and force feedback-based coarse-to-fine grasping. This forms a complete dexterous robotic functional grasping framework GAAF-Dex, which learns Granularity-Aware Affordances from human-object interaction for tool-based Functional grasping in Dexterous Robotics. Unlike fully-supervised methods that require extensive data annotation, we employ a weakly supervised approach to extract relevant cues from exocentric (Exo) images of hand-object interactions to supervise feature extraction in egocentric (Ego) images. We have constructed a small-scale dataset, FAH, which includes near 6K images of functional hand-object interaction Exo- and Ego images of 18 commonly used tools performing 6 tasks. Extensive experiments on the dataset demonstrate our method outperforms state-of-the-art methods. The code will be made publicly available at https://github.com/yangfan293/GAAF-DEX. | 翻訳日:2024-07-04 02:26:49 公開日:2024-06-30 |
# GC-Bench: グラフ凝縮のためのオープンで統一されたベンチマーク
GC-Bench: An Open and Unified Benchmark for Graph Condensation ( http://arxiv.org/abs/2407.00615v1 ) ライセンス: Link先を確認 | Qingyun Sun, Ziying Chen, Beining Yang, Cheng Ji, Xingcheng Fu, Sheng Zhou, Hao Peng, Jianxin Li, Philip S. Yu, | (参考訳) グラフ凝縮(GC)は、その重要な性質を保ちながら、大規模なグラフデータセットを削減できることから、最近かなりの注目を集めている。
GCの中核的な概念は、オリジナルのグラフの特徴を保持するより小さく、より管理しやすいグラフを作ることである。
近年のグラフ凝縮法の普及にもかかわらず、包括的評価や詳細な分析は行われておらず、この分野の進歩を理解する上で大きな障害となっている。
このギャップを埋めるために、異なるシナリオにおけるグラフ凝縮の性能を系統的に解析する総合的なグラフ凝縮ベンチマーク(GC-Bench)を開発した。
特にGC-Benchは, グラフ凝縮の特性を, 有効性, 伝達可能性, 複雑さの観点から体系的に研究している。
ノードレベルおよびグラフレベルのタスクにおいて、12の最先端グラフ凝縮アルゴリズムを包括的に評価し、12のグラフデータセットでその性能を解析する。
さらに,再現性のある研究を容易にするために,異なるGC手法を訓練し,評価するための簡易ライブラリを開発した。
GC-Benchライブラリはhttps://github.com/RingBDStack/GC-Benchで入手できる。
Graph condensation (GC) has recently garnered considerable attention due to its ability to reduce large-scale graph datasets while preserving their essential properties. The core concept of GC is to create a smaller, more manageable graph that retains the characteristics of the original graph. Despite the proliferation of graph condensation methods developed in recent years, there is no comprehensive evaluation and in-depth analysis, which creates a great obstacle to understanding the progress in this field. To fill this gap, we develop a comprehensive Graph Condensation Benchmark (GC-Bench) to analyze the performance of graph condensation in different scenarios systematically. Specifically, GC-Bench systematically investigates the characteristics of graph condensation in terms of the following dimensions: effectiveness, transferability, and complexity. We comprehensively evaluate 12 state-of-the-art graph condensation algorithms in node-level and graph-level tasks and analyze their performance in 12 diverse graph datasets. Further, we have developed an easy-to-use library for training and evaluating different GC methods to facilitate reproducible research. The GC-Bench library is available at https://github.com/RingBDStack/GC-Bench. | 翻訳日:2024-07-04 02:26:49 公開日:2024-06-30 |
# DADEE:障壁に基づくロボットの安全性のためのニューラルネットワークにおけるよく校正された不確実性定量化
DADEE: Well-calibrated uncertainty quantification in neural networks for barriers-based robot safety ( http://arxiv.org/abs/2407.00616v1 ) ライセンス: Link先を確認 | Masoud Ataei, Vikas Dhiman, | (参考訳) 安全を保証する不確実性対応コントローラは、安全クリティカルなアプリケーションには不可欠である。
このようなコントローラの中で、制御バリア関数(CBF)ベースのアプローチは高速で安全であるため人気がある。
しかし、ほとんどの研究は学習と不確実性推定のためにガウス過程 (GP) や MC-Dropout に依存しており、どちらの手法にも欠点がある: GP は遅い非パラメトリックな手法であり、MC-Dropout はアレター的不確かさを捉えない。
一方、現代のベイズ学習アルゴリズムは不確実な定量化の可能性を示してきた。
現代のベイズ学習法のCBFベースコントローラへの応用はまだ研究されていない。
我々は、不確実な定量化アルゴリズムを調査し、CBFベースの安全コントローラ上で評価することで、このギャップを埋めることを目指している。
モデル分散に基づくアルゴリズム(ディープアンサンブル,MCドロップアウトなど)と直接推定に基づくアルゴリズム(DEUPなど)は相補的な強みを持つ。
前者のカテゴリのアルゴリズムは正確な領域外不確実性しか推定できないが、後者のカテゴリのアルゴリズムはドメイン内のみを推定できる。
2つのアプローチを組み合わせて、ドメイン内および外部の両方でより正確な不確実性推定を得る。
シミュレーションロボットの故障率から測定すると、より安全なCBFベースのロボットコントローラが得られる。
Uncertainty-aware controllers that guarantee safety are critical for safety critical applications. Among such controllers, Control Barrier Functions (CBFs) based approaches are popular because they are fast, yet safe. However, most such works depend on Gaussian Processes (GPs) or MC-Dropout for learning and uncertainty estimation, and both approaches come with drawbacks: GPs are non-parametric methods that are slow, while MC-Dropout does not capture aleatoric uncertainty. On the other hand, modern Bayesian learning algorithms have shown promise in uncertainty quantification. The application of modern Bayesian learning methods to CBF-based controllers has not yet been studied. We aim to fill this gap by surveying uncertainty quantification algorithms and evaluating them on CBF-based safe controllers. We find that model variance-based algorithms (for example, Deep ensembles, MC-dropout, etc.) and direct estimation-based algorithms (such as DEUP) have complementary strengths. Algorithms in the former category can only estimate uncertainty accurately out-of-domain, while those in the latter category can only do so in-domain. We combine the two approaches to obtain more accurate uncertainty estimates both in- and out-of-domain. As measured by the failure rate of a simulated robot, this results in a safer CBF-based robot controller. | 翻訳日:2024-07-04 02:17:05 公開日:2024-06-30 |
# 反復的ナッシュ政策最適化:非回帰学習による LLM の一般化
Iterative Nash Policy Optimization: Aligning LLMs with General Preferences via No-Regret Learning ( http://arxiv.org/abs/2407.00617v1 ) ライセンス: Link先を確認 | Yuheng Zhang, Dian Yu, Baolin Peng, Linfeng Song, Ye Tian, Mingyue Huo, Nan Jiang, Haitao Mi, Dong Yu, | (参考訳) Reinforcement Learning with Human Feedback (RLHF) は、大きな言語モデル(LLM)と人間の好みを一致させることで大きな成功を収めた。
一般的なRLHFアプローチは、Bradley-Terry(BT)モデル仮定に従って報酬ベースである。
本稿では,RLHFを一般的な嗜好の枠組みの下で探索し,ゲーム理論の観点からアプローチする。
具体的には、2人プレイヤゲームとして問題を定式化し、新しいアルゴリズムである反復ナッシュポリシー最適化(INPO)を提案する。
鍵となる考え方は、無関係の学習を通じて政策を自らに反抗させ、ナッシュ政策を近似させることである。
従来の手法とは異なり、INPOは個々の応答に対して期待される勝利率を見積もる必要性を回避し、通常は高い計算コストやアノテーションコストを発生させる。
代わりに、選好データセット上で直接最小化される新しい損失目標を導入する。
本稿では,提案手法の理論的解析を行い,様々な代表ベンチマークによる実験によりその効果を実証する。
LLaMA-3-8BベースのSFTモデルで、INPOはAlpacaEval 2.0で41.5%の勝利率、Arena-Hardで38.3%の勝利率を達成した。
さらに,我々のアブレーション研究は,応答長制御にKL正則化を組み込むことの利点を強調した。
Reinforcement Learning with Human Feedback (RLHF) has achieved great success in aligning large language models (LLMs) with human preferences. Prevalent RLHF approaches are reward-based, following the Bradley-Terry (BT) model assumption, which may not fully capture the complexity of human preferences. In this paper, we explore RLHF under a general preference framework and approach it from a game-theoretic perspective. Specifically, we formulate the problem as a two-player game and propose a novel algorithm, iterative Nash policy optimization (INPO). The key idea is to let the policy play against itself via no-regret learning, thereby approximating the Nash policy. Unlike previous methods, INPO bypasses the need for estimating the expected win rate for individual responses, which typically incurs high computational or annotation costs. Instead, we introduce a new loss objective that is directly minimized over a preference dataset. We provide theoretical analysis for our approach and demonstrate its effectiveness through experiments on various representative benchmarks. With an LLaMA-3-8B-based SFT model, INPO achieves a 41.5% length-controlled win rate on AlpacaEval 2.0 and a 38.3% win rate on Arena-Hard, showing substantial improvement over the state-of-the-art iterative algorithm [Dong et al., 2024] under the BT model assumption. Additionally, our ablation study highlights the benefits of incorporating KL regularization for response length control. | 翻訳日:2024-07-04 02:17:05 公開日:2024-06-30 |
# 非自己随伴ハミルトニアンに対する抽象ラグ作用素とその応用
Abstract ladder operators for non self-adjoint Hamiltonians, with applications ( http://arxiv.org/abs/2407.00620v1 ) ライセンス: Link先を確認 | Fabio Bagarello, | (参考訳) ラダー作用素は、与えられた物理系の解析において必要ではないとしても有用であり、ハミルトン多様体の固有値や固有ベクトルを容易に見つけるのに使用できる。
本稿では、システムのハミルトニアンが自己随伴でない場合の何が起こるかについて、多くの詳細を考慮し、抽象ラグ作用素に関するこれまでの結果を拡張する。
その他の結果の中で、下降作用素の固有状態として構築されたコヒーレント状態の存在基準を与える。
論文の後半では、擬クォーンと変形一般化ハイゼンベルク代数という2つの異なるフレームワークの例について論じる。
ちなみに、また興味深いことに、擬クォーンは、最小長の量子力学においてしばしば考慮される種類の変形可換規則に従う(非自己随伴)位置と運動量作用素という観点で記述された発振子のようなハミルトニアンを対角化するのに使うことができる。
Ladder operators are useful, if not essential, in the analysis of some given physical system since they can be used to find easily eigenvalues and eigenvectors of its Hamiltonian. In this paper we extend our previous results on abstract ladder operators considering in many details what happens if the Hamiltonian of the system is not self-adjoint. Among other results, we give an existence criterion for coherent states constructed as eigenstates of our lowering operators. In the second part of the paper we discuss two different examples of our framework: pseudo-quons and a deformed generalized Heisenberg algebra. Incidentally, and interestingly enough, we show that pseudo-quons can be used to diagonalize an oscillator-like Hamiltonian written in terms of (non self-adjoint) position and momentum operators which obey a deformed commutation rule of the kind often considered in minimal length quantum mechanics. | 翻訳日:2024-07-04 02:17:05 公開日:2024-06-30 |
# 整合性浄化:認証ロバスト性に対する有効かつ効率的な拡散浄化
Consistency Purification: Effective and Efficient Diffusion Purification towards Certified Robustness ( http://arxiv.org/abs/2407.00623v1 ) ライセンス: Link先を確認 | Yiquan Li, Zhongzhu Chen, Kun Jin, Jiongxiao Wang, Bo Li, Chaowei Xiao, | (参考訳) 拡散浄化, 拡散モデルによるノイズ画像の浄化は, ランダム化平滑化による認証ロバスト性向上に広く利用されている。
しかし、既存のフレームワークは効率性と効率性のバランスを保っていることが多い。
Denoising Diffusion Probabilistic Model (DDPM)は、効率的な単一ステップの浄化を提供するが、精製された画像がデータ多様体に存在することを保証するには不十分である。
逆に、確率拡散モデル(Stochastic Diffusion Model)は、データ多様体上の純像を効果的に配置するが、煩雑な確率微分方程式を解くことを要求する一方で、その微分である確率フロー正規微分方程式(PF-ODE)は、単純な常微分方程式を解くが、それでも複数の計算ステップを必要とする。
本研究では, 理想的な浄化パイプラインが, 1段階の効率向上のために, 元の画像と同等にセマンティックに整合したデータ多様体上で, 精製画像を生成することを実証した。
そこで本研究では, 従来よりも効率効率の良いパレート優良浄化器である一貫性浄化について紹介した。
整合性浄化はPF-ODEから蒸留した一段階生成モデルである整合性モデルを用いており、単一のネットワーク評価で1次元の純化画像を生成することができる。
しかし、一貫性モデルは浄化のためではなく、精製画像と原画像のセマンティックアライメントを本質的に保証しないように設計されている。
この問題を解決するために、LPIPS損失を伴う一貫性ファインタニングによりさらに洗練し、データ多様体上に精製された画像を保持しながら、より整合的な意味合いを実現する。
総合的な実験により,我々の整合性浄化フレームワークは,ベースライン法と比較して,最先端の信頼性の高いロバスト性と効率性を実現していることが示された。
Diffusion Purification, purifying noised images with diffusion models, has been widely used for enhancing certified robustness via randomized smoothing. However, existing frameworks often grapple with the balance between efficiency and effectiveness. While the Denoising Diffusion Probabilistic Model (DDPM) offers an efficient single-step purification, it falls short in ensuring purified images reside on the data manifold. Conversely, the Stochastic Diffusion Model effectively places purified images on the data manifold but demands solving cumbersome stochastic differential equations, while its derivative, the Probability Flow Ordinary Differential Equation (PF-ODE), though solving simpler ordinary differential equations, still requires multiple computational steps. In this work, we demonstrated that an ideal purification pipeline should generate the purified images on the data manifold that are as much semantically aligned to the original images for effectiveness in one step for efficiency. Therefore, we introduced Consistency Purification, an efficiency-effectiveness Pareto superior purifier compared to the previous work. Consistency Purification employs the consistency model, a one-step generative model distilled from PF-ODE, thus can generate on-manifold purified images with a single network evaluation. However, the consistency model is designed not for purification thus it does not inherently ensure semantic alignment between purified and original images. To resolve this issue, we further refine it through Consistency Fine-tuning with LPIPS loss, which enables more aligned semantic meaning while keeping the purified images on data manifold. Our comprehensive experiments demonstrate that our Consistency Purification framework achieves state-of the-art certified robustness and efficiency compared to baseline methods. | 翻訳日:2024-07-04 02:17:05 公開日:2024-06-30 |
# エネルギーモデルを用いた拡散モデルの最大エントロピー逆強化学習
Maximum Entropy Inverse Reinforcement Learning of Diffusion Models with Energy-Based Models ( http://arxiv.org/abs/2407.00626v1 ) ライセンス: Link先を確認 | Sangwoong Yoon, Himchan Hwang, Dohyun Kwon, Yung-Kyun Noh, Frank C. Park, | (参考訳) 本稿では,拡散生成モデルのサンプル品質を改善するために,最大エントロピー逆強化学習(IRL)手法を提案する。
IRLは、専門家によるデモンストレーションから学んだ報酬関数に基づいてポリシーを訓練するのと同じように、トレーニングデータから推定されるログ確率密度を用いて拡散モデルを訓練(または微調整)する。
ログ密度を表すためにエネルギーベースモデル(EBM)を用いるので,この手法は拡散モデルとESMの連成訓練に当てはまる。
最大エントロピーIRL(DxMI)によりDiffusionと命名された我々のIRL定式化は、両モデルがデータ分布に収束するときに平衡に達するミニマックス問題である。
エントロピーの最大化はDxMIにおいて重要な役割を担い、拡散モデルの探索を促進し、ESMの収束を保証する。
また,拡散モデルのための新しい強化学習アルゴリズムDxDPをDxMIのサブルーチンとして提案する。
DxDPは、DxMIにおける拡散モデルの更新を、元の問題を、値関数が時間内にバックプロパゲーションを置き換える最適制御公式に変換することによって効率的にする。
実験により,DxMIを用いて微調整した拡散モデルでは,4段階から10段階の精度で高品質な試料を生成できることがわかった。
さらに、DxMIはMCMCを使わずにEMMのトレーニングを可能にし、EMMのトレーニングダイナミクスを安定化し、異常検出性能を向上させる。
We present a maximum entropy inverse reinforcement learning (IRL) approach for improving the sample quality of diffusion generative models, especially when the number of generation time steps is small. Similar to how IRL trains a policy based on the reward function learned from expert demonstrations, we train (or fine-tune) a diffusion model using the log probability density estimated from training data. Since we employ an energy-based model (EBM) to represent the log density, our approach boils down to the joint training of a diffusion model and an EBM. Our IRL formulation, named Diffusion by Maximum Entropy IRL (DxMI), is a minimax problem that reaches equilibrium when both models converge to the data distribution. The entropy maximization plays a key role in DxMI, facilitating the exploration of the diffusion model and ensuring the convergence of the EBM. We also propose Diffusion by Dynamic Programming (DxDP), a novel reinforcement learning algorithm for diffusion models, as a subroutine in DxMI. DxDP makes the diffusion model update in DxMI efficient by transforming the original problem into an optimal control formulation where value functions replace back-propagation in time. Our empirical studies show that diffusion models fine-tuned using DxMI can generate high-quality samples in as few as 4 and 10 steps. Additionally, DxMI enables the training of an EBM without MCMC, stabilizing EBM training dynamics and enhancing anomaly detection performance. | 翻訳日:2024-07-04 02:17:05 公開日:2024-06-30 |
# BAZAM:マルチUAV無線ネットワークにおけるブロックチェーン支援ゼロトラスト認証
BAZAM: A Blockchain-Assisted Zero-Trust Authentication in Multi-UAV Wireless Networks ( http://arxiv.org/abs/2407.00630v1 ) ライセンス: Link先を確認 | Mingyue Xie, Zheng Chang, Osama Alfarraj, Keping Yu, Tao Chen, Hongwei Li, | (参考訳) 無人航空機(UAV)は、統一的で効率的なID認証なしで遠隔操作された場合、インターセプションや攻撃に対して脆弱である。
一方、無線通信環境の開放性は、データ漏洩やシステム麻痺につながる可能性がある。
しかし、UAVネットワークにおける従来の認証方式はシステム中心であり、UAVのアイデンティティとアクセスの多様性に適応できず、ネットワーク環境や接続状態が変化した。
さらに、UAVは認証された時点で定期的なIDコンプライアンスチェックを受けていないため、アクセス異常の制御が困難になる。
そこで本研究では,UAVネットワーク認証のためのゼロトラストフレームワークについて検討し,UAVのアイデンティティ認証を 'never trust and always ver'' の原理を用いて実現することを目的とする。
我々は,マルチUAV無線ネットワーク用に設計されたブロックチェーンによるゼロトラスト認証方式,BAZAMを導入する。
このスキームでは、UAVは物理的非拘束機能(PUF)を使用して鍵生成アプローチを踏襲し、暗号技術はUAVの登録要求とアクセス要求の検証を支援する。
ブロックチェーンは、UAV認証情報を不変ストレージに格納するために適用される。
徹底的なセキュリティ分析と広範囲な評価を通じて,提案したBAZAMの有効性と有効性を示す。
Unmanned aerial vehicles (UAVs) are vulnerable to interception and attacks when operated remotely without a unified and efficient identity authentication. Meanwhile, the openness of wireless communication environments potentially leads to data leakage and system paralysis. However, conventional authentication schemes in the UAV network are system-centric, failing to adapt to the diversity of UAVs identities and access, resulting in changes in network environments and connection statuses. Additionally, UAVs are not subjected to periodic identity compliance checks once authenticated, leading to difficulties in controlling access anomalies. Therefore, in this work, we consider a zero-trust framework for UAV network authentication, aiming to achieve UAVs identity authentication through the principle of ``never trust and always verify''. We introduce a blockchain-assisted zero-trust authentication scheme, namely BAZAM, designed for multi-UAV wireless networks. In this scheme, UAVs follow a key generation approach using physical unclonable functions (PUFs), and cryptographic technique helps verify registration and access requests of UAVs. The blockchain is applied to store UAVs authentication information in immutable storage. Through thorough security analysis and extensive evaluation, we demonstrate the effectiveness and efficiency of the proposed BAZAM. | 翻訳日:2024-07-04 02:17:05 公開日:2024-06-30 |
# TrialBench: マルチモーダル人工知能対応の臨床試験データセット
TrialBench: Multi-Modal Artificial Intelligence-Ready Clinical Trial Datasets ( http://arxiv.org/abs/2407.00631v1 ) ライセンス: Link先を確認 | Jintai Chen, Yaojun Hu, Yue Wang, Yingzhou Lu, Xu Cao, Miao Lin, Hongxia Xu, Jian Wu, Cao Xiao, Jimeng Sun, Lucas Glass, Kexin Huang, Marinka Zitnik, Tianfan Fu, | (参考訳) 臨床試験は、新しい治療を開発する上で重要であるが、通常、患者死亡、有害事象、そして10年以上にわたる無駄な努力を無駄にすることの失敗など、いくつかのリスクを生じさせる。
人工知能(AI)を用いて臨床試験の重要な出来事を予測またはシミュレートすることは、トライアルデザインをガイドするための洞察を提供する大きな可能性を持つ。
しかし、複雑なデータ収集と専門知識とトライアルデザインの深い理解を必要とする質問定義は、これまでAIの関与を妨げてきた。
本稿では,多要素データ(例えば,薬物分子,疾患コード,テキスト,分類・数値特徴)を包括的に収集したAIreadyデータセットと,治験期間の予測,患者退院率,重篤事象,死亡率,治験承認結果,薬物線量検出,適度基準の設計を含む,臨床試験設計における8つの重要な予測課題を提示することにより,これらの課題に対処する。
さらに、データセットのユーザビリティと信頼性を確保するため、各タスクに基本的な検証方法を提供する。
このようなオープンアクセスデータセットが利用可能になると、臨床試験設計のための高度なAIアプローチの開発が促進され、最終的に臨床試験研究が進展し、医療ソリューション開発が加速すると予想する。
キュレートされたデータセット、メトリクス、基本モデルはhttps://github.com/ML2Health/ML2ClinicalTrials/tree/main/AI4Trialで公開されている。
Clinical trials are pivotal for developing new medical treatments, yet they typically pose some risks such as patient mortality, adverse events, and enrollment failure that waste immense efforts spanning over a decade. Applying artificial intelligence (AI) to forecast or simulate key events in clinical trials holds great potential for providing insights to guide trial designs. However, complex data collection and question definition requiring medical expertise and a deep understanding of trial designs have hindered the involvement of AI thus far. This paper tackles these challenges by presenting a comprehensive suite of meticulously curated AIready datasets covering multi-modal data (e.g., drug molecule, disease code, text, categorical/numerical features) and 8 crucial prediction challenges in clinical trial design, encompassing prediction of trial duration, patient dropout rate, serious adverse event, mortality rate, trial approval outcome, trial failure reason, drug dose finding, design of eligibility criteria. Furthermore, we provide basic validation methods for each task to ensure the datasets' usability and reliability. We anticipate that the availability of such open-access datasets will catalyze the development of advanced AI approaches for clinical trial design, ultimately advancing clinical trial research and accelerating medical solution development. The curated dataset, metrics, and basic models are publicly available at https://github.com/ML2Health/ML2ClinicalTrials/tree/main/AI4Trial. | 翻訳日:2024-07-04 02:17:05 公開日:2024-06-30 |
# CAMON:LLMを用いた多目的ナビゲーションのための協調エージェント
CAMON: Cooperative Agents for Multi-Object Navigation with LLM-based Conversations ( http://arxiv.org/abs/2407.00632v1 ) ライセンス: Link先を確認 | Pengying Wu, Yao Mu, Kangjie Zhou, Ji Ma, Junting Chen, Chang Liu, | (参考訳) ビジュアルナビゲーションタスクは、家庭用サービスロボットにとって重要である。
これらのタスクが複雑化するにつれて、複数のロボット間の効果的なコミュニケーションと協調が、成功を確実にするために必須となる。
近年,大型言語モデル (LLM) は, エンボディエージェントの文脈において, 顕著な理解と計画能力を示した。
しかし、家庭のシナリオ、特にコミュニケーションを通じて複雑なナビゲーションタスクを完了させるために協力する複数のエージェントの使用において、それらの応用は未調査のままである。
そこで本稿では,LLM対応通信と協調を利用した分散マルチエージェントナビゲーションのためのフレームワークを提案する。
コミュニケーショントリガーによる動的リーダシップ組織構造を設計することにより、コミュニケーションインスタンスの少ないチームによるコンセンサスの向上を実現し、ナビゲーションの効率性と協調的な探索効率が向上します。
提案する新たな通信方式では,チーム規模の増加があっても,マルチオブジェクトナビゲーションタスクにおいて,コンフリクトフリーで堅牢なフレームワークが約束される。
Visual navigation tasks are critical for household service robots. As these tasks become increasingly complex, effective communication and collaboration among multiple robots become imperative to ensure successful completion. In recent years, large language models (LLMs) have exhibited remarkable comprehension and planning abilities in the context of embodied agents. However, their application in household scenarios, specifically in the use of multiple agents collaborating to complete complex navigation tasks through communication, remains unexplored. Therefore, this paper proposes a framework for decentralized multi-agent navigation, leveraging LLM-enabled communication and collaboration. By designing the communication-triggered dynamic leadership organization structure, we achieve faster team consensus with fewer communication instances, leading to better navigation effectiveness and collaborative exploration efficiency. With the proposed novel communication scheme, our framework promises to be conflict-free and robust in multi-object navigation tasks, even when there is a surge in team size. | 翻訳日:2024-07-04 02:17:05 公開日:2024-06-30 |
# DEAR:再建を伴わない強化学習のためのアンタングル環境とエージェント表現
DEAR: Disentangled Environment and Agent Representations for Reinforcement Learning without Reconstruction ( http://arxiv.org/abs/2407.00633v1 ) ライセンス: Link先を確認 | Ameya Pore, Riccardo Muradore, Diego Dall'Alba, | (参考訳) 強化学習(RL)アルゴリズムは、視覚的な観察からロボット制御タスクを学習することができるが、特に視覚シーンが複雑で構造化されていない場合、大量のデータを必要とすることが多い。
本稿では,その形状に関するエージェントの知識が,視覚的RL法のサンプル効率を向上させる方法について検討する。
本稿では, エージェントのセグメンテーションマスクを用いて, 特徴分離制約を通じて, 環境とエージェントの非絡み合い表現を学習する新しい手法DEARを提案する。
従来のアプローチとは異なり、DEARは視覚的な観察の再構築を必要としない。
これらの表現はRLの目的に対する補助的な損失として使用され、エージェントは環境の関連する特徴に焦点を合わせるように促される。
我々はDEARをDeepMindコントロールスイートの抽出とFranka Kitchen操作タスクの2つの困難なベンチマークで評価した。
以上の結果から,DEARはサンプル効率において最先端の手法を超越し,パラメータの低減による同等あるいは優れた性能を実現していることがわかった。
その結果,エージェント知識を視覚的RL手法に統合することで,学習効率と堅牢性を高める可能性が示唆された。
Reinforcement Learning (RL) algorithms can learn robotic control tasks from visual observations, but they often require a large amount of data, especially when the visual scene is complex and unstructured. In this paper, we explore how the agent's knowledge of its shape can improve the sample efficiency of visual RL methods. We propose a novel method, Disentangled Environment and Agent Representations (DEAR), that uses the segmentation mask of the agent as supervision to learn disentangled representations of the environment and the agent through feature separation constraints. Unlike previous approaches, DEAR does not require reconstruction of visual observations. These representations are then used as an auxiliary loss to the RL objective, encouraging the agent to focus on the relevant features of the environment. We evaluate DEAR on two challenging benchmarks: Distracting DeepMind control suite and Franka Kitchen manipulation tasks. Our findings demonstrate that DEAR surpasses state-of-the-art methods in sample efficiency, achieving comparable or superior performance with reduced parameters. Our results indicate that integrating agent knowledge into visual RL methods has the potential to enhance their learning efficiency and robustness. | 翻訳日:2024-07-04 02:17:05 公開日:2024-06-30 |
# Tarsier: 大規模なビデオ記述モデルのトレーニングと評価のための準備
Tarsier: Recipes for Training and Evaluating Large Video Description Models ( http://arxiv.org/abs/2407.00634v1 ) ライセンス: Link先を確認 | Jiawei Wang, Liping Yuan, Yuchen Zhang, | (参考訳) きめ細かいビデオ記述を生成することは、ビデオ理解の根本的な課題である。
本稿では,高品質なビデオ記述を生成するために設計された大規模ビデオ言語モデルであるTarsierを紹介する。
TarsierはCLIP-ViTを使用してフレームを個別にエンコードし、LLMを使用して時間的関係をモデル化する。
そのシンプルなアーキテクチャにもかかわらず、厳密に設計された2段階の訓練手順により、Tarsierモデルは既存のどのオープンソースモデルよりもはるかに強力な映像記述能力を示し、最強のモデルよりも人間側での評価において+51.4\%$の利点を示す。
さらに、GPT-4Vに対して$+12.3\%、Gemini 1.5 Proに対して$6.7\%のデメリットを持つ、最先端のプロプライエタリモデルに匹敵する。
ビデオ記述の他に、Tarsierは汎用的なジェネラリストモデルであることが証明され、マルチチョイスVQA、オープンエンドVQA、ゼロショットビデオキャプションを含む9つの公開ベンチマークで新しい最先端の結果が得られた。
第2のコントリビューションは、多様なソースのビデオとさまざまな複雑さを含む新しい挑戦的なデータセットと、きめ細かいビデオ記述の品質を評価するための自動手法からなる、ビデオ記述モデルを評価するための新しいベンチマークの導入である。
私たちは、モデルと評価ベンチマークを \url{https://github.com/bytedance/tarsier} で公開しています。
Generating fine-grained video descriptions is a fundamental challenge in video understanding. In this work, we introduce Tarsier, a family of large-scale video-language models designed to generate high-quality video descriptions. Tarsier employs CLIP-ViT to encode frames separately and then uses an LLM to model temporal relationships. Despite its simple architecture, we demonstrate that with a meticulously designed two-stage training procedure, the Tarsier models exhibit substantially stronger video description capabilities than any existing open-source model, showing a $+51.4\%$ advantage in human side-by-side evaluation over the strongest model. Additionally, they are comparable to state-of-the-art proprietary models, with a $+12.3\%$ advantage against GPT-4V and a $-6.7\%$ disadvantage against Gemini 1.5 Pro. Besides video description, Tarsier proves to be a versatile generalist model, achieving new state-of-the-art results across nine public benchmarks, including multi-choice VQA, open-ended VQA, and zero-shot video captioning. Our second contribution is the introduction of a new benchmark for evaluating video description models, consisting of a new challenging dataset featuring videos from diverse sources and varying complexity, along with an automatic method specifically designed to assess the quality of fine-grained video descriptions. We make our models and evaluation benchmark publicly available at \url{https://github.com/bytedance/tarsier}. | 翻訳日:2024-07-04 02:17:05 公開日:2024-06-30 |
# DP-MLM:マスケ言語モデルを用いた個人用テキストの書き直し
DP-MLM: Differentially Private Text Rewriting Using Masked Language Models ( http://arxiv.org/abs/2407.00637v1 ) ライセンス: Link先を確認 | Stephen Meisenbacher, Maulik Chevli, Juraj Vladika, Florian Matthes, | (参考訳) 差分プライバシーを用いたテキストのプライベート化のタスクは、最近$\textit{text rewriting}$という形式で行われ、入力テキストは生成的(大規模な)言語モデルを使用して難読化される。
これらの手法は、プライバシーを守るために有望な結果を示しているが、これらの手法は、プライベートリライトプロセスのコンテキスト化のメカニズムが欠如している自己回帰モデルに依存している。
これに対応するために,マスク付き言語モデル(MLM)を利用してテキストを意味的に類似した$\textit{and}$ obfuscatedな方法で書き直しを行う,微分プライベートなテキスト書き換え手法である$\textbf{DP-MLM}$を提案する。
これをシンプルな文脈化手法で実現し、テキストを一度に1つのトークンを書き直す。
エンコーダのみのMLMを利用することで,デコーダを持つ大規模モデルに依存する従来の手法と比較して,より低い$\varepsilon$レベルのユーティリティ保存が可能になる。
さらに、MLMは、生成的アプローチとは対照的に、書き換え機構のさらなるカスタマイズを可能にする。
https://github.com/sjmeis/DPMLM で見つけた $\textbf{DP-MLM}$ public で再利用可能なコードを作成します。
The task of text privatization using Differential Privacy has recently taken the form of $\textit{text rewriting}$, in which an input text is obfuscated via the use of generative (large) language models. While these methods have shown promising results in the ability to preserve privacy, these methods rely on autoregressive models which lack a mechanism to contextualize the private rewriting process. In response to this, we propose $\textbf{DP-MLM}$, a new method for differentially private text rewriting based on leveraging masked language models (MLMs) to rewrite text in a semantically similar $\textit{and}$ obfuscated manner. We accomplish this with a simple contextualization technique, whereby we rewrite a text one token at a time. We find that utilizing encoder-only MLMs provides better utility preservation at lower $\varepsilon$ levels, as compared to previous methods relying on larger models with a decoder. In addition, MLMs allow for greater customization of the rewriting mechanism, as opposed to generative approaches. We make the code for $\textbf{DP-MLM}$ public and reusable, found at https://github.com/sjmeis/DPMLM . | 翻訳日:2024-07-04 02:17:05 公開日:2024-06-30 |
# 単語レベルのメトリクス差分プライバシーにおける課題に対処するためのコロケーションに基づく手法
A Collocation-based Method for Addressing Challenges in Word-level Metric Differential Privacy ( http://arxiv.org/abs/2407.00638v1 ) ライセンス: Link先を確認 | Stephen Meisenbacher, Maulik Chevli, Florian Matthes, | (参考訳) NLPにおける差分プライバシー(DP)の適用は、提案されたメカニズムが機能する構文レベルを区別し、しばしば$\textit{word-level}$または$\textit{document-level}$ privatizationという形式をとる必要がある。
近年,単語埋め込み空間の操作において,この一般化されたDP概念に依存する,ワードレベルの $\textit{Metric}$ Differential Privacy アプローチが提案されている。
しかしながら、これらのアプローチは意味的に一貫性のあるテキスト出力を生成できないことが多く、文や文書レベルでのそれらの適用は、単語摂動の基本的な構成によってのみ可能である。
この作業では、$\textit{between}$と文レベル、すなわち$\textit{collocations}$を演算することで、これらの課題に対処します。
単語ではなくn-gramを摂動させることにより、合成された民営化出力が意味的コヒーレンスと可変長を持つ手法を考案する。
これは、頻繁に発生する単語群に基づく埋め込みモデルを構築することで実現される。
本手法を実用性とプライバシテストで評価することにより,単語レベルを超えてトークン化戦略を明確にする。
Applications of Differential Privacy (DP) in NLP must distinguish between the syntactic level on which a proposed mechanism operates, often taking the form of $\textit{word-level}$ or $\textit{document-level}$ privatization. Recently, several word-level $\textit{Metric}$ Differential Privacy approaches have been proposed, which rely on this generalized DP notion for operating in word embedding spaces. These approaches, however, often fail to produce semantically coherent textual outputs, and their application at the sentence- or document-level is only possible by a basic composition of word perturbations. In this work, we strive to address these challenges by operating $\textit{between}$ the word and sentence levels, namely with $\textit{collocations}$. By perturbing n-grams rather than single words, we devise a method where composed privatized outputs have higher semantic coherence and variable length. This is accomplished by constructing an embedding model based on frequently occurring word groups, in which unigram words co-exist with bi- and trigram collocations. We evaluate our method in utility and privacy tests, which make a clear case for tokenization strategies beyond the word level. | 翻訳日:2024-07-04 02:17:05 公開日:2024-06-30 |
# HASNAS:ニューロモルフィック・コンピュート・イン・メモリシステムのためのハードウェア対応スパイクニューラルネットワーク検索フレームワーク
HASNAS: A Hardware-Aware Spiking Neural Architecture Search Framework for Neuromorphic Compute-in-Memory Systems ( http://arxiv.org/abs/2407.00641v1 ) ライセンス: Link先を確認 | Rachmad Vidya Wicaksana Putra, Muhammad Shafique, | (参考訳) スパイキングニューラルネットワーク(SNN)は、超低消費電力/エネルギー計算で多様な機械学習タスクを解く能力を示している。
SNN推論の性能と効率をさらに向上させるために、抵抗性ランダムアクセスメモリなどの新興デバイス技術を用いたCompute-in-Memory(CIM)パラダイムが採用されている。
しかしながら、ほとんどのSNNアーキテクチャは、アプリケーションと基盤となるCIMハードウェア(例えば、メモリ、領域、レイテンシ、エネルギー消費)の制約を考慮せずに開発されている。
さらに、SNNの設計のほとんどは、SNNとは異なるネットワーク操作を持つArtificial Neural Networksから派生している。
これらの制限により、SNNは正確性と効率性において大きな可能性を秘めている。
そこで本研究では,ニューロモルフィックCIMシステムのための新しいハードウェア対応スパイクニューラルネットワーク探索(NAS)フレームワークであるHASNASを提案する。
そこでHASNASでは,(1)高精度にSNN操作を最適化し,(2)効果的な学習プロセスを容易にするSNNアーキテクチャを開発し,(3)制約を満たすためのハードウェア対応検索アルゴリズムを設計する。
実験結果から,HASNASは最大11倍の精度で,メモリの4x10^6パラメータ,100mm^2の領域,400msのレイテンシ,120uJのCIFAR10とCIFAR100のエネルギー消費といった制約を満たすSNNを迅速に見つけることができた。
このようにして、HASNASは、多種多様な用途に高性能でエネルギー効率の良いニューロモルフィックCIMシステムを提供するための効率的な設計自動化を可能にする。
Spiking Neural Networks (SNNs) have shown capabilities for solving diverse machine learning tasks with ultra-low-power/energy computation. To further improve the performance and efficiency of SNN inference, the Compute-in-Memory (CIM) paradigm with emerging device technologies such as resistive random access memory is employed. However, most of SNN architectures are developed without considering constraints from the application and the underlying CIM hardware (e.g., memory, area, latency, and energy consumption). Moreover, most of SNN designs are derived from the Artificial Neural Networks, whose network operations are different from SNNs. These limitations hinder SNNs from reaching their full potential in accuracy and efficiency. Toward this, we propose HASNAS, a novel hardware-aware spiking neural architecture search (NAS) framework for neuromorphic CIM systems that finds an SNN that offers high accuracy under the given memory, area, latency, and energy constraints. To achieve this, HASNAS employs the following key steps: (1) optimizing SNN operations to achieve high accuracy, (2) developing an SNN architecture that facilitates an effective learning process, and (3) devising a systematic hardware-aware search algorithm to meet the constraints. The experimental results show that our HASNAS quickly finds an SNN that maintains high accuracy compared to the state-of-the-art by up to 11x speed-up, and meets the given constraints: 4x10^6 parameters of memory, 100mm^2 of area, 400ms of latency, and 120uJ energy consumption for CIFAR10 and CIFAR100; while the state-of-the-art fails to meet the constraints. In this manner, our HASNAS can enable efficient design automation for providing high-performance and energy-efficient neuromorphic CIM systems for diverse applications. | 翻訳日:2024-07-04 02:17:05 公開日:2024-06-30 |
# クラスタパスガウス図形モデリング
Clusterpath Gaussian Graphical Modeling ( http://arxiv.org/abs/2407.00644v1 ) ライセンス: Link先を確認 | D. J. W. Touw, A. Alfons, P. J. F. Groenen, I. Wilms, | (参考訳) グラフィカルモデルは変数間の条件依存を視覚化する効果的なツールとして機能する。
しかし、変数の数が増えるにつれて解釈がますます難しくなり、観測数に対するパラメータの多さによる推定の不確かさが増大する。
これらの課題に対処するために、Gaussian Graphical Model(CGGM)のClusterpath推定器を導入し、データ駆動方式でグラフィカルモデルの変数クラスタリングを促進する。
クラスタパスペナルティを用いて変数をグループ化することにより、ブロック構造が共分散行列に保持されているブロック構造精度行列を導出する。
循環ブロック座標降下アルゴリズムを用いて,計算効率の良いCGGM推定器の実装を提案する。
シミュレーションでは、CGGMが一致しただけでなく、しばしばグラフィカルモデルにおける変数クラスタリングにおける他の最先端手法よりも優れていることを示す。
また、CGGMの実用的利点と多彩な経験的応用のコレクションにおける汎用性を実証する。
Graphical models serve as effective tools for visualizing conditional dependencies between variables. However, as the number of variables grows, interpretation becomes increasingly difficult, and estimation uncertainty increases due to the large number of parameters relative to the number of observations. To address these challenges, we introduce the Clusterpath estimator of the Gaussian Graphical Model (CGGM) that encourages variable clustering in the graphical model in a data-driven way. Through the use of a clusterpath penalty, we group variables together, which in turn results in a block-structured precision matrix whose block structure remains preserved in the covariance matrix. We present a computationally efficient implementation of the CGGM estimator by using a cyclic block coordinate descent algorithm. In simulations, we show that CGGM not only matches, but oftentimes outperforms other state-of-the-art methods for variable clustering in graphical models. We also demonstrate CGGM's practical advantages and versatility on a diverse collection of empirical applications. | 翻訳日:2024-07-04 02:17:05 公開日:2024-06-30 |
# 2次元Fe$_{3}$GeTe$_{2}$マグネットの臨界揺らぎとノイズスペクトル
Critical fluctuation and noise spectra in two-dimensional Fe$_{3}$GeTe$_{2}$ magnets ( http://arxiv.org/abs/2407.00647v1 ) ライセンス: Link先を確認 | Yuxin Li, Zhe Ding, Chen Wang, Haoyu Sun, Zhousheng Chen, Pengfei Wang, Ya Wang, Ming Gong, Hualing Zeng, Fazhan Shi, Jiangfeng Du, | (参考訳) 臨界ゆらぎは、低次元量子材料、特に最近発見された2次元(2次元)磁石のスピン秩序を決定する上で、基本的な役割を果たす。
ここでは、ダイヤモンド中の窒素空孔中心を用いた量子デコヒーレンスイメージング技術を用いて、ファンデルワールス磁石$\rm{Fe_{3}GeTe_{2}}$における臨界磁気ゆらぎと関連する時間スピンノイズを探索する。
臨界温度$T_c$付近で劇的に変化するノイズスペクトルを特徴とするランダム磁場に臨界変動が寄与することを示す。
この現象を説明する理論的モデルが開発され、スペクトル密度はT_c=1/f$のノイズによって特徴づけられるが、この点からはホワイトノイズのように振る舞う。
これら2つの状態の間の一定の温度での交差は、試料とダイヤモンドの間の距離を変化させることによって決定される。
この研究は、臨界変動を研究し、いくつかの臨界指数を抽出する新しい方法を提供する。
Critical fluctuations play a fundamental role in determining the spin orders for low-dimensional quantum materials, especially for recently discovered two-dimensional (2D) magnets. Here we employ the quantum decoherence imaging technique utilizing nitrogen-vacancy centers in diamond to explore the critical magnetic fluctuations and the associated temporal spin noise in van der Waals magnet $\rm{Fe_{3}GeTe_{2}}$. We show that the critical fluctuation contributes to a random magnetic field characterized by the noise spectra, which can be changed dramatically near the critical temperature $T_c$. A theoretical model to describe this phenomenon is developed, showing that the spectral density is characterized by a $1/f$ noise near the $T_c$, while away from this point it behaves like a white noise. The crossover at a certain temperature between these two situations is determined by changing of the distance between the sample and the diamond. This work provides a new way to study critical fluctuation and to extract some of the critical exponents, which may greatly deepen our understanding of criticality in a wide range of physical systems. | 翻訳日:2024-07-04 02:17:05 公開日:2024-06-30 |
# 複数ラベルテキスト分類とNERのための法定Turk最適化BERT
LegalTurk Optimized BERT for Multi-Label Text Classification and NER ( http://arxiv.org/abs/2407.00648v1 ) ライセンス: Link先を確認 | Farnaz Zeidi, Mehmet Fatih Amasyali, Çiğdem Erol, | (参考訳) Transformerニューラルネットワークの導入は、自己教師付き事前トレーニングやトランスファー学習といったテクニックとともに、BERTのような高度なモデルへの道を開いた。
BERTの素晴らしい性能にもかかわらず、さらなる拡張の機会は存在する。
我々の知る限りでは、BERTの英語および一般ドメインにおけるパフォーマンス向上に重点を置いているが、トルコの合法ドメインに特に対処する研究は行われていない。
本研究は, トルコの法的な領域におけるBERTモデルを, 事前学習段階の修正によって強化することを目的としている。
本研究では,多様なマスキング戦略を組み合わせることで,革新的な事前学習手法を提案する。
微調整タスクでは、ドメイン名認識と複数ラベルのテキスト分類という2つの重要なダウンストリームタスクに焦点をあてる。
修正された事前学習アプローチを評価するため、従来のBERTモデルと並んでカスタマイズされたモデルをすべて微調整し、性能を比較した。
提案手法は,従来のBERTモデルと比較して,NERと複数ラベルのテキスト分類タスクにおいて有意な改善が認められた。
最後に,提案モデルの影響を示すため,異なるコーパスサイズで最良のモデルをトレーニングし,BERTurkモデルと比較した。
実験の結果、私たちの革新的なアプローチは、小さなコーパスで事前訓練されているにもかかわらず、BERTurkと競合することがわかった。
The introduction of the Transformer neural network, along with techniques like self-supervised pre-training and transfer learning, has paved the way for advanced models like BERT. Despite BERT's impressive performance, opportunities for further enhancement exist. To our knowledge, most efforts are focusing on improving BERT's performance in English and in general domains, with no study specifically addressing the legal Turkish domain. Our study is primarily dedicated to enhancing the BERT model within the legal Turkish domain through modifications in the pre-training phase. In this work, we introduce our innovative modified pre-training approach by combining diverse masking strategies. In the fine-tuning task, we focus on two essential downstream tasks in the legal domain: name entity recognition and multi-label text classification. To evaluate our modified pre-training approach, we fine-tuned all customized models alongside the original BERT models to compare their performance. Our modified approach demonstrated significant improvements in both NER and multi-label text classification tasks compared to the original BERT model. Finally, to showcase the impact of our proposed models, we trained our best models with different corpus sizes and compared them with BERTurk models. The experimental results demonstrate that our innovative approach, despite being pre-trained on a smaller corpus, competes with BERTurk. | 翻訳日:2024-07-04 02:07:11 公開日:2024-06-30 |
# 粒子半インプシット変分推論
Particle Semi-Implicit Variational Inference ( http://arxiv.org/abs/2407.00649v1 ) ライセンス: Link先を確認 | Jen Ning Lim, Adam M. Johansen, | (参考訳) 半単純変分推論(SIVI)は、カーネルと混合分布を利用して変分分布を階層的に定義することにより、変分族の表現性を豊かにする。
既存のSIVI法は、暗黙の分布を用いて混合分布をパラメータ化し、難解な変動密度をもたらす。
その結果、エビデンスローバウンド(ELBO)を直接最大化することは不可能であり、ELBO上のバウンドの最適化、コストのかかるインナーループのマルコフ連鎖モンテカルロのランの採用、あるいはミニマックスの目的の解決のいずれかを頼りにしている。
本稿では, 自然自由エネルギー関数の最小値として特徴づけられる最適混合分布をユークリッド-ワッサーシュタイン勾配流の粒子近似により近似する実験的な手法を用いて, SIVI の粒子変分推論 (PVI) を提案する。
このアプローチは、以前の研究とは異なり、PVIはELBOを直接最適化することができ、さらに混合分布に関するパラメトリックな仮定をしないことを意味する。
実験の結果,PVIは他のSIVI手法に対して,様々なタスクで好適に機能することが示された。
さらに, 関連する自由エネルギー関数の勾配流の挙動を理論的に解析し, 解の存在と特異性を確立するとともに, カオス結果の伝播を行う。
Semi-implicit variational inference (SIVI) enriches the expressiveness of variational families by utilizing a kernel and a mixing distribution to hierarchically define the variational distribution. Existing SIVI methods parameterize the mixing distribution using implicit distributions, leading to intractable variational densities. As a result, directly maximizing the evidence lower bound (ELBO) is not possible and so, they resort to either: optimizing bounds on the ELBO, employing costly inner-loop Markov chain Monte Carlo runs, or solving minimax objectives. In this paper, we propose a novel method for SIVI called Particle Variational Inference (PVI) which employs empirical measures to approximate the optimal mixing distributions characterized as the minimizer of a natural free energy functional via a particle approximation of an Euclidean--Wasserstein gradient flow. This approach means that, unlike prior works, PVI can directly optimize the ELBO; furthermore, it makes no parametric assumption about the mixing distribution. Our empirical results demonstrate that PVI performs favourably against other SIVI methods across various tasks. Moreover, we provide a theoretical analysis of the behaviour of the gradient flow of a related free energy functional: establishing the existence and uniqueness of solutions as well as propagation of chaos results. | 翻訳日:2024-07-04 02:07:11 公開日:2024-06-30 |
# Chain-of-Knowledge:知識グラフからの学習による大規模言語モデルへの知識推論の統合
Chain-of-Knowledge: Integrating Knowledge Reasoning into Large Language Models by Learning from Knowledge Graphs ( http://arxiv.org/abs/2407.00653v1 ) ライセンス: Link先を確認 | Yifei Zhang, Xintao Wang, Jiaqing Liang, Sirui Xia, Lida Chen, Yanghua Xiao, | (参考訳) 大規模言語モデル(LLM)は、ますます複雑な推論を伴う様々な自然言語処理(NLP)タスクに顕著な習熟度を示した。
知識推論は,知識グラフ(KG)の文脈で広く研究されているが,LLMにおける知識推論はいまだ研究されていない。
本稿では,知識推論のための包括的なフレームワークであるChain-of-Knowledgeを紹介する。
データセット構築のために、KGのルールマイニングを通じてKnowReasonを作成します。
モデル学習では,ナイーブトレーニングによって引き起こされる規則過適合を観察する。
したがって、我々は、内部知識探索の人間の過程をシミュレートする試行錯誤機構により、CoKを強化する。
我々は KnowReason で広範な実験を行う。
本結果は,知識推論だけでなく,一般的な推論ベンチマークにおいても,LLMの精製におけるCoKの有効性を示す。
Large Language Models (LLMs) have exhibited impressive proficiency in various natural language processing (NLP) tasks, which involve increasingly complex reasoning. Knowledge reasoning, a primary type of reasoning, aims at deriving new knowledge from existing one.While it has been widely studied in the context of knowledge graphs (KGs), knowledge reasoning in LLMs remains underexplored. In this paper, we introduce Chain-of-Knowledge, a comprehensive framework for knowledge reasoning, including methodologies for both dataset construction and model learning. For dataset construction, we create KnowReason via rule mining on KGs. For model learning, we observe rule overfitting induced by naive training. Hence, we enhance CoK with a trial-and-error mechanism that simulates the human process of internal knowledge exploration. We conduct extensive experiments with KnowReason. Our results show the effectiveness of CoK in refining LLMs in not only knowledge reasoning, but also general reasoning benchmarkms. | 翻訳日:2024-07-04 02:07:11 公開日:2024-06-30 |
# MMDenseNetによるリアルタイム音楽伴奏分離の改善
Improving Real-Time Music Accompaniment Separation with MMDenseNet ( http://arxiv.org/abs/2407.00657v1 ) ライセンス: Link先を確認 | Chun-Hsiang Wang, Chung-Che Wang, Jun-You Wang, Jyh-Shing Roger Jang, Yen-Hsun Chu, | (参考訳) 音楽ソースの分離は、ポリフォニック音楽を異なるタイプのソースに分離することを目的としている。
既存のほとんどのメソッドは、より大きなモデル構造を使用することで、分離された結果の品質向上に重点を置いており、エッジデバイスへのデプロイには適さない。
さらに、これらの手法は、入力期間が短いときに低品質の出力を生成するため、リアルタイムアプリケーションでは実用的ではない。
そこで本論文の目的は,リアルタイムアプリケーションにおける分離品質とレイテンシのバランスをとるために,軽量モデルMDDenstNetを強化することである。
本稿では, 複雑な理想比マスク, 自己注意, バンドマージ分割法, 特徴の振り返りなど, 改善の方向性について検討し, 提案する。
性能評価には、ソース・ツー・ディストーション比、リアルタイム係数、最適レイテンシが使用される。
本稿では,アプリケーション要件に合わせるために,伴奏部分の分離性能に焦点をあてる。
実験結果から,分離品質を維持しつつ,低リアルタイム化と最適遅延を実現することができた。
Music source separation aims to separate polyphonic music into different types of sources. Most existing methods focus on enhancing the quality of separated results by using a larger model structure, rendering them unsuitable for deployment on edge devices. Moreover, these methods may produce low-quality output when the input duration is short, making them impractical for real-time applications. Therefore, the goal of this paper is to enhance a lightweight model, MMDenstNet, to strike a balance between separation quality and latency for real-time applications. Different directions of improvement are explored or proposed in this paper, including complex ideal ratio mask, self-attention, band-merge-split method, and feature look back. Source-to-distortion ratio, real-time factor, and optimal latency are employed to evaluate the performance. To align with our application requirements, the evaluation process in this paper focuses on the separation performance of the accompaniment part. Experimental results demonstrate that our improvement achieves low real-time factor and optimal latency while maintaining acceptable separation quality. | 翻訳日:2024-07-04 02:07:11 公開日:2024-06-30 |
# ポンマーマンのマルチエージェント学習--カリキュラム学習と人口によるセルフプレイアプローチ
Multi-Agent Training for Pommerman: Curriculum Learning and Population-based Self-Play Approach ( http://arxiv.org/abs/2407.00662v1 ) ライセンス: Link先を確認 | Nhat-Minh Huynh, Hoang-Giang Cao, I-Chen Wu, | (参考訳) Pommermanはマルチエージェント環境であり、近年研究者からかなりの注目を集めている。
この環境はマルチエージェントトレーニングの理想的なベンチマークであり、同盟エージェント間のコミュニケーション能力を持つ2つのチームのための戦場を提供する。
Pommerman氏は、遅延アクション効果、スパース報酬、偽陽性によるモデルレス強化学習において、対戦相手が自身のミスで負ける可能性のある重要な課題を提示している。
本研究は,カリキュラム学習と人口ベースセルフプレイを組み合わせることで,Pommermanをプレイするマルチエージェントシステムを学習するためのシステムを提案する。
また,競争ゲーム用マルチエージェントトレーニングシステムを展開する際の課題として,スパース報酬と適切なマッチング機構の2つに対処する。
具体的には,エージェントの性能に基づく適応型アニーリング係数を提案し,トレーニング中に高密度探索報酬を動的に調整する。
さらに,エロ評価システムを利用したマッチング機構を効果的に実装する。
実験の結果,訓練されたエージェントは,同盟エージェント間のコミュニケーションを必要とせず,トップラーニングエージェントよりも優れていた。
Pommerman is a multi-agent environment that has received considerable attention from researchers in recent years. This environment is an ideal benchmark for multi-agent training, providing a battleground for two teams with communication capabilities among allied agents. Pommerman presents significant challenges for model-free reinforcement learning due to delayed action effects, sparse rewards, and false positives, where opponent players can lose due to their own mistakes. This study introduces a system designed to train multi-agent systems to play Pommerman using a combination of curriculum learning and population-based self-play. We also tackle two challenging problems when deploying the multi-agent training system for competitive games: sparse reward and suitable matchmaking mechanism. Specifically, we propose an adaptive annealing factor based on agents' performance to adjust the dense exploration reward during training dynamically. Additionally, we implement a matchmaking mechanism utilizing the Elo rating system to pair agents effectively. Our experimental results demonstrate that our trained agent can outperform top learning agents without requiring communication among allied agents. | 翻訳日:2024-07-04 02:07:11 公開日:2024-06-30 |
# SCMIL:全スライド画像における癌生存確率分布の予測のためのスパースコンテキスト対応マルチインスタンス学習
SCMIL: Sparse Context-aware Multiple Instance Learning for Predicting Cancer Survival Probability Distribution in Whole Slide Images ( http://arxiv.org/abs/2407.00664v1 ) ライセンス: Link先を確認 | Zekang Yang, Hong Liu, Xiangdong Wang, | (参考訳) がん生存予測は、全スライド画像(WSI)内の腫瘍微小環境の分析を伴う課題である。
従来の方法では、WSIのローカル領域内のインスタンス間の複雑なインタラクション機能を効果的にキャプチャすることはできない。
さらに,WSIに基づく既存のがん生存予測法では,より臨床的に有意な予測が得られない場合が多い。
これらの課題を克服するために,がん生存確率分布を予測するためのスパースコンテキスト対応マルチインスタンス学習(SCMIL)フレームワークを提案する。
SCMILは、その形態的特徴と空間的位置情報に基づいて、パッチを様々なクラスタに分割し、その後、スパースな自己アテンションを活用して、これらのパッチ間の関係をコンテキスト対応の視点で識別する。
タスクに無関係な多くのパッチを考えると、SoftFilterと呼ばれる学習可能なパッチフィルタリングモジュールを導入する。
そこで本研究では,患者の生存確率分布を予測するためのレジスタベース混合密度ネットワークを提案する。
肺腺癌 (LUAD) と腎クリア細胞癌 (KIRC) に焦点を当てたTCGA(The Cancer Genome Atlas) の2つの公開WSIデータセットを用いてSCMILを評価した。
以上の結果から,SCMILは生存予測の最先端手法に優れており,より臨床的に有意かつ解釈可能な結果をもたらすことが示唆された。
私たちのコードはhttps://github.com/yang-ze-kang/SCMILでアクセスできます。
Cancer survival prediction is a challenging task that involves analyzing of the tumor microenvironment within Whole Slide Image (WSI). Previous methods cannot effectively capture the intricate interaction features among instances within the local area of WSI. Moreover, existing methods for cancer survival prediction based on WSI often fail to provide better clinically meaningful predictions. To overcome these challenges, we propose a Sparse Context-aware Multiple Instance Learning (SCMIL) framework for predicting cancer survival probability distributions. SCMIL innovatively segments patches into various clusters based on their morphological features and spatial location information, subsequently leveraging sparse self-attention to discern the relationships between these patches with a context-aware perspective. Considering many patches are irrelevant to the task, we introduce a learnable patch filtering module called SoftFilter, which ensures that only interactions between task-relevant patches are considered. To enhance the clinical relevance of our prediction, we propose a register-based mixture density network to forecast the survival probability distribution for individual patients. We evaluate SCMIL on two public WSI datasets from the The Cancer Genome Atlas (TCGA) specifically focusing on lung adenocarcinom (LUAD) and kidney renal clear cell carcinoma (KIRC). Our experimental results indicate that SCMIL outperforms current state-of-the-art methods for survival prediction, offering more clinically meaningful and interpretable outcomes. Our code is accessible at https://github.com/yang-ze-kang/SCMIL. | 翻訳日:2024-07-04 02:07:11 公開日:2024-06-30 |
# 非分類4次元CTによる可変呼吸運動の解消
Resolving Variable Respiratory Motion From Unsorted 4D Computed Tomography ( http://arxiv.org/abs/2407.00665v1 ) ライセンス: Link先を確認 | Yuliang Huang, Bjoern Eiben, Kris Thielemans, Jamie R. McClelland, | (参考訳) 4DCTは放射線治療計画、PET、換気画像などの多くの臨床応用に広く用いられている。
しかし、一般的な4DCT法は、複数の呼吸サイクルを1つの任意の呼吸サイクルに再構成し、様々な人工物につながり、下流の臨床応用に影響を及ぼす。
代理駆動運動モデルでは、4DCTのCTセグメント"unsorted"に基づいて複数のサイクルにわたる連続的な変動運動を推定することができるが、常に利用できるわけではない内部運動と強い相関を持つ呼吸代理信号が必要である。
本研究で提案する手法は,デジタルファントムシミュレーションや実際の患者データに示すように,超過度信号の最適化に過次法を適用することにより,その依存性を解消する。
提案手法は,高画質なモーション補正画像と,呼吸と呼吸の変動を含む動きの予測を画像取得を通して生成する。
本手法は, 下流の臨床応用を改善する可能性があり, 呼吸信号が保存されていないオープンアクセス4DCTデータセットの振り返り解析を可能にする。
Code is avaibale at https://github.com/Yuliang-Huang/4DCT-irregular-motion.com
4D Computed Tomography (4DCT) is widely used for many clinical applications such as radiotherapy treatment planning, PET and ventilation imaging. However, common 4DCT methods reconstruct multiple breath cycles into a single, arbitrary breath cycle which can lead to various artefacts, impacting the downstream clinical applications. Surrogate driven motion models can estimate continuous variable motion across multiple cycles based on CT segments `unsorted' from 4DCT, but it requires respiration surrogate signals with strong correlation to the internal motion, which are not always available. The method proposed in this study eliminates such dependency by adapting the hyper-gradient method to the optimization of surrogate signals as hyper-parameters, while achieving better or comparable performance, as demonstrated on digital phantom simulations and real patient data. Our method produces a high-quality motion-compensated image together with estimates of the motion, including breath-to-breath variability, throughout the image acquisition. Our method has the potential to improve downstream clinical applications, and also enables retrospective analysis of open access 4DCT dataset where no respiration signals are stored. Code is avaibale at https://github.com/Yuliang-Huang/4DCT-irregular-motion. | 翻訳日:2024-07-04 02:07:11 公開日:2024-06-30 |
# HRDE:中国における健康騒音の検出と説明可能性のための検索型大規模言語モデル
HRDE: Retrieval-Augmented Large Language Models for Chinese Health Rumor Detection and Explainability ( http://arxiv.org/abs/2407.00668v1 ) ライセンス: Link先を確認 | Yanfang Chen, Ding Chen, Shichao Song, Simin Niu, Hanyu Wang, Zeyun Tang, Feiyu Xiong, Zhiyu Li, | (参考訳) 人々が健康を優先するようになり、インターネット上での健康情報の普及のスピードと広さも増している。
同時に、偽の健康情報(健康に関する噂)が本物のコンテンツと混同されることは、公衆衛生にとって大きな脅威となる。
しかし、中国の健康噂に関する現在の研究には、大規模な、公開され、オープンソースの健康噂情報のデータセットや、効果的で信頼性の高い噂検出方法がまだ欠けている。
本稿では、一般的な健康関連質問のWebスクレイピングと一連のデータ処理手順を通じて、1100万件の健康関連噂(HealthRCN)を含むデータセットを構築することで、このギャップに対処する。
HealthRCNは中国の健康情報に関する噂の最大のデータセットだ。
本データセットに基づいて,中国における健康噂の検出と説明可能性 (HRDE) のための検索強化された大規模言語モデルを提案する。
このモデルは、検索した関連情報を活用し、入力された健康情報が噂であるかどうかを正確に判定し、説明応答を提供し、ユーザの健康情報の信頼性検証を効果的に支援する。
評価実験では,複数のモデルを比較し,GPT-4-1106-Previewを含むHRDEが,噂検出精度と回答品質ですべてを上回る結果を得た。
HRDEの平均精度は91.04%、F1スコアは91.58%であった。
As people increasingly prioritize their health, the speed and breadth of health information dissemination on the internet have also grown. At the same time, the presence of false health information (health rumors) intermingled with genuine content poses a significant potential threat to public health. However, current research on Chinese health rumors still lacks a large-scale, public, and open-source dataset of health rumor information, as well as effective and reliable rumor detection methods. This paper addresses this gap by constructing a dataset containing 1.12 million health-related rumors (HealthRCN) through web scraping of common health-related questions and a series of data processing steps. HealthRCN is the largest known dataset of Chinese health information rumors to date. Based on this dataset, we propose retrieval-augmented large language models for Chinese health rumor detection and explainability (HRDE). This model leverages retrieved relevant information to accurately determine whether the input health information is a rumor and provides explanatory responses, effectively aiding users in verifying the authenticity of health information. In evaluation experiments, we compared multiple models and found that HRDE outperformed them all, including GPT-4-1106-Preview, in rumor detection accuracy and answer quality. HRDE achieved an average accuracy of 91.04% and an F1 score of 91.58%. | 翻訳日:2024-07-04 02:07:11 公開日:2024-06-30 |
# 材料情報学における効果的な自己教師型学習方法論としてのDeep InfoMaxの確立
Establishing Deep InfoMax as an effective self-supervised learning methodology in materials informatics ( http://arxiv.org/abs/2407.00671v1 ) ライセンス: Link先を確認 | Michael Moran, Vladimir V. Gusev, Michael W. Gaultois, Dmytro Antypov, Matthew J. Rosseinsky, | (参考訳) 資産ラベルの不足は、材料情報学において重要な課題であり、一方、資産ラベルのない資料データは、比較に富んでいる。
結晶情報ファイル(CIF)で利用可能な「本質的な情報」にのみ依存する自己教師型タスクにおける教師付き特性予測モデルを事前学習することにより、プロパティラベルなしで大量の結晶データを活用することで、小さなデータセットのプロパティ予測結果を改善することができる。
本稿では,結晶の点集合(あるいはグラフ)表現と下流学習に適したベクトル表現との相互情報を明示的に最大化する材料情報処理のための,自己教師型機械学習フレームワークとしてDeep InfoMaxを適用した。
これにより、プロパティラベルを必要とせず、表現ベクトルから結晶を再構築する必要もない、大きな材料データセット上の教師付きモデルの事前トレーニングが可能になる。
本研究では,Site-Netアーキテクチャに実装したDeep InfoMaxプリトレーニングによるデータ量(10^3)の下流特性予測モデルの性能向上について検討する。
プロパティラベルマスキング手法を用いて、より大きな教師付きデータセットで自己教師付き学習を行い、ラベルの小さなサブセットで教師付きモデルを訓練し、分散シフトの影響からDeep InfoMaxを事前訓練する。
本稿では,バンドギャップと生成エネルギー予測のタスクにおける表現学習と伝達学習の文脈における性能改善を示す。
制御された環境下でのDeep InfoMax事前学習の有効性を確立することで,材料情報学における実践的課題に対処するためのアプローチを拡張するための基盤を提供する。
The scarcity of property labels remains a key challenge in materials informatics, whereas materials data without property labels are abundant in comparison. By pretraining supervised property prediction models on self-supervised tasks that depend only on the "intrinsic information" available in any Crystallographic Information File (CIF), there is potential to leverage the large amount of crystal data without property labels to improve property prediction results on small datasets. We apply Deep InfoMax as a self-supervised machine learning framework for materials informatics that explicitly maximises the mutual information between a point set (or graph) representation of a crystal and a vector representation suitable for downstream learning. This allows the pretraining of supervised models on large materials datasets without the need for property labels and without requiring the model to reconstruct the crystal from a representation vector. We investigate the benefits of Deep InfoMax pretraining implemented on the Site-Net architecture to improve the performance of downstream property prediction models with small amounts (<10^3) of data, a situation relevant to experimentally measured materials property databases. Using a property label masking methodology, where we perform self-supervised learning on larger supervised datasets and then train supervised models on a small subset of the labels, we isolate Deep InfoMax pretraining from the effects of distributional shift. We demonstrate performance improvements in the contexts of representation learning and transfer learning on the tasks of band gap and formation energy prediction. Having established the effectiveness of Deep InfoMax pretraining in a controlled environment, our findings provide a foundation for extending the approach to address practical challenges in materials informatics. | 翻訳日:2024-07-04 02:07:11 公開日:2024-06-30 |
# TEAL: 経験的リプレイ学習における小さなバッファの選択戦略
TEAL: New Selection Strategy for Small Buffers in Experience Replay Class Incremental Learning ( http://arxiv.org/abs/2407.00673v1 ) ライセンス: Link先を確認 | Shahar Shaul-Ariel, Daphna Weinshall, | (参考訳) 継続的学習は未解決の課題であり、現代のアプリケーションを考えると、その関連性は増大する。
人間の脳とは異なり、訓練されたディープニューラルネットワークは、カタストロフィックフォーッティングと呼ばれる現象に苦しむ。
この問題を軽減するために、多くの手法が開発され、その多くは新しいタスクトレーニング中に過去の例を再生することに依存している。
しかし、リプレイに割り当てられたメモリが減少するにつれて、これらのアプローチの有効性は低下する。
一方、リプレイのために大きなメモリを維持することは非効率であり、しばしば実用的ではない。
本稿では,様々な経験再生手法と統合し,小さなメモリバッファ上での性能を著しく向上させることができる,メモリを初期化するための新しい手法TEALを紹介する。
TEAL は複数の画像認識ベンチマークにおいて SOTA メソッド XDER と ER-ACE の平均精度を向上し,最終タスクではクラスごとのメモリバッファが 1-3 であることを示す。
これは、メモリが不足している場合には、最も典型的なデータを優先順位付けするのが最善である、という仮説を裏付ける。
Continual Learning is an unresolved challenge, whose relevance increases when considering modern applications. Unlike the human brain, trained deep neural networks suffer from a phenomenon called Catastrophic Forgetting, where they progressively lose previously acquired knowledge upon learning new tasks. To mitigate this problem, numerous methods have been developed, many relying on replaying past exemplars during new task training. However, as the memory allocated for replay decreases, the effectiveness of these approaches diminishes. On the other hand, maintaining a large memory for the purpose of replay is inefficient and often impractical. Here we introduce TEAL, a novel approach to populate the memory with exemplars, that can be integrated with various experience-replay methods and significantly enhance their performance on small memory buffers. We show that TEAL improves the average accuracy of the SOTA method XDER as well as ER and ER-ACE on several image recognition benchmarks, with a small memory buffer of 1-3 exemplars per class in the final task. This confirms the hypothesis that when memory is scarce, it is best to prioritize the most typical data. | 翻訳日:2024-07-04 02:07:11 公開日:2024-06-30 |
# Instruct-IPT:重み変調によるオールインワン画像処理変換器
Instruct-IPT: All-in-One Image Processing Transformer via Weight Modulation ( http://arxiv.org/abs/2407.00676v1 ) ライセンス: Link先を確認 | Yuchuan Tian, Jianhong Han, Hanting Chen, Yuanyuan Xi, Guoyang Zhang, Jie Hu, Chao Xu, Yunhe Wang, | (参考訳) 低レベルのビジョンモデルでは、不用意なサイズと計算コストのため、少数の低レベルのビジョンタスクに同時に対処するように設計されたオールインワンモデルは人気がある。
しかし、既存のオールインワンモデルはタスクとパフォーマンスの範囲で制限されている。
これらの制限を克服するために、インストラクト-IPT (オールインワン画像処理変換器) を提案する。これは、デノイング、デブロアリング、デライニング、デハジング、デナッシングといった、タスク間の大きなギャップを持つ多様体イメージ復元タスクに効果的に対処できる。
一般的な特徴適応法ではなく、特定のタスクに重みを適応させる重み変調を提案する。
まず、おもちゃの実験を通してタスクに敏感な重みを見つけ、その上にタスク固有の偏りを導入する。
第2に、優れた圧縮戦略のランク解析を行い、バイアスに対して低ランク分解を行う。
第3に,タスク汎用バックボーンモデルとタスク固有バイアスを同時に更新する同期トレーニングを提案する。
このようにして、モデルは一般的な知識とタスク固有の知識を学ぶように指示される。
Instruct-IPTは、ITTにタスクエキスパートになるよう指示する単純で効果的な方法であるので、控えめなコストで異なる特徴を持つタスク間で協調する方がよいでしょう。
さらに,ユーザインタフェースの改善のために,テキスト命令によるインストラクト-IPTの操作を提案する。
Instruct-IPT実験を行ない,本手法の有効性を示すとともに,本手法を拡散復調器にも効果的に拡張した。
コードはhttps://github.com/huawei-noah/Pretrained-IPTで公開されている。
Due to the unaffordable size and intensive computation costs of low-level vision models, All-in-One models that are designed to address a handful of low-level vision tasks simultaneously have been popular. However, existing All-in-One models are limited in terms of the range of tasks and performance. To overcome these limitations, we propose Instruct-IPT -- an All-in-One Image Processing Transformer that could effectively address manifold image restoration tasks with large inter-task gaps, such as denoising, deblurring, deraining, dehazing, and desnowing. Rather than popular feature adaptation methods, we propose weight modulation that adapts weights to specific tasks. Firstly, we figure out task-sensitive weights via a toy experiment and introduce task-specific biases on top of them. Secondly, we conduct rank analysis for a good compression strategy and perform low-rank decomposition on the biases. Thirdly, we propose synchronous training that updates the task-general backbone model and the task-specific biases simultaneously. In this way, the model is instructed to learn general and task-specific knowledge. Via our simple yet effective method that instructs the IPT to be task experts, Instruct-IPT could better cooperate between tasks with distinct characteristics at humble costs. Further, we propose to maneuver Instruct-IPT with text instructions for better user interfaces. We have conducted experiments on Instruct-IPT to demonstrate the effectiveness of our method on manifold tasks, and we have effectively extended our method to diffusion denoisers as well. The code is available at https://github.com/huawei-noah/Pretrained-IPT. | 翻訳日:2024-07-04 02:07:11 公開日:2024-06-30 |
# 前立腺超音波における画像処理手法の検討
A Review of Image Processing Methods in Prostate Ultrasound ( http://arxiv.org/abs/2407.00678v1 ) ライセンス: Link先を確認 | Haiqiao Wang, Hong Wu, Zhuoyuan Wang, Peiyan Yue, Dong Ni, Pheng-Ann Heng, Yi Wang, | (参考訳) 前立腺癌(PCa)は男性の健康に重大な脅威となり、早期診断は予後の改善と死亡率の低下に不可欠である。
経直腸超音波(TRUS)は,PCaの診断と画像誘導的介入において重要な役割を担っている。より正確で効率的なコンピュータ支援診断と介入を行うために,TRUSにおける多くの画像処理アルゴリズムが提案され,前立腺のセグメンテーション,前立腺画像の登録,PCa分類と検出,介入針検出など,いくつかのタスクにおいて最先端のパフォーマンスを実現している。これらのアルゴリズムの急速な開発は,過去20年間にわたる包括的な要約を必要としている。
その結果,本研究では,TRUS画像解析の文脈における画像処理手法の進化を概説するとともに,その関連性を強調した。
さらに,本調査は現在の課題を論じ,今後の研究の方向性を推し進めるものである。
Prostate cancer (PCa) poses a significant threat to men's health, with early diagnosis being crucial for improving prognosis and reducing mortality rates. Transrectal ultrasound (TRUS) plays a vital role in the diagnosis and image-guided intervention of PCa.To facilitate physicians with more accurate and efficient computer-assisted diagnosis and interventions, many image processing algorithms in TRUS have been proposed and achieved state-of-the-art performance in several tasks, including prostate gland segmentation, prostate image registration, PCa classification and detection, and interventional needle detection.The rapid development of these algorithms over the past two decades necessitates a comprehensive summary. In consequence, this survey provides a systematic analysis of this field, outlining the evolution of image processing methods in the context of TRUS image analysis and meanwhile highlighting their relevant contributions. Furthermore, this survey discusses current challenges and suggests future research directions to possibly advance this field further. | 翻訳日:2024-07-04 02:07:11 公開日:2024-06-30 |
# 影響分析のためのマルチタスク学習
Multi-Task Learning for Affect Analysis ( http://arxiv.org/abs/2407.00679v1 ) ライセンス: Link先を確認 | Fazeel Asim, | (参考訳) このプロジェクトは、ディミトリオス・コリアス(Dimitrios Kollias)が監督する私の学部最終年度の論文であり、この研究は、感情認識の文脈におけるマルチタスク学習の効率性と効果を高めることを目的として、イメージ分析のための感情コンピューティングの領域を掘り下げた。
本研究は,同じ問題に対するユニタスク・ソリューションとマルチタスク・アプローチの2つの主要なアプローチについて検討する。
それぞれのアプローチはテストを実施し、さまざまな定式化、バリエーション、初期化戦略を探求し、最適な構成を導き出す。
このプロジェクトは既存のニューラルネットワークアーキテクチャを活用し、出力層と損失関数を変更することでマルチタスク学習に適応する。
タスクは7つの基本的な感情認識、アクション・ユニット検出、および原子価-覚醒推定を含む。
比較分析は各タスク毎のユニタスクモデルを含み、マルチタスクモデルの性能の評価を容易にする。
各アプローチのバリエーションには、損失関数、ハイパーパラメータチューニングなどが含まれており、評価が行われている。
モデル収束と精度に及ぼす異なる初期化戦略と事前学習手法の影響について検討した。
この研究は、医療、マーケティング、人間とコンピュータの相互作用にまたがるアプリケーションによって、感情コンピューティングの急成長する分野に貢献することを目指している。
本研究は、マルチタスク学習の定式化を体系的に探求することにより、画像中の感情を認識し理解するためのより正確で効率的なモデルの開発に寄与することを目的とする。
この発見は様々な産業における応用を約束し、感情コンピューティングの進歩への道を開く
This Project was my Undergraduate Final Year dissertation, supervised by Dimitrios Kollias This research delves into the realm of affective computing for image analysis, aiming to enhance the efficiency and effectiveness of multi-task learning in the context of emotion recognition. This project investigates two primary approaches: uni-task solutions and a multi-task approach to the same problems. Each approach undergoes testing, exploring various formulations, variations, and initialization strategies to come up with the best configuration. The project utilizes existing a neural network architecture, adapting it for multi-task learning by modifying output layers and loss functions. Tasks encompass 7 basic emotion recognition, action unit detection, and valence-arousal estimation. Comparative analyses involve uni-task models for each individual task, facilitating the assessment of multi-task model performance. Variations within each approach, including, loss functions, and hyperparameter tuning, undergo evaluation. The impact of different initialization strategies and pre-training techniques on model convergence and accuracy is explored. The research aspires to contribute to the burgeoning field of affective computing, with applications spanning healthcare, marketing, and human-computer interaction. By systematically exploring multi-task learning formulations, this research aims to contribute to the development of more accurate and efficient models for recognizing and understanding emotions in images. The findings hold promise for applications in diverse industries, paving the way for advancements in affective computing | 翻訳日:2024-07-04 02:07:11 公開日:2024-06-30 |
# UWBAD:COTSチップを用いたUWBランキングシステムに対する効果的で非受容的なジャミング攻撃に向けて
UWBAD: Towards Effective and Imperceptible Jamming Attacks Against UWB Ranging Systems with COTS Chips ( http://arxiv.org/abs/2407.00682v1 ) ライセンス: Link先を確認 | Yuqiao Yang, Zhongjie Wu, Yongzhao Zhang, Ting Chen, Jun Li, Jie Yang, Wenhao Liu, Xiaosong Zhang, Ruicong Shi, Jingwei Li, Yu Jiang, Zhuo Su, | (参考訳) UWB測地システムは、正確な位置決めと安全な測地能力のために、多くの重要かつセキュリティに敏感なアプリケーションで採用されている。
本稿では,UWBにおける正規化相互相関プロセスの導入の脆弱性を利用した商業UWBADに対する実用的な妨害攻撃について述べる。
UWBADは、より効果的で、より知覚できないジャミングを実現します。
一 フィールドレベルのジャミングを利用して、すべての範囲のセッションを効率よくブロックし、商業UWB測位システムに具体的な影響を及ぼし、
(II)COTS UWBチップをベースとしたコンパクトで反応性があり、選択的なシステム設計であり、安価で受け入れ難い。
我々は、Apple、NXP、Qorvoなど、市場にある3大UWBチップベンダーの商用UWBシステムに対する真の攻撃を成功させた。
我々は、Apple、関連機器メーカー(OEM)、およびAutomotive Security Research Groupに報告し、Volkswagen、Audi、Bosch、NXPの社内セキュリティインシデント対応手順を誘導した。
本論文の執筆時点で、関連するOEMは、自社の自動車システムにおけるこの脆弱性を認め、報奨金として5000ドルの報酬を提供している。
UWB ranging systems have been adopted in many critical and security sensitive applications due to its precise positioning and secure ranging capabilities. We present a practical jamming attack, namely UWBAD, against commercial UWB ranging systems, which exploits the vulnerability of the adoption of the normalized cross-correlation process in UWB ranging and can selectively and quickly block ranging sessions without prior knowledge of the configurations of the victim devices, potentially leading to severe consequences such as property loss, unauthorized access, or vehicle theft. UWBAD achieves more effective and less imperceptible jamming due to: (i) it efficiently blocks every ranging session by leveraging the field-level jamming, thereby exerting a tangible impact on commercial UWB ranging systems, and (ii) the compact, reactive, and selective system design based on COTS UWB chips, making it affordable and less imperceptible. We successfully conducted real attacks against commercial UWB ranging systems from the three largest UWB chip vendors on the market, e.g., Apple, NXP, and Qorvo. We reported our findings to Apple, related Original Equipment Manufacturers (OEM), and the Automotive Security Research Group, triggering internal security incident response procedures at Volkswagen, Audi, Bosch, and NXP. As of the writing of this paper, the related OEM has acknowledged this vulnerability in their automotive systems and has offered a $5,000 reward as a bounty. | 翻訳日:2024-07-04 02:07:11 公開日:2024-06-30 |
# マルチモード共振器による量子状態伝達
Quantum State Transfer via a Multimode Resonator ( http://arxiv.org/abs/2407.00683v1 ) ライセンス: Link先を確認 | Yang He, Yu-Xiang Zhang, | (参考訳) 大規模なフォールトトレラント超伝導量子計算は、異なるチップ上に作られたネットワーク量子ビットへの高速な量子通信と、効率的な量子誤り訂正符号を実装するための長距離カプラを必要とする。
これらの目的のために使用される量子チャネルは、モードの連続体を持つ単一モードキャビティと導波路の間に位置するマルチモード共振器によってモデル化される。
本稿では、チャネルの自由スペクトル範囲(g\sim\Delta_{\text{fsr}}$)に匹敵する結合強度を用いた量子状態伝達の形式化を提案する。
提案手法は,STIRAPを用いた単一モデルキャビティ法と長波長導波路のピッチ・アンド・キャッチプロトコルを併用し,低損失化と高速化を両立させる。
Large-scale fault-tolerant superconducting quantum computation needs rapid quantum communication to network qubits fabricated on different chips and long-range couplers to implement efficient quantum error-correction codes. Quantum channels used for these purposes are best modeled by multimode resonators, which lie between single-mode cavities and waveguides with a continuum of modes. In this Letter, we propose a formalism for quantum state transfer using coupling strengths comparable to the channel's free spectral range ($g\sim\Delta_{\text{fsr}}$). Our scheme merges features of both the STIRAP-based methods for single-model cavities and the pitch-and-catch protocol for long waveguides, integrating their advantage of low loss and high speed. | 翻訳日:2024-07-04 02:07:11 公開日:2024-06-30 |
# 量子センサの基礎研究から応用への展望
A Perspective on Quantum Sensors from Basic Research to Commercial Applications ( http://arxiv.org/abs/2407.00689v1 ) ライセンス: Link先を確認 | Eun Oh, Maxwell D. Gregoire, Adam T. Black, K. Jeramy Hughes, Paul D. Kunz, Michael Larsen, Jean Lautier-Gaud, Jongmin Lee, Peter D. D. Schwindt, Sara L. Mouradian, Frank A. Narducci, Charles A. Sackett, | (参考訳) 量子センサーは、従来のセンサーに比べて精度、精度、安定性、環境効果に対する堅牢性が改善された新しい世代のセンサーである。
数十年にわたる研究室開発の後、いくつかの種類の量子センサーが商用化され、商用化プロセスを通じて部分的に利用できるようになった。
本稿では、原子-光相互作用の原理を取り入れた量子センサの選択の動作を簡潔に説明し、これらのセンサを製品にパッケージ化するための進展について論じる。
本稿では、ジャイロスコープ、加速度計、重力計、原子干渉計、核磁気共鳴ジャイロスコープ、原子・スピン欠陥磁気センサ、ライドバーグ電場センサなど、量子慣性および重力センサーについて述べる。
Quantum sensors represent a new generation of sensors with improved precision, accuracy, stability, and robustness to environmental effects compared to their classical predecessors. After decades of laboratory development, several types of quantum sensors are now commercially available or are part-way through the commercialization process. This article provides a brief description of the operation of a selection of quantum sensors that employ the principles of atom-light interactions and discusses progress toward packaging those sensors into products. This article covers quantum inertial and gravitational sensors, including gyroscopes, accelerometers, gravimeters, and gravity gradiometers that employ atom interferometry, nuclear magnetic resonance gyroscopes, atomic and spin-defect magnetometers, and Rydberg electric field sensors. | 翻訳日:2024-07-04 01:57:26 公開日:2024-06-30 |
# BAPO:大規模言語モデルにおけるパーソナライズアライメントのためのベースアンコレッド選好最適化
BAPO: Base-Anchored Preference Optimization for Personalized Alignment in Large Language Models ( http://arxiv.org/abs/2407.00693v1 ) ライセンス: Link先を確認 | Gihun Lee, Minchan Jeong, Yujin Kim, Hojung Jung, Jaehoon Oh, Sangmook Kim, Se-Young Yun, | (参考訳) LLM(Large Language Models)を人間の好みに合わせることを学ぶ一方で、これらのモデルを多様なユーザの好みに合わせることで、以前の知識を維持する上でさらなる課題が浮かび上がっている。
本稿では,LLMに対するパーソナライズされた選好最適化の影響について検討し,選好の不均一性によって知識損失の程度が著しく変化することを示した。
従来のアプローチでは,参照モデルとポリシモデルの間のKL制約を利用していたが,パーソナライズされた嗜好に直面すると,一般的な知識やアライメントの維持に失敗する。
そこで本研究では,参照モデルの初期応答を利用して,パーソナライズされたアライメントを調整しながら,忘れを緩和する,シンプルかつ効果的なアプローチであるBase-Anchored Preference Optimization(BAPO)を紹介する。
BAPOは、グローバルな知識や一般的なアライメントを最小限に抑えながら、多様なユーザの好みに効果的に適応する。
本実験は, BAPOの有効性を実証するものである。
While learning to align Large Language Models (LLMs) with human preferences has shown remarkable success, aligning these models to meet the diverse user preferences presents further challenges in preserving previous knowledge. This paper examines the impact of personalized preference optimization on LLMs, revealing that the extent of knowledge loss varies significantly with preference heterogeneity. Although previous approaches have utilized the KL constraint between the reference model and the policy model, we observe that they fail to maintain general knowledge and alignment when facing personalized preferences. To this end, we introduce Base-Anchored Preference Optimization (BAPO), a simple yet effective approach that utilizes the initial responses of reference model to mitigate forgetting while accommodating personalized alignment. BAPO effectively adapts to diverse user preferences while minimally affecting global knowledge or general alignment. Our experiments demonstrate the efficacy of BAPO in various setups. | 翻訳日:2024-07-04 01:57:25 公開日:2024-06-30 |
# 固有モチベーションから形式数学を学ぶ
Learning Formal Mathematics From Intrinsic Motivation ( http://arxiv.org/abs/2407.00695v1 ) ライセンス: Link先を確認 | Gabriel Poesia, David Broman, Nick Haber, Noah D. Goodman, | (参考訳) 人類はどのようにしてエーテルから数学を粗末にしたのか。
数学はその公理(予想と証明のゲーム)から発見できるというプラトン的見解を探求する。
ミニモ(intrinsic Motivation, 内在的モチベーションの数学)は, 自己に挑戦的な問題を提起し, 解決するために共同で学習するエージェントである。
依存型理論で公理化された数学的領域が与えられたとき、まず制約付き復号法と型指向合成法を組み合わせて、言語モデルから有効な予想をサンプリングする。
提案手法は, ランダムに初期化モデルから始める場合であっても, 構成によるよく整形された予想を保証する。
我々は同じモデルを用いて、証明探索を導くためにポリシーと値関数を表現している。
我々のエージェントは、ハードだが証明可能な予想を生成することを目標としています。
本稿では,両タスクにおいてエージェントのサンプル効率を著しく向上させるため,実証探索木に隠れたラベリングを行う新しい手法を提案する。
3つの公理的領域(命題論理、算術、群論)の実験は、我々のエージェントが公理のみからブートストラップできることを示した。
How did humanity coax mathematics from the aether? We explore the Platonic view that mathematics can be discovered from its axioms - a game of conjecture and proof. We describe Minimo (Mathematics from Intrinsic Motivation): an agent that jointly learns to pose challenging problems for itself (conjecturing) and solve them (theorem proving). Given a mathematical domain axiomatized in dependent type theory, we first combine methods for constrained decoding and type-directed synthesis to sample valid conjectures from a language model. Our method guarantees well-formed conjectures by construction, even as we start with a randomly initialized model. We use the same model to represent a policy and value function for guiding proof search. Our agent targets generating hard but provable conjectures - a moving target, since its own theorem proving ability also improves as it trains. We propose novel methods for hindsight relabeling on proof search trees to significantly improve the agent's sample efficiency in both tasks. Experiments on 3 axiomatic domains (propositional logic, arithmetic and group theory) demonstrate that our agent can bootstrap from only the axioms, self-improving in generating true and challenging conjectures and in finding proofs. | 翻訳日:2024-07-04 01:57:25 公開日:2024-06-30 |
# グラフニューラルネットワークにおけるグラフ
Graph in Graph Neural Network ( http://arxiv.org/abs/2407.00696v1 ) ライセンス: Link先を確認 | Jiongshu Wang, Jing Yang, Jiankang Deng, Hatice Gunes, Siyang Song, | (参考訳) 既存のグラフニューラルネットワーク(GNN)は、頂点がベクトルまたは単一の値で表されるグラフの処理に限られており、複雑なオブジェクトを記述するための表現能力に制限がある。
本稿では,グラフがグラフで表現されるグラフ形式のデータ(GIGサンプル)を処理する最初のGNN(Graph in Graph Neural (GIG) Network)を提案する。
グラフの集合または成分をグラフ(マルチグラフデータサンプルと呼ばれる)で表現できるデータサンプルが与えられた場合、GIGネットワークはGIGサンプル生成(GSG)モジュールから始まり、入力を \textbf{GIG sample} としてエンコードし、各GIG頂点はグラフを含む。
そして、(1)内部情報に基づいて各GIG頂点のグラフを個別に更新するGIG頂点レベル更新(GVU)モジュール、(2)その関係に基づいて全GIG頂点のグラフを更新するグローバルレベルGIGサンプル更新(GGU)モジュールから構成される。
このようにして、各GIG頂点に含まれるグラフの内部キューと、GIG頂点間の関係を下流タスクに利用することができる。
実験の結果,GIGネットワークは汎用的なグラフ解析タスクだけでなく,実世界のマルチグラフデータ解析(人間の骨格映像に基づく行動認識など)にも有効であることがわかった。
私たちのコードはhttps://github.com/wangjs96/Graph-in-Graph-Neural-Network.orgで公開されています。
Existing Graph Neural Networks (GNNs) are limited to process graphs each of whose vertices is represented by a vector or a single value, limited their representing capability to describe complex objects. In this paper, we propose the first GNN (called Graph in Graph Neural (GIG) Network) which can process graph-style data (called GIG sample) whose vertices are further represented by graphs. Given a set of graphs or a data sample whose components can be represented by a set of graphs (called multi-graph data sample), our GIG network starts with a GIG sample generation (GSG) module which encodes the input as a \textbf{GIG sample}, where each GIG vertex includes a graph. Then, a set of GIG hidden layers are stacked, with each consisting of: (1) a GIG vertex-level updating (GVU) module that individually updates the graph in every GIG vertex based on its internal information; and (2) a global-level GIG sample updating (GGU) module that updates graphs in all GIG vertices based on their relationships, making the updated GIG vertices become global context-aware. This way, both internal cues within the graph contained in each GIG vertex and the relationships among GIG vertices could be utilized for down-stream tasks. Experimental results demonstrate that our GIG network generalizes well for not only various generic graph analysis tasks but also real-world multi-graph data analysis (e.g., human skeleton video-based action recognition), which achieved the new state-of-the-art results on 13 out of 14 evaluated datasets. Our code is publicly available at https://github.com/wangjs96/Graph-in-Graph-Neural-Network. | 翻訳日:2024-07-04 01:57:25 公開日:2024-06-30 |
# CaFNet: レーダカメラ深さ推定のための信頼性駆動フレームワーク
CaFNet: A Confidence-Driven Framework for Radar Camera Depth Estimation ( http://arxiv.org/abs/2407.00697v1 ) ライセンス: Link先を確認 | Huawei Sun, Hao Feng, Julius Ott, Lorenzo Servadei, Robert Wille, | (参考訳) 深度推定は3次元シーンを正確に解釈するために自律運転において重要である。
近年,レーダーのロバスト性や低コスト性から,レーダー・カメラ深度推定が十分に注目されている。
そこで本稿では,RGB画像とスパースおよびノイズの多いレーダポイントクラウドデータを組み合わせて,深度推定のための2段階の信頼度対応フュージョンネット(CaFNet)を提案する。
第1段階は、レーダーの信頼性マップと予備の粗い深さマップを予測することにより、不明瞭な標高やノイズ測定などのレーダー固有の課題に対処する。
レーダ点と対応する物体を関連付け、潜在的な射影面を特定することを含む、信頼マップの基底真理を生成するための新しいアプローチが提示される。
これらのマップと初期レーダ入力は、第2エンコーダによって処理される。
最終深度推定のために、レーダと画像の特徴を効果的に統合するための信頼性を考慮したゲート融合機構を発明し、レーダノイズを除去して深度マップの信頼性を高める。
提案手法はnuScenesデータセットに基づいて評価され,現在の先行モデルに対して,平均絶対誤差(MAE)が3.2%,Root Mean Square Error(RMSE)が2.7%向上した。
Depth estimation is critical in autonomous driving for interpreting 3D scenes accurately. Recently, radar-camera depth estimation has become of sufficient interest due to the robustness and low-cost properties of radar. Thus, this paper introduces a two-stage, end-to-end trainable Confidence-aware Fusion Net (CaFNet) for dense depth estimation, combining RGB imagery with sparse and noisy radar point cloud data. The first stage addresses radar-specific challenges, such as ambiguous elevation and noisy measurements, by predicting a radar confidence map and a preliminary coarse depth map. A novel approach is presented for generating the ground truth for the confidence map, which involves associating each radar point with its corresponding object to identify potential projection surfaces. These maps, together with the initial radar input, are processed by a second encoder. For the final depth estimation, we innovate a confidence-aware gated fusion mechanism to integrate radar and image features effectively, thereby enhancing the reliability of the depth map by filtering out radar noise. Our methodology, evaluated on the nuScenes dataset, demonstrates superior performance, improving upon the current leading model by 3.2% in Mean Absolute Error (MAE) and 2.7% in Root Mean Square Error (RMSE). | 翻訳日:2024-07-04 01:57:25 公開日:2024-06-30 |
# NourishNet:温暖化対策のための食品商品価格予測
NourishNet: Proactive Severity State Forecasting of Food Commodity Prices for Global Warning Systems ( http://arxiv.org/abs/2407.00698v1 ) ライセンス: Link先を確認 | Sydney Balboni, Grace Ivey, Brett Storoe, John Cisler, Tyge Plater, Caitlyn Grant, Ella Bruce, Benjamin Paulson, | (参考訳) 世界的な食品商品の価格変動は、食品市場の破壊の可能性を示す重要なシグナルである。
これらの価格の今後の変化を理解することは、特に危険にさらされている国において、食料安全保障の強化に不可欠である。
国連食糧農業機関(FAO)は以前、世界的な早期警戒システムの構築を支援するために、食品価格の積極的な予測のための洗練された統計的枠組みを開発した。
これらの枠組みは、食料安全保障指標を利用して正確な予測を作成し、潜在的な食糧不足に備える準備を容易にする。
我々の研究は、これらの基盤の上に、複雑な相互依存を明らかにするために、堅牢な価格セキュリティ指標と最先端のディープラーニング(DL)方法論を統合することによって構築されている。
DL技術は、食品価格に影響を及ぼす様々な要因の複雑なダイナミクスを調べる。
分類モデルと組み合わされた洗練された時系列予測モデルにより,我々のアプローチは既存のモデルを強化し,地域社会の食料安全保障の推進を支援する。
Price volatility in global food commodities is a critical signal indicating potential disruptions in the food market. Understanding forthcoming changes in these prices is essential for bolstering food security, particularly for nations at risk. The Food and Agriculture Organization of the United Nations (FAO) previously developed sophisticated statistical frameworks for the proactive prediction of food commodity prices, aiding in the creation of global early warning systems. These frameworks utilize food security indicators to produce accurate forecasts, thereby facilitating preparations against potential food shortages. Our research builds on these foundations by integrating robust price security indicators with cutting-edge deep learning (DL) methodologies to reveal complex interdependencies. DL techniques examine intricate dynamics among diverse factors affecting food prices. Through sophisticated time-series forecasting models coupled with a classification model, our approach enhances existing models to better support communities worldwide in advancing their food security initiatives. | 翻訳日:2024-07-04 01:57:25 公開日:2024-06-30 |
# モデルに基づくオフライン強化学習による長期タスクの処理
Tackling Long-Horizon Tasks with Model-based Offline Reinforcement Learning ( http://arxiv.org/abs/2407.00699v1 ) ライセンス: Link先を確認 | Kwanyoung Park, Youngwoon Lee, | (参考訳) モデルベースオフライン強化学習(RL)は、学習モデルを用いて仮想軌道を生成することにより、限られた静的データから学習する際の課題に対処する魅力的なアプローチである。
しかし、モデルロールアウトからの価値推定のバイアスが高いため、長い水平タスクを解くには不十分である。
本稿では,新しいモデルベースオフラインRL手法であるLow expectile Q-learning (LEQ)を導入し,$\lambda$-returnsの予測回帰によるモデルベース値推定の高バイアスを緩和することにより,長期タスク性能を向上させる。
実験の結果,LEQは従来のモデルベースオフラインRL手法よりも,例えばD4RLのAntMazeタスクや,モデルフリーアプローチのパフォーマンスのマッチングや超越といった長軸タスクの方が優れていた。
我々の実験は、予測回帰、$\lambda$-returns、オフラインデータに対する批判的トレーニングが、長い水平タスクに対処するために重要であることを示した。
さらにLEQは、NeoRLベンチマークとD4RL MuJoCo Gymタスクにおける最先端のモデルベースおよびモデルフリーオフラインRLメソッドに匹敵するパフォーマンスを実現している。
Model-based offline reinforcement learning (RL) is a compelling approach that addresses the challenge of learning from limited, static data by generating imaginary trajectories using learned models. However, it falls short in solving long-horizon tasks due to high bias in value estimation from model rollouts. In this paper, we introduce a novel model-based offline RL method, Lower Expectile Q-learning (LEQ), which enhances long-horizon task performance by mitigating the high bias in model-based value estimation via expectile regression of $\lambda$-returns. Our empirical results show that LEQ significantly outperforms previous model-based offline RL methods on long-horizon tasks, such as the D4RL AntMaze tasks, matching or surpassing the performance of model-free approaches. Our experiments demonstrate that expectile regression, $\lambda$-returns, and critic training on offline data are all crucial for addressing long-horizon tasks. Additionally, LEQ achieves performance comparable to the state-of-the-art model-based and model-free offline RL methods on the NeoRL benchmark and the D4RL MuJoCo Gym tasks. | 翻訳日:2024-07-04 01:57:25 公開日:2024-06-30 |
# Schur-Horn写像の連続性について
On the Continuity of Schur-Horn Mapping ( http://arxiv.org/abs/2407.00701v1 ) ライセンス: Link先を確認 | Hengzhun Chen, Yingzhou Li, | (参考訳) シュール・ホルン定理(英: Schur-Horn theorem)は、対称(エルミート)行列の対角要素と固有値の関係を特徴づけるよく知られた結果である。
本稿では、固定対角線を持つ対称(エルミート)行列の固有値摂動を探索することにより、この定理を拡張し、シュル=ホルン写像の連続性と呼ばれる。
摂動の最小限の制約を特徴とする強シュル=ホルン連続性の概念を導入する。
行列のいくつかのカテゴリが強いシュール・ホルン連続性を示すことを示した。
この概念を応用し、摂動の局所化の制約とともに、一般対称(エルミート)行列に対するシュール・ホルン連続性を証明する。
シュル=ホルン連続性は、量子コンピューティングに関連する斜め多様体の最適化における応用を見出す。
The Schur-Horn theorem is a well-known result that characterizes the relationship between the diagonal elements and eigenvalues of a symmetric (Hermitian) matrix. In this paper, we extend this theorem by exploring the eigenvalue perturbation of a symmetric (Hermitian) matrix with fixed diagonals, which is referred to as the continuity of the Schur-Horn mapping. We introduce a concept called strong Schur-Horn continuity, characterized by minimal constraints on the perturbation. We demonstrate that several categories of matrices exhibit strong Schur-Horn continuity. Leveraging this notion, along with a majorization constraint on the perturbation, we prove the Schur-Horn continuity for general symmetric (Hermitian) matrices. The Schur-Horn continuity finds applications in oblique manifold optimization related to quantum computing. | 翻訳日:2024-07-04 01:57:25 公開日:2024-06-30 |
# 大規模言語モデル(LLM)アノテーションシステムを用いたスケーリング技術アクセプタンス解析
Scaling Technology Acceptance Analysis with Large Language Model (LLM) Annotation Systems ( http://arxiv.org/abs/2407.00702v1 ) ライセンス: Link先を確認 | Pawel Robert Smolinski, Joseph Januszewicz, Jacek Winiarski, | (参考訳) テクノロジーアクセプションモデルは、ユーザーが新しいテクノロジー製品をどのように採用するかを効果的に予測する。
伝統的な調査は、しばしば高価で扱いにくいもので、この評価によく使われている。
調査の代替として、デジタルレビューやコメントなど、オンラインユーザ生成コンテンツに注釈をつけるために、大きな言語モデルを使用することを検討します。
我々の研究は,LLMアノテーションを設計し,レビューを統一受容・利用理論に基づく構造化データに変換することを目的としている。
アノテーションの一貫性と精度を検証するために2つの研究を行った。
その結果, LLMアノテーションシステムの中等度から強靭な整合性を示し, モデル温度を下げることによりさらに改善した。
LLMアノテーションは人間の専門家アノテーションとの密接な合意を達成し、UTAUT変数の専門家間の合意を上回った。
これらの結果から,LCMはユーザの感情分析に有効なツールであり,従来の調査手法に代わる実践的な代替手段であり,技術設計や採用に関する深い洞察を可能にすることが示唆された。
Technology acceptance models effectively predict how users will adopt new technology products. Traditional surveys, often expensive and cumbersome, are commonly used for this assessment. As an alternative to surveys, we explore the use of large language models for annotating online user-generated content, like digital reviews and comments. Our research involved designing an LLM annotation system that transform reviews into structured data based on the Unified Theory of Acceptance and Use of Technology model. We conducted two studies to validate the consistency and accuracy of the annotations. Results showed moderate-to-strong consistency of LLM annotation systems, improving further by lowering the model temperature. LLM annotations achieved close agreement with human expert annotations and outperformed the agreement between experts for UTAUT variables. These results suggest that LLMs can be an effective tool for analyzing user sentiment, offering a practical alternative to traditional survey methods and enabling deeper insights into technology design and adoption. | 翻訳日:2024-07-04 01:57:25 公開日:2024-06-30 |
# 機械学習と画像処理による暗黒Web脅威の検出
Detection of Dark Web Threats Using Machine Learning and Image Processing ( http://arxiv.org/abs/2407.00704v1 ) ライセンス: Link先を確認 | Swetha Medipelly, Nasr Abosata, | (参考訳) 本稿では,暗黒ウェブに関連するリスクを発見し,OpenCVとPythonによる画像処理を用いて人身売買に関連する脅威を検出することを目的とした。
それとは別に、TensorFlow、OpenCV、Pythonをインストールして開発環境が設定された。
探索データ分析(EDA)を通じて、データセットの特徴の分布と相互作用に関する重要な洞察を得た。
ロジスティック回帰と支持ベクトルマシン(SVM)モデルの構築と評価により,SVMモデルはロジスティック回帰よりも精度が高いことがわかった。
この論文は、データ前処理、EDA、モデル開発の複雑さを掘り下げ、ネットワーク保護とサイバー脅威応答に関する貴重な洞察を提供する。
This paper aimed to discover the risks associated with the dark web and to detect the threats related to human trafficking using image processing with OpenCV and Python. Apart from that, a development environment was set up by installing TensorFlow, OpenCV and Python. Through exploratory data analysis (EDA), significant insights into the distribution and interactions of dataset features were obtained, which are crucial for evaluating various cyberthreats. The construction and evaluation of logistic regression and support vector machine (SVM) models revealed that the SVM model outperforms logistic regression in accuracy. The paper delves into the intricacies of data preprocessing, EDA, and model development, offering valuable insights into network protection and cyberthreat response. | 翻訳日:2024-07-04 01:57:25 公開日:2024-06-30 |
# サム・オブ・ノームズ正規化非負行列分解
Sum-of-norms regularized Nonnegative Matrix Factorization ( http://arxiv.org/abs/2407.00706v1 ) ライセンス: Link先を確認 | Andersen Ang, Waqas Bin Hamed, Hans De Sterck, | (参考訳) 非負行列分解(NMF)を適用する場合、一般にランクパラメータは未知である。
非負ランクと呼ばれるNMFのそのようなランクは通常、その正確な値がNPハードであるため、ヒューリスティックに推定される。
本研究では,NMFをオンザフライで解きながら,そのランクを推定する近似法を提案する。
スム・オブ・ノルム (Sum-of-norm, SON) は、一対の類似性を促進する群ラッソ構造であり、初期においてランクが過大評価される因子行列のランクを減少させる。
様々なデータセットにおいて、SON-NMFは、事前の知識やチューニングなしに、データの正しい非負のランクを明らかにすることができる。
SON-NMF は非凸非可分非可分非可分問題であり、非自明な問題を解く。
第一に、NMFのランク推定はNPハードであるため、提案手法はより低い計算複雑性を享受しない。
グラフ理論の議論を用いて、SON-NMFの複雑さはほぼ既約であることを示す。
第2に、SON-NMF を解くアルゴリズムの1次解法コストは高い可能性があり、これはSON-NMF を1次解法として1次解法を提案する動機となった。
最後に,ポストプロセッシングのための簡単なグリージー手法を提案する。
SON-NMFはアプリケーションに好適な機能を示す。
データからランクを自動的に推定する能力の他に、SON-NMFはランク不足のデータ行列を扱うことができ、小さなエネルギーで弱い成分を検出することができる。
さらに、ハイパースペクトルイメージングの適用により、SON-NMFはスペクトル変動の問題を自然に処理する。
When applying nonnegative matrix factorization (NMF), generally the rank parameter is unknown. Such rank in NMF, called the nonnegative rank, is usually estimated heuristically since computing the exact value of it is NP-hard. In this work, we propose an approximation method to estimate such rank while solving NMF on-the-fly. We use sum-of-norm (SON), a group-lasso structure that encourages pairwise similarity, to reduce the rank of a factor matrix where the rank is overestimated at the beginning. On various datasets, SON-NMF is able to reveal the correct nonnegative rank of the data without any prior knowledge nor tuning. SON-NMF is a nonconvx nonsmmoth non-separable non-proximable problem, solving it is nontrivial. First, as rank estimation in NMF is NP-hard, the proposed approach does not enjoy a lower computational complexity. Using a graph-theoretic argument, we prove that the complexity of the SON-NMF is almost irreducible. Second, the per-iteration cost of any algorithm solving SON-NMF is possibly high, which motivated us to propose a first-order BCD algorithm to approximately solve SON-NMF with a low per-iteration cost, in which we do so by the proximal average operator. Lastly, we propose a simple greedy method for post-processing. SON-NMF exhibits favourable features for applications. Beside the ability to automatically estimate the rank from data, SON-NMF can deal with rank-deficient data matrix, can detect weak component with small energy. Furthermore, on the application of hyperspectral imaging, SON-NMF handle the issue of spectral variability naturally. | 翻訳日:2024-07-04 01:57:25 公開日:2024-06-30 |
# スペクトル拡大による不均一グラフコントラスト学習
Heterogeneous Graph Contrastive Learning with Spectral Augmentation ( http://arxiv.org/abs/2407.00708v1 ) ライセンス: Link先を確認 | Jing Zhang, Xiaoqian Jiang, Yingjie Xie, Cangqi Zhou, | (参考訳) 不均一グラフは実世界の複雑な実体関係をうまく記述することができる。
例えば、オンラインショッピングネットワークには、複数の物理的タイプの消費者と製品の他、購入や好意といった複数の関係タイプが含まれている。
異種グラフ表現学習は現実世界のシナリオにおいて強い応用可能性を示すため、多くの研究者がこの研究に注意を払っている。
しかし、既存の異種グラフモデルでは、グラフ構造の情報を空間トポロジからのみ取得し、グラフ構造のスペクトル次元に表示される情報を無視するグラフ構造情報の利用を高めるために、データ拡張技術を用いている。
異種グラフ表現学習法がスペクトル情報のモデル化に失敗する問題に対処するために,スペクトル強調グラフコントラスト学習モデル(SHCL)を導入し,異種グラフニューラルネットワークにおいて初めてスペクトル拡張アルゴリズムを提案する。
提案モデルでは、不均質グラフ自体を通じて適応的トポロジ拡張スキームを学習し、スペクトル次元における不均質グラフの構造情報を破壊し、最終的にモデルの学習効果を向上させる。
複数の実世界のデータセットに対する実験結果から,提案モデルの有効性が示された。
Heterogeneous graphs can well describe the complex entity relationships in the real world. For example, online shopping networks contain multiple physical types of consumers and products, as well as multiple relationship types such as purchasing and favoriting. More and more scholars pay attention to this research because heterogeneous graph representation learning shows strong application potential in real-world scenarios. However, the existing heterogeneous graph models use data augmentation techniques to enhance the use of graph structure information, which only captures the graph structure information from the spatial topology, ignoring the information displayed in the spectrum dimension of the graph structure. To address the issue that heterogeneous graph representation learning methods fail to model spectral information, this paper introduces a spectral-enhanced graph contrastive learning model (SHCL) and proposes a spectral augmentation algorithm for the first time in heterogeneous graph neural networks. The proposed model learns an adaptive topology augmentation scheme through the heterogeneous graph itself, disrupting the structural information of the heterogeneous graph in the spectrum dimension, and ultimately improving the learning effect of the model. Experimental results on multiple real-world datasets demonstrate substantial advantages of the proposed model. | 翻訳日:2024-07-04 01:57:25 公開日:2024-06-30 |
# 重み付き線形判別分析:欠測データを用いた分類のための説明可能なアプローチ
Weighted Missing Linear Discriminant Analysis: An Explainable Approach for Classification with Missing Data ( http://arxiv.org/abs/2407.00710v1 ) ライセンス: Link先を確認 | Tuan L. Vo, Uyen Dang, Thu Nguyen, | (参考訳) 人工知能(AI)モデルは、現実の応用において徐々に採用されつつあるため、特に医療や金融などの高度な分野において、使用されるモデルの説明可能性は非常に重要である。
一般的に使われているモデルの中で、LDA(Linear Discriminant Analysis)は、クラス分布をモデル化し、線形特徴結合を通じてクラス分離を最大化する能力によって説明可能な、広く使われている分類ツールである。
それでも、現実世界のデータはしばしば不完全であり、分類タスクやモデル説明に重大な課題を呈している。
本稿では, LDA の欠落データに対する新たなアプローチとして, 欠落データに直接パラメータを推定し, 欠落データを直接推定することにより, 欠落データを含むデータの観察を効果的に分類し, 欠落データに対する重み行列を用いて, 欠落データをペナルタイズする手法を提案する。
さらに,提案手法の理論的特性を総合的に分析し,その説明可能性について考察する。
実験結果から,WLDAは従来の手法よりも格段に優れており,特に,学習セットとテストセットの両方に欠落した値が存在する場合の方が優れていた。
As Artificial Intelligence (AI) models are gradually being adopted in real-life applications, the explainability of the model used is critical, especially in high-stakes areas such as medicine, finance, etc. Among the commonly used models, Linear Discriminant Analysis (LDA) is a widely used classification tool that is also explainable thanks to its ability to model class distributions and maximize class separation through linear feature combinations. Nevertheless, real-world data is frequently incomplete, presenting significant challenges for classification tasks and model explanations. In this paper, we propose a novel approach to LDA under missing data, termed \textbf{\textit{Weighted missing Linear Discriminant Analysis (WLDA)}}, to directly classify observations in data that contains missing values without imputation effectively by estimating the parameters directly on missing data and use a weight matrix for missing values to penalize missing entries during classification. Furthermore, we also analyze the theoretical properties and examine the explainability of the proposed technique in a comprehensive manner. Experimental results demonstrate that WLDA outperforms conventional methods by a significant margin, particularly in scenarios where missing values are present in both training and test sets. | 翻訳日:2024-07-04 01:57:25 公開日:2024-06-30 |
# 忘れることなくシステムダイナミクスを学習する
Learning System Dynamics without Forgetting ( http://arxiv.org/abs/2407.00717v1 ) ライセンス: Link先を確認 | Xikun Zhang, Dongjin Song, Yushan Jiang, Yixin Chen, Dacheng Tao, | (参考訳) 未知の力学を持つ系の軌跡を予測すること (\textit{i.e.} 支配規則) は物理学や生物学など様々な研究分野において重要である。
この挑戦は様々なコミュニティから大きな注目を集めた。
既存の作業の多くは、1つのシステム内で固定システムのダイナミクスを学ぶことに集中しています。
しかし、現実世界のアプリケーションは、異なるタイプの力学を持つ複数のシステムや、非定常力学を持つ進化系(力学シフト)を含むことが多い。
これらのシステムからのデータが継続的に収集され、トレーニングのために機械学習モデルに順次供給される場合、これらのモデルは最新の学習されたダイナミクスに偏りがちである。
そこで本研究では,連続学習によるシステムダイナミクスの学習を目指す。
具体的には,モードスイッチンググラフODE (MS-GODE) の新たなフレームワークを提案する。
推測段階では、観測データに基づいて最も自信のあるマスクを選択し、システムを特定し、それに従って将来の軌道を予測することができる。
実験により,タスク構成を体系的に検討し,提案したMS-GODEと最先端技術との比較を行った。
より重要なことは、異なるダイナミクスを持つ多様なシステムを特徴とし、動的システムのための機械学習の研究分野を著しく豊かにする、生体力学システムの新しいベンチマークを構築することである。
Predicting the trajectories of systems with unknown dynamics (\textit{i.e.} the governing rules) is crucial in various research fields, including physics and biology. This challenge has gathered significant attention from diverse communities. Most existing works focus on learning fixed system dynamics within one single system. However, real-world applications often involve multiple systems with different types of dynamics or evolving systems with non-stationary dynamics (dynamics shifts). When data from those systems are continuously collected and sequentially fed to machine learning models for training, these models tend to be biased toward the most recently learned dynamics, leading to catastrophic forgetting of previously observed/learned system dynamics. To this end, we aim to learn system dynamics via continual learning. Specifically, we present a novel framework of Mode-switching Graph ODE (MS-GODE), which can continually learn varying dynamics and encode the system-specific dynamics into binary masks over the model parameters. During the inference stage, the model can select the most confident mask based on the observational data to identify the system and predict future trajectories accordingly. Empirically, we systematically investigate the task configurations and compare the proposed MS-GODE with state-of-the-art techniques. More importantly, we construct a novel benchmark of biological dynamic systems, featuring diverse systems with disparate dynamics and significantly enriching the research field of machine learning for dynamic systems. | 翻訳日:2024-07-04 01:57:25 公開日:2024-06-30 |
# ASPS:ポリプセグメンテーションのための拡張セグメンテーションモデル
ASPS: Augmented Segment Anything Model for Polyp Segmentation ( http://arxiv.org/abs/2407.00718v1 ) ライセンス: Link先を確認 | Huiqian Li, Dingwen Zhang, Jieru Yao, Longfei Han, Zhongyu Li, Junwei Han, | (参考訳) ポリープセグメンテーションは大腸癌の診断において重要な役割を担っている。
最近、SAM(Segment Anything Model)が出現し、大規模データセット上での強力な事前学習能力を活用して、ポリープセグメンテーションの先例のない可能性をもたらした。
しかし、自然像と内視鏡像の領域差のため、SAMはポリプセグメンテーションにおいて効果的な性能を達成するために2つの限界に遭遇する。
第一に、Transformerベースの構造は、グローバルおよび低周波情報を優先し、ローカルの詳細を見落とし、学習した機能にバイアスをもたらす。
第2に、内視鏡画像に適用した場合、OOD(out-of-distribution)性能の低下は、サブ標準予測とバイアスド信頼出力をもたらす。
これらの課題に対処するために、クロスブランチ機能拡張(CFA)と不確実性誘導予測正規化(UPR)という2つのモジュールを備えたASPS(Augmented SAM for Polyp Segmentation)という新しいアプローチを導入する。
CFAはトレーニング可能なCNNエンコーダブランチと凍結したViTエンコーダを統合し、ローカル機能と高周波詳細を強化しながらドメイン固有の知識の統合を可能にする。
さらに、UPRはSAMのIoUスコアを巧みに活用し、トレーニング手順中の不確実性を緩和し、OOD性能とドメインの一般化を改善する。
ポリプセグメンテーションにおけるSAMの性能向上における提案手法の有効性と有効性を示した。
私たちのコードはhttps://github.com/HuiqianLi/ASPS.comで利用可能です。
Polyp segmentation plays a pivotal role in colorectal cancer diagnosis. Recently, the emergence of the Segment Anything Model (SAM) has introduced unprecedented potential for polyp segmentation, leveraging its powerful pre-training capability on large-scale datasets. However, due to the domain gap between natural and endoscopy images, SAM encounters two limitations in achieving effective performance in polyp segmentation. Firstly, its Transformer-based structure prioritizes global and low-frequency information, potentially overlooking local details, and introducing bias into the learned features. Secondly, when applied to endoscopy images, its poor out-of-distribution (OOD) performance results in substandard predictions and biased confidence output. To tackle these challenges, we introduce a novel approach named Augmented SAM for Polyp Segmentation (ASPS), equipped with two modules: Cross-branch Feature Augmentation (CFA) and Uncertainty-guided Prediction Regularization (UPR). CFA integrates a trainable CNN encoder branch with a frozen ViT encoder, enabling the integration of domain-specific knowledge while enhancing local features and high-frequency details. Moreover, UPR ingeniously leverages SAM's IoU score to mitigate uncertainty during the training procedure, thereby improving OOD performance and domain generalization. Extensive experimental results demonstrate the effectiveness and utility of the proposed method in improving SAM's performance in polyp segmentation. Our code is available at https://github.com/HuiqianLi/ASPS. | 翻訳日:2024-07-04 01:57:25 公開日:2024-06-30 |
# フェデレーション学習におけるバックドアアタックに対する全能的ロバストアグリゲーション法
A Whole-Process Certifiably Robust Aggregation Method Against Backdoor Attacks in Federated Learning ( http://arxiv.org/abs/2407.00719v1 ) ライセンス: Link先を確認 | Anqi Zhou, Yezheng Liu, Yidong Chai, Hongyi Zhu, Xinyue Ge, Yuanchun Jiang, Meng Wang, | (参考訳) フェデレーテッド・ラーニング(FL)は、金融、医療、サイバーセキュリティなど、さまざまな領域で広く採用されている。
それでもFLは、悪意のあるアクターが訓練されたモデルにトリガーを挿入し、FLの主要な目的を満たしながら特定のタスクを実行できるようにするバックドア攻撃による重大な脅威にさらされている。
これに対し、ロバストアグリゲーション法が提案され、ex-ante、ex-durante、ex-postメソッドの3つのタイプに分けられる。
これらの手法の相補的な性質を考えると、これら3つの型を組み合わせることは期待できない。
このような組み合わせは、デメリットを克服しつつ、そのメリットを活用する必要があるため、簡単ではありません。
本研究は, FLにおいて, バックドア攻撃に対するロバスト性を, 元アンテ, 元デュランテ, 元ポストの3段階にわたって向上させる, プロセス全体のロバストアグリゲーション(WPCRA)法を提案する。
また、現在の幾何中央値推定法ではクライアント間の差を考慮できないため、新しい重み付き幾何中央値推定アルゴリズム(WGME)を提案する。
このアルゴリズムは,各クライアントの重みに基づくクライアントからのモデル更新の幾何的中央値を推定し,バックドア攻撃に対するWPCRAの堅牢性をさらに向上させる。
また、WPCRAは、より大きな認証半径で、信頼性の高いロバスト性を保証することを理論的に証明する。
ローン状況予測の課題に基づいて,提案手法の利点を評価する。
ベースラインと比較すると,本手法はバックドア攻撃に対するFLの堅牢性を大幅に改善することが示された。
本研究は,新しいWPCRA法と新しいWGMEアルゴリズムを用いて文献に寄与する。
私たちのコードはhttps://github.com/brick-brick/WPCRAMで利用可能です。
Federated Learning (FL) has garnered widespread adoption across various domains such as finance, healthcare, and cybersecurity. Nonetheless, FL remains under significant threat from backdoor attacks, wherein malicious actors insert triggers into trained models, enabling them to perform certain tasks while still meeting FL's primary objectives. In response, robust aggregation methods have been proposed, which can be divided into three types: ex-ante, ex-durante, and ex-post methods. Given the complementary nature of these methods, combining all three types is promising yet unexplored. Such a combination is non-trivial because it requires leveraging their advantages while overcoming their disadvantages. Our study proposes a novel whole-process certifiably robust aggregation (WPCRA) method for FL, which enhances robustness against backdoor attacks across three phases: ex-ante, ex-durante, and ex-post. Moreover, since the current geometric median estimation method fails to consider differences among clients, we propose a novel weighted geometric median estimation algorithm (WGME). This algorithm estimates the geometric median of model updates from clients based on each client's weight, further improving the robustness of WPCRA against backdoor attacks. We also theoretically prove that WPCRA offers improved certified robustness guarantees with a larger certified radius. We evaluate the advantages of our methods based on the task of loan status prediction. Comparison with baselines shows that our methods significantly improve FL's robustness against backdoor attacks. This study contributes to the literature with a novel WPCRA method and a novel WGME algorithm. Our code is available at https://github.com/brick-brick/WPCRAM. | 翻訳日:2024-07-04 01:47:18 公開日:2024-06-30 |
# 非ガウス的一般化2モードスクイーズ:2アンサンブルスピンスクイーズへの応用
Non-Gaussian generalized two-mode squeezing: applications to two-ensemble spin squeezing and beyond ( http://arxiv.org/abs/2407.00721v1 ) ライセンス: Link先を確認 | Mikhail Mamaev, Martin Koppenhöfer, Andrew Pocklington, Aashish A. Clerk, | (参考訳) ボソニック2モード圧縮状態は、量子情報やメトロジーにおいて幅広い有用性を持つパラダイム的絡み合ったガウス状態である。
ここでは、これらの状態の基本構造を、有限次元系に対する2つの独立パラメータの同時推定を可能にする方法で任意の二部量子系に一般化することができることを示す。
さらに、これらの一般状態は常に比較的単純なマルコフ散逸過程によって安定化できることを示す。
2つのサブシステムが2レベル原子またはスピンのアンサンブルである特定の場合、一般化された状態は、ガウス極限を超えて真に多パラメータ推定を可能にする2モードスピンスクイーズの概念を定義する。
一般化されたラムゼー測度は、どのようにして2パラメータのクレーマー・ラオ境界に達することができ、また、散逸的準備スキームが現在の実験とどのように相容れないかについて議論する。
Bosonic two-mode squeezed states are paradigmatic entangled Gaussian states that have wide utility in quantum information and metrology. Here, we show that the basic structure of these states can be generalized to arbitrary bipartite quantum systems in a manner that allows simultaneous, Heisenberg-limited estimation of two independent parameters for finite-dimensional systems. Further, we show that these general states can always be stabilized by a relatively simple Markovian dissipative process. In the specific case where the two subsystems are ensembles of two-level atoms or spins, our generalized states define a notion of two-mode spin squeezing that is valid beyond the Gaussian limit and that enables true multi-parameter estimation. We discuss how generalized Ramsey measurements allow one to reach the two-parameter quantum Cramer-Rao bound, and how the dissipative preparation scheme is compatible with current experiments. | 翻訳日:2024-07-04 01:47:18 公開日:2024-06-30 |
# 近似ベイズ計算による量子系パラメータの効率的な推論
Efficient inference of quantum system parameters by Approximate Bayesian Computation ( http://arxiv.org/abs/2407.00724v1 ) ライセンス: Link先を確認 | Lewis A. Clark, Jan Kołodyński, | (参考訳) システムパラメータを効率的に推論する能力は、高速な操作を必要とする任意の信号処理タスクにおいて不可欠である。
量子システムとのディーリングはヒルベルト空間がシステムサイズで大きく成長することによる深刻な問題である。
観測された測定データの統計、すなわち、容易に計算できないため、最大形推定器や粒子フィルタのような一般的な手法は実用的ではない。
この問題に対処するために、与えられた量子デバイスに予め用意された測定データのライブラリーからサンプリングすることで、確率計算を回避できる近似ベイズ計算(ABC)アルゴリズムを提案する。
本研究では,2レベル原子と光学系をリアルタイムに探索する際に発生する光検出クリックパターンの解釈にABCを適用した。
後者については、線形と非線形の両方のレジームを考察し、量子計測統計を理解することによってABCアルゴリズムをカスタマイズする方法を示す。
我々の研究は、量子デバイスと関連する測定方法が複雑でなくても、高速パラメータ推論が可能であることを実証している。
The ability to efficiently infer system parameters is essential in any signal-processing task that requires fast operation. Dealing with quantum systems, a serious challenge arises due to substantial growth of the underlying Hilbert space with the system size. As the statistics of the measurement data observed, i.e. the likelihood, can no longer be easily computed, common approaches such as maximum-likelihood estimators or particle filters become impractical. To address this issue, we propose the use of the Approximate Bayesian Computation (ABC) algorithm, which evades likelihood computation by sampling from a library of measurement data - a priori prepared for a given quantum device. We apply ABC to interpret photodetection click-patterns arising when probing in real time a two-level atom and an optomechanical system. For the latter, we consider both linear and non-linear regimes, in order to show how to tailor the ABC algorithm by understanding the quantum measurement statistics. Our work demonstrates that fast parameter inference may be possible no matter the complexity of a quantum device and the measurement scheme involved. | 翻訳日:2024-07-04 01:47:18 公開日:2024-06-30 |
# D-CDLF:多次元高次元データのための共通および識別潜在因子の分解
D-CDLF: Decomposition of Common and Distinctive Latent Factors for Multi-view High-dimensional Data ( http://arxiv.org/abs/2407.00730v1 ) ライセンス: Link先を確認 | Hai Shu, | (参考訳) 複数の高次元データビューのジョイント分析における典型的なアプローチは、各ビューのデータマトリックスを3つの部分に分解することである。
既存の分解法では、共通潜時要因と特異潜時要因の非相関性に焦点をあてることが多いが、異なるデータビューからの特異潜時要因の等しく不要な非相関性に対処するには不十分である。
本稿では,2視点データに対する非相関性を効果的に実現するために,D-CDLF (Decomposition of Common and Distinctive Latent Factors) と呼ばれる新しい分解法を提案する。
また,高次元環境下でのD-CDLFの推定についても検討した。
A typical approach to the joint analysis of multiple high-dimensional data views is to decompose each view's data matrix into three parts: a low-rank common-source matrix generated by common latent factors of all data views, a low-rank distinctive-source matrix generated by distinctive latent factors of the corresponding data view, and an additive noise matrix. Existing decomposition methods often focus on the uncorrelatedness between the common latent factors and distinctive latent factors, but inadequately address the equally necessary uncorrelatedness between distinctive latent factors from different data views. We propose a novel decomposition method, called Decomposition of Common and Distinctive Latent Factors (D-CDLF), to effectively achieve both types of uncorrelatedness for two-view data. We also discuss the estimation of the D-CDLF under high-dimensional settings. | 翻訳日:2024-07-04 01:47:18 公開日:2024-06-30 |
# トークンレベル臨床名認識における大規模言語モデル
Large Language Models Struggle in Token-Level Clinical Named Entity Recognition ( http://arxiv.org/abs/2407.00731v1 ) ライセンス: Link先を確認 | Qiuhao Lu, Rui Li, Andrew Wen, Jinlian Wang, Liwei Wang, Hongfang Liu, | (参考訳) 大規模言語モデル(LLM)は、様々な分野に革命をもたらした。
それらの実用性は、データ不足、複雑さ、特異性が大きな課題を引き起こす稀な疾患の文脈において特に重要である。
臨床領域では、名前付きエンティティ認識(NER)が重要な課題であり、臨床テキストから関連情報を抽出する上で重要な役割を担っている。
LLMの約束にもかかわらず、現在の研究は主に文書レベルのNERに焦点を当てており、正確な位置を抽出することなく、文書全体のより一般的なコンテキストにおけるエンティティを識別している。
さらに、トークンレベルのNERにChatGPTを適用する取り組みも進められている。
しかし、臨床テキストにトークンレベルのNERを用いる場合、特にローカルなオープンソースLPMを使用する場合、大きな研究ギャップがある。
本研究の目的は,トークンレベルNERにおけるプロプライエタリLLMとローカルLLMの両方の有効性を検討することにより,このギャップを埋めることである。
基本的には、ゼロショットプロンプト、少数ショットプロンプト、検索強化生成(RAG)、命令微細調整を含む一連の実験を通じて、これらのモデルの能力を掘り下げる。
我々の調査は、トークンレベルのNERにおいてLLMが直面する固有の課題、特にまれな疾患の文脈で明らかにし、医療への応用における改善の可能性を示している。
この研究は、医療情報学における大きなギャップを狭めることに寄与し、医療分野におけるLSMのより洗練された応用につながる可能性のある洞察を提供する。
Large Language Models (LLMs) have revolutionized various sectors, including healthcare where they are employed in diverse applications. Their utility is particularly significant in the context of rare diseases, where data scarcity, complexity, and specificity pose considerable challenges. In the clinical domain, Named Entity Recognition (NER) stands out as an essential task and it plays a crucial role in extracting relevant information from clinical texts. Despite the promise of LLMs, current research mostly concentrates on document-level NER, identifying entities in a more general context across entire documents, without extracting their precise location. Additionally, efforts have been directed towards adapting ChatGPT for token-level NER. However, there is a significant research gap when it comes to employing token-level NER for clinical texts, especially with the use of local open-source LLMs. This study aims to bridge this gap by investigating the effectiveness of both proprietary and local LLMs in token-level clinical NER. Essentially, we delve into the capabilities of these models through a series of experiments involving zero-shot prompting, few-shot prompting, retrieval-augmented generation (RAG), and instruction-fine-tuning. Our exploration reveals the inherent challenges LLMs face in token-level NER, particularly in the context of rare diseases, and suggests possible improvements for their application in healthcare. This research contributes to narrowing a significant gap in healthcare informatics and offers insights that could lead to a more refined application of LLMs in the healthcare sector. | 翻訳日:2024-07-04 01:47:18 公開日:2024-06-30 |
# 拡散モデルに基づく流れ場の生成予測
Generative prediction of flow field based on the diffusion model ( http://arxiv.org/abs/2407.00735v1 ) ライセンス: Link先を確認 | Jiajun Hu, Zhen Lu, Yue Yang, | (参考訳) 本稿では, 障害物形状の入力を利用して, 障害物を過ぎる流れ場を予測する形状と流れの拡散モデルを提案する。
このモデルは学習可能なマルコフ遷移カーネルに基づいて、ガウス分布からデータ分布を復元する。
マルコフ過程は障害物形状に条件付けされ、U-Netを介して実装された各ステップで除去されるノイズを推定する。
クロスアテンション機構は、幾何学をプロンプトとして組み込む。
我々は、円、楕円、矩形、三角形を含む単純な障害物を流れる流れのデータセットを用いて、幾何と流れの拡散モデルを訓練する。
比較として、CNNモデルは、同じデータセットを使用してトレーニングされる。
形状条件の補間と外挿をそれぞれ表わすため, 単純かつ複雑な地形をもつ障害物を過ぎる流れにおいて, 試験を行う。
テストセットでは、クロスとキャラクタの‘PKU’が難しいシナリオである。
生成流れ場は,CNNモデルよりも幾何拡散モデルの方が,瞬時流場予測や複雑な測地処理に優れていることを示す。
モデルの精度と拡散度の定量的解析は拡散モデルの高ロバスト性を示し、拡散モデルは物理法則を暗黙的に学習することを示す。
We propose a geometry-to-flow diffusion model that utilizes the input of obstacle shape to predict a flow field past the obstacle. The model is based on a learnable Markov transition kernel to recover the data distribution from the Gaussian distribution. The Markov process is conditioned on the obstacle geometry, estimating the noise to be removed at each step, implemented via a U-Net. A cross-attention mechanism incorporates the geometry as a prompt. We train the geometry-to-flow diffusion model using a dataset of flows past simple obstacles, including the circle, ellipse, rectangle, and triangle. For comparison, the CNN model is trained using the same dataset. Tests are carried out on flows past obstacles with simple and complex geometries, representing interpolation and extrapolation on the geometry condition, respectively. In the test set, challenging scenarios include a cross and characters `PKU'. Generated flow fields show that the geometry-to-flow diffusion model is superior to the CNN model in predicting instantaneous flow fields and handling complex geometries. Quantitative analysis of the model accuracy and divergence in the fields demonstrate the high robustness of the diffusion model, indicating that the diffusion model learns physical laws implicitly. | 翻訳日:2024-07-04 01:47:18 公開日:2024-06-30 |
# 量子回路合成とコンパイル最適化:概観と展望
Quantum Circuit Synthesis and Compilation Optimization: Overview and Prospects ( http://arxiv.org/abs/2407.00736v1 ) ライセンス: Link先を確認 | Yan Ge, Wu Wenjie, Chen Yuheng, Pan Kaisen, Lu Xudong, Zhou Zixiang, Wang Yuhan, Wang Ruocheng, Yan Junchi, | (参考訳) 量子コンピューティングは、ムーア時代以降の現在の計算パワーボトルネックを克服する有望なパラダイムと見なされている。
量子プロセッサ、特に超伝導プロセッサの成熟度の増加は、量子アルゴリズムの開発と実装により多くの可能性をもたらす。
量子アルゴリズムの実装において重要な段階として、論理回路設計と量子コンパイルが注目されており、量子論理回路合成(量子アーキテクチャサーチとしても広く知られている)や最適化、キュービットマッピングやルーティングといった重要な技術がカバーされている。
近年の研究では、特に人工知能手法の統合により、関連するアルゴリズムのスケールと精度が着実に向上していることが示唆されている。
本研究では,論理回路設計とコンパイル最適化のステップを組み合わせることで,アルゴリズムレベルから量子ハードウェアにまたがる統合設計と最適化スキームの実現可能性を検討する。
AIアルゴリズムの異常な認知と学習能力を活用することで、手作業による設計コストを削減し、実行の精度と効率を高め、ハードウェア上での量子アルゴリズムの優位性の実装と検証を容易にする。
Quantum computing is regarded as a promising paradigm that may overcome the current computational power bottlenecks in the post-Moore era. The increasing maturity of quantum processors, especially superconducting ones, provides more possibilities for the development and implementation of quantum algorithms. As the crucial stages for quantum algorithm implementation, the logic circuit design and quantum compiling have also received significant attention, which covers key technologies such as quantum logic circuit synthesis (also widely known as quantum architecture search) and optimization, as well as qubit mapping and routing. Recent studies suggest that the scale and precision of related algorithms are steadily increasing, especially with the integration of artificial intelligence methods. In this survey, we systematically review and summarize a vast body of literature, exploring the feasibility of an integrated design and optimization scheme that spans from the algorithmic level to quantum hardware, combining the steps of logic circuit design and compilation optimization. Leveraging the exceptional cognitive and learning capabilities of AI algorithms, one can reduce manual design costs, enhance the precision and efficiency of execution, and facilitate the implementation and validation of the superiority of quantum algorithms on hardware. | 翻訳日:2024-07-04 01:47:18 公開日:2024-06-30 |
# LLM4GEN:テキスト・画像生成のためのLLMのセマンティック表現の活用
LLM4GEN: Leveraging Semantic Representation of LLMs for Text-to-Image Generation ( http://arxiv.org/abs/2407.00737v1 ) ライセンス: Link先を確認 | Mushui Liu, Yuhang Ma, Xinfeng Zhang, Yang Zhen, Zeng Zhao, Zhipeng Hu, Bai Liu, Changjie Fan, | (参考訳) 拡散モデルはテキスト・ツー・イメージ・ジェネレーションにおいて大きな成功を収めた。
しかしながら、複数のオブジェクト、属性バインディング、長い記述を含む複雑で高密度なプロンプトを扱う場合、しばしば課題に遭遇する。
本稿では,大規模言語モデル(LLM)の意味表現を活用することで,テキストから画像への拡散モデルの意味理解能力を高めるフレームワークである「textbf{LLM4GEN}」を提案する。
CAM(Cross-Adapter Module)は、テキスト・ツー・イメージ・モデルのオリジナルテキスト機能とLLM機能を組み合わせることで、様々な拡散モデルにプラグイン・アンド・プレイコンポーネントとして簡単に組み込むことができ、テキスト・ツー・イメージ・ジェネレーションを向上することができる。
さらに,複雑な意味理解を容易にするために,画像記述を改良した100万(M)テキストイメージ対からなるLAION精製データセットを開発した。
また、DensePromptsは7000個の高密度なプロンプトを含み、テキスト・画像生成タスクの総合的な評価を提供する。
最近のELAで要求されるトレーニングデータのわずか10%で、LSM4GENはSD1.5とSDXLのセマンティックアライメントを著しく改善し、それぞれT2I-CompBenchで7.69\%と9.60\%の増加を示す。
DensePromptsに関する広範な実験は、LLM4GENがサンプル品質、画像テキストアライメント、人的評価の点で、既存の最先端モデルを上回ることを示した。
プロジェクトのWebサイトは以下の通りである。
Diffusion Models have exhibited substantial success in text-to-image generation. However, they often encounter challenges when dealing with complex and dense prompts that involve multiple objects, attribute binding, and long descriptions. This paper proposes a framework called \textbf{LLM4GEN}, which enhances the semantic understanding ability of text-to-image diffusion models by leveraging the semantic representation of Large Language Models (LLMs). Through a specially designed Cross-Adapter Module (CAM) that combines the original text features of text-to-image models with LLM features, LLM4GEN can be easily incorporated into various diffusion models as a plug-and-play component and enhances text-to-image generation. Additionally, to facilitate the complex and dense prompts semantic understanding, we develop a LAION-refined dataset, consisting of 1 million (M) text-image pairs with improved image descriptions. We also introduce DensePrompts which contains 7,000 dense prompts to provide a comprehensive evaluation for the text-to-image generation task. With just 10\% of the training data required by recent ELLA, LLM4GEN significantly improves the semantic alignment of SD1.5 and SDXL, demonstrating increases of 7.69\% and 9.60\% in color on T2I-CompBench, respectively. The extensive experiments on DensePrompts also demonstrate that LLM4GEN surpasses existing state-of-the-art models in terms of sample quality, image-text alignment, and human evaluation. The project website is at: \textcolor{magenta}{\url{https://xiaobul.github.io/LLM4GEN/}} | 翻訳日:2024-07-04 01:47:18 公開日:2024-06-30 |
# 非線形運動のための高能率物体追従器の工学
Engineering an Efficient Object Tracker for Non-Linear Motion ( http://arxiv.org/abs/2407.00738v1 ) ライセンス: Link先を確認 | Momir Adžemović, Predrag Tadić, Andrija Petrović, Mladen Nikolić, | (参考訳) マルチオブジェクトトラッキングの目標は、ビデオフレーム間のバウンディングボックスを関連付けることで、シーン内のすべてのオブジェクトを検出し、追跡することである。
この関係は、検出された物体の一致した動きと出現パターンに依存している。
このタスクは、動的および非線形な動きパターンを含むシナリオの場合、特に困難である。
本稿では,これらのシナリオに特化して設計された新しい多目的トラッカーであるDeepMoveSORTを紹介する。
外観に基づくアソシエーションの標準的な方法に加えて、深層学習可能なフィルタ(カルマンフィルタの代わりに)と、新たに提案された豊富なヒューリスティックスを用いて、動きに基づくアソシエーションを改善する。
動作に基づくアソシエーション手法の改良は, 複数回行われた。
まず,動作予測と雑音フィルタリングの両方にオブジェクトの動作履歴を利用するトランスフィルタを提案する。
我々は、その動き履歴を注意深く処理し、カメラの動きを考慮し、フィルタの性能をさらに向上する。
第2に,検出されたバウンディングボックスの位置,形状,信頼性からキューを利用するヒューリスティックスを提案する。
実験により,DeepMoveSORTは既存のトラッカーよりも非線形な動きを特徴とするシナリオで優れており,これら3つのデータセットの最先端結果を上回っていることが示された。
また,提案したトラッカーコンポーネントのコントリビューションを評価するために,徹底的なアブレーション調査を行った。
そこで本研究では,Kalmanフィルタの代わりに学習可能なフィルタを用いることで,外見に基づくアソシエーションと組み合わせることで,高い一般追跡性能を実現することが重要であると結論付けた。
The goal of multi-object tracking is to detect and track all objects in a scene while maintaining unique identifiers for each, by associating their bounding boxes across video frames. This association relies on matching motion and appearance patterns of detected objects. This task is especially hard in case of scenarios involving dynamic and non-linear motion patterns. In this paper, we introduce DeepMoveSORT, a novel, carefully engineered multi-object tracker designed specifically for such scenarios. In addition to standard methods of appearance-based association, we improve motion-based association by employing deep learnable filters (instead of the most commonly used Kalman filter) and a rich set of newly proposed heuristics. Our improvements to motion-based association methods are severalfold. First, we propose a new transformer-based filter architecture, TransFilter, which uses an object's motion history for both motion prediction and noise filtering. We further enhance the filter's performance by careful handling of its motion history and accounting for camera motion. Second, we propose a set of heuristics that exploit cues from the position, shape, and confidence of detected bounding boxes to improve association performance. Our experimental evaluation demonstrates that DeepMoveSORT outperforms existing trackers in scenarios featuring non-linear motion, surpassing state-of-the-art results on three such datasets. We also perform a thorough ablation study to evaluate the contributions of different tracker components which we proposed. Based on our study, we conclude that using a learnable filter instead of the Kalman filter, along with appearance-based association is key to achieving strong general tracking performance. | 翻訳日:2024-07-04 01:47:18 公開日:2024-06-30 |
# Locate&Edit:効率的なフレキシブルかつ忠実なテキスト生成のためのエネルギーベースのテキスト編集
Locate&Edit: Energy-based Text Editing for Efficient, Flexible, and Faithful Controlled Text Generation ( http://arxiv.org/abs/2407.00740v1 ) ライセンス: Link先を確認 | Hye Ryung Son, Jay-Yoon Lee, | (参考訳) 制御されたテキスト生成(CTG)に対する最近のアプローチは、復号時にベース言語モデル(LM)の重みやロジットを操作することを伴うことが多い。
しかし、これらの手法は最新のブラックボックス LM には適用不可能であり、ベース LM のオリジナル世代におけるコアセマンティクスの保存には有効ではない。
本研究では,CTG に対する効率よく柔軟なエネルギーベースアプローチである Locate&Edit(L&E) を提案する。
基本LMからのテキスト出力が与えられたとき、L&Eはまずエネルギーモデルを利用する制約(例えば毒性)に最も関係のあるスパンを見つけ、それからより適切な代替品に置き換えてこれらのスパンを編集する。
重要な点として,本手法はテキスト出力のみを必要とするため,ブラックボックスのLMと互換性がある。
また、L&Eはコンポーネントモデルの特定のアーキテクチャを規定していないため、利用可能なオフザシェルフモデルの多種多様な組み合わせで動作することができます。
さらに、L&Eは、テキストの制約関連の側面を選択的に修正し、他の要素をそのままにして、LMのオリジナル世代を保存する。
これらの編集対象はL&Eが効率的に動作することを保証する。
実験により,L&E は基本LM 世代と速度のセマンティック保存に優れ,同時に競争力や制約満足度の向上を実現していることを確認した。
さらに, エネルギー分布の粒度がCTG性能に与える影響を解析し, 従来の二項分類器エネルギーモデルと比較して, 詳細な回帰ベースエネルギーモデルにより制約満足度が向上することを示した。
Recent approaches to controlled text generation (CTG) often involve manipulating the weights or logits of base language models (LMs) at decoding time. However, these methods are inapplicable to latest black-box LMs and ineffective at preserving the core semantics of the base LM's original generations. In this work, we propose Locate&Edit(L&E), an efficient and flexible energy-based approach to CTG, which edits text outputs from a base LM using off-the-shelf energy models. Given text outputs from the base LM, L&E first locates spans that are most relevant to constraints (e.g., toxicity) utilizing energy models, and then edits these spans by replacing them with more suitable alternatives. Importantly, our method is compatible with black-box LMs, as it requires only the text outputs. Also, since L&E doesn't mandate specific architecture for its component models, it can work with a diverse combination of available off-the-shelf models. Moreover, L&E preserves the base LM's original generations, by selectively modifying constraint-related aspects of the texts and leaving others unchanged. These targeted edits also ensure that L&E operates efficiently. Our experiments confirm that L&E achieves superior semantic preservation of the base LM generations and speed, while simultaneously obtaining competitive or improved constraint satisfaction. Furthermore, we analyze how the granularity of energy distribution impacts CTG performance and find that fine-grained, regression-based energy models improve constraint satisfaction, compared to conventional binary classifier energy models. | 翻訳日:2024-07-04 01:47:18 公開日:2024-06-30 |
# 安全制約を考慮したオフラインマルチエージェント強化学習のための拡散モデル
Diffusion Models for Offline Multi-agent Reinforcement Learning with Safety Constraints ( http://arxiv.org/abs/2407.00741v1 ) ライセンス: Link先を確認 | Jianuo Huang, | (参考訳) 近年のMARL(Multi-agent Reinforcement Learning)の進歩により、その応用は様々な安全クリティカルなシナリオにまで拡張されている。
しかし,ほとんどの手法はオンライン学習に重点を置いており,実際の環境に配置した場合にかなりのリスクが生じる。
この課題に対処するために、MARLパラダイムに拡散モデルを統合する革新的なフレームワークを導入する。
このアプローチは、協調動作をモデル化しながらリスク軽減を通じて、複数のエージェントが取るべき行動の安全性を特に向上させる。
我々のフレームワークは、予測軌道生成のための拡散モデルによって強化された、分散実行による集中訓練(CTDE)アーキテクチャに基礎を置いている。
さらに、運用上の安全性をさらに確保するために、特殊なアルゴリズムを組み込んだ。
DSRLベンチマークを用いて,ベースラインに対するモデルの評価を行った。
実験結果から, 本モデルは厳密な安全制約に固執するだけでなく, 既存の手法と比較して優れた性能が得られることが示された。
このことは、現実世界のアプリケーションにおけるMARLの安全性と有効性向上における我々のアプローチの可能性を浮き彫りにしている。
In recent advancements in Multi-agent Reinforcement Learning (MARL), its application has extended to various safety-critical scenarios. However, most methods focus on online learning, which presents substantial risks when deployed in real-world settings. Addressing this challenge, we introduce an innovative framework integrating diffusion models within the MARL paradigm. This approach notably enhances the safety of actions taken by multiple agents through risk mitigation while modeling coordinated action. Our framework is grounded in the Centralized Training with Decentralized Execution (CTDE) architecture, augmented by a Diffusion Model for prediction trajectory generation. Additionally, we incorporate a specialized algorithm to further ensure operational safety. We evaluate our model against baselines on the DSRL benchmark. Experiment results demonstrate that our model not only adheres to stringent safety constraints but also achieves superior performance compared to existing methodologies. This underscores the potential of our approach in advancing the safety and efficacy of MARL in real-world applications. | 翻訳日:2024-07-04 01:47:18 公開日:2024-06-30 |
# PolygonGNN:不均一可視グラフを用いた多角的ジオメトリの表現学習
PolygonGNN: Representation Learning for Polygonal Geometries with Heterogeneous Visibility Graph ( http://arxiv.org/abs/2407.00742v1 ) ライセンス: Link先を確認 | Dazhou Yu, Yuntong Hu, Yun Li, Liang Zhao, | (参考訳) ポリゴン表現学習は、形状符号化、パターン分類、地理的質問応答といったタスクを含む多様なアプリケーションに不可欠である。
近年、この分野でかなりの進歩が見られるが、焦点は多角形に固有の複雑な内多角形関係と多角形間関係を見越して、単一の多角形に向けられている。
このギャップに対処するために,多角形空間,特に多角形空間の表現を学習するための包括的枠組みを提案する。
我々のアプローチの中心は、内交関係と多角形関係をシームレスに統合する異種可視グラフの導入である。
計算効率を向上し,グラフ冗長性を最小化するために,不均一なスパンニングツリーサンプリング手法を実装した。
さらに、回転変換不変幾何表現を考案し、多様なシナリオにまたがる広範な適用性を確保する。
最後に、可視性グラフに固有の空間的・意味的不均一性を活用するための新しいモデルであるMultipolygon-GNNを紹介する。
5つの実世界および合成データセットの実験は、多角形幾何学における情報表現を捉える能力を示している。
Polygon representation learning is essential for diverse applications, encompassing tasks such as shape coding, building pattern classification, and geographic question answering. While recent years have seen considerable advancements in this field, much of the focus has been on single polygons, overlooking the intricate inner- and inter-polygonal relationships inherent in multipolygons. To address this gap, our study introduces a comprehensive framework specifically designed for learning representations of polygonal geometries, particularly multipolygons. Central to our approach is the incorporation of a heterogeneous visibility graph, which seamlessly integrates both inner- and inter-polygonal relationships. To enhance computational efficiency and minimize graph redundancy, we implement a heterogeneous spanning tree sampling method. Additionally, we devise a rotation-translation invariant geometric representation, ensuring broader applicability across diverse scenarios. Finally, we introduce Multipolygon-GNN, a novel model tailored to leverage the spatial and semantic heterogeneity inherent in the visibility graph. Experiments on five real-world and synthetic datasets demonstrate its ability to capture informative representations for polygonal geometries. | 翻訳日:2024-07-04 01:47:18 公開日:2024-06-30 |
# 因果認識のためのアンタングル表現
Disentangled Representations for Causal Cognition ( http://arxiv.org/abs/2407.00744v1 ) ライセンス: Link先を確認 | Filippo Torresan, Manuel Baltieri, | (参考訳) 複雑な適応エージェントは、統合エージェント環境システムの要素の間に存在する因果関係に関する情報である因果情報を理解する必要があると思われる問題を解くことで、その目標を一貫して達成する。
因果認知は、ヒトおよび非ヒト動物における因果学習と推論の主な特徴について研究し、課題の因果理解のレベルに基づいて認知的パフォーマンスを議論するための概念的枠組みを提供する。
因果ベイズネットワークを含む公式な介入に基づく因果関係モデルが使用されているにもかかわらず、因果認識に関する心理学的・行動的研究は、エージェントが世界の因果的理解をどのように獲得するかを演算する計算的説明を提供していない。
因果性に関する機械および強化学習研究、特に因果性表現を構築するための候補過程としての絡み合いに関する研究は、一方的に、因果性認知の内部の働きに光を当てることができる因果性人工エージェントを設計するための具体的な試みである。
本研究では,これら2つの研究領域を結合して,動物認知研究の計算的視点を提供する因果認知統合フレームワークを構築し,AIにおける因果強化学習のための新しいアルゴリズムの開発に関する洞察を提供する。
Complex adaptive agents consistently achieve their goals by solving problems that seem to require an understanding of causal information, information pertaining to the causal relationships that exist among elements of combined agent-environment systems. Causal cognition studies and describes the main characteristics of causal learning and reasoning in human and non-human animals, offering a conceptual framework to discuss cognitive performances based on the level of apparent causal understanding of a task. Despite the use of formal intervention-based models of causality, including causal Bayesian networks, psychological and behavioural research on causal cognition does not yet offer a computational account that operationalises how agents acquire a causal understanding of the world. Machine and reinforcement learning research on causality, especially involving disentanglement as a candidate process to build causal representations, represent on the one hand a concrete attempt at designing causal artificial agents that can shed light on the inner workings of natural causal cognition. In this work, we connect these two areas of research to build a unifying framework for causal cognition that will offer a computational perspective on studies of animal cognition, and provide insights in the development of new algorithms for causal reinforcement learning in AI. | 翻訳日:2024-07-04 01:47:18 公開日:2024-06-30 |
# ティルトトランスポートによるOracleのデノベートによる後方サンプリング
Posterior Sampling with Denoising Oracles via Tilted Transport ( http://arxiv.org/abs/2407.00745v1 ) ライセンス: Link先を確認 | Joan Bruna, Jiequn Han, | (参考訳) スコアベース拡散モデルでは、データセットからオラクル(あるいはスコア)を学習することで、さまざまな領域にわたる高度な高次元データ生成を行うことができる。
ベイズの観点からは、それらはデータ先行の現実的なモデリングを提供し、後続サンプリングによる逆問題の解決を容易にする。
近年、この目的のために多くのヒューリスティックな手法が開発されているが、多くの科学的応用で必要とされる量的保証は欠如している。
そこで本研究では,従来の復号化オラクルと組み合わせた線形逆数問題における対数様の二次構造を利用して,元の後部サンプリング問題を標本化し易い新しい"boosted"後部への変換を行う,‘textit{tilted transport} 技術を導入する。
我々は,この後続後続が強い対数凹である条件を定量化し,測定行列の条件数と信号対雑音比に依存することを強調した。
得られた後続サンプリングスキームは,Isingモデル[Kunisky'23]を直接解析し,高次元ガウス混合モデルとスカラー場$\varphi^4$モデルでさらに検証することにより,Isingモデル[Kunisky'23]をサンプリングするために予測される計算しきい値に達することを示した。
Score-based diffusion models have significantly advanced high-dimensional data generation across various domains, by learning a denoising oracle (or score) from datasets. From a Bayesian perspective, they offer a realistic modeling of data priors and facilitate solving inverse problems through posterior sampling. Although many heuristic methods have been developed recently for this purpose, they lack the quantitative guarantees needed in many scientific applications. In this work, we introduce the \textit{tilted transport} technique, which leverages the quadratic structure of the log-likelihood in linear inverse problems in combination with the prior denoising oracle to transform the original posterior sampling problem into a new `boosted' posterior that is provably easier to sample from. We quantify the conditions under which this boosted posterior is strongly log-concave, highlighting the dependencies on the condition number of the measurement matrix and the signal-to-noise ratio. The resulting posterior sampling scheme is shown to reach the computational threshold predicted for sampling Ising models [Kunisky'23] with a direct analysis, and is further validated on high-dimensional Gaussian mixture models and scalar field $\varphi^4$ models. | 翻訳日:2024-07-04 01:47:18 公開日:2024-06-30 |
# テキスト要約における品質評価手法の比較検討
A Comparative Study of Quality Evaluation Methods for Text Summarization ( http://arxiv.org/abs/2407.00747v1 ) ライセンス: Link先を確認 | Huyen Nguyen, Haihua Chen, Lavanya Pobbathi, Junhua Ding, | (参考訳) テキスト要約の評価は自然言語処理(NLP)において難しい課題となっている。
参照要約に大きく依存する自動メトリクスは多くの状況では適さないが、人間の評価は時間と労働集約である。
このギャップを埋めるために,テキスト要約を評価するための大規模言語モデル(LLM)に基づく新しい手法を提案する。
また, 8つの自動測定値, 人体評価, 提案手法との比較検討を行った。
7種類の最先端(SOTA)要約モデルを評価した。
特許文書を用いたデータセットに関する広範な実験と分析を行う。
以上の結果から,LLMの評価は人間の評価と密接に一致しているが,ROUGE-2,BERTScore,SummaCなどの広く使用されている自動測定値には一貫性がない。
実験的な比較から,テキスト要約を自動評価・改善するLLMフレームワークを提案する。
Evaluating text summarization has been a challenging task in natural language processing (NLP). Automatic metrics which heavily rely on reference summaries are not suitable in many situations, while human evaluation is time-consuming and labor-intensive. To bridge this gap, this paper proposes a novel method based on large language models (LLMs) for evaluating text summarization. We also conducts a comparative study on eight automatic metrics, human evaluation, and our proposed LLM-based method. Seven different types of state-of-the-art (SOTA) summarization models were evaluated. We perform extensive experiments and analysis on datasets with patent documents. Our results show that LLMs evaluation aligns closely with human evaluation, while widely-used automatic metrics such as ROUGE-2, BERTScore, and SummaC do not and also lack consistency. Based on the empirical comparison, we propose a LLM-powered framework for automatically evaluating and improving text summarization, which is beneficial and could attract wide attention among the community. | 翻訳日:2024-07-04 01:47:18 公開日:2024-06-30 |
# 不均一なマルチソース空間点データ予測のための自己整合深部幾何学的学習
Self-consistent Deep Geometric Learning for Heterogeneous Multi-source Spatial Point Data Prediction ( http://arxiv.org/abs/2407.00748v1 ) ライセンス: Link先を確認 | Dazhou Yu, Xiaoyun Gong, Yun Li, Meikang Qiu, Liang Zhao, | (参考訳) 環境モニタリングや自然資源管理といった分野では,マルチソース空間データ予測が重要であり,様々なセンサからのデータを統合することが,総合的な環境理解の鍵となる。
この領域の既存のモデルは、ドメイン固有の性質のためしばしば不足し、根本真理ラベルがない場合には、様々な情報源からの情報を統合するための戦略が欠如している。
主な課題は、異なるデータソースの品質を評価し、それらの間の空間関係を効果的にモデル化することである。
これらの課題に対処するために,地中真理ラベルを頼らずに,様々な情報源からの情報の整合性を確保する,革新的なマルチソース空間点データ予測フレームワークを導入する。
本手法のユニークな側面は,各データソースの信頼性を評価する定量的尺度である「忠実度スコア」である。
さらに,データポイント間の空間的関係を正確に表現するために,位置情報対応のグラフニューラルネットワークを開発した。
私たちのフレームワークは、2つの実世界のデータセットと1つの合成データセットで厳格にテストされています。
その結果、既存の最先端手法よりも優れた性能を示した。
Multi-source spatial point data prediction is crucial in fields like environmental monitoring and natural resource management, where integrating data from various sensors is the key to achieving a holistic environmental understanding. Existing models in this area often fall short due to their domain-specific nature and lack a strategy for integrating information from various sources in the absence of ground truth labels. Key challenges include evaluating the quality of different data sources and modeling spatial relationships among them effectively. Addressing these issues, we introduce an innovative multi-source spatial point data prediction framework that adeptly aligns information from varied sources without relying on ground truth labels. A unique aspect of our method is the 'fidelity score,' a quantitative measure for evaluating the reliability of each data source. Furthermore, we develop a geo-location-aware graph neural network tailored to accurately depict spatial relationships between data points. Our framework has been rigorously tested on two real-world datasets and one synthetic dataset. The results consistently demonstrate its superior performance over existing state-of-the-art methods. | 翻訳日:2024-07-04 01:37:22 公開日:2024-06-30 |
# 非直交多重化による物理層認識
Physical Layer Deception with Non-Orthogonal Multiplexing ( http://arxiv.org/abs/2407.00750v1 ) ライセンス: Link先を確認 | Wenwen Chen, Bin Han, Yao Zhu, Anke Schmeink, Giuseppe Caire, Hans D. Schotten, | (参考訳) 物理層セキュリティ (PLS) は、無線チャネルの物理的特性を活用することで、無線通信をセキュアにするための有望な技術である。
しかし、PLSの受動的性質は、盗聴者や正当な利用者がデータを保護するのに必要な労力の間に大きな不均衡をもたらす。
この不均衡に対処するため,本論文では,PLSと偽装技術を組み合わせてワイヤタッピングの試みに積極的に対処する物理層偽装(PLD)の枠組みを提案する。
2段階のエンコーダとランダムな暗号と非直交多重化を組み合わせることで、PLD方式により、無線通信システムでは、盗難メッセージによる盗難防止を積極的に行うことができる。
PLDフレームワークは、盗聴チャンネル上の正当なチャンネルの優越性のみに頼り、盗聴受信機と同等の知識を有する盗聴者に対しても、送信メッセージの機密性を効果的に保護することができる。
本研究では,PLDフレームワークの詳細な解析による妥当性を証明し,総合的な数値ベンチマークによる従来のPLS手法よりも優れていることを示す。
Physical layer security (PLS) is a promising technology to secure wireless communications by exploiting the physical properties of the wireless channel. However, the passive nature of PLS creates a significant imbalance between the effort required by eavesdroppers and legitimate users to secure data. To address this imbalance, in this article, we propose a novel framework of physical layer deception (PLD), which combines PLS with deception technologies to actively counteract wiretapping attempts. Combining a two-stage encoder with randomized ciphering and non-orthogonal multiplexing, the PLD approach enables the wireless communication system to proactively counter eavesdroppers with deceptive messages. Relying solely on the superiority of the legitimate channel over the eavesdropping channel, the PLD framework can effectively protect the confidentiality of the transmitted messages, even against eavesdroppers who possess knowledge equivalent to that of the legitimate receiver. We prove the validity of the PLD framework with in-depth analyses and demonstrate its superiority over conventional PLS approaches with comprehensive numerical benchmarks. | 翻訳日:2024-07-04 01:37:22 公開日:2024-06-30 |
# Chest-Diffusion:CXR生成のための軽量テキスト・画像モデル
Chest-Diffusion: A Light-Weight Text-to-Image Model for Report-to-CXR Generation ( http://arxiv.org/abs/2407.00752v1 ) ライセンス: Link先を確認 | Peng Huang, Xue Gao, Lihong Huang, Jing Jiao, Xiaokang Li, Yuanyuan Wang, Yi Guo, | (参考訳) テキスト・ツー・イメージ生成は多彩で制御可能な画像の生成に重要な意味を持つ。
安定拡散(SD)を医療領域に適応させる試みがいくつかなされている。
しかし, 医学報告と自然テキストの分布差が大きく, 共有拡散における計算複雑性も大きく, 生成した医用画像の信頼性と実現可能性に限界がある。
上記の問題を解決するために,Chest-Diffusionという,軽量トランスフォーマーを用いた拡散モデル学習フレームワークを提案する。
Chest-Diffusionはドメイン固有のテキストエンコーダを使用して画像生成をガイドし、生成した画像の信頼性を向上させる。
一方,本研究では,拡散モデルの計算複雑性を低減し,軽量トランスフォーマーアーキテクチャをデノナイズモデルとして導入する。
我々のケスト拡散は、SDの計算複雑性の3分の1近くである118.918 GFLOPsの計算予算の下で、最低FIDスコア24.456を達成することを示した。
Text-to-image generation has important implications for generation of diverse and controllable images. Several attempts have been made to adapt Stable Diffusion (SD) to the medical domain. However, the large distribution difference between medical reports and natural texts, as well as high computational complexity in common stable diffusion limit the authenticity and feasibility of the generated medical images. To solve above problems, we propose a novel light-weight transformer-based diffusion model learning framework, Chest-Diffusion, for report-to-CXR generation. Chest-Diffusion employs a domain-specific text encoder to obtain accurate and expressive text features to guide image generation, improving the authenticity of the generated images. Meanwhile, we introduce a light-weight transformer architecture as the denoising model, reducing the computational complexity of the diffusion model. Experiments demonstrate that our Chest-Diffusion achieves the lowest FID score 24.456, under the computation budget of 118.918 GFLOPs, which is nearly one-third of the computational complexity of SD. | 翻訳日:2024-07-04 01:37:22 公開日:2024-06-30 |
# パリティ時対称系における単一光子輸送の量子ノイズ誘起非相反性
Quantum noise induced nonreciprocity for single photon transport in parity-time symmetric systems ( http://arxiv.org/abs/2407.00758v1 ) ライセンス: Link先を確認 | Dibyendu Roy, G. S. Agarwal, | (参考訳) 我々は、利得と損失を伴う結合光学系において、量子ノイズによる単一光子入力に対する非相互光伝搬を示す。
直接結合した2つの共振器または2つの有限長導波路を平行に結合した2つのパリティ時間(\mathcal{PT}$)対称線形光学系を考える。
1つの共振器または導波管は能動利得媒質で満たされ、もう1つは受動損失媒質で満たされる。
光の伝搬は、量子ノイズのないような$\mathcal{PT}$対称線形系において相反する。
ここでは、適切な物理記述に欠かせない量子ノイズをモデル化に含めると、光伝送が非相互となることを示す。
量子非相互性は、特に$\mathcal{PT}$壊れた位相で発音される。
入射導波路の透過光強度はノイズのない2つの導波路に対して非対称である。
量子ノイズは破壊相におけるそのような非対称性を著しく向上させる。
We show nonreciprocal light propagation for single-photon inputs due to quantum noise in coupled optical systems with gain and loss. We consider two parity-time ($\mathcal{PT}$) symmetric linear optical systems consisting of either two directly coupled resonators or two finite-length waveguides evanescently coupled in parallel. One resonator or waveguide is filled with an active gain medium and the other with a passive loss medium. The light propagation is reciprocal in such $\mathcal{PT}$ symmetric linear systems without quantum noise. We show here that light transmission becomes nonreciprocal when we include quantum noises in our modeling, which is essential for a proper physical description. The quantum nonreciprocity is especially pronounced in the $\mathcal{PT}$ broken phase. Transmitted light intensity in the waveguide of incidence is asymmetric for two waveguides even without noise. Quantum noise significantly enhances such asymmetry in the broken phase. | 翻訳日:2024-07-04 01:37:22 公開日:2024-06-30 |
# 血液細胞分類のための最新のコンピュータビジョンモデルの解析
Analysis of Modern Computer Vision Models for Blood Cell Classification ( http://arxiv.org/abs/2407.00759v1 ) ライセンス: Link先を確認 | Alexander Kim, Ryan Kim, | (参考訳) 白血球と関連する血液成分の正確な分類は、医学的診断に不可欠である。
従来の手動検査や自動血液分析装置は広く用いられているが、しばしば遅く、エラーを起こしやすい。
近年のディープラーニングの進歩は、これらの制限に対処することを約束している。
以前の研究では、このタスクのためにDenseNet、ResNet、VGGNetといった畳み込みニューラルネットワークが実現可能であることが示されている。
これらの基礎の上に構築された私たちの研究は、迅速かつ正確な結果を得るために、より最新で効率的なモデルを採用しています。
具体的には、MaxVit、EfficientVit、EfficientNet、EfficientNetV2、MobileNetV3といった最先端アーキテクチャを使用した。
本研究では,これらのモデルの性能をWBC分類で評価することを目的とした。
本手法は,従来の手法の速度と精度の懸念に対処するだけでなく,血液学的解析における革新的な深層学習モデルの適用性についても検討する。
The accurate classification of white blood cells and related blood components is crucial for medical diagnoses. While traditional manual examinations and automated hematology analyzers have been widely used, they are often slow and prone to errors. Recent advancements in deep learning have shown promise for addressing these limitations. Earlier studies have demonstrated the viability of convolutional neural networks such as DenseNet, ResNet, and VGGNet for this task. Building on these foundations, our work employs more recent and efficient models to achieve rapid and accurate results. Specifically, this study used state-of-the-art architectures, including MaxVit, EfficientVit, EfficientNet, EfficientNetV2, and MobileNetV3. This study aimed to evaluate the performance of these models in WBC classification, potentially offering a more efficient and reliable alternative to current methods. Our approach not only addresses the speed and accuracy concerns of traditional techniques but also explores the applicability of innovative deep learning models in hematological analysis. | 翻訳日:2024-07-04 01:37:22 公開日:2024-06-30 |
# グラフに基づく半教師付き学習方式の改良
Improved Graph-based semi-supervised learning Schemes ( http://arxiv.org/abs/2407.00760v1 ) ライセンス: Link先を確認 | Farid Bozorgnia, | (参考訳) 本研究では,ラベルの少ない大規模データセットの分類に対処するため,いくつかの既知のアルゴリズムの精度を向上させる。
私たちのフレームワークは、グラフベースの半教師あり学習の領域にあります。
ガウス的ランダム場学習アルゴリズムとポアソン学習アルゴリズムの新たな改良により、精度を高め、より堅牢なアルゴリズムを作成する。
実験により,従来のグラフに基づく半教師付き手法よりも提案手法の効率性と優位性を示す。
In this work, we improve the accuracy of several known algorithms to address the classification of large datasets when few labels are available. Our framework lies in the realm of graph-based semi-supervised learning. With novel modifications on Gaussian Random Fields Learning and Poisson Learning algorithms, we increase the accuracy and create more robust algorithms. Experimental results demonstrate the efficiency and superiority of the proposed methods over conventional graph-based semi-supervised techniques, especially in the context of imbalanced datasets. | 翻訳日:2024-07-04 01:37:22 公開日:2024-06-30 |
# 物理的拘束型ニューラルネットワークモデルの極端スペーサー化によるスタイン変分推論の性能向上
Improving the performance of Stein variational inference through extreme sparsification of physically-constrained neural network models ( http://arxiv.org/abs/2407.00761v1 ) ライセンス: Link先を確認 | Govinda Anantha Padmanabha, Jan Niklas Fuhg, Cosmin Safta, Reese E. Jones, Nikolaos Bouklas, | (参考訳) ニューラルネットワークのほとんどの科学的機械学習(SciML)応用は数百から数千のパラメータを含むため、そのようなモデルの不確実性定量化は次元性の呪いに悩まされている。
物理応用を用いて、SGVD法や投影されたSGVD法を直接適用した場合よりも、SGVD法よりも、Stein変分勾配降下(L_0$+SVGD)がより堅牢で効率的な不確実性定量化手段であることが示される。
具体的には、$L_0$+SVGDは、ノイズに対する優れたレジリエンス、外挿領域での良好な性能、最適解へのより高速な収束率を示す。
Most scientific machine learning (SciML) applications of neural networks involve hundreds to thousands of parameters, and hence, uncertainty quantification for such models is plagued by the curse of dimensionality. Using physical applications, we show that $L_0$ sparsification prior to Stein variational gradient descent ($L_0$+SVGD) is a more robust and efficient means of uncertainty quantification, in terms of computational cost and performance than the direct application of SGVD or projected SGVD methods. Specifically, $L_0$+SVGD demonstrates superior resilience to noise, the ability to perform well in extrapolated regions, and a faster convergence rate to an optimal solution. | 翻訳日:2024-07-04 01:37:22 公開日:2024-06-30 |
# プライバシ保護型プレトライニングによるステレオタイプバイアスのキャラクタリゼーション
Characterizing Stereotypical Bias from Privacy-preserving Pre-Training ( http://arxiv.org/abs/2407.00764v1 ) ライセンス: Link先を確認 | Stefan Arnold, Rene Gröbner, Annika Schreiner, | (参考訳) 差分プライバシー(DP)は、埋め込み空間における単語の空間配置を利用して、原文に適用することができる。
言語モデル(LM)におけるそのようなテキストの民営化の影響と,そのステレオタイプ的関連性に対する傾向について検討する。
以前の研究では、言語習熟度がステレオタイプバイアスと相関していることが文書化されて以来、言語モデリング能力の低下で知られているテキスト民営化の手法が望ましくないバイアスを解消するであろうと仮定できる。
偏見のある文を含むテキストでトレーニングされたBERTモデルを、プライバシーの度合いが変わると、ステレオタイプ的偏見は一般的に低下するが、テキストの民営化は、すべての社会的ドメインにおける偏見の低下に一様ではない。
これは、テキストの民営化を行うLMにおけるバイアスの慎重な診断の必要性を強調している。
Differential Privacy (DP) can be applied to raw text by exploiting the spatial arrangement of words in an embedding space. We investigate the implications of such text privatization on Language Models (LMs) and their tendency towards stereotypical associations. Since previous studies documented that linguistic proficiency correlates with stereotypical bias, one could assume that techniques for text privatization, which are known to degrade language modeling capabilities, would cancel out undesirable biases. By testing BERT models trained on texts containing biased statements primed with varying degrees of privacy, our study reveals that while stereotypical bias generally diminishes when privacy is tightened, text privatization does not uniformly equate to diminishing bias across all social domains. This highlights the need for careful diagnosis of bias in LMs that undergo text privatization. | 翻訳日:2024-07-04 01:37:22 公開日:2024-06-30 |
# 構造的・平衡的多成分・多層ニューラルネットワーク
Structured and Balanced Multi-component and Multi-layer Neural Networks ( http://arxiv.org/abs/2407.00765v1 ) ライセンス: Link先を確認 | Shijun Zhang, Hongkai Zhao, Yimin Zhong, Haomin Zhou, | (参考訳) 本研究では,自由度と計算コストの両面において精度と効率の両面で複雑な特徴を持つ関数を近似する,バランスの取れた多成分・多層ニューラルネットワーク(MMNN)構造を提案する。
主なアイデアはマルチコンポーネントによって動機付けられ、各コンポーネントは単一層ネットワークによって効果的に近似され、複雑な関数を扱うための「分母と子」型の戦略で多層分解される。
完全に接続されたニューラルネットワーク(FCNN)やMLP(Multi-layer perceptron)への変更は、ネットワークにバランスの取れたマルチコンポーネント構造を導入することで容易になるが、MMNNはトレーニングパラメータの大幅な削減、より効率的なトレーニングプロセス、FCNNやMLPよりもはるかに精度が向上している。
高振動関数の近似におけるMMNNの有効性と局所的特徴の捕捉における自動適応性を示すために,大規模な数値実験を行った。
In this work, we propose a balanced multi-component and multi-layer neural network (MMNN) structure to approximate functions with complex features with both accuracy and efficiency in terms of degrees of freedom and computation cost. The main idea is motivated by a multi-component, each of which can be approximated effectively by a single-layer network, and multi-layer decomposition in a "divide-and-conquer" type of strategy to deal with a complex function. While an easy modification to fully connected neural networks (FCNNs) or multi-layer perceptrons (MLPs) through the introduction of balanced multi-component structures in the network, MMNNs achieve a significant reduction of training parameters, a much more efficient training process, and a much improved accuracy compared to FCNNs or MLPs. Extensive numerical experiments are presented to illustrate the effectiveness of MMNNs in approximating high oscillatory functions and its automatic adaptivity in capturing localized features. | 翻訳日:2024-07-04 01:37:22 公開日:2024-06-30 |
# PROZE: 実行時データによるパラメータ化ユニットテストの生成
PROZE: Generating Parameterized Unit Tests Informed by Runtime Data ( http://arxiv.org/abs/2407.00768v1 ) ライセンス: Link先を確認 | Deepika Tiwari, Yogya Gamage, Martin Monperrus, Benoit Baudry, | (参考訳) 通常、従来の単体テスト(CUT)は、1つの特定の入力/出力ペアを通して、テスト中の単体が期待する振る舞いを検証する。
対照的に、パラメータ化された単体テスト(PUT)は、一連の入力を引数として受け取り、これらすべての入力に対して真であると予想されるアサーションを含む。
PUTは、入力と振る舞いの広い範囲で正確性を評価することで、テスト品質を向上します。
しかし、一連のインプットに対してアサーションを定義することは開発者にとって難しい作業であり、実際にはPUTの採用を制限する。
本稿では,複数の入力を保持するPUTのオーラクルを見つける問題に対処する。
我々は,複数のテスト入力に対して有効な開発者記述アサーションを識別し,PUTを生成するPROZEと呼ばれるシステムの設計を行う。
まず、実行時に、CUT内で呼び出されるターゲットメソッドのインプットを収集します。次に、PUT内で使用されるCUTの有効なアサーションを分離します。
実世界の5つのJavaモジュールに対する我々のアプローチを評価し、テストおよびフィールド実行から128のターゲットメソッドに対して有効な入力を収集する。
我々は2,287個のPUTを生成し、ターゲットメソッドを元のCUTよりもはるかに多くのテスト入力で呼び出す。
PUTを実行し、開発者が想定するよりも広い範囲の入力をオーラクルが保持していることを示す217を見つけます。
テスト理論の観点からは、開発者は特定の入力を1つに抑えるのに十分一般的なCUT内でのアサーションを表現している。
Typically, a conventional unit test (CUT) verifies the expected behavior of the unit under test through one specific input / output pair. In contrast, a parameterized unit test (PUT) receives a set of inputs as arguments, and contains assertions that are expected to hold true for all these inputs. PUTs increase test quality, as they assess correctness on a broad scope of inputs and behaviors. However, defining assertions over a set of inputs is a hard task for developers, which limits the adoption of PUTs in practice. In this paper, we address the problem of finding oracles for PUTs that hold over multiple inputs. We design a system called PROZE, that generates PUTs by identifying developer-written assertions that are valid for more than one test input. We implement our approach as a two-step methodology: first, at runtime, we collect inputs for a target method that is invoked within a CUT; next, we isolate the valid assertions of the CUT to be used within a PUT. We evaluate our approach against 5 real-world Java modules, and collect valid inputs for 128 target methods from test and field executions. We generate 2,287 PUTs, which invoke the target methods with a significantly larger number of test inputs than the original CUTs. We execute the PUTs and find 217 that provably demonstrate that their oracles hold for a larger range of inputs than envisioned by the developers. From a testing theory perspective, our results show that developers express assertions within CUTs that are general enough to hold beyond one particular input. | 翻訳日:2024-07-04 01:37:22 公開日:2024-06-30 |
# システムレベル量子回路シミュレーションによる高エネルギースーパーオリティの実現
Achieving Energetic Superiority Through System-Level Quantum Circuit Simulation ( http://arxiv.org/abs/2407.00769v1 ) ライセンス: Link先を確認 | Rong Fu, Zhongling Su, Han-Sen Zhong, Xiti Zhao, Jianyang Zhang, Feng Pan, Pan Zhang, Xianhe Zhao, Ming-Cheng Chen, Chao-Yang Lu, Jian-Wei Pan, Zhiling Pei, Xingcheng Zhang, Wanli Ouyang, | (参考訳) 量子計算スーパーオリティは、高速な計算と高エネルギー効率を誇っている。
Googleのsycamoreのマイルストーンな主張を否定する古典的アルゴリズムの最近の進歩にもかかわらず、ランダムな量子回路の非相関なサンプルの生成には課題が残っている。
本稿では,グローバル,ノード,デバイスレベルでの最適化を活用して,テンソルネットワークにおける前例のないスケーラビリティを実現する,画期的な大規模システム技術を提案する。
これにより、メモリ容量が数十テラバイトに達する大規模なテンソルネットワークのハンドリングが可能となり、単一のノードにおけるメモリ空間の制約を超えることができる。
我々の技術は、最大10テラバイトのメモリを持つ大規模テンソルネットワークを収容でき、最大2304GPUに達し、ピーク計算能力は561 PFLOPS半精度である。
特に、エネルギー消費2.39kWhのエネルギー消費で14.22秒の時間解を達成し、最も顕著な結果は17.18秒の時間解であり、処理後0.29kWhのエネルギー消費しか達成せず、それぞれ600秒と4.3kWhを記録したGoogleの量子プロセッサであるSycamoreを上回った。
Quantum Computational Superiority boasts rapid computation and high energy efficiency. Despite recent advances in classical algorithms aimed at refuting the milestone claim of Google's sycamore, challenges remain in generating uncorrelated samples of random quantum circuits. In this paper, we present a groundbreaking large-scale system technology that leverages optimization on global, node, and device levels to achieve unprecedented scalability for tensor networks. This enables the handling of large-scale tensor networks with memory capacities reaching tens of terabytes, surpassing memory space constraints on a single node. Our techniques enable accommodating large-scale tensor networks with up to tens of terabytes of memory, reaching up to 2304 GPUs with a peak computing power of 561 PFLOPS half-precision. Notably, we have achieved a time-to-solution of 14.22 seconds with energy consumption of 2.39 kWh which achieved fidelity of 0.002 and our most remarkable result is a time-to-solution of 17.18 seconds, with energy consumption of only 0.29 kWh which achieved a XEB of 0.002 after post-processing, outperforming Google's quantum processor Sycamore in both speed and energy efficiency, which recorded 600 seconds and 4.3 kWh, respectively. | 翻訳日:2024-07-04 01:37:22 公開日:2024-06-30 |
# 量子状態のクロスドメイン分類における量子支援ベクトルマシンの利点
Advantages of quantum support vector machine in cross-domain classification of quantum states ( http://arxiv.org/abs/2407.00774v1 ) ライセンス: Link先を確認 | Diksha Sharma, Vivek Balasaheb Sabale, Parvinder Singh, Atul Kumar, | (参考訳) 本研究では、量子機械学習を用いたクロスドメイン分類を用いて、絡み合いと分離可能性のパラダイムに対処する。
さらに、ベル対角状態の効率的な分類をゼロと非ゼロの不協和クラスに示す。
量子状態の継承構造とその特定の種類の量子状態との関係は、直感的に異なるドメインテスト状態の分類にアプローチするために利用される。
さらに、ランダムなユニタリ変換を用いた解析問題に対するモデルのロバスト性を評価するために分析を拡張した。
数値解析により,多次元ヒルベルト空間における量子状態の分類におけるQSVMの可能性を明らかにした。
In this study, we use cross-domain classification using quantum machine learning for quantum advantages to address the entanglement versus separability paradigm. We further demonstrate the efficient classification of Bell diagonal states into zero and non-zero discord classes. The inherited structure of quantum states and its relation with a particular class of quantum states are exploited to intuitively approach the classification of different domain testing states, referred here as crossdomain classification. In addition, we extend our analysis to evaluate the robustness of our model for the analyzed problem using random unitary transformations. Using numerical analysis, our results clearly demonstrate the potential of QSVM for classifying quantum states across the multidimensional Hilbert space. | 翻訳日:2024-07-04 01:37:22 公開日:2024-06-30 |
# グラフ同型ネットワークとAlphaZeroフレームワークによる高速マトリックス対角化に向けて
Towards Faster Matrix Diagonalization with Graph Isomorphism Networks and the AlphaZero Framework ( http://arxiv.org/abs/2407.00779v1 ) ライセンス: Link先を確認 | Geigh Zollicoffer, Kshitij Bhatta, Manish Bhattarai, Phil Romero, Christian F. A. Negre, Anders M. N. Niklasson, Adetokunbo Adedoyin, | (参考訳) 本稿では,大規模行列対角化を半マルコフ決定過程として定式化し,小型行列対角化をマルコフ決定過程として定式化することにより,ヤコビ法による行列対角化を高速化する革新的な手法を提案する。
さらに、異なるサイズの行列間でスケーラブルなアーキテクチャを活用する可能性についても検討する。
短時間のトレーニング期間中に,対角化に必要なステップ数を大幅に削減し,効率的な推論能力を示した。
重要なことに、このアプローチは大規模行列のスケーラビリティを実証し、広範囲な適用可能性を示している。
訓練が完了すると、異なる状態間の遷移を記述する行動状態確率と遷移グラフを得る。
これらの出力は、対角化プロセスに関する洞察を提供するだけでなく、大規模行列に関連するコスト削減の道を開く。
本研究の進歩により, マトリックス対角化の有効性とスケーラビリティが向上し, 科学・工学分野における実用化への新たな可能性が期待できる。
In this paper, we introduce innovative approaches for accelerating the Jacobi method for matrix diagonalization, specifically through the formulation of large matrix diagonalization as a Semi-Markov Decision Process and small matrix diagonalization as a Markov Decision Process. Furthermore, we examine the potential of utilizing scalable architecture between different-sized matrices. During a short training period, our method discovered a significant reduction in the number of steps required for diagonalization and exhibited efficient inference capabilities. Importantly, this approach demonstrated possible scalability to large-sized matrices, indicating its potential for wide-ranging applicability. Upon training completion, we obtain action-state probabilities and transition graphs, which depict transitions between different states. These outputs not only provide insights into the diagonalization process but also pave the way for cost savings pertinent to large-scale matrices. The advancements made in this research enhance the efficacy and scalability of matrix diagonalization, pushing for new possibilities for deployment in practical applications in scientific and engineering domains. | 翻訳日:2024-07-04 01:37:22 公開日:2024-06-30 |
# 拡散モデルと表現学習
Diffusion Models and Representation Learning: A Survey ( http://arxiv.org/abs/2407.00783v1 ) ライセンス: Link先を確認 | Michael Fuest, Pingchuan Ma, Ming Gui, Johannes S. Fischer, Vincent Tao Hu, Bjorn Ommer, | (参考訳) 拡散モデル(Diffusion Models)は、様々な視覚タスクにおいて一般的な生成モデリング手法であり、大きな注目を集めている。
これらはラベルアノテーションからの独立性から、自己教師付き学習手法のユニークな例と見なすことができる。
本調査では,拡散モデルと表現学習の相互作用について検討する。
これは拡散モデルの本質的な側面を概観するものであり、数学的基礎、一般的な認知型ネットワークアーキテクチャ、ガイダンス手法などである。
拡散モデルと表現学習に関する様々なアプローチについて詳述する。
これらのフレームワークには、事前訓練された拡散モデルから学んだ表現をその後の認識タスクに活用するフレームワークや、拡散モデルを強化するために表現の進歩と自己教師付き学習を利用する手法が含まれる。
本調査は,拡散モデルと表現学習の分類の包括的概要を提供し,既存の関心事と潜在的探究の重要な領域を特定することを目的とする。
Githubのリンク:https://github.com/dongzhuoyao/Diffusion-Representation-Learning-Survey-Taxonomy
Diffusion Models are popular generative modeling methods in various vision tasks, attracting significant attention. They can be considered a unique instance of self-supervised learning methods due to their independence from label annotation. This survey explores the interplay between diffusion models and representation learning. It provides an overview of diffusion models' essential aspects, including mathematical foundations, popular denoising network architectures, and guidance methods. Various approaches related to diffusion models and representation learning are detailed. These include frameworks that leverage representations learned from pre-trained diffusion models for subsequent recognition tasks and methods that utilize advancements in representation and self-supervised learning to enhance diffusion models. This survey aims to offer a comprehensive overview of the taxonomy between diffusion models and representation learning, identifying key areas of existing concerns and potential exploration. Github link: https://github.com/dongzhuoyao/Diffusion-Representation-Learning-Survey-Taxonomy | 翻訳日:2024-07-04 01:37:22 公開日:2024-06-30 |
# CSUM: 認証と統合性を維持しながらCubeSatを更新する新しいメカニズム
CSUM: A Novel Mechanism for Updating CubeSat while Preserving Authenticity and Integrity ( http://arxiv.org/abs/2407.00784v1 ) ライセンス: Link先を確認 | Ankit Gangwal, Aashish Paliwal, | (参考訳) 最近のCubeSatの台頭は、低軌道宇宙用途(気候モニタリング、気象測定、通信、地球観測など)に費用対効果の高いソリューションを提供することによって、地球規模の宇宙探査に革命をもたらした。
CubeSatの優れた特徴は、現在搭載されているアプリケーションは、ソフトウェアアップデートによって更新または完全に新しいアプリケーションに置き換えられることである。
従来の方法(例えば暗号化)を使ったソフトウェアアップデートのセキュア化は、主にCubeSatの低リソース機能のために現実的ではない。
したがって、CubeSatsのソフトウェアアップデートのセキュリティは依然として重要な問題である。
本稿では,CubeSatのアップデートメカニズム(CSUM)を提案する。これは,ハッシュチェーンを用いて,ソフトウェア更新放送の完全性,認証,データの鮮度保証を提供する軽量なスキームである。
提案手法の有効性と有効性を実証するために,概念実証を実証的に評価した。
CSUMは,5万回の更新を1秒未満で正常に検証することができる。
また、異なる暗号プリミティブの比較分析を行う。
実験により, 資源制約環境においても, ハッシュベースのアプローチは従来の手法よりも61$\times$以上高速であることが確認された。
最後に,CubeSatソフトウェア更新手順の限界,課題,今後の研究方向性について論じる。
The recent rise of CubeSat has revolutionized global space explorations, as it offers cost-effective solutions for low-orbit space applications (including climate monitoring, weather measurements, communications, and earth observation). A salient feature of CubeSat is that applications currently on-boarded can either be updated or entirely replaced by new applications via software updates, which allows reusing in-orbit hardware, reduces space debris, and saves cost as well as time. Securing software updates employing traditional methods (e.g., encryption) remains impractical mainly due to the low-resource capabilities of CubeSat. Therefore, the security of software updates for CubeSats remains a critical issue. In this paper, we propose CubeSat Update Mechanism (CSUM), a lightweight scheme to provide integrity, authentication, and data freshness guarantees for software update broadcasts to CubeSats using a hash chain. We empirically evaluate our proof of concept implementation to demonstrate the feasibility and effectiveness of our approach. CSUM can validate 50,000 consecutive updates successfully in less than a second. We also perform a comparative analysis of different cryptographic primitives. Our empirical evaluations show that the hash-based approach is at least 61$\times$ faster than the conventional mechanisms, even in resource-constrained environments. Finally, we discuss the limitations, challenges, and potential future research directions for CubeSat software update procedures. | 翻訳日:2024-07-04 01:27:28 公開日:2024-06-30 |
# 旅行意思決定の促進:―宿泊施設における個人化レビューランキングの対比学習アプローチ―
Enhancing Travel Decision-Making: A Contrastive Learning Approach for Personalized Review Rankings in Accommodations ( http://arxiv.org/abs/2407.00787v1 ) ライセンス: Link先を確認 | Reda Igebaria, Eran Fainman, Sarai Mizrachi, Moran Beladev, Fengjun Wang, | (参考訳) ユーザ生成レビューは、特に宿泊地を選択する際の旅行領域において、消費者の判断に大きな影響を及ぼす。
本論文は2つの主要な要素から構成される。
まず,著名なオンライン旅行プラットフォームから得られた,5万件の異なる宿泊施設から200万件以上のレビューを収集した,真のゲストレビューのデータセットを提示する。
次に、パーソナライズされたレビューランキングのための革新的なアプローチを提案する。
提案手法では, コントラスト学習を用いて, レビューと各レビュアーの文脈情報との関係を複雑に把握する。
総合的な実験的研究を通じて、我々のアプローチは、報告されたすべての指標にまたがるいくつかのベースラインを超えることを実証した。
比較分析により,パーソナライズされたレビューランキングを高くする手法の有効性を示した。
オンライン電子商取引プラットフォームなど、パーソナライズされたレビューランキングが最重要分野である他の分野にも応用できる可能性がある。
User-generated reviews significantly influence consumer decisions, particularly in the travel domain when selecting accommodations. This paper contribution comprising two main elements. Firstly, we present a novel dataset of authentic guest reviews sourced from a prominent online travel platform, totaling over two million reviews from 50,000 distinct accommodations. Secondly, we propose an innovative approach for personalized review ranking. Our method employs contrastive learning to intricately capture the relationship between a review and the contextual information of its respective reviewer. Through a comprehensive experimental study, we demonstrate that our approach surpasses several baselines across all reported metrics. Augmented by a comparative analysis, we showcase the efficacy of our method in elevating personalized review ranking. The implications of our research extend beyond the travel domain, with potential applications in other sectors where personalized review ranking is paramount, such as online e-commerce platforms. | 翻訳日:2024-07-04 01:27:28 公開日:2024-06-30 |
# InstantStyle-Plus:テキスト・画像生成におけるコンテンツ保存によるスタイル転送
InstantStyle-Plus: Style Transfer with Content-Preserving in Text-to-Image Generation ( http://arxiv.org/abs/2407.00788v1 ) ライセンス: Link先を確認 | Haofan Wang, Peng Xing, Renyuan Huang, Hao Ai, Qixun Wang, Xu Bai, | (参考訳) スタイル転送(Style Transfer)は、視覚的なスタイルを取り入れながら、オリジナルの本質を維持するイメージを作成するために設計された革新的なプロセスである。
拡散モデルは、パーソナライズされた主題駆動型またはスタイル駆動型アプリケーションにおいて印象的な生成力を示しているが、既存の最先端の手法は、コンテンツ保存とスタイル強化のシームレスなバランスを達成できない。
例えば、スタイルの影響を増幅することは、しばしば内容の構造的整合性を損なう。
これらの課題に対処するために、スタイル転送タスクを3つの中核要素に分解する。
1)イメージの美的特徴に着目したスタイル
2 視覚要素の幾何学的配置及び構成に関する空間構造及び
3)イメージの概念的意味を捉えたセマンティックコンテンツ。
InstantStyle-Plusは、ターゲットのスタイルをシームレスに統合しながら、オリジナルコンテンツの整合性を優先するアプローチです。
具体的には,最先端のInstantStyleフレームワークを利用して,効率的で軽量なプロセスによるスタイルインジェクションを実現する。
コンテンツ保存を強化するため,オリジナル画像の内在的レイアウトを保存するために,逆コンテンツ遅延ノイズと多目的プラグアンドプレイタイル制御ネットで処理を開始する。
また,グローバルなセマンティックアダプタを組み込んで,セマンティックコンテンツの忠実度を高める。
スタイル情報の希薄化を防止するため、補足的なスタイルガイダンスを提供するための判別器としてスタイル抽出器を用いる。
コードはhttps://github.com/instantX-research/InstantStyle-Plus.comで入手できる。
Style transfer is an inventive process designed to create an image that maintains the essence of the original while embracing the visual style of another. Although diffusion models have demonstrated impressive generative power in personalized subject-driven or style-driven applications, existing state-of-the-art methods still encounter difficulties in achieving a seamless balance between content preservation and style enhancement. For example, amplifying the style's influence can often undermine the structural integrity of the content. To address these challenges, we deconstruct the style transfer task into three core elements: 1) Style, focusing on the image's aesthetic characteristics; 2) Spatial Structure, concerning the geometric arrangement and composition of visual elements; and 3) Semantic Content, which captures the conceptual meaning of the image. Guided by these principles, we introduce InstantStyle-Plus, an approach that prioritizes the integrity of the original content while seamlessly integrating the target style. Specifically, our method accomplishes style injection through an efficient, lightweight process, utilizing the cutting-edge InstantStyle framework. To reinforce the content preservation, we initiate the process with an inverted content latent noise and a versatile plug-and-play tile ControlNet for preserving the original image's intrinsic layout. We also incorporate a global semantic adapter to enhance the semantic content's fidelity. To safeguard against the dilution of style information, a style extractor is employed as discriminator for providing supplementary style guidance. Codes will be available at https://github.com/instantX-research/InstantStyle-Plus. | 翻訳日:2024-07-04 01:27:28 公開日:2024-06-30 |
# 強化学習におけるモデルフリー能動探索
Model-Free Active Exploration in Reinforcement Learning ( http://arxiv.org/abs/2407.00801v1 ) ライセンス: Link先を確認 | Alessio Russo, Alexandre Proutiere, | (参考訳) 強化学習における探索問題について検討し,新しいモデルフリーソリューションを提案する。
我々は、情報理論的な視点を採用し、ほぼ最適ポリシーを特定するために収集されるサンプル数のインスタンス固有の下限から始める。
この下限と最適な探索戦略の導出は、複雑な最適化問題の解決を必要とし、システムのモデルを必要とする。
代わりに、既存のサンプル最適探索アルゴリズムはモデルの推定に頼っている。
モデルのないアプローチで推論できる量のみを含むインスタンス固有の下界の近似を導出する。
この近似を応用して、グラフおよび連続マルコフ決定プロセスの両方に適用可能なアンサンブルに基づくモデルフリー探索戦略を考案する。
数値的な結果は、我々の戦略が最先端の探査アプローチよりも高速に効率的な政策を特定できることを示している。
We study the problem of exploration in Reinforcement Learning and present a novel model-free solution. We adopt an information-theoretical viewpoint and start from the instance-specific lower bound of the number of samples that have to be collected to identify a nearly-optimal policy. Deriving this lower bound along with the optimal exploration strategy entails solving an intricate optimization problem and requires a model of the system. In turn, most existing sample optimal exploration algorithms rely on estimating the model. We derive an approximation of the instance-specific lower bound that only involves quantities that can be inferred using model-free approaches. Leveraging this approximation, we devise an ensemble-based model-free exploration strategy applicable to both tabular and continuous Markov decision processes. Numerical results demonstrate that our strategy is able to identify efficient policies faster than state-of-the-art exploration approaches | 翻訳日:2024-07-04 01:27:28 公開日:2024-06-30 |
# 多部共役光子の小型・高忠実・テレコム波長光源の実現
Realizing a Compact, High-Fidelity, Telecom-Wavelength Source of Multipartite Entangled Photons ( http://arxiv.org/abs/2407.00802v1 ) ライセンス: Link先を確認 | Laura dos Santos Martins, Nicolas Laurent-Puig, Pascal Lefebvre, Simon Neves, Eleni Diamanti, | (参考訳) マルチパーティの絡み合った状態は、先進的な量子ネットワークアプリケーションにとって不可欠なビルディングブロックである。
このようなタスクを実際に実現することで、通信ネットワークの配置との互換性が望まれるとともに、フィデリティと生成率の観点から、状態の特性に厳しい要求が生じる。
本稿では,高忠実度グリーンベルガー・ホルン・ザイリンガー状態(GHZ)を,テレコム波長で,コンパクトでスケーラブルな構成で生成できるフォトニックプラットフォームの設計を実証する。
我々の情報源は、単一の非線形結晶のみを必要とする層状サニャック干渉計における自発的なパラメトリックダウンコンバージョンに依存している。
これにより、4ビットの分極に絡み合ったGHZ状態へのエンタングルメント融合により、理想状態に対して最大$(94.73 \pm 0.21)\%$の光子対を1.7Hzで生成することができる。
提案手法は,実効的な量子ネットワークアプリケーションに適合することを示すものである。
Multipartite entangled states are an essential building block for advanced quantum networking applications. Realizing such tasks in practice puts stringent requirements on the characteristics of the states in terms of fidelity and generation rate, along with a desired compatibility with telecommunication network deployment. Here, we demonstrate a photonic platform design capable of producing high-fidelity Greenberger-Horne-Zeilinger (GHZ) states, at telecom wavelength and in a compact and scalable configuration. Our source relies on spontaneous parametric down-conversion in a layered Sagnac interferometer, which only requires a single nonlinear crystal. This enables the generation of highly indistinguishable photon pairs, leading by entanglement fusion to four-qubit polarization-entangled GHZ states with fidelity up to $(94.73 \pm 0.21)\%$ with respect to the ideal state, at a rate of 1.7Hz. We provide a complete characterization of our source and highlight its suitability for practical quantum network applications. | 翻訳日:2024-07-04 01:27:27 公開日:2024-06-30 |
# StyleGANの潜在空間操作における顔のフレーム生成の制御:記憶を騙す顔の修正
Controlling Face's Frame generation in StyleGAN's latent space operations: Modifying faces to deceive our memory ( http://arxiv.org/abs/2407.00803v1 ) ライセンス: Link先を確認 | Agustín Roca, Nicolás Ignacio Britos, | (参考訳) Innocence Projectは、不正な有罪判決を減らすための非営利組織である。
Instituto Tecnol\'ogico de Buenos Aires (ITBA)のLaboratorio de Sue\~no y Memoriaと共同で、顔認証の文脈で人間の記憶を研究している。
彼らは、人間の記憶は顔を認識するために顔のフレームに大きく依存しているという強い仮説を持っている。
もしこれが証明されれば、警察のラインナップの顔認証が信用できないことを意味し、誤った有罪判決につながる可能性がある。
本研究は、眼の大きさなどの異なる特徴を持つ顔を用いて、できるだけフレームを維持しながら、これを証明するために実験を用いる。
このプロジェクトでは、StyleGAN2を使って現実的な顔を生成するための基本的なツールを提供する以前のプロジェクトからの作業を継続する。
このツールの内部を深く掘り下げて、StyleGAN2の機能を完全に活用するとともに、口を開けたり、目を開けたりといった属性の修正など、さらなる機能を追加しています。
このツールの使用は、顔フレームの維持に大きく依存しているため、各画像の顔フレームを識別する方法と、一部の操作を適用した後のニューラルネットワークの出力と比較する機能を開発する。
眼球開放や口開放に際し,顔枠は維持されていると結論した。
顔の垂直方向を変える際、性別、年齢、笑顔はフレームの変動にかなりの影響を及ぼす。
そして最後に、水平方向の顔の向きは、顔フレームに大きな影響を与えます。
この方法で、ラボは顔のフレームが著しく変化しないと自信を持っていくつかの操作を適用し、被験者の記憶を欺くのに使えるようにします。
Innocence Project is a non-profitable organization that works in reducing wrongful convictions. In collaboration with Laboratorio de Sue\~no y Memoria from Instituto Tecnol\'ogico de Buenos Aires (ITBA), they are studying human memory in the context of face identification. They have a strong hypothesis stating that human memory heavily relies in face's frame to recognize faces. If this is proved, it could mean that face recognition in police lineups couldn't be trusted, as they may lead to wrongful convictions. This study uses experiments in order to try to prove this using faces with different properties, such as eyes size, but maintaining its frame as much as possible. In this project, we continue the work from a previous project that provided the basic tool to generate realistic faces using StyleGAN2. We take a deep dive into the internals of this tool to make full use of StyleGAN2 functionalities, while also adding more features, such as modifying certain of its attributes, including mouth-opening or eye-opening. As the usage of this tool heavily relies on maintaining the face-frame, we develop a way to identify the face-frame of each image and a function to compare it to the output of the neural network after applying some operations. We conclude that the face-frame is maintained when modifying eye-opening or mouth opening. When modifying vertical face orientation, gender, age and smile, have a considerable impact on its frame variation. And finally, the horizontal face orientation shows a major impact on the face-frame. This way, the Lab may apply some operations being confident that the face-frame won't significantly change, making them viable to be used to deceive subjects' memories. | 翻訳日:2024-07-04 01:27:27 公開日:2024-06-30 |
# 確率的選択による閉鎖可能なエージェントを目指して
Towards shutdownable agents via stochastic choice ( http://arxiv.org/abs/2407.00805v1 ) ライセンス: Link先を確認 | Elliott Thornley, Alexander Roman, Christos Ziakas, Leyton Ho, Louis Thomson, | (参考訳) 高度な人工エージェントがシャットダウンされるのに抵抗するのではないかと懸念する向きもある。
不完全優先提案(IPP)は、それが起こらないようにするためのアイデアである。
In the IPP is a key part of the novel 'Discounted Reward for Same-Length Trajectories (DREST)' reward function to training agent to pursue goal on each trajectory-length (be 'USEFUL') and (2) select stochastically between different trajectory-lengths (be 'NEUTRAL' about trajectory-lengths)。
本稿では,USEFULNESSとNEUTRALITYの評価指標を提案する。
我々は、単純なエージェントを訓練してグリッドワールドをナビゲートするためにDREST報酬関数を使用し、これらのエージェントがUSEFULとNEUTRALであることを学ぶ。
以上の結果から,DREST報酬関数は,USEFULやNEUTRALといった先進エージェントを訓練し,これらの先進エージェントを有用かつ閉鎖可能にすることが示唆された。
Some worry that advanced artificial agents may resist being shut down. The Incomplete Preferences Proposal (IPP) is an idea for ensuring that doesn't happen. A key part of the IPP is using a novel 'Discounted REward for Same-Length Trajectories (DREST)' reward function to train agents to (1) pursue goals effectively conditional on each trajectory-length (be 'USEFUL'), and (2) choose stochastically between different trajectory-lengths (be 'NEUTRAL' about trajectory-lengths). In this paper, we propose evaluation metrics for USEFULNESS and NEUTRALITY. We use a DREST reward function to train simple agents to navigate gridworlds, and we find that these agents learn to be USEFUL and NEUTRAL. Our results thus suggest that DREST reward functions could also train advanced agents to be USEFUL and NEUTRAL, and thereby make these advanced agents useful and shutdownable. | 翻訳日:2024-07-04 01:27:27 公開日:2024-06-30 |
# バイアス付きオフラインデータと不完全シミュレータを用いた強化学習のベンチマーク
Benchmarks for Reinforcement Learning with Biased Offline Data and Imperfect Simulators ( http://arxiv.org/abs/2407.00806v1 ) ライセンス: Link先を確認 | Ori Linial, Guy Tennenholtz, Uri Shalit, | (参考訳) 多くの強化学習(RL)アプリケーションでは、エージェントが世界に簡単に振る舞うことはできない。これは自動運転車やヘルスケアアプリケーション、さらにはいくつかの推奨システムにも当てはまる。
オフラインRLは、現実世界の探索なしにエージェントを訓練する方法を提供するが、データ分散シフト、限られたカバレッジ、環境の不完全な表現のためにしばしばバイアスに直面している。
これらの問題に対処するために、シミュレーションと地上のオフラインデータを組み合わせて、いわゆるハイブリッド手法を用いて実践的な応用が試みられている。
しかし、信頼性のあるシミュレータの構築は、複雑なシステムの複雑さや欠落や不完全な情報のため、それ自体が困難であることが多い。
本研究では,RLにおけるオフラインデータと不完全なシミュレータを結合する4つの主要な課題について概説する。
RLコミュニティがこれらの問題を追求するのを助けるため、上記の課題に対するデータセット・シミュレータ・ベンチマークを提供する「機械的オフライン強化学習のためのベンチマーク」(B4MRL)を構築した。
この結果から,今後の研究におけるベンチマークの必要性が示唆された。
In many reinforcement learning (RL) applications one cannot easily let the agent act in the world; this is true for autonomous vehicles, healthcare applications, and even some recommender systems, to name a few examples. Offline RL provides a way to train agents without real-world exploration, but is often faced with biases due to data distribution shifts, limited coverage, and incomplete representation of the environment. To address these issues, practical applications have tried to combine simulators with grounded offline data, using so-called hybrid methods. However, constructing a reliable simulator is in itself often challenging due to intricate system complexities as well as missing or incomplete information. In this work, we outline four principal challenges for combining offline data with imperfect simulators in RL: simulator modeling error, partial observability, state and action discrepancies, and hidden confounding. To help drive the RL community to pursue these problems, we construct ``Benchmarks for Mechanistic Offline Reinforcement Learning'' (B4MRL), which provide dataset-simulator benchmarks for the aforementioned challenges. Our results suggest the key necessity of such benchmarks for future research. | 翻訳日:2024-07-04 01:27:27 公開日:2024-06-30 |
# 配電系統復元のための物理インフォームド決定変換器の探索:方法と性能解析
Exploring a Physics-Informed Decision Transformer for Distribution System Restoration: Methodology and Performance Analysis ( http://arxiv.org/abs/2407.00808v1 ) ライセンス: Link先を確認 | Hong Zhao, Jin Wei-Kocsis, Adel Heidari Akhijahani, Karen L Butler-Purry, | (参考訳) センシングと計算の進歩により、深層強化学習(DRL)に基づく手法は、不確実な運用シナリオ下での分散システム復元(DSR)の課題に効果的に取り組む上で大きな可能性を示している。
しかし、DRLのデータ集約性は、大規模で複雑な分散システムに対して満足なDSRソリューションを実現する上で障害となる。
本稿では,多分野にわたる大規模言語モデル(LLM)などの基盤モデルの革新的影響に触発され,従来のDRL法に固有のスケーラビリティ問題に対処するために,LLMの強力な計算能力を活用する革新的なアプローチを探求する。
我々の知る限り、この研究は、電力系統運用における従来のDRLアプリケーションに革命をもたらす上で、LLMを含む基礎モデルの最初の探索である。
私たちの貢献は2つあります。
1)従来のDRL法をDSR操作に変換するLLMを利用した新しいPIDTフレームワークの導入
2) DSR 問題の早期開発段階において,提案した LLM を用いた PIDT フレームワークの性能評価のための比較研究を行った。
本稿では DSR 操作に重点を置いているが,提案する PIDT フレームワークは様々な電力系統における逐次的意思決定を最適化するために一般化することができる。
Driven by advancements in sensing and computing, deep reinforcement learning (DRL)-based methods have demonstrated significant potential in effectively tackling distribution system restoration (DSR) challenges under uncertain operational scenarios. However, the data-intensive nature of DRL poses obstacles in achieving satisfactory DSR solutions for large-scale, complex distribution systems. Inspired by the transformative impact of emerging foundation models, including large language models (LLMs), across various domains, this paper explores an innovative approach harnessing LLMs' powerful computing capabilities to address scalability challenges inherent in conventional DRL methods for solving DSR. To our knowledge, this study represents the first exploration of foundation models, including LLMs, in revolutionizing conventional DRL applications in power system operations. Our contributions are twofold: 1) introducing a novel LLM-powered Physics-Informed Decision Transformer (PIDT) framework that leverages LLMs to transform conventional DRL methods for DSR operations, and 2) conducting comparative studies to assess the performance of the proposed LLM-powered PIDT framework at its initial development stage for solving DSR problems. While our primary focus in this paper is on DSR operations, the proposed PIDT framework can be generalized to optimize sequential decision-making across various power system operations. | 翻訳日:2024-07-04 01:27:27 公開日:2024-06-30 |
# スケーラブル, メモリ効率, 幾何学的に柔軟な演算子学習のためのカーネルニューラル演算子(KNO)
Kernel Neural Operators (KNOs) for Scalable, Memory-efficient, Geometrically-flexible Operator Learning ( http://arxiv.org/abs/2407.00809v1 ) ライセンス: Link先を確認 | Matthew Lowery, John Turnage, Zachary Morrow, John D. Jakeman, Akil Narayan, Shandian Zhe, Varun Shankar, | (参考訳) 本稿では,関数空間近似(関数から関数への写像)のための関数空間近似に,深層カーネルベースの積分演算子を併用した新しい演算子学習手法であるカーネルニューラル演算子(KNO)を紹介する。
KNOは、パラメータ化、クローズドフォーム、有限平滑化、および整数演算子内でトレーニング可能なスパーシ性パラメータを持つコンパクトサポートカーネルを使用して、既存の神経演算子に対して学習しなければならないパラメータの数を大幅に削減する。
さらに、数値積分に二次関数を用いることで、不規則なジオメトリー上での演算子学習を可能にする幾何学的柔軟性を持つKNOが得られる。
既存のベンチマークでは、KNOsのトレーニングとテストの精度は、訓練可能なパラメータを少なくとも1桁減らしながら、一般的な演算子学習技術よりも高いことが示される。
したがって、KNOは、科学計算と機械学習の両方から従来のカーネルメソッドの実装の単純さと透明性を維持しながら、低メモリで幾何学的に柔軟な深層演算子学習の新しいパラダイムを表現している。
This paper introduces the Kernel Neural Operator (KNO), a novel operator learning technique that uses deep kernel-based integral operators in conjunction with quadrature for function-space approximation of operators (maps from functions to functions). KNOs use parameterized, closed-form, finitely-smooth, and compactly-supported kernels with trainable sparsity parameters within the integral operators to significantly reduce the number of parameters that must be learned relative to existing neural operators. Moreover, the use of quadrature for numerical integration endows the KNO with geometric flexibility that enables operator learning on irregular geometries. Numerical results demonstrate that on existing benchmarks the training and test accuracy of KNOs is higher than popular operator learning techniques while using at least an order of magnitude fewer trainable parameters. KNOs thus represent a new paradigm of low-memory, geometrically-flexible, deep operator learning, while retaining the implementation simplicity and transparency of traditional kernel methods from both scientific computing and machine learning. | 翻訳日:2024-07-04 01:27:27 公開日:2024-06-30 |
# 歩行者の安全を向上する積雪検出のための画像分類
Image Classification for Snow Detection to Improve Pedestrian Safety ( http://arxiv.org/abs/2407.00818v1 ) ライセンス: Link先を確認 | Ricardo de Deijn, Rajeev Bukralia, | (参考訳) 本研究は,特に高齢者や視覚障害者を対象に,歩道や舗装上の雪の検出を目的としたコンピュータビジョン手法を提案する。
微調整されたVGG-19とResNet50畳み込みニューラルネットワーク(CNN)を活用するこの研究は、舗装画像中の雪の存在を特定することに焦点を当てている。
このデータセットは、雪と雪の無い条件の間で98の画像を均一に分割し、F1スコアと精度測定値を用いて別のテストセットで評価する。
この研究は、スマートフォンが捉えた画像から舗装上の雪を正確に検出するために、微調整のCNNアーキテクチャを用いて既存の研究に基づいている。
この手法には、VGG19アーキテクチャとResNet50アーキテクチャの両方から最高の予測を統合するために、トランスファーラーニングとモデルアンサンブル技術が組み込まれている。
この研究は、それぞれ81.8%と81.7%の精度とF1スコアを獲得し、弱い集団に対する冬関連の危険に対処するコンピュータビジョンの可能性を示している。
This study presents a computer vision approach aimed at detecting snow on sidewalks and pavements to reduce winter-related fall injuries, especially among elderly and visually impaired individuals. Leveraging fine-tuned VGG-19 and ResNet50 convolutional neural networks (CNNs), the research focuses on identifying snow presence in pavement images. The dataset comprises 98 images evenly split between snowy and snow-free conditions, evaluated with a separate test set using the F1 score and accuracy metrics. This work builds upon existing research by employing fine-tuned CNN architectures to accurately detect snow on pavements from smartphone-captured images. The methodology incorporates transfer learning and model ensembling techniques to integrate the best predictions from both the VGG19 and ResNet50 architectures. The study yields accuracy and F1 scores of 81.8% and 81.7%, respectively, showcasing the potential of computer vision in addressing winter-related hazards for vulnerable populations. | 翻訳日:2024-07-04 01:27:27 公開日:2024-06-30 |
# IWSLT 2024におけるNAIST同時音声翻訳システム
NAIST Simultaneous Speech Translation System for IWSLT 2024 ( http://arxiv.org/abs/2407.00826v1 ) ライセンス: Link先を確認 | Yuka Ko, Ryo Fukuda, Yuta Nishikawa, Yasumasa Kano, Tomoya Yanagita, Kosuke Doi, Mana Makinae, Haotian Tan, Makoto Sakai, Sakriani Sakti, Katsuhito Sudoh, Satoshi Nakamura, | (参考訳) 本稿では,IWSLT 2024評価キャンペーン(英語-to-{ German, Japanese, Chinese} speech-to-text translation and English-to-Japanese speech-to-speech translation)の同時進行に対するNAISTの提出について述べる。
We developed a multilingual end-to-end speech-to-text translation model with two-trained language model, HuBERT and mBART。
私たちはこのモデルを、ローカルアグリーメント(LA)とAlignAttという2つのデコードポリシでトレーニングしました。
提出されたモデルは、以前のモデルでAlignAttポリシーを上回ったため、LAポリシーを採用している。
本手法は, 音素推定モデル, パラレル音響モデル, パラレルウェーブGANボコーダを組み込んだTTSモジュールと, 音声合成モデルのカスケードである。
推定モデルにAlignAttポリシを付加したTransformerアーキテクチャを適用して,インクリメンタルTSを改善した。
その結果,TTSモジュールのアップグレードがシステム性能の向上に寄与していることが判明した。
This paper describes NAIST's submission to the simultaneous track of the IWSLT 2024 Evaluation Campaign: English-to-{German, Japanese, Chinese} speech-to-text translation and English-to-Japanese speech-to-speech translation. We develop a multilingual end-to-end speech-to-text translation model combining two pre-trained language models, HuBERT and mBART. We trained this model with two decoding policies, Local Agreement (LA) and AlignAtt. The submitted models employ the LA policy because it outperformed the AlignAtt policy in previous models. Our speech-to-speech translation method is a cascade of the above speech-to-text model and an incremental text-to-speech (TTS) module that incorporates a phoneme estimation model, a parallel acoustic model, and a parallel WaveGAN vocoder. We improved our incremental TTS by applying the Transformer architecture with the AlignAtt policy for the estimation model. The results show that our upgraded TTS module contributed to improving the system performance. | 翻訳日:2024-07-04 01:27:27 公開日:2024-06-30 |
# DroBoost:ドローン検出のためのインテリジェントスコアとモデルブースティング手法
DroBoost: An Intelligent Score and Model Boosting Method for Drone Detection ( http://arxiv.org/abs/2407.00830v1 ) ライセンス: Link先を確認 | Ogulcan Eryuksel, Kamil Anil Ozfuttu, Fatih Cagatay Akyon, Kadir Sahin, Efe Buyukborekci, Devrim Cavusoglu, Sinan Altinuc, | (参考訳) ドローン検出は、画像の可視性や品質が好ましくない場合があり、複雑な背景、小さな可視性オブジェクト、オブジェクトの識別が難しいため、検出が困難になる可能性がある、困難なオブジェクト検出タスクである。
どちらも、ドローン検出に対する高い信頼性を提供し、偽検出を排除するには、効率的なアルゴリズムとアプローチが必要である。
YOLOv5を用いたこれまでの研究では、実データと合成データの両方をカルマンベースのトラッカーで追跡し、時間情報を用いて信頼性を高める。
現在の作業は、いくつかの改善を組み合わせることで、以前のアプローチを改善しています。
我々は、複数のソースを組み合わせたより多様なデータセットを使用し、ベースモデルの誤り解析に基づいて、大規模な合成データセットから選択された合成サンプルと組み合わせた。
また,物体に対するより弾力的な信頼度を得るために,物体がドローンであるか否かを識別する分類成分を導入した。
最後に,物体追跡のためのより高度なスコアリングアルゴリズムを開発した。
さらに、提案した技術は、ドローン対バードチャレンジ(ICIAP 2021の小型ドローン監視・検出・対策技術ワークショップ)で第1位を獲得した。
Drone detection is a challenging object detection task where visibility conditions and quality of the images may be unfavorable, and detections might become difficult due to complex backgrounds, small visible objects, and hard to distinguish objects. Both provide high confidence for drone detections, and eliminating false detections requires efficient algorithms and approaches. Our previous work, which uses YOLOv5, uses both real and synthetic data and a Kalman-based tracker to track the detections and increase their confidence using temporal information. Our current work improves on the previous approach by combining several improvements. We used a more diverse dataset combining multiple sources and combined with synthetic samples chosen from a large synthetic dataset based on the error analysis of the base model. Also, to obtain more resilient confidence scores for objects, we introduced a classification component that discriminates whether the object is a drone or not. Finally, we developed a more advanced scoring algorithm for object tracking that we use to adjust localization confidence. Furthermore, the proposed technique won 1st Place in the Drone vs. Bird Challenge (Workshop on Small-Drone Surveillance, Detection and Counteraction Techniques at ICIAP 2021). | 翻訳日:2024-07-04 01:27:27 公開日:2024-06-30 |
# 光ネットワークリンクを用いた分散量子コンピューティング
Distributed Quantum Computing across an Optical Network Link ( http://arxiv.org/abs/2407.00835v1 ) ライセンス: Link先を確認 | D. Main, P. Drmota, D. P. Nadlinger, E. M. Ainley, A. Agrawal, B. C. Nichol, R. Srinivas, G. Araneda, D. M. Lucas, | (参考訳) 分散量子コンピューティング(DQC)は、複数のネットワーク量子処理モジュールの計算能力を組み合わせることで、パフォーマンスと接続性を損なうことなく大規模な量子回路の実行を可能にする。
フォトニックネットワークは、DQCのための汎用的で再構成可能な相互接続層として適しており、ネットワークをまたいだ物質量子ビット間で共有されるリモートの絡み合いにより、量子ゲートテレポーテーション(QGT)による全ての論理接続が可能となる。
スケーラブルなDQCアーキテクチャでは、QGTの実装は決定論的かつ繰り返し可能でなければならない。
本研究では,2つの光相互結合型イオンモジュール間の量子計算の分布を実験的に実証する。
モジュールは$\sim$ 2 mで分離され、それぞれ専用ネットワークと回路キュービットを含んでいる。
ネットワーク量子ビット間の有意なリモート絡み合いを用いることで、2つの回路量子ビット間で制御Zゲートを決定的にテレポートし、86%の忠実性を達成した。
次に、Groverの探索アルゴリズム(複数の非局所2ビットゲートからなる分散量子アルゴリズムの最初の実装)を実行し、成功率を71%測定する。
さらに、QGTの2インスタンスと3インスタンスでコンパイルされた分散iSWAPとSWAP回路を実装し、任意の2ビット演算を分散できることを実証した。
様々なシステムで光子をインターフェースできるため、この技術は閉じ込められたイオン量子コンピュータを超えて拡張され、様々な物理プラットフォームのための大規模量子コンピューティングへの有効な経路を提供する。
Distributed quantum computing (DQC) combines the computing power of multiple networked quantum processing modules, enabling the execution of large quantum circuits without compromising on performance and connectivity. Photonic networks are well-suited as a versatile and reconfigurable interconnect layer for DQC; remote entanglement shared between matter qubits across the network enables all-to-all logical connectivity via quantum gate teleportation (QGT). For a scalable DQC architecture, the QGT implementation must be deterministic and repeatable; until now, there has been no demonstration satisfying these requirements. We experimentally demonstrate the distribution of quantum computations between two photonically interconnected trapped-ion modules. The modules are separated by $\sim$ 2 m, and each contains dedicated network and circuit qubits. By using heralded remote entanglement between the network qubits, we deterministically teleport a controlled-Z gate between two circuit qubits in separate modules, achieving 86% fidelity. We then execute Grover's search algorithm - the first implementation of a distributed quantum algorithm comprising multiple non-local two-qubit gates - and measure a 71% success rate. Furthermore, we implement distributed iSWAP and SWAP circuits, compiled with 2 and 3 instances of QGT, respectively, demonstrating the ability to distribute arbitrary two-qubit operations. As photons can be interfaced with a variety of systems, this technique has applications extending beyond trapped-ion quantum computers, providing a viable pathway towards large-scale quantum computing for a range of physical platforms. | 翻訳日:2024-07-04 01:27:27 公開日:2024-06-30 |
# MUSE-Net:不規則縦型電子健康記録用mUlti-branching Self-attention Encoder
MUSE-Net: Missingness-aware mUlti-branching Self-attention Encoder for Irregular Longitudinal Electronic Health Records ( http://arxiv.org/abs/2407.00840v1 ) ライセンス: Link先を確認 | Zekai Wang, Tieming Liu, Bing Yao, | (参考訳) ビッグデータの時代は、特に電子健康記録(EHRs)の形で、膨大な臨床データを入手しやすくし、臨床意思決定を強化するためにデータ駆動診断ツールを開発する前例のない機会を提供している。
しかし、データ駆動モデリングにおける EHR の適用は、不規則な空間を持つ多変量時系列、不完全性の問題、データ不均衡といった課題に直面している。
EHRの完全なデータポテンシャルを実現するには、高度な分析モデルの開発が必要である。
本稿では,データ駆動型疾患予測のための縦型EHRのモデル化における課題に対処するために,ミススティングネス対応のmUlti-branching Self-attention Encoder (MUSE-Net)を提案する。
MUSE-Netは、データ計算に価値マスクが欠けているマルチタスクガウスプロセス(MGP)、データ不均衡問題に対処するマルチブランチアーキテクチャ、縦 EHR における不規則に間隔を割った時間的自己アテンションエンコーダを利用する。
合成と実世界の両方のデータセットを用いて,提案したMUSE-Netを評価する。
実験の結果,MUSE-Netは長手信号の探索に広く用いられている既存手法よりも優れていた。
The era of big data has made vast amounts of clinical data readily available, particularly in the form of electronic health records (EHRs), which provides unprecedented opportunities for developing data-driven diagnostic tools to enhance clinical decision making. However, the application of EHRs in data-driven modeling faces challenges such as irregularly spaced multi-variate time series, issues of incompleteness, and data imbalance. Realizing the full data potential of EHRs hinges on the development of advanced analytical models. In this paper, we propose a novel Missingness-aware mUlti-branching Self-attention Encoder (MUSE-Net) to cope with the challenges in modeling longitudinal EHRs for data-driven disease prediction. The MUSE-Net leverages a multi-task Gaussian process (MGP) with missing value masks for data imputation, a multi-branching architecture to address the data imbalance problem, and a time-aware self-attention encoder to account for the irregularly spaced time interval in longitudinal EHRs. We evaluate the proposed MUSE-Net using both synthetic and real-world datasets. Experimental results show that our MUSE-Net outperforms existing methods that are widely used to investigate longitudinal signals. | 翻訳日:2024-07-04 01:17:19 公開日:2024-06-30 |
# 整数プログラミングによる木組から不定形ルールを抽出する統一的手法
A Unified Approach to Extract Intepretable Rules from Tree Ensembles via Integer Programming ( http://arxiv.org/abs/2407.00843v1 ) ライセンス: Link先を確認 | Lorenzo Bonasera, Emilio Carrizosa, | (参考訳) ツリーアンサンブル法は、教師付き分類と回帰タスクにおける有効性で知られる、一般的な機械学習モデルを表す。
それらの性能は、その解釈可能性特性で有名な複数の決定木を集約した予測から導かれる。
しかし、ツリーアンサンブル法は解釈可能な出力を確実に示さない。
我々の研究は、訓練された木アンサンブルから最適化されたルールのリストを抽出することを目的としており、ユーザーは完全なモデルの予測力をほとんど保持する凝縮された解釈可能なモデルを提供する。
我々のアプローチは、Integer Programmingによって定式化されたクリーンできちんとした分割問題の解決から成り立っている。
提案手法は,分類タスクと回帰タスクの両方において,表や時系列のデータに対応し,最も一般的な条件下でパラメータチューニングを必要としない。
厳密な計算実験を通じて,本手法は他の規則抽出法と競合し,時系列を効果的に扱うという統計的に有意な証拠を提供する。
Tree ensemble methods represent a popular machine learning model, known for their effectiveness in supervised classification and regression tasks. Their performance derives from aggregating predictions of multiple decision trees, which are renowned for their interpretability properties. However, tree ensemble methods do not reliably exhibit interpretable output. Our work aims to extract an optimized list of rules from a trained tree ensemble, providing the user with a condensed, interpretable model that retains most of the predictive power of the full model. Our approach consists of solving a clean and neat set partitioning problem formulated through Integer Programming. The proposed method works with either tabular or time series data, for both classification and regression tasks, and does not require parameter tuning under the most common setting. Through rigorous computational experiments, we offer statistically significant evidence that our method is competitive with other rule extraction methods and effectively handles time series. | 翻訳日:2024-07-04 01:17:19 公開日:2024-06-30 |
# 長寿命エキシトン-ポラリトン凝縮体の量子コヒーレンス
Quantum coherence of a long-lifetime exciton-polariton condensate ( http://arxiv.org/abs/2407.00844v1 ) ライセンス: Link先を確認 | Yannik Brune, Elena Rozas, Ken West, Kirk Baldwin, Loren N. Pfeiffer, Jonathan Beaumariage, Hassan Alnatah, David W. Snoke, Marc Aßmann, | (参考訳) 近年、量子情報科学は大きな進歩を遂げ、最も多様な応用のための様々な量子プロトコルを生み出している。
量子コヒーレンスなどの資源を運ぶ状態は、これらのプロトコルの重要な構成要素である。
本研究では, 非共鳴励起エキシトン-ポラリトン縮合体の量子コヒーレンスを, 周囲のエキシトンと自由キャリアとの相互作用を最小化することにより最適化する。
実験相空間データと変位熱状態モデルを組み合わせることで、系が凝縮しきい値以上で駆動されるにつれて量子コヒーレンスがどのように構築されるかを観察する。
その結果, 凝縮物と貯留層の空間的分離は, しきい値の直ぐ向こうにある状態の最大量子コヒーレンスを高めることが示唆された。
これらの洞察は、偏光子系をハイブリッド量子デバイスに統合し、量子技術における応用を推し進める道を開く。
In recent years, quantum information science has made significant progress, leading to a multitude of quantum protocols for the most diverse applications. States carrying resources such as quantum coherence are a key component for these protocols. In this study, we optimize the quantum coherence of a nonresonantly excited exciton-polariton condensate of long living polaritons by minimizing the condensate's interaction with the surrounding reservoir of excitons and free carriers. By combining experimental phase space data with a displaced thermal state model, we observe how quantum coherence builds up as the system is driven above the condensation threshold. Our findings demonstrate that a spatial separation between the condensate and the reservoir enhances the state's maximum quantum coherence directly beyond the threshold. These insights pave the way for integrating polariton systems into hybrid quantum devices and advancing applications in quantum technologies. | 翻訳日:2024-07-04 01:17:19 公開日:2024-06-30 |
# 説明可能なAIにおける知覚的パターンと決定的パターンの理解に向けて:幾何学的深層学習におけるモデル解釈を事例として
Towards Understanding Sensitive and Decisive Patterns in Explainable AI: A Case Study of Model Interpretation in Geometric Deep Learning ( http://arxiv.org/abs/2407.00849v1 ) ライセンス: Link先を確認 | Jiajun Zhu, Siqi Miao, Rex Ying, Pan Li, | (参考訳) 機械学習モデルの解釈可能性は、特に高精度と説明責任が不可欠である科学領域において、注目を集めている。
本研究は、モデル解釈として一般的に使用されるが、しばしば混乱を招く2つの重要なデータパターン、センシティブなパターン(モデル関連)と決定的なパターン(タスク関連)の区別に焦点を当てる。
具体的には,これらのパターンの検出において,ポストホック法と自己解釈法という2つの主要な解釈手法の有効性を比較した。
近年、幾何学的深層学習(GDL)は様々な科学的応用において優れた予測性能を示しており、原理的解釈法を緊急に必要としている。
そこで本研究では,いくつかの代表的GDLアプリケーションをケーススタディとして実施する。
3つの主要なGDLバックボーンモデルに適用した13の解釈手法を4つの科学的データセットを用いて評価した。
以上の結果から, 自己解釈可能な手法は, 決定的パターンの検出において, 強い, 安定した性能を示すのに対し, ポストホック法は, 感度の高いパターンとよりよく一致した解釈を提供する傾向があることが示唆された。
さらに,本研究では,これらの解釈手法の信頼性向上に関する貴重な知見を提供する。
例えば、同じタスクでトレーニングされた複数のモデルからのポストホック解釈をアンサンブルすることで、タスクの決定的なパターンを効果的に発見することができる。
The interpretability of machine learning models has gained increasing attention, particularly in scientific domains where high precision and accountability are crucial. This research focuses on distinguishing between two critical data patterns -- sensitive patterns (model-related) and decisive patterns (task-related) -- which are commonly used as model interpretations but often lead to confusion. Specifically, this study compares the effectiveness of two main streams of interpretation methods: post-hoc methods and self-interpretable methods, in detecting these patterns. Recently, geometric deep learning (GDL) has shown superior predictive performance in various scientific applications, creating an urgent need for principled interpretation methods. Therefore, we conduct our study using several representative GDL applications as case studies. We evaluate thirteen interpretation methods applied to three major GDL backbone models, using four scientific datasets to assess how well these methods identify sensitive and decisive patterns. Our findings indicate that post-hoc methods tend to provide interpretations better aligned with sensitive patterns, whereas certain self-interpretable methods exhibit strong and stable performance in detecting decisive patterns. Additionally, our study offers valuable insights into improving the reliability of these interpretation methods. For example, ensembling post-hoc interpretations from multiple models trained on the same task can effectively uncover the task's decisive patterns. | 翻訳日:2024-07-04 01:17:19 公開日:2024-06-30 |
# SAFE:自己教師型学習とシームズViTを用いたSAR機能エクストラクタ
SAFE: a SAR Feature Extractor based on self-supervised learning and masked Siamese ViTs ( http://arxiv.org/abs/2407.00851v1 ) ライセンス: Link先を確認 | Max Muzeau, Joana Frontera-Pons, Chengfang Ren, Jean-Philippe Ovarlez, | (参考訳) その全天候と昼夜の能力のため、災害管理、地球モニタリング、変化検出、目標認識などの様々な用途において、合成開口レーダー画像は不可欠である。
しかし、ラベル付きSARデータの不足により、ほとんどのディープラーニングアルゴリズムの性能が制限される。
この問題に対処するために,マスク付きシームズ・ビジョン・トランスフォーマーをベースとした,新たな自己教師型学習フレームワークを提案する。
提案手法は,厳密で一般化可能な特徴を抽出し,ラベルのないSARデータに基づいてモデルを訓練するために,対照的な学習原理を利用する。
SAFEは複数のSAR取得モードと解像度に適用できる。
サブアパーチャ分解や非特異化など,SAR画像特有のデータ拡張技術を導入する。
提案手法の有効性と汎用性を示すために, 少数ショット分類, セグメンテーション, 可視化, パターン検出など, 下流タスクの総合評価を行った。
我々のネットワークは、評価に使用されるセンサーの訓練を受けなくても、数ショットの分類やセグメンテーションタスクにおいて、他の最先端の手法と競合したり、超えたりしています。
Due to its all-weather and day-and-night capabilities, Synthetic Aperture Radar imagery is essential for various applications such as disaster management, earth monitoring, change detection and target recognition. However, the scarcity of labeled SAR data limits the performance of most deep learning algorithms. To address this issue, we propose a novel self-supervised learning framework based on masked Siamese Vision Transformers to create a General SAR Feature Extractor coined SAFE. Our method leverages contrastive learning principles to train a model on unlabeled SAR data, extracting robust and generalizable features. SAFE is applicable across multiple SAR acquisition modes and resolutions. We introduce tailored data augmentation techniques specific to SAR imagery, such as sub-aperture decomposition and despeckling. Comprehensive evaluations on various downstream tasks, including few-shot classification, segmentation, visualization, and pattern detection, demonstrate the effectiveness and versatility of the proposed approach. Our network competes with or surpasses other state-of-the-art methods in few-shot classification and segmentation tasks, even without being trained on the sensors used for the evaluation. | 翻訳日:2024-07-04 01:17:19 公開日:2024-06-30 |
# 通勤型グラフニューラルネットワーク
Commute Graph Neural Networks ( http://arxiv.org/abs/2407.01635v1 ) ライセンス: Link先を確認 | Wei Zhuo, Guang Tan, | (参考訳) グラフニューラルネットワーク(GNN)は、グラフ構造化データから学習において顕著な成功を収めている。
しかし、有向グラフ(グラフ)へのそれらの応用は、主にノード関係に固有の非対称性のため、固有の課題を提示する。
従来のGNNは一方向関係の取得には適しているが、ダイグラフで通常見られる非対称な最短経路のようなノード間の相互経路依存性の符号化には不十分である。
このギャップを認識し、ノードワイズ通勤時間をメッセージパッシング方式にシームレスに統合するアプローチであるComute Graph Neural Networks (CGNN)を導入する。
CGNNの基盤は、新しく定式化されたラプラシアンを用いて通勤時間を計算するための効率的な方法である。
次に、通勤時間情報を近隣の集約プロセスに統合し、各層の中央ノードへの通勤時間に応じて近隣の貢献を重み付けする。
これによりCGNNは、ダイグラフ内の相互非対称関係を直接キャプチャできる。
Graph Neural Networks (GNNs) have shown remarkable success in learning from graph-structured data. However, their application to directed graphs (digraphs) presents unique challenges, primarily due to the inherent asymmetry in node relationships. Traditional GNNs are adept at capturing unidirectional relations but fall short in encoding the mutual path dependencies between nodes, such as asymmetrical shortest paths typically found in digraphs. Recognizing this gap, we introduce Commute Graph Neural Networks (CGNN), an approach that seamlessly integrates node-wise commute time into the message passing scheme. The cornerstone of CGNN is an efficient method for computing commute time using a newly formulated digraph Laplacian. Commute time information is then integrated into the neighborhood aggregation process, with neighbor contributions weighted according to their respective commute time to the central node in each layer. It enables CGNN to directly capture the mutual, asymmetric relationships in digraphs. | 翻訳日:2024-07-03 19:52:16 公開日:2024-06-30 |
# オールインワン画像復元のための周波数認識動的変換器の学習
Learning Frequency-Aware Dynamic Transformers for All-In-One Image Restoration ( http://arxiv.org/abs/2407.01636v1 ) ライセンス: Link先を確認 | Zenglin Shi, Tong Su, Pei Liu, Yunpeng Wu, Le Zhang, Meng Wang, | (参考訳) この作業は、1つのモデルで複数のタイプの劣化を処理しようとするオールインワンのイメージ復元タスクに取り組むことを目的としている。
主な課題は、入力された劣化画像から分解表現を抽出し、モデルを特定の劣化タイプに適応させることである。
周波数帯域間で様々な劣化が画像内容に異なる影響を与えることを認識し、先進視覚変換器を応用した新しいオールインワン画像復元手法を提案する。
本手法は,周波数認識型事前学習変圧器 (Dformer) と劣化適応再生変圧器 (Rformer) の2つの主成分からなる。
Dformerは入力を異なる周波数成分に分解することで、様々な劣化の本質的な特徴を捉える。
劣化がこれらの周波数成分にどのように影響するかを理解することで、Dformerはリストアプロセスを効果的に導く堅牢な事前知識を学ぶ。
次に、Rformerは劣化適応型の自己アテンションモジュールを使用して、学習された劣化表現によって導かれる最も影響の大きい周波数成分に選択的にフォーカスする。
本手法は, 脱臭, 脱臭, 脱臭, 脱臭を含む4つの代表的な修復作業において, 従来の方法よりも優れていた。
さらに, この手法は, 空間的に変化する劣化と見えない劣化の処理に有効である。
This work aims to tackle the all-in-one image restoration task, which seeks to handle multiple types of degradation with a single model. The primary challenge is to extract degradation representations from the input degraded images and use them to guide the model's adaptation to specific degradation types. Recognizing that various degradations affect image content differently across frequency bands, we propose a new all-in-one image restoration approach from a frequency perspective, leveraging advanced vision transformers. Our method consists of two main components: a frequency-aware Degradation prior learning transformer (Dformer) and a degradation-adaptive Restoration transformer (Rformer). The Dformer captures the essential characteristics of various degradations by decomposing inputs into different frequency components. By understanding how degradations affect these frequency components, the Dformer learns robust priors that effectively guide the restoration process. The Rformer then employs a degradation-adaptive self-attention module to selectively focus on the most affected frequency components, guided by the learned degradation representations. Extensive experimental results demonstrate that our approach outperforms the existing methods on four representative restoration tasks, including denoising, deraining, dehazing and deblurring. Additionally, our method offers benefits for handling spatially variant degradations and unseen degradation levels. | 翻訳日:2024-07-03 19:52:16 公開日:2024-06-30 |
# LASSI:並列科学コードを翻訳するLLMベースの自動自己修正パイプライン
LASSI: An LLM-based Automated Self-Correcting Pipeline for Translating Parallel Scientific Codes ( http://arxiv.org/abs/2407.01638v1 ) ライセンス: Link先を確認 | Matthew T. Dearing, Yiheng Tao, Xingfu Wu, Zhiling Lan, Valerie Taylor, | (参考訳) 本稿では,科学と工学に焦点をあてたLLMのための重要なトレーニングデータをソーシングするための新しいアプローチを提供することの課題に対処する。
特に重要な課題は、数百万から数十億のコードで並列的な科学的なコードをソーシングすることだ。
この問題に対処するために,既存のクローズドあるいはオープンソース LLM をブートストラップすることで並列プログラミング言語間の変換が可能な LASSI という自動パイプラインフレームワークを提案する。
LASSIには自己修正ループによる自律的な拡張が組み込まれており、コンパイル時に発生するエラーと生成されたコードの実行は、デバッグとリファクタリングのプロンプトをガイドすることによってLLMにフィードバックされる。
LASSIを検証するために、OpenMPターゲットオフロードとCUDA間の既存のGPUベンチマークの双方向変換を強調した。
4つのLCMで異なるアプリケーションコードでLASSIを評価した結果、可実行並列コードを生成するLASSIの有効性が示され、その80%がCUDAへの変換であり、85%がCUDAからOpenMPへの変換であり、期待される出力を生成する。
また、OpenMPからCUDAへの変換の約78%、CUDAからOpenMPへの変換の62%が、同じ言語のオリジナルのベンチマークコードよりも10%以内または高速な実行で実行される。
This paper addresses the problem of providing a novel approach to sourcing significant training data for LLMs focused on science and engineering. In particular, a crucial challenge is sourcing parallel scientific codes in the ranges of millions to billions of codes. To tackle this problem, we propose an automated pipeline framework, called LASSI, designed to translate between parallel programming languages by bootstrapping existing closed- or open-source LLMs. LASSI incorporates autonomous enhancement through self-correcting loops where errors encountered during compilation and execution of generated code are fed back to the LLM through guided prompting for debugging and refactoring. We highlight the bi-directional translation of existing GPU benchmarks between OpenMP target offload and CUDA to validate LASSI. The results of evaluating LASSI with different application codes across four LLMs demonstrate the effectiveness of LASSI for generating executable parallel codes, with 80% of OpenMP to CUDA translations and 85% of CUDA to OpenMP translations producing the expected output. We also observe approximately 78% of OpenMP to CUDA translations and 62% of CUDA to OpenMP translations execute within 10% of or at a faster runtime than the original benchmark code in the same language. | 翻訳日:2024-07-03 19:52:16 公開日:2024-06-30 |
# Model Verification.jl: ディープニューラルネットワークを形式的に検証するための総合ツールボックス
ModelVerification.jl: a Comprehensive Toolbox for Formally Verifying Deep Neural Networks ( http://arxiv.org/abs/2407.01639v1 ) ライセンス: Link先を確認 | Tianhao Wei, Luca Marzari, Kai S. Yun, Hanjiang Hu, Peizhi Niu, Xusheng Luo, Changliu Liu, | (参考訳) ディープニューラルネットワーク(DNN)は、画像分類から制御まで、さまざまなアプリケーションにわたる非線形関数の近似に不可欠である。
特定のインプット・アウトプット特性の検証は、完全な検証タイプを可能にする単一の自己完結型フレームワークが欠如しているため、非常に難しい作業である。
この目的のために,異なるタイプのDNNと安全仕様を検証するための最先端ツールボックスである‘texttt{ModelVerification.jl(MV)}を提示する。
この汎用ツールボックスは、開発者や機械学習実践者に対して、彼らのDNNモデルの信頼性を検証し、確実にするための堅牢なツールを提供することを目的としている。
Deep Neural Networks (DNN) are crucial in approximating nonlinear functions across diverse applications, ranging from image classification to control. Verifying specific input-output properties can be a highly challenging task due to the lack of a single, self-contained framework that allows a complete range of verification types. To this end, we present \texttt{ModelVerification.jl (MV)}, the first comprehensive, cutting-edge toolbox that contains a suite of state-of-the-art methods for verifying different types of DNNs and safety specifications. This versatile toolbox is designed to empower developers and machine learning practitioners with robust tools for verifying and ensuring the trustworthiness of their DNN models. | 翻訳日:2024-07-03 19:52:16 公開日:2024-06-30 |
# BADM: ディープラーニングのためのバッチADMM
BADM: Batch ADMM for Deep Learning ( http://arxiv.org/abs/2407.01640v1 ) ライセンス: Link先を確認 | Ouya Wang, Shenglong Zhou, Geoffrey Ye Li, | (参考訳) 確率勾配勾配に基づくアルゴリズムはディープニューラルネットワークのトレーニングに広く用いられているが、しばしば収束が遅い。
この課題に対処するために,乗算器の交互方向法 (ADMM) の枠組みを活用し,バッチADMM (BADM) と呼ばれる新しいデータ駆動アルゴリズムを開発した。
提案アルゴリズムの基本的な考え方は、トレーニングデータをバッチに分割し、さらにサブバッチに分割することで、原始変数と双対変数が更新され、アグリゲーションを通じてグローバルパラメータを生成する。
我々は,グラフモデリング,コンピュータビジョン,画像生成,自然言語処理など,さまざまなディープラーニングタスクにおけるBADMの性能を評価する。
大規模な数値実験により、BADMは他の最先端オプティマイザと比較して、より高速な収束とテスト精度の向上が示されている。
Stochastic gradient descent-based algorithms are widely used for training deep neural networks but often suffer from slow convergence. To address the challenge, we leverage the framework of the alternating direction method of multipliers (ADMM) to develop a novel data-driven algorithm, called batch ADMM (BADM). The fundamental idea of the proposed algorithm is to split the training data into batches, which is further divided into sub-batches where primal and dual variables are updated to generate global parameters through aggregation. We evaluate the performance of BADM across various deep learning tasks, including graph modelling, computer vision, image generation, and natural language processing. Extensive numerical experiments demonstrate that BADM achieves faster convergence and superior testing accuracy compared to other state-of-the-art optimizers. | 翻訳日:2024-07-03 19:52:16 公開日:2024-06-30 |
# NeurIPS 2024 ML4CFD competition: Harnessing Machine Learning for Computational fluid Dynamics in Airfoil Design
NeurIPS 2024 ML4CFD Competition: Harnessing Machine Learning for Computational Fluid Dynamics in Airfoil Design ( http://arxiv.org/abs/2407.01641v1 ) ライセンス: Link先を確認 | Mouadh Yagoubi, David Danan, Milad Leyli-abadi, Jean-Patrick Brunet, Jocelyn Ahmed Mazari, Florent Bonnet, maroua gmati, Asma Farjallah, Paola Cinnella, Patrick Gallinari, Marc Schoenauer, | (参考訳) 複雑な物理問題に対処するための機械学習(ML)技術の統合は、シミュレーションを高速化するための有望な道としてますます認識されている。
しかし、ML由来の物理モデルを評価することは、産業的文脈において採用される上で大きな課題となる。
このコンペティションは、最近導入されたLearning Industrial Physical Simulations (LIPS) と呼ばれる統合評価フレームワークを活用し、物理的な課題に対処するための革新的なMLアプローチの開発を促進するために設計されている。
2023年11月から2024年3月までに開催された予備版に基づいて、このイテレーションはエアフォイル設計シミュレーション(AirfRANSデータセット)という、確立された物理的応用の基礎となるタスクに重点を置いている。
このコンペティションは、MLの精度、計算効率、アウトオフ・ディストリビューション性能、および物理原理の遵守を含む様々な基準に基づいて、ソリューションを評価する。
この競争は、計算効率と物理シミュレーションの精度のトレードオフを最適化することを目的としたML駆動サロゲート手法の先駆的な試みである。
Codabenchプラットフォームでホストされているこのコンペティションは、参加するすべてのソリューションに対するオンライントレーニングと評価を提供する。
The integration of machine learning (ML) techniques for addressing intricate physics problems is increasingly recognized as a promising avenue for expediting simulations. However, assessing ML-derived physical models poses a significant challenge for their adoption within industrial contexts. This competition is designed to promote the development of innovative ML approaches for tackling physical challenges, leveraging our recently introduced unified evaluation framework known as Learning Industrial Physical Simulations (LIPS). Building upon the preliminary edition held from November 2023 to March 2024, this iteration centers on a task fundamental to a well-established physical application: airfoil design simulation, utilizing our proposed AirfRANS dataset. The competition evaluates solutions based on various criteria encompassing ML accuracy, computational efficiency, Out-Of-Distribution performance, and adherence to physical principles. Notably, this competition represents a pioneering effort in exploring ML-driven surrogate methods aimed at optimizing the trade-off between computational efficiency and accuracy in physical simulations. Hosted on the Codabench platform, the competition offers online training and evaluation for all participating solutions. | 翻訳日:2024-07-03 19:52:16 公開日:2024-06-30 |
# 共同家庭と個人集団合成のための深層的枠組み
A Deep Generative Framework for Joint Households and Individuals Population Synthesis ( http://arxiv.org/abs/2407.01643v1 ) ライセンス: Link先を確認 | Xiao Qian, Utkarsh Gangwal, Shangjia Dong, Rachel Davidson, | (参考訳) 家庭と個人レベルの社会デマトグラフィーデータは、人-インフラ相互作用と政策形成を理解するために不可欠である。
しかし、パブリック・ユース・マイクロデータ・サンプル(PUMS)は州レベルでのみサンプルを提供し、国勢調査トラクトデータは相関のない変数の限界分布のみを提供する。
したがって、マイクロデータで観測される一貫した変動相関を維持し、家庭・個人・個人関係を保存し、国家レベルの統計に従属し、人口の地理的分布を正確に表現する正確な合成人口データセットが必要である。
本稿では, 可変オートエンコーダ(VAE)を利用して, 上記の特徴を持つ合成個体群を生成する, 深層生成フレームワークを提案する。
提案手法は,(1)個人・個人・個人間の関係を収集する新たなデータ構造,(2)人口分布と人口分布が一致した世帯・個人を事前学習・微調整するトランスファー学習プロセス,(3)分散シフトとアウト・オブ・サンプルレコードの生成を可能にするデカップリングバイナリ・クロス・エントロピー(D-BCE)損失関数を含む。
米国デラウェア州での応用のためのモデル結果は、生成された家庭内個人記録の現実性を保証する能力を示し、既存の方法と比較して人口統計を正確に記述する能力を示している。
さらにノースカロライナでの試験では,提案手法の伝達性を支持する有望な結果が得られた。
Household and individual-level sociodemographic data are essential for understanding human-infrastructure interaction and policymaking. However, the Public Use Microdata Sample (PUMS) offers only a sample at the state level, while census tract data only provides the marginal distributions of variables without correlations. Therefore, we need an accurate synthetic population dataset that maintains consistent variable correlations observed in microdata, preserves household-individual and individual-individual relationships, adheres to state-level statistics, and accurately represents the geographic distribution of the population. We propose a deep generative framework leveraging the variational autoencoder (VAE) to generate a synthetic population with the aforementioned features. The methodological contributions include (1) a new data structure for capturing household-individual and individual-individual relationships, (2) a transfer learning process with pre-training and fine-tuning steps to generate households and individuals whose aggregated distributions align with the census tract marginal distribution, and (3) decoupled binary cross-entropy (D-BCE) loss function enabling distribution shift and out-of-sample records generation. Model results for an application in Delaware, USA demonstrate the ability to ensure the realism of generated household-individual records and accurately describe population statistics at the census tract level compared to existing methods. Furthermore, testing in North Carolina, USA yielded promising results, supporting the transferability of our method. | 翻訳日:2024-07-03 19:52:16 公開日:2024-06-30 |
# 拡張不可能な積作用素基底
Unextendible product operator basis ( http://arxiv.org/abs/2109.13537v2 ) ライセンス: Link先を確認 | Mengyao Hu, Lin Chen, Fei Shi, Xiande Zhang, Jordi Tura, | (参考訳) 量子非局所性は直交状態の局所的不識別性と関連している。
Unextendible Product Based (UPB) は、量子情報処理の強力なリソースである非局所性を示す。
本研究では、非局所性と真の非局所性の定義を状態から作用素へ拡張する。
また、UPBは、拡張不可能な製品演算子基底、拡張不可能な製品ユニタリ演算子基底(UPUOB)、強いUPUOBの概念に拡張する。
それらの例を構築し、局所的な操作や古典的な通信における強いUPUOBの非局所性を示す。
量子状態に作用するこれらの作用素の現象を研究する。
応用として,3ビットの絡み合いしか消費しない2次元の強いUPUOBを区別する。
以上の結果から, UPUOB は UPB ほど非局所性を示すことが示唆された。
Quantum nonlocality is associated with the local indistinguishability of orthogonal states. Unextendible product basis (UPB), a widely used tool in quantum information, exhibits nonlocality which is the powerful resource for quantum information processing. In this work we extend the definitions of nonlocality and genuine nonlocality from states to operators. We also extend UPB to the notions of unextendible product operator basis, unextendible product unitary operator basis (UPUOB) and strongly UPUOB. We construct their examples, and show the nonlocality of some strongly UPUOBs under local operations and classical communications. We study the phenomenon of these operators acting on quantum states. As an application, we distinguish the two-dimensional strongly UPUOB which only consumes three ebits of entanglement. Our results imply that such UPUOBs exhibit nonlocality as UPBs and the distinguishability of them requires entanglement resources. | 翻訳日:2024-07-02 18:47:18 公開日:2024-06-30 |
# Outlier-Robust Geometric Perception:クラス内変量最大化を用いた新しい閾値ベース推定器
Outlier-Robust Geometric Perception: A Novel Thresholding-Based Estimator with Intra-Class Variance Maximization ( http://arxiv.org/abs/2204.01324v2 ) ライセンス: Link先を確認 | Lei Sun, | (参考訳) 幾何学的知覚問題は、ロボット工学とコンピュータビジョンにおける基本的なタスクである。
現実世界のアプリケーションでは、しばしばアウトリーチの避けられない問題に遭遇し、従来のアルゴリズムが正しく見積もることを防ぐ。
本稿では、標準の非最小解法と協調して、幾何学的知覚問題に対する外れ値の除去を効率的に行うことができる新しい汎用頑健性推定器TIVMを提案する。
まず, クラス内分散の最大化手法を導入し, 測定残差の動的2群しきい値決定法を設計する。
そこで我々は,多層動的しきい値化戦略をサブルーチンとして用い,純粋イリヤ群にアプローチしてモデルを堅牢に最適化する反復的フレームワークを開発し,さらに,階層数チューニングのための自己適応機構を用いて,ユーザ定義パラメータの最小化を行う。
提案手法は, 回転平均化, 点雲登録, カテゴリーレベルの知覚という3つの古典的幾何学的知覚問題に対する推定器の検証を行い, 実験により70~90倍のアウトレーヤに対して頑健であり, 一般的には3~15回の反復で収束し, RANSAC, GNC, ADAPTなどの最先端の堅牢な解法よりもはるかに高速であることを示した。
さらに、我々の推定器は、問題のinlier-noise統計が完全に未知であっても、ほぼ同じレベルのロバスト性を維持することができる。
Geometric perception problems are fundamental tasks in robotics and computer vision. In real-world applications, they often encounter the inevitable issue of outliers, preventing traditional algorithms from making correct estimates. In this paper, we present a novel general-purpose robust estimator TIVM (Thresholding with Intra-class Variance Maximization) that can collaborate with standard non-minimal solvers to efficiently reject outliers for geometric perception problems. First, we introduce the technique of intra-class variance maximization to design a dynamic 2-group thresholding method on the measurement residuals, aiming to distinctively separate inliers from outliers. Then, we develop an iterative framework that robustly optimizes the model by approaching the pure-inlier group using a multi-layered dynamic thresholding strategy as subroutine, in which a self-adaptive mechanism for layer-number tuning is further employed to minimize the user-defined parameters. We validate the proposed estimator on 3 classic geometric perception problems: rotation averaging, point cloud registration and category-level perception, and experiments show that it is robust against 70--90\% of outliers and can converge typically in only 3--15 iterations, much faster than state-of-the-art robust solvers such as RANSAC, GNC and ADAPT. Furthermore, another highlight is that: our estimator can retain approximately the same level of robustness even when the inlier-noise statistics of the problem are fully unknown. | 翻訳日:2024-07-02 18:41:09 公開日:2024-06-30 |
# 推定重み下における重み付き多数投票の安定性
Stability of Weighted Majority Voting under Estimated Weights ( http://arxiv.org/abs/2207.06118v2 ) ライセンス: Link先を確認 | Shaojie Bai, Dongxia Wang, Tim Muller, Peng Cheng, Jiming Chen, | (参考訳) 重み付き多数決投票(英: Weighted Majority Voting、WMV)は、正確な情報(信頼性)を提供する情報源の確率を考えると、集合的意思決定に最適な決定規則である。
しかし、実際には、信頼は意思決定者にとって既知の量ではなく、信頼と呼ばれる見積に頼る必要があります。
信頼を計算する(機械学習)アルゴリズムは、信頼度を体系的に過大評価したり過小評価したりしない性質を持つ場合、非バイアス(unbiased)と呼ばれる。
決定過程の不確かさを正式に分析するために、このようなバイアスのない信頼値の2つの重要な特性、すなわち正しさの安定性と最適性の安定性を紹介し、分析する。
正確性の安定性は、意思決定者が達成した決定精度が実際の精度と等しいことを意味する。
我々は正しさの安定性を証明している。
最適性の安定性は、信頼に基づく決定が、信頼度に基づくものであっても、彼らと同じくらい良いことを意味する。
最適性の安定性は保たない。
両者の差を解析し、その境界を定めます。
また、信頼と信頼度の変化に対して、決定の正しさがどれほど敏感であるかを概観する。
Weighted Majority Voting (WMV) is a well-known optimal decision rule for collective decision making, given the probability of sources to provide accurate information (trustworthiness). However, in reality, the trustworthiness is not a known quantity to the decision maker - they have to rely on an estimate called trust. A (machine learning) algorithm that computes trust is called unbiased when it has the property that it does not systematically overestimate or underestimate the trustworthiness. To formally analyse the uncertainty to the decision process, we introduce and analyse two important properties of such unbiased trust values: stability of correctness and stability of optimality. Stability of correctness means that the decision accuracy that the decision maker believes they achieved is equal to the actual accuracy. We prove stability of correctness holds. Stability of optimality means that the decisions made based on trust, are equally good as they would have been if they were based on trustworthiness. Stability of optimality does not hold. We analyse the difference between the two, and bounds thereon. We also present an overview of how sensitive decision correctness is to changes in trust and trustworthiness. | 翻訳日:2024-07-02 18:41:09 公開日:2024-06-30 |
# sBetaによる単純なクラスタリングとブラックボックス予測のオンライン調整への応用
Simplex Clustering via sBeta with Applications to Online Adjustment of Black-Box Predictions ( http://arxiv.org/abs/2208.00287v4 ) ライセンス: Link先を確認 | Florent Chiaroni, Malik Boudiaf, Amar Mitiche, Ismail Ben Ayed, | (参考訳) 我々は、深層ニューラルネットワークのソフトマックス予測をクラスタリングし、k-sBetasと呼ばれる新しい確率的クラスタリング手法を導入する。
離散分布のクラスタリングの一般的な文脈において、既存の手法は、標準ユークリッド距離の代替として、KL分散のような単純データに適した歪み測度を探索することに焦点を当てている。
クラスタリング分布の最大値(MAP)パースペクティブを提供し、既存の歪みに基づく手法の基盤となる統計モデルが十分に記述できないことを強調した。
その代わりに、各クラスタ内のデータ整合性を測定する混合変数を、パラメータが2進代入変数と共役して制約され推定されるsBeta密度関数に最適化する。
汎用的な定式化は, 単純なデータモデリングのための様々なパラメトリック密度を近似し, クラスタバランスバイアスの制御を可能にする。
これにより、様々なシナリオにおけるブラックボックスモデル予測の教師なし調整に対する高い競争性能が得られる。
我々のコードと既存のSimplexクラスタリングアプローチおよび導入したSoftmax-predictionベンチマークとの比較は、https://github.com/fchiaroni/Clustering_Softmax_Predictions.comで公開されている。
We explore clustering the softmax predictions of deep neural networks and introduce a novel probabilistic clustering method, referred to as k-sBetas. In the general context of clustering discrete distributions, the existing methods focused on exploring distortion measures tailored to simplex data, such as the KL divergence, as alternatives to the standard Euclidean distance. We provide a general maximum a posteriori (MAP) perspective of clustering distributions, emphasizing that the statistical models underlying the existing distortion-based methods may not be descriptive enough. Instead, we optimize a mixed-variable objective measuring data conformity within each cluster to the introduced sBeta density function, whose parameters are constrained and estimated jointly with binary assignment variables. Our versatile formulation approximates various parametric densities for modeling simplex data and enables the control of the cluster-balance bias. This yields highly competitive performances for the unsupervised adjustment of black-box model predictions in various scenarios. Our code and comparisons with the existing simplex-clustering approaches and our introduced softmax-prediction benchmarks are publicly available: https://github.com/fchiaroni/Clustering_Softmax_Predictions. | 翻訳日:2024-07-02 18:41:09 公開日:2024-06-30 |
# 非連続確率勾配をもつ確率最適化問題に対するランゲヴィンダイナミクスに基づくアルゴリズムe-TH$\varepsilon$O POULA
Langevin dynamics based algorithm e-TH$\varepsilon$O POULA for stochastic optimization problems with discontinuous stochastic gradient ( http://arxiv.org/abs/2210.13193v3 ) ライセンス: Link先を確認 | Dong-Young Lim, Ariel Neufeld, Sotirios Sabanis, Ying Zhang, | (参考訳) 我々は、量子推定、ベクトル量子化、CVaR最小化、ReLUニューラルネットワークを含む正規化最適化問題などの現実の応用に自然に現れる不連続確率勾配による最適化問題を解くために、e-TH$\varepsilon$O POULAと呼ばれる新しいランゲヴィンダイナミクスベースのアルゴリズムを導入する。
理論的にも数値的にも e-TH$\varepsilon$O POULA アルゴリズムの適用性を実証する。
より正確には、確率勾配が平均的に局所リプシッツであり、無限大条件で一定の凸性を満たす条件の下で、ワッサーシュタイン距離において e-TH$\varepsilon$O POULA の非漸近誤差境界を確立し、予想される余剰リスクの非漸近誤差推定を与える。
金融と保険の3つの主要な応用として、多周期ポートフォリオ最適化、多周期ポートフォリオ最適化における転送学習、および(Leaky)-ReLUアクティベーション機能を備えたニューラルネットワークを含む保険請求予測がある。
E-TH$\varepsilon$O POULAをモデル精度でSGLD,TUSLA,ADAM,AMSGradと比較し,実世界のデータセットを用いて数値実験を行った。
We introduce a new Langevin dynamics based algorithm, called e-TH$\varepsilon$O POULA, to solve optimization problems with discontinuous stochastic gradients which naturally appear in real-world applications such as quantile estimation, vector quantization, CVaR minimization, and regularized optimization problems involving ReLU neural networks. We demonstrate both theoretically and numerically the applicability of the e-TH$\varepsilon$O POULA algorithm. More precisely, under the conditions that the stochastic gradient is locally Lipschitz in average and satisfies a certain convexity at infinity condition, we establish non-asymptotic error bounds for e-TH$\varepsilon$O POULA in Wasserstein distances and provide a non-asymptotic estimate for the expected excess risk, which can be controlled to be arbitrarily small. Three key applications in finance and insurance are provided, namely, multi-period portfolio optimization, transfer learning in multi-period portfolio optimization, and insurance claim prediction, which involve neural networks with (Leaky)-ReLU activation functions. Numerical experiments conducted using real-world datasets illustrate the superior empirical performance of e-TH$\varepsilon$O POULA compared to SGLD, TUSLA, ADAM, and AMSGrad in terms of model accuracy. | 翻訳日:2024-07-02 18:41:09 公開日:2024-06-30 |
# 統合PIFu : シングルビュー人体再構成のための統合Pixelアライメントインシシシト機能
IntegratedPIFu: Integrated Pixel Aligned Implicit Function for Single-view Human Reconstruction ( http://arxiv.org/abs/2211.07955v2 ) ライセンス: Link先を確認 | Kennard Yanting Chan, Guosheng Lin, Haiyu Zhao, Weisi Lin, | (参考訳) 本稿では,PIFuHDが設定した基盤上に構築した新たな画素アライメント型暗黙モデルであるIntegratedPIFuを提案する。
統合PIFuは、ピクセルアラインの暗黙的モデルにおいて、深度と人間のパース情報をどのように予測し、大文字化するかを示す。
さらに、IntegratedPIFuは、ノイズのない人工物なしで重要な人間の特徴を再構築する暗黙的モデル能力を改善する新しいトレーニングスキームである、深度指向サンプリングを導入している。
最後に、IntegratedPIFuは、PIFuHDよりもモデルパラメータが少ないにもかかわらず、再構成メッシュの構造的正しさを改善することができる新しいアーキテクチャを提供する。
以上の結果から, 統合PIFuは, 単一視点のヒト再建において, 既存の最先端手法よりも優れていたことが示唆された。
私たちのコードはオンラインで利用可能になりました。
We propose IntegratedPIFu, a new pixel aligned implicit model that builds on the foundation set by PIFuHD. IntegratedPIFu shows how depth and human parsing information can be predicted and capitalised upon in a pixel-aligned implicit model. In addition, IntegratedPIFu introduces depth oriented sampling, a novel training scheme that improve any pixel aligned implicit model ability to reconstruct important human features without noisy artefacts. Lastly, IntegratedPIFu presents a new architecture that, despite using less model parameters than PIFuHD, is able to improves the structural correctness of reconstructed meshes. Our results show that IntegratedPIFu significantly outperforms existing state of the arts methods on single view human reconstruction. Our code has been made available online. | 翻訳日:2024-07-02 18:29:26 公開日:2024-06-30 |
# Heterophily-Aware Graph Attention Network
Heterophily-Aware Graph Attention Network ( http://arxiv.org/abs/2302.03228v3 ) ライセンス: Link先を確認 | Junfu Wang, Yuanfang Guo, Liang Yang, Yunhong Wang, | (参考訳) グラフニューラルネットワーク(GNN)はグラフ表現学習において顕著な成功を収めている。
残念ながら、ノード次数やペアワイズ表現に基づく計算のような標準GNNの現在の重み付けスキームは、接続ノードが通常異なるラベルや特徴を持つヘテロフィリーでネットワークを処理するのに効果的ではない。
既存のヘテロフィル性GNNは、各エッジのヘテロフィリのモデリングを無視する傾向にあり、これはヘテロフィリ問題に取り組む上でも不可欠である。
本稿では,まず,辺をヘテロフィリックにモデル化することの利点を明らかにする。すなわち,GNNが異なる辺に異なる重みをヘテロフィリックなタイプに応じて割り当てる場合,ノードが各辺から適切な情報を取得できるような,効果的な局所的注意パターンを学習することができる。
そこで我々は,局所分布をヘテロフィリーとして完全に探索し,その基礎となるヘテロフィリーとして活用することにより,ヘテロフィリー対応グラフ注意ネットワーク(HA-GAT)を提案する。
提案するHA-GATの有効性を実証するために,提案するヘテロフィリ認識型アテンションスキームと局所分布探索を解析し,そのメカニズムから解釈を求める。
我々のHA-GATは,教師付きノード分類タスクと半教師付きノード分類タスクの両方において,ホモフィリー比の異なる8つのデータセットに対して,最先端のパフォーマンスを達成することを示す。
Graph Neural Networks (GNNs) have shown remarkable success in graph representation learning. Unfortunately, current weight assignment schemes in standard GNNs, such as the calculation based on node degrees or pair-wise representations, can hardly be effective in processing the networks with heterophily, in which the connected nodes usually possess different labels or features. Existing heterophilic GNNs tend to ignore the modeling of heterophily of each edge, which is also a vital part in tackling the heterophily problem. In this paper, we firstly propose a heterophily-aware attention scheme and reveal the benefits of modeling the edge heterophily, i.e., if a GNN assigns different weights to edges according to different heterophilic types, it can learn effective local attention patterns, which enable nodes to acquire appropriate information from distinct neighbors. Then, we propose a novel Heterophily-Aware Graph Attention Network (HA-GAT) by fully exploring and utilizing the local distribution as the underlying heterophily, to handle the networks with different homophily ratios. To demonstrate the effectiveness of the proposed HA-GAT, we analyze the proposed heterophily-aware attention scheme and local distribution exploration, by seeking for an interpretation from their mechanism. Extensive results demonstrate that our HA-GAT achieves state-of-the-art performances on eight datasets with different homophily ratios in both the supervised and semi-supervised node classification tasks. | 翻訳日:2024-07-02 18:29:26 公開日:2024-06-30 |
# 合成データ生成のための機械学習: レビュー
Machine Learning for Synthetic Data Generation: A Review ( http://arxiv.org/abs/2302.04062v9 ) ライセンス: Link先を確認 | Yingzhou Lu, Minjie Shen, Huazheng Wang, Xiao Wang, Capucine van Rechem, Tianfan Fu, Wenqi Wei, | (参考訳) 機械学習はデータに大きく依存するが、現実のアプリケーションは様々なデータ関連の問題に遭遇することが多い。
これには、品質の低いデータ、マシンラーニングモデルの適合性の低いデータポイント、プライバシや安全性、規制に関する懸念によるデータアクセスの困難などが含まれる。
これらの課題を踏まえると、合成データ生成という概念は、現実のデータでは不可能な方法でデータ共有と利用を可能にする、有望な代替手段として現れます。
本稿では,合成データの生成を目的とした機械学習モデルを用いた既存研究の総合的な体系的レビューを行う。
このレビューは、合成データ生成、コンピュータビジョン、スピーチ、自然言語処理、ヘルスケア、ビジネスドメインの応用から始まる様々な視点を網羅している。
さらに、ニューラルネットワークアーキテクチャと深層生成モデルに特に重点を置いて、さまざまな機械学習手法についても検討している。
この論文は、合成データ生成に関するプライバシーと公平性に関する重要な側面についても論じている。
さらに, 本研究は, この新興分野における課題と機会を明らかにし, 今後の研究の道筋を明かすものである。
本稿では, 合成データ生成の複雑さを掘り下げることにより, 知識の発達に寄与し, 合成データ生成におけるさらなる探索を促すことを目的とする。
Machine learning heavily relies on data, but real-world applications often encounter various data-related issues. These include data of poor quality, insufficient data points leading to under-fitting of machine learning models, and difficulties in data access due to concerns surrounding privacy, safety, and regulations. In light of these challenges, the concept of synthetic data generation emerges as a promising alternative that allows for data sharing and utilization in ways that real-world data cannot facilitate. This paper presents a comprehensive systematic review of existing studies that employ machine learning models for the purpose of generating synthetic data. The review encompasses various perspectives, starting with the applications of synthetic data generation, spanning computer vision, speech, natural language processing, healthcare, and business domains. Additionally, it explores different machine learning methods, with particular emphasis on neural network architectures and deep generative models. The paper also addresses the crucial aspects of privacy and fairness concerns related to synthetic data generation. Furthermore, this study identifies the challenges and opportunities prevalent in this emerging field, shedding light on the potential avenues for future research. By delving into the intricacies of synthetic data generation, this paper aims to contribute to the advancement of knowledge and inspire further exploration in synthetic data generation. | 翻訳日:2024-07-02 18:29:26 公開日:2024-06-30 |
# チーム・イン・ザ・ループ」:OstromのIADフレームワーク「ルール・イン・ユース」でAIの文脈的影響をマップし計測する
'Team-in-the-loop': Ostrom's IAD framework 'rules in use' to map and measure contextual impacts of AI ( http://arxiv.org/abs/2303.14007v2 ) ライセンス: Link先を確認 | Deborah Morgan, Youmna Hashem, John Francis, Saba Esnaashari, Vincent J. Straub, Jonathan Bright, | (参考訳) この記事では、OstromのInstitutional Analysis and Development Framework(IAD)の'rules in use'が、AIのコンテキスト分析アプローチとしてどのように開発できるかを考察する。
AIリスクアセスメントフレームワークは、既存のコンテキストを理解する必要性をますます強調している。
しかし、これらのアプローチは、確立された機関分析奨学金と頻繁には関係しない。
臨床の監視がAIにどのように影響するかを理解するために、ハイレベルな例を通して示した新しい方向性を概説する。
AIの監視に関する現在の考え方は、意思決定者がループ内にあるという考えを中心に展開されている。
しかし、分析の結果、監視は複雑で、プロのチームによって頻繁に行われ、情報を引き出すための説明に依存していることがわかった。
専門機関と責任は多心的な監視機関としても機能する。
これらはすべて、AIシステムの監視という課題の影響を受けている。
このアプローチは、National Institute of Standards and Technology (NIST) AI Risk Management Frameworkの"Govern and Map"機能に沿ったコンテキスト分析のポリシーツールとして、潜在的に有用である。
本分析は,チーム構造を監視下に構築する上での既存の制度分析手法の利点を示し,その効果を「ループ内の人間」の概念として示す。
This article explores how the 'rules in use' from Ostrom's Institutional Analysis and Development Framework (IAD) can be developed as a context analysis approach for AI. AI risk assessment frameworks increasingly highlight the need to understand existing contexts. However, these approaches do not frequently connect with established institutional analysis scholarship. We outline a novel direction illustrated through a high-level example to understand how clinical oversight is potentially impacted by AI. Much current thinking regarding oversight for AI revolves around the idea of decision makers being in-the-loop and, thus, having capacity to intervene to prevent harm. However, our analysis finds that oversight is complex, frequently made by teams of professionals and relies upon explanation to elicit information. Professional bodies and liability also function as institutions of polycentric oversight. These are all impacted by the challenge of oversight of AI systems. The approach outlined has potential utility as a policy tool of context analysis aligned with the 'Govern and Map' functions of the National Institute of Standards and Technology (NIST) AI Risk Management Framework; however, further empirical research is needed. Our analysis illustrates the benefit of existing institutional analysis approaches in foregrounding team structures within oversight and, thus, in conceptions of 'human in the loop'. | 翻訳日:2024-07-02 18:19:41 公開日:2024-06-30 |
# ハイパーグラフ上の3体相互作用を持つ非線形平均化ダイナミクスの収束について
On the convergence of nonlinear averaging dynamics with three-body interactions on hypergraphs ( http://arxiv.org/abs/2304.07203v2 ) ライセンス: Link先を確認 | Emilio Cruciani, Emanuela L. Giacomelli, Jinyeop Lee, | (参考訳) 物理学、生物学、社会科学などの分野における複雑なネットワークシステムは、単純なペアワイズ以上の相互作用を含むことが多い。
ハイパーグラフは、多体相互作用を持つシステムの複雑な振る舞いを記述し分析するための強力なモデリングツールとして機能する。
本稿では,3次元相互作用を持つ離散時間非線形平均化ダイナミクスについて検討する:三重項をハイパーエッジとして含むハイパーグラフは,これらの相互作用の構造を記述し,頂点は重み付けされた状態依存状態の状態を更新する。
このダイナミクスは、ピア圧力のような強化群効果を捉え、初期状態、ハイパーグラフトポロジー、更新の非線形性の間の複雑な相互作用から生じる高次の動的効果を示す。
2体相互作用を持つグラフ上の線形平均力学とは異なり、このモデルは初期状態の平均に収束せず、シフトを誘導する。
ランダムな初期状態とハイパーグラフ上の正規性と密度の仮定を仮定することにより、この力学が確率の高い初期状態の乗法的にシフトした平均に収束することを証明する。
さらに、このシフトを、初期状態と相互作用強度を記述する2つのパラメータの関数として、およびハイパーグラフ構造の関数として収束時間として特徴づける。
Complex networked systems in fields such as physics, biology, and social sciences often involve interactions that extend beyond simple pairwise ones. Hypergraphs serve as powerful modeling tools for describing and analyzing the intricate behaviors of systems with multi-body interactions. Herein, we investigate a discrete-time nonlinear averaging dynamics with three-body interactions: an underlying hypergraph, comprising triples as hyperedges, delineates the structure of these interactions, while the vertices update their states through a weighted, state-dependent average of neighboring pairs' states. This dynamics captures reinforcing group effects, such as peer pressure, and exhibits higher-order dynamical effects resulting from a complex interplay between initial states, hypergraph topology, and nonlinearity of the update. Differently from linear averaging dynamics on graphs with two-body interactions, this model does not converge to the average of the initial states but rather induces a shift. By assuming random initial states and by making some regularity and density assumptions on the hypergraph, we prove that the dynamics converges to a multiplicatively-shifted average of the initial states, with high probability. We further characterize the shift as a function of two parameters describing the initial state and interaction strength, as well as the convergence time as a function of the hypergraph structure. | 翻訳日:2024-07-02 18:19:41 公開日:2024-06-30 |
# IDLS:逆深さ線に基づくビジュアル慣性SLAM
IDLS: Inverse Depth Line based Visual-Inertial SLAM ( http://arxiv.org/abs/2304.11748v2 ) ライセンス: Link先を確認 | Wanting Li, Shuo Wang, Yongcai Wang, Yu Shao, Xuewei Bai, Deying Li, | (参考訳) 屋内環境における堅牢な視覚慣性SLAMを実現するために,近年の研究では,線特徴を利用してシーン構造に関する記述情報を抽出し,点特徴の縮退に対処している。
しかし、既存の点線ベースのSLAM法は主に、行を表すためにPl\"ucker行列または直交表現を使い、行を決定するために少なくとも4つの変数を計算する必要がある。
各フレームで決定する多数のライン特徴が与えられた場合、過度にフレキシブルなライン表現により計算負担が増加し、結果の精度が向上する。
本稿では,2つの変数,すなわち2つの終点の逆深さを用いて各抽出された直線特徴をモデル化したラインの逆深さ表現を提案する。
これは、投影された線の画像平面上のピクセル座標がかなり正確であるという事実を利用しており、線を部分的に制限している。
このコンパクトライン提示を用いて,逆深さ線SLAM(Inverse Depth Line SLAM)を提案する。
頑健な線三角法と新しい線再投影誤差モデルを導入する。
また,まず2段階の最適化手法を提案し,各フレームにおけるカメラのポーズを推定する。
IDLSは、複数の知覚的整合性データセットで広く評価されている。
以上の結果から,現状のポイントラインベースSLAM法よりも精度が高く,頑健であり,計算オーバーヘッドも低いことが示唆された。
For robust visual-inertial SLAM in perceptually-challenging indoor environments,recent studies exploit line features to extract descriptive information about scene structure to deal with the degeneracy of point features. But existing point-line-based SLAM methods mainly use Pl\"ucker matrix or orthogonal representation to represent a line, which needs to calculate at least four variables to determine a line. Given the numerous line features to determine in each frame, the overly flexible line representation increases the computation burden and comprises the accuracy of the results. In this paper, we propose inverse depth representation for a line, which models each extracted line feature using only two variables, i.e., the inverse depths of the two ending points. It exploits the fact that the projected line's pixel coordinates on the image plane are rather accurate, which partially restrict the line. Using this compact line presentation, Inverse Depth Line SLAM (IDLS) is proposed to track the line features in SLAM in an accurate and efficient way. A robust line triangulation method and a novel line re-projection error model are introduced. And a two-step optimization method is proposed to firstly determine the lines and then to estimate the camera poses in each frame. IDLS is extensively evaluated in multiple perceptually-challenging datasets. The results show it is more accurate, robust, and needs lower computational overhead than the current state-of-the-art of point-line-based SLAM methods. | 翻訳日:2024-07-02 18:19:41 公開日:2024-06-30 |
# バリューコンディション状態エントロピー探索による強化学習の高速化
Accelerating Reinforcement Learning with Value-Conditional State Entropy Exploration ( http://arxiv.org/abs/2305.19476v2 ) ライセンス: Link先を確認 | Dongyoung Kim, Jinwoo Shin, Pieter Abbeel, Younggyo Seo, | (参考訳) 探索のための有望な技術は、訪問状態空間の均一なカバレッジを奨励することによって、訪問状態分布のエントロピー、すなわち状態エントロピーの最大化である。
教師なしのセットアップでは有効だが、エージェントがタスク報酬を利用するために高価値の状態を訪問することを好んだ場合、タスク報酬を伴う教師付きセットアップで苦労する傾向がある。
このような選好は、分布がより均一になったときに増加する状態エントロピーの結果、低値状態領域への探索をバイアスする高値状態と低値状態の分布の不均衡を引き起こす。
この問題は、高値状態が状態空間内で狭く分散されているときに悪化し、エージェントがタスクを完了するのが難しくなる。
本稿では,各状態の値推定に基づいて条件付き状態エントロピーを別々に推定し,その平均値を最大化する新しい探索手法を提案する。
本手法は,固有ボーナスの計算に類似した値推定値を持つ訪問状態のみを考慮し,低値状態の分布が高値状態の探索に影響を与えることを防止し,その逆も抑制する。
提案手法は,MiniGrid,DeepMind Control Suite,Meta-Worldベンチマークの各タスクにおける各種強化学習アルゴリズムを,状態エントロピーベースラインの代替として大幅に高速化することを示す。
ソースコードはhttps://sites.google.com/view/rl-vcse.comで入手できる。
A promising technique for exploration is to maximize the entropy of visited state distribution, i.e., state entropy, by encouraging uniform coverage of visited state space. While it has been effective for an unsupervised setup, it tends to struggle in a supervised setup with a task reward, where an agent prefers to visit high-value states to exploit the task reward. Such a preference can cause an imbalance between the distributions of high-value states and low-value states, which biases exploration towards low-value state regions as a result of the state entropy increasing when the distribution becomes more uniform. This issue is exacerbated when high-value states are narrowly distributed within the state space, making it difficult for the agent to complete the tasks. In this paper, we present a novel exploration technique that maximizes the value-conditional state entropy, which separately estimates the state entropies that are conditioned on the value estimates of each state, then maximizes their average. By only considering the visited states with similar value estimates for computing the intrinsic bonus, our method prevents the distribution of low-value states from affecting exploration around high-value states, and vice versa. We demonstrate that the proposed alternative to the state entropy baseline significantly accelerates various reinforcement learning algorithms across a variety of tasks within MiniGrid, DeepMind Control Suite, and Meta-World benchmarks. Source code is available at https://sites.google.com/view/rl-vcse. | 翻訳日:2024-07-02 18:09:56 公開日:2024-06-30 |
# マルチモーダル説明可能な人工知能 : 方法論の進歩と今後の研究方向
Multimodal Explainable Artificial Intelligence: A Comprehensive Review of Methodological Advances and Future Research Directions ( http://arxiv.org/abs/2306.05731v2 ) ライセンス: Link先を確認 | Nikolaos Rodis, Christos Sardianos, Panagiotis Radoglou-Grammatikis, Panagiotis Sarigiannidis, Iraklis Varlamis, Georgios Th. Papadopoulos, | (参考訳) しかし、人工知能(AI)が多くのデータ分析タスクにおける顕著な成果の達成を後押ししたという事実にもかかわらず、これは通常、先進的なシステムの透明性と信頼性を示す重大な欠点を伴う。
後者の課題に対処するため、いわゆるeXplainable AI(XAI)研究分野が登場し、採用モデル推論プロセスに関する有意義な説明を推定することを目指す。
本研究は,Multimodal XAI(MXAI)の領域における最近の進歩を体系的に分析することに焦点を当てる。
特に、関連するAIブースト予測タスクと、マルチモーダルシナリオにおける説明の学習/評価に使用される公開データセットについて説明する。
その後、以下の主要な基準を考慮し、文献のMXAI手法の体系的・包括的分析を行う。
a) 関係するモダリティの個数(採用AIモジュール)
ロ 説明が生ずる処理段階及び
c) 説明を作成するための採択された方法論(すなわち、実際の機構及び数学的形式化)の種類
次に、MXAI手法の評価に使用されるメトリクスの徹底的な分析を行う。
最後に、現在の課題と今後の研究方向性について広範な議論を行う。
Despite the fact that Artificial Intelligence (AI) has boosted the achievement of remarkable results across numerous data analysis tasks, however, this is typically accompanied by a significant shortcoming in the exhibited transparency and trustworthiness of the developed systems. In order to address the latter challenge, the so-called eXplainable AI (XAI) research field has emerged, which aims, among others, at estimating meaningful explanations regarding the employed model reasoning process. The current study focuses on systematically analyzing the recent advances in the area of Multimodal XAI (MXAI), which comprises methods that involve multiple modalities in the primary prediction and explanation tasks. In particular, the relevant AI-boosted prediction tasks and publicly available datasets used for learning/evaluating explanations in multimodal scenarios are initially described. Subsequently, a systematic and comprehensive analysis of the MXAI methods of the literature is provided, taking into account the following key criteria: a) The number of the involved modalities (in the employed AI module), b) The processing stage at which explanations are generated, and c) The type of the adopted methodology (i.e. the actual mechanism and mathematical formalization) for producing explanations. Then, a thorough analysis of the metrics used for MXAI methods evaluation is performed. Finally, an extensive discussion regarding the current challenges and future research directions is provided. | 翻訳日:2024-07-02 18:09:56 公開日:2024-06-30 |
# 時間反転1軸ツイスト量子センシングプロトコルにおける散逸の影響の再検討
Revisiting the impact of dissipation on time-reversed one-axis-twist quantum-sensing protocols ( http://arxiv.org/abs/2309.02291v2 ) ライセンス: Link先を確認 | Martin Koppenhöfer, A. A. Clerk, | (参考訳) スピンスクイージングは、標準量子限界を超える大きなスピンアンサンブルにおける小さな信号の干渉測定の感度を高めることができる。
多くの実践的な設定において、理想的なメロジカルゲインはセンサの不完全な読み出しによって制限される。
この問題を克服するために,一元的一軸ツイスト(OAT)スピンスクイーズダイナミクスの時間反転に基づくプロトコルが提案されている。
このようなプロトコルは、読み出しノイズを軽減し、キャビティフィードバックを用いて実施すると、システムの集合的協調性が十分に大きい限り、散逸に対して堅牢であるとも主張されている[Davis et al , PRL 116, 053601 (2016)]。
本稿では,OATツイスト検出方式の3つの異なる実装に対する散逸効果について,非対称な共振器フィードバックとTavis-Cummings相互作用に基づく検討を行った。
完全治療は,3つのアプローチが散逸する際の特性とレジリエンスが著しく異なることを示している。
さらに,対称共振器フィードバックを用いた実装のメロジカルゲインは,従来よりも望ましくない散逸に敏感である。
Spin squeezing can increase the sensitivity of interferometric measurements of small signals in large spin ensembles beyond the standard quantum limit. In many practical settings, the ideal metrological gain is limited by imperfect readout of the sensor. To overcome this issue, protocols based on time reversal of unitary one-axis-twist (OAT) spin-squeezing dynamics have been proposed. Such protocols mitigate readout noise and, when implemented using cavity feedback, have been argued to also be robust against dissipation as long as the collective cooperativity of the system is sufficiently large [Davis et al., PRL 116, 053601 (2016)]. Here, we perform a careful systematic study of dissipative effects on three different implementations of a OAT twist-untwist sensing scheme (based on symmetric as well as asymmetric cavity feedback and on a Tavis-Cummings interaction). Our full treatment shows that the three approaches have markedly different properties and resilience when subject to dissipation. Moreover, the metrological gain for an implementation using symmetric cavity feedback is more sensitive to undesired dissipation than was previously appreciated. | 翻訳日:2024-07-02 18:00:11 公開日:2024-06-30 |
# 米国におけるデータ漏洩報告パターンと周波数の進化について--クロスステート分析
On the evolution of data breach reporting patterns and frequency in the United States: a cross-state analysis ( http://arxiv.org/abs/2310.04786v2 ) ライセンス: Link先を確認 | Benjamin Avanzi, Xingyun Tan, Greg Taylor, Bernard Wong, | (参考訳) データ漏洩の発生を理解することは、サイバー保険にとって不可欠である。
しかし、現在の文献におけるデータ漏洩頻度の傾向の分析は矛盾する結論を導いた。
私たちは、これらの不一致は(少なくとも部分的には)一貫性のないデータ収集標準とレポートパターン、時間と空間によって起こりうることを主張した。
私たちは両方を慎重に制御することにした。
本稿では,カリフォルニア州,デラウェア州,インディアナ州,メイン州,モンタナ州,ノースダコタ州,オレゴン州,ワシントン州にまたがる8つの州(カリフォルニア州,デラウェア州,インディアナ州,メイン州,モンタナ州,ノースダコタ州,オレゴン州,ワシントン州)におけるデータ漏洩に関する州司法長官の公告を共同で分析する。
これらの通知法を明示的に認識することで、時間とともに一貫性のある同等の方法で、違反の頻度をモデル化することが可能になります。
これにより、報告パターンの複雑さを分離・把握し、IBNRを適切に推定し、データ漏洩の履歴周波数トレンドを高い信頼性で評価することができる。
我々の分析は、米国8州におけるデータ漏洩頻度の包括的比較も提供しており、現在の文献では広く議論されていない、国家固有のサイバーリスクの違いに関する知識を拡大している。
さらに,大規模データ漏洩と小規模データ漏洩のサイバーリスク頻度の傾向の相違など,これまでに議論されたことのない新たな特徴を明らかにした。
全体として、レポートの遅延が長くなっていることが分かります。
また、各州、重度レベル、および期間にわたる報告パターンにおける共通性や異質性も引き起こす。
IBNRを適切に見積もった結果、周波数は2020年より前に比較的安定しており、2020年以降に増加することが判明した。
これは州間で一貫している。
本研究がサイバー保険にもたらす影響について考察した。
Understanding the emergence of data breaches is crucial for cyber insurance. However, analyses of data breach frequency trends in the current literature lead to contradictory conclusions. We put forward that those discrepancies may be (at least partially) due to inconsistent data collection standards, as well as reporting patterns, over time and space. We set out to carefully control both. In this paper, we conduct a joint analysis of state Attorneys General's publications on data breaches across eight states (namely, California, Delaware, Indiana, Maine, Montana, North Dakota, Oregon, and Washington), all of which are subject to established data collection standards-namely, state data breach (mandatory) notification laws. Thanks to our explicit recognition of these notification laws, we are capable of modelling frequency of breaches in a consistent and comparable way over time. Hence, we are able to isolate and capture the complexities of reporting patterns, adequately estimate IBNRs, and yield a highly reliable assessment of historical frequency trends in data breaches. Our analysis also provides a comprehensive comparison of data breach frequency across the eight U.S. states, extending knowledge on state-specific differences in cyber risk, which has not been extensively discussed in the current literature. Furthermore, we uncover novel features not previously discussed in the literature, such as differences in cyber risk frequency trends between large and small data breaches. Overall, we find that the reporting delays are lengthening. We also elicit commonalities and heterogeneities in reporting patterns across states, severity levels, and time periods. After adequately estimating IBNRs, we find that frequency is relatively stable before 2020 and increasing after 2020. This is consistent across states. Implications of our findings for cyber insurance are discussed. | 翻訳日:2024-07-02 17:50:16 公開日:2024-06-30 |
# 絡み合いによる集団多体干渉
Entanglement-induced collective many-body interference ( http://arxiv.org/abs/2310.08630v3 ) ライセンス: Link先を確認 | Tommaso Faleo, Eric Brunner, Jonathan W. Webb, Alexander Pickston, Joseph Ho, Gregor Weihs, Andreas Buchleitner, Christoph Dittel, Gabriel Dufour, Alessandro Fedrizzi, Robert Keil, | (参考訳) 絡み合いと干渉はどちらも量子物理学の目覚ましい効果である。
特にリッチな力学は、複数の(少なくとも部分的に)識別不能な粒子がこれらの現象のいずれかに従属する場合に生じる。
絡み合いと多粒子干渉を組み合わせることで、N粒子干渉を観測できる干渉計の設定を提案し、低次干渉を厳格に抑制する。
我々は、この効果を4光子干渉計で実験的に実証した。この干渉は、原理的には2つの独立したビームスプリッターで2対の光子しか干渉しないため、非局所的である。
4つの光子の共同検出により、その集合体4粒子相の関数として変化する高可視性干渉パターン、すなわち真の4体特性が特定される。
Entanglement and interference are both hallmark effects of quantum physics. Particularly rich dynamics arise when multiple (at least partially) indistinguishable particles are subjected to either of these phenomena. By combining both entanglement and many-particle interference, we propose an interferometric setting through which N-particle interference can be observed, while any interference of lower orders is strictly suppressed. We experimentally demonstrate this effect in a four-photon interferometer, where the interference is nonlocal, in principle, as only pairs of photons interfere at two separate and independent beam splitters. A joint detection of all four photons identifies a high-visibility interference pattern varying as a function of their collective four-particle phase, a genuine four-body property. | 翻訳日:2024-07-02 17:50:16 公開日:2024-06-30 |
# ニューラルパーセプション機構を持つ部分観測可能な確率ゲーム
Partially Observable Stochastic Games with Neural Perception Mechanisms ( http://arxiv.org/abs/2310.11566v3 ) ライセンス: Link先を確認 | Rui Yan, Gabriel Santos, Gethin Norman, David Parker, Marta Kwiatkowska, | (参考訳) 確率ゲームは、不確実性の下でのマルチエージェントシーケンシャル決定のためのよく確立されたモデルである。
しかし、現実的な応用では、エージェントは環境の部分的な観察性しか持たないことが多い。
さらに、エージェントは、継続的データに基づいてトレーニングされたニューラルネットワークのようなデータ駆動アプローチを使用して、環境をますます知覚する。
本稿では,ニューラルシンボリックな部分可観測確率ゲーム(NS-POSG)のモデルを提案する。
我々は、離散的データ駆動観察と、完全インフォームドエージェントを用いた部分インフォームドエージェントによる一方的な設定に焦点を当てた。
本稿では,片側NS-POSGを近似解として,片側NS-HSVIと呼ばれる新しい手法を提案する。
ニューラルネットワークプレイメージ分析を用いて,有限多面体表現と粒子に基づく信念表現を構築し,歩行者車と追従回避シナリオの分析にその実践的適用性を示す。
Stochastic games are a well established model for multi-agent sequential decision making under uncertainty. In practical applications, though, agents often have only partial observability of their environment. Furthermore, agents increasingly perceive their environment using data-driven approaches such as neural networks trained on continuous data. We propose the model of neuro-symbolic partially-observable stochastic games (NS-POSGs), a variant of continuous-space concurrent stochastic games that explicitly incorporates neural perception mechanisms. We focus on a one-sided setting with a partially-informed agent using discrete, data-driven observations and another, fully-informed agent. We present a new method, called one-sided NS-HSVI, for approximate solution of one-sided NS-POSGs, which exploits the piecewise constant structure of the model. Using neural network pre-image analysis to construct finite polyhedral representations and particle-based representations for beliefs, we implement our approach and illustrate its practical applicability to the analysis of pedestrian-vehicle and pursuit-evasion scenarios. | 翻訳日:2024-07-02 17:40:31 公開日:2024-06-30 |
# SEMQA: 半抽出型マルチソース質問回答
SEMQA: Semi-Extractive Multi-Source Question Answering ( http://arxiv.org/abs/2311.04886v2 ) ライセンス: Link先を確認 | Tal Schuster, Adam D. Lelkes, Haitian Sun, Jai Gupta, Jonathan Berant, William W. Cohen, Donald Metzler, | (参考訳) 近年,大規模言語モデル (LLM) がサポートする長文質問応答システム (QA) は有望な機能を示している。
しかし、生成した抽象的な回答の帰属と検証は困難であり、その正確性を自動的に評価することは、現在も進行中の課題である。
本研究では,複数ソースを半抽出的に要約することで,複数の質問に答える新しいQAタスクを提案する。
具体的には、SEMQA(Semi- Extractive Multi-source QA)は、モデルに包括的な回答を出力するように要求する一方で、実際の引用されたスパン -- 与えられた入力ソースからコピーされた冗長 -- と、これらのスパンを接着する非実効的なフリーテキストコネクタを1つの凝集通路に混ぜる。
この設定は、厳密だが制約のある抽出QAシステムの出力と、より流動的だが完全に抽象的な答えを属性付けるのが難しくなるギャップを橋渡しする。
特に、高度な言語生成機能を活用する言語モデルの新しいモードを可能にすると同時に、検証、解釈、評価が容易な、詳細なインライン属性を設計によって生成する。
この課題を研究するために、自然および生成された質問に対する人間による半抽出的な回答を用いて、この種の最初のデータセットQuoteSumを作成し、テキストベースの評価指標を定義する。
いくつかのLDMを様々な環境で実験した結果、このような統合能力の開発と研究においてQuoteSumが重要であることが示され、驚くほど難しいことが判明した。
Recently proposed long-form question answering (QA) systems, supported by large language models (LLMs), have shown promising capabilities. Yet, attributing and verifying their generated abstractive answers can be difficult, and automatically evaluating their accuracy remains an ongoing challenge. In this work, we introduce a new QA task for answering multi-answer questions by summarizing multiple diverse sources in a semi-extractive fashion. Specifically, Semi-extractive Multi-source QA (SEMQA) requires models to output a comprehensive answer, while mixing factual quoted spans -- copied verbatim from given input sources -- and non-factual free-text connectors that glue these spans together into a single cohesive passage. This setting bridges the gap between the outputs of well-grounded but constrained extractive QA systems and more fluent but harder to attribute fully abstractive answers. Particularly, it enables a new mode for language models that leverages their advanced language generation capabilities, while also producing fine in-line attributions by-design that are easy to verify, interpret, and evaluate. To study this task, we create the first dataset of this kind, QuoteSum, with human-written semi-extractive answers to natural and generated questions, and define text-based evaluation metrics. Experimenting with several LLMs in various settings, we find this task to be surprisingly challenging, demonstrating the importance of QuoteSum for developing and studying such consolidation capabilities. | 翻訳日:2024-07-02 17:30:47 公開日:2024-06-30 |
# 減衰発振器モードを含む複合開放量子系のモーメント展開法
Moment expansion method for composite open quantum systems including a damped oscillator mode ( http://arxiv.org/abs/2311.06113v2 ) ライセンス: Link先を確認 | Masaaki Tokieda, | (参考訳) 我々は、振動子モードを共振駆動とし、位置二次演算子を介して任意の目標系に結合する。
このような複合開放量子系に対して、対象系の還元密度行列と二次作用素の低次モーメントを計算する数値計算法を開発する。
本研究では,従来の方法のように密度行列要素ではなく,二次作用素のモーメントに関連する量の進化方程式を解く。
光学的手法の適用により,計算コストを大幅に削減して相関関数を正確に計算できることが示されている。
本手法は抽象的な定式化自体に近似を含まないため,数値的精度をよく検討する。
本研究は,特定のパラメータ構造における新しいアプローチの数値感度を明らかにする。
この問題は、一般的に使われているFockベースの代わりに位置ベースを使用することで緩和できる。
We consider a damped oscillator mode that is resonantly driven and is coupled to an arbitrary target system via the position quadrature operator. For such a composite open quantum system, we develop a numerical method to compute the reduced density matrix of the target system and the low-order moments of the quadrature operators. In this method, we solve the evolution equations for quantities related to moments of the quadrature operators, rather than for the density matrix elements as in the conventional approach. The application to an optomechanical setting shows that the new method can compute the correlation functions accurately with a significant reduction in the computational cost. Since the method does not involve any approximation in its abstract formulation itself, we investigate the numerical accuracy closely. This study reveals the numerical sensitivity of the new approach in certain parameter regimes. We find that this issue can be alleviated by using the position basis instead of the commonly used Fock basis. | 翻訳日:2024-07-02 17:30:47 公開日:2024-06-30 |
# 非適応性クリフォードチャネルのキャラクタリゼーション
Characterization of non-adaptive Clifford channels ( http://arxiv.org/abs/2311.06133v3 ) ライセンス: Link先を確認 | Vsevolod I. Yashin, Maria A. Elovenkova, | (参考訳) 安定化回路は量子計算と通信のほぼ全ての領域に存在し、情報理論の観点から研究することに関心がある。
古典的な制御なしに安定化器回路で実現可能なチャネル、純粋な安定化器状態を混合安定化器状態に送信するチャネル、安定化器チョイ状態を持つチャネル、Stinespringダイレーションがクリフォードユニタリを持つチャネルなど、いくつかの自然なアプローチを考える。
これらの定義の等価性を示す。
クリフォード・チャンネルは、一意的な符号化とデコード・マップまで、安定化状態の準備、クビットの破棄、アイデンティティ・チャンネル、完全なデファス・チャネルの産物である。
この単純な構造は、そのようなチャネルの情報容量を計算することができる。
Stabilizer circuits arise in almost every area of quantum computation and communication, so there is an interest in studying them from information-theoretic perspective, i.e. as quantum channels. We consider several natural approaches to what can be called a Clifford channel: the channel that can be realised by a stabilizer circuit without classical control, the channel that sends pure stabilizer states to mixed stabilizer states, the channel with stabilizer Choi state, the channel whose Stinespring dilation can have a Clifford unitary. We show the equivalence of these definitions. Up to unitary encoding and decoding maps any Clifford channel is a product of stabilizer state preparations, qubit discardings, identity channels and full dephasing channels. This simple structure allows to compute information capacities of such channels. | 翻訳日:2024-07-02 17:30:47 公開日:2024-06-30 |
# Plum:メタヒューリスティックを用いたプロンプトラーニング
Plum: Prompt Learning using Metaheuristic ( http://arxiv.org/abs/2311.08364v3 ) ライセンス: Link先を確認 | Rui Pan, Shuo Xing, Shizhe Diao, Wenhe Sun, Xiang Liu, Kashun Shum, Renjie Pi, Jipeng Zhang, Tong Zhang, | (参考訳) 大規模言語モデルの出現以来、迅速な学習はこれらのモデルの最適化とカスタマイズの一般的な方法となっている。
Chain-of-Thoughtのような特別なプロンプトは、これらのモデルの中でこれまで未知の推論能力を明らかにしている。
しかし、効果的なプロンプトの発見の進行は遅くなり、一般的なプロンプト最適化手法への欲求が高まった。
残念ながら、真の「一般」、すなわち、自動的、離散的、ブラックボックス、グラデーションフリー、そして全てを同時に解釈する基準を満たす既存の素早い学習方法はほとんどない。
本稿では,100以上の選択肢を持つ離散非凸最適化手法の分岐であるメタヒューリスティックスを,学習の迅速化に向けた有望なアプローチとして紹介する。
本パラダイムでは,山登り,シミュレート・アニーリング,クロスオーバーのない遺伝的アルゴリズム,タブ検索,調和探索の6つの方法を試行し,その効果をホワイトボックスとブラックボックスのプロンプト学習で実証した。
さらに、これらの手法は、これまで推論や画像生成のタスクで知られていなかった、より人間に理解可能なプロンプトの発見に利用でき、即時最適化における可能性のコルヌコピアへの扉を開くことができることを示す。
すべてのコードは \url{https://github.com/research4pan/Plum} でリリースします。
Since the emergence of large language models, prompt learning has become a popular method for optimizing and customizing these models. Special prompts, such as Chain-of-Thought, have even revealed previously unknown reasoning capabilities within these models. However, the progress of discovering effective prompts has been slow, driving a desire for general prompt optimization methods. Unfortunately, few existing prompt learning methods satisfy the criteria of being truly "general", i.e., automatic, discrete, black-box, gradient-free, and interpretable all at once. In this paper, we introduce metaheuristics, a branch of discrete non-convex optimization methods with over 100 options, as a promising approach to prompt learning. Within our paradigm, we test six typical methods: hill climbing, simulated annealing, genetic algorithms with/without crossover, tabu search, and harmony search, demonstrating their effectiveness in white-box and black-box prompt learning. Furthermore, we show that these methods can be used to discover more human-understandable prompts that were previously unknown in both reasoning and image generation tasks, opening the door to a cornucopia of possibilities in prompt optimization. We release all the codes in \url{https://github.com/research4pan/Plum}. | 翻訳日:2024-07-02 17:30:47 公開日:2024-06-30 |
# LQ-LoRA:効率的な言語モデルファインタニングのための低ランク・量子行列分解
LQ-LoRA: Low-rank Plus Quantized Matrix Decomposition for Efficient Language Model Finetuning ( http://arxiv.org/abs/2311.12023v3 ) ライセンス: Link先を確認 | Han Guo, Philip Greengard, Eric P. Xing, Yoon Kim, | (参考訳) 本稿では,事前学習言語モデルのメモリ効率向上のための簡単な手法を提案する。
提案手法では,事前学習した行列を高精度の低ランク成分とメモリ効率の量子化成分に分解するために反復アルゴリズムを用いる。
微調整中、量子化コンポーネントは固定され、ローランクコンポーネントのみが更新される。
本稿では,各行列に対する量子化パラメータ(例えば,ビット幅,ブロックサイズ)の動的構成を可能にする量子化成分の整数線形計画法について述べる。
さらに、行列分解時の再構成目的を重み付けするために、フィッシャー情報行列の近似を用いたアルゴリズムのデータ認識バージョンについて検討する。
RoBERTa と LLaMA-2 (7B, 70B) の微調整実験により,我々の低ランク+量子化行列分解法 (LQ-LoRA) が強い QLoRA と GPTQ-LoRA ベースラインを上回り,性能劣化の少ない sub-3 ビットへのアグレッシブ量子化を可能にすることを示した。
この設定では、2.75ビットのLLaMA-2-70Bモデル(低ランクのコンポーネントを含めると平均2.85ビットで、27GBのGPUメモリを必要とする)は16ビットのベースラインと比較してきちんと動作します。
We propose a simple approach for memory-efficient adaptation of pretrained language models. Our approach uses an iterative algorithm to decompose each pretrained matrix into a high-precision low-rank component and a memory-efficient quantized component. During finetuning, the quantized component remains fixed and only the low-rank component is updated. We present an integer linear programming formulation of the quantization component which enables dynamic configuration of quantization parameters (e.g., bit-width, block size) for each matrix given an overall target memory budget. We further explore a data-aware version of the algorithm which uses an approximation of the Fisher information matrix to weight the reconstruction objective during matrix decomposition. Experiments on finetuning RoBERTa and LLaMA-2 (7B and 70B) demonstrate that our low-rank plus quantized matrix decomposition approach (LQ-LoRA) outperforms strong QLoRA and GPTQ-LoRA baselines and enables aggressive quantization to sub-3 bits with only minor performance degradations. When finetuned on a language modeling calibration dataset, LQ-LoRA can also be used for model compression; in this setting our 2.75-bit LLaMA-2-70B model (which has 2.85 bits on average when including the low-rank components and requires 27GB of GPU memory) performs respectably compared to the 16-bit baseline. | 翻訳日:2024-07-02 17:30:47 公開日:2024-06-30 |
# RoboGPT : 日常指導における長期的意思決定を具体化する知的エージェント
RoboGPT: an intelligent agent of making embodied long-term decisions for daily instruction tasks ( http://arxiv.org/abs/2311.15649v2 ) ライセンス: Link先を確認 | Yaran Chen, Wenbo Cui, Yuanwen Chen, Mining Tan, Xinyao Zhang, Dongbin Zhao, He Wang, | (参考訳) ロボットエージェントは、自然言語による日々のタスクを解決するために、常識と長期的なシーケンシャルな決定をマスターする必要がある。
自然言語処理におけるLarge Language Models (LLMs) の発展は、複雑なロボット計画においてLLMを使うことへの取り組みにインスピレーションを与えている。
LLMの大きな一般化と命令タスクの理解にもかかわらず、LLMの生成したタスクプランは実現可能性と正確性に欠けることがある。
この問題に対処するため、RoboGPTエージェント\footnote{our code and dataset will released} for embodied long-term decision for daily tasks with two module。
1) 業務を複数のサブゴールに分割する再計画によるLCMに基づく計画
2)RoboSkillは,より優れたナビゲーションと操作技術を学ぶために,サブゴール用に個別に設計されている。
LLMsベースのプランニングは、RoboGPTと呼ばれる新しいロボットデータセットと再計画によって強化されている。
新しいロボットデータセットは、Llamaモデルを微調整し、RoboGPTを取得するために、毎日67万のトレーニングタスクを収集する。
強力な一般化のRoboGPTプランナは、毎日数百の命令タスクを計画できる。
さらに、低計算のRe-Planモジュールは、計画が環境に柔軟に適応できるように設計されており、命名上の多様性の課題に対処している。
提案するRoboGPTエージェントは、ALFRED日々のタスクにおいてSOTAメソッドよりも優れている。
さらに、RoboGPTプランナーは、数百の目に見えない日々のタスクやドメインタスクのタスク計画合理性において、ChatGPTのようなSOTA LLMベースのプランナーを超え、大きなモデルの本来の広範な応用と汎用性を維持している。
Robotic agents must master common sense and long-term sequential decisions to solve daily tasks through natural language instruction. The developments in Large Language Models (LLMs) in natural language processing have inspired efforts to use LLMs in complex robot planning. Despite LLMs' great generalization and comprehension of instruction tasks, LLMs-generated task plans sometimes lack feasibility and correctness. To address the problem, we propose a RoboGPT agent\footnote{our code and dataset will be released soon} for making embodied long-term decisions for daily tasks, with two modules: 1) LLMs-based planning with re-plan to break the task into multiple sub-goals; 2) RoboSkill individually designed for sub-goals to learn better navigation and manipulation skills. The LLMs-based planning is enhanced with a new robotic dataset and re-plan, called RoboGPT. The new robotic dataset of 67k daily instruction tasks is gathered for fine-tuning the Llama model and obtaining RoboGPT. RoboGPT planner with strong generalization can plan hundreds of daily instruction tasks. Additionally, a low-computational Re-Plan module is designed to allow plans to flexibly adapt to the environment, thereby addressing the nomenclature diversity challenge. The proposed RoboGPT agent outperforms SOTA methods on the ALFRED daily tasks. Moreover, RoboGPT planner exceeds SOTA LLM-based planners like ChatGPT in task-planning rationality for hundreds of unseen daily tasks, and even other domain tasks, while keeping the large model's original broad application and generality. | 翻訳日:2024-07-02 15:37:58 公開日:2024-06-30 |
# 時系列拡散法:振動信号生成のためのデノイング拡散確率モデル
Time Series Diffusion Method: A Denoising Diffusion Probabilistic Model for Vibration Signal Generation ( http://arxiv.org/abs/2312.07981v2 ) ライセンス: Link先を確認 | Haiming Yi, Lei Hou, Yuhong Jin, Nasser A. Saeed, Ali Kandil, Hao Duan, | (参考訳) 拡散モデルは、画像生成など様々な研究分野において、強力なデータ生成能力を実証してきた。
しかし、振動信号生成の分野では、生成した信号の品質を評価する基準と画像生成の基準とが異なり、両者の間には根本的な違いがある。
現在、拡散モデルが振動信号を生成する能力についての研究は行われていない。
本稿では,拡散モデルの基本原理を利用して,振動信号生成のための時系列拡散法(TSDM)を提案する。
TSDMは、注目ブロック、ResBlock、TimeEmbeddingを備えた改良されたU-netアーキテクチャを使用して、1次元時系列データから機能を効果的に分割し抽出する。
時系列生成のための前方拡散および逆復調プロセスに基づいて動作する。
単周波・多周波データセットと断層データセットを用いて実験検証を行う。
その結果,TSDMは時系列における単一周波数および多周波数の特徴を正確に生成し,軸受欠陥系列の拡散生成結果の基本周波数特性を保持することができることがわかった。
また,従来のDDPMは高品質な振動信号を生成できなかったが,アテンションブロックとResBlockを組み合わせたTSDMにおける改良されたU-netは,有効に振動信号生成を改善することができた。
最後に, TSDMを3つのパブリックベアリング断層データセットの小さなサンプル断層診断に適用し, 3つのデータセットの小さなサンプル断層診断の精度を, それぞれ32.380%, 18.355%, 9.298%改善した。
Diffusion models have demonstrated powerful data generation capabilities in various research fields such as image generation. However, in the field of vibration signal generation, the criteria for evaluating the quality of the generated signal are different from that of image generation and there is a fundamental difference between them. At present, there is no research on the ability of diffusion model to generate vibration signal. In this paper, a Time Series Diffusion Method (TSDM) is proposed for vibration signal generation, leveraging the foundational principles of diffusion models. The TSDM uses an improved U-net architecture with attention block, ResBlock and TimeEmbedding to effectively segment and extract features from one-dimensional time series data. It operates based on forward diffusion and reverse denoising processes for time-series generation. Experimental validation is conducted using single-frequency, multi-frequency datasets, and bearing fault datasets. The results show that TSDM can accurately generate the single-frequency and multi-frequency features in the time series and retain the basic frequency features for the diffusion generation results of the bearing fault series. It is also found that the original DDPM could not generate high quality vibration signals, but the improved U-net in TSDM, which applied the combination of attention block and ResBlock, could effectively improve the quality of vibration signal generation. Finally, TSDM is applied to the small sample fault diagnosis of three public bearing fault datasets, and the results show that the accuracy of small sample fault diagnosis of the three datasets is improved by 32.380%, 18.355% and 9.298% at most, respectively. | 翻訳日:2024-07-02 15:37:58 公開日:2024-06-30 |
# キュレートLDM:LLMのシナジーと低データ体制における表層拡大のためのデータキュレーション
Curated LLM: Synergy of LLMs and Data Curation for tabular augmentation in low-data regimes ( http://arxiv.org/abs/2312.12112v3 ) ライセンス: Link先を確認 | Nabeel Seedat, Nicolas Huynh, Boris van Breugel, Mihaela van der Schaar, | (参考訳) 低データ設定での機械学習(ML)は、未承認だが重要な問題である。
したがって、MLに必要なデータセットのサンプルサイズを増やすためのデータ拡張方法は、データ削除されたリージョンやドメインにおけるMLの変換ポテンシャルを解放する鍵となる。
残念なことに、この制限されたトレーニングセットは、MLタスクに必要な大規模で多様な拡張データセットを生成する能力において、従来の表形式の合成データジェネレータを制約している。
この課題に対処するために,Large Language Models (LLMs) の知識を低データ構造におけるデータ拡張に活用したCLLMを導入する。
しかし、LLMが生成したデータはすべて、生成モデルのように下流のユーティリティを改善するわけではない。
その結果,信頼性と不確かさの指標と合わせて,学習力学を活かした定性的なキュレーション機構を導入し,高品質なデータセットを得ることができた。
実証的には、複数の実世界のデータセットにおいて、従来のジェネレータと比較して、低データ状態におけるCLLMの優れた性能を示す。
さらに、LLM生成とキュレーションメカニズムに関する洞察を提供し、高品質な拡張データセットを出力できる機能に光を当てています。
Machine Learning (ML) in low-data settings remains an underappreciated yet crucial problem. Hence, data augmentation methods to increase the sample size of datasets needed for ML are key to unlocking the transformative potential of ML in data-deprived regions and domains. Unfortunately, the limited training set constrains traditional tabular synthetic data generators in their ability to generate a large and diverse augmented dataset needed for ML tasks. To address this challenge, we introduce CLLM, which leverages the prior knowledge of Large Language Models (LLMs) for data augmentation in the low-data regime. However, not all the data generated by LLMs will improve downstream utility, as for any generative model. Consequently, we introduce a principled curation mechanism, leveraging learning dynamics, coupled with confidence and uncertainty metrics, to obtain a high-quality dataset. Empirically, on multiple real-world datasets, we demonstrate the superior performance of CLLM in the low-data regime compared to conventional generators. Additionally, we provide insights into the LLM generation and curation mechanism, shedding light on the features that enable them to output high-quality augmented datasets. | 翻訳日:2024-07-02 15:28:10 公開日:2024-06-30 |
# 実空間における量子臨界点における北エフ鎖の構造とスケーリング
Structure and scaling of Kitaev chain across a quantum critical point in real space ( http://arxiv.org/abs/2401.05954v2 ) ライセンス: Link先を確認 | Yan He, Chih-Chun Chien, | (参考訳) 空間的キブル・ズレーク機構(KZM)は、格子の半分で消滅する不均一なペアリング相互作用を持つキタエフ連鎖に適用され、実空間における超流動相と常ガス相を分離する量子臨界点となる。
弱い相互作用を持つBCS理論は、BCSの順序パラメータが相互作用に非解析的に依存するため、従来のパワーローの結果とは異なる、対の波動関数の正規ガス領域への侵入のスケーリング挙動を予測する。
Bogoliubov-de Gennes(BdG)方程式は、スケーリングの挙動を確認する数値結果を生成し、強相互作用系における複雑さを示唆する。
ステップ関数クエンチの制限ケースは、追加の長さスケールがなければ、BCSコヒーレンス長の優位性を示す。
さらに、BdG方程式からのエネルギースペクトルと波動関数は、トポロジカルエッジ状態に加えて、通常のガス領域からの豊富なギャップ状態を示す。
The spatial Kibble-Zurek mechanism (KZM) is applied to the Kitaev chain with inhomogeneous pairing interactions that vanish in half of the lattice and result in a quantum critical point separating the superfluid and normal-gas phases in real space. The weakly-interacting BCS theory predicts scaling behavior of the penetration of the pair wavefunction into the normal-gas region different from conventional power-law results due to the non-analytic dependence of the BCS order parameter on the interaction. The Bogoliubov-de Gennes (BdG) equation produces numerical results confirming the scaling behavior and hints complications in the strong-interaction regime. The limiting case of the step-function quench shows the dominance of the BCS coherence length in absence of additional length scale. Furthermore, the energy spectrum and wavefunctions from the BdG equation show abundant in-gap states from the normal-gas region in addition to the topological edge states. | 翻訳日:2024-07-02 15:28:10 公開日:2024-06-30 |
# ゴール表現のための空間的・時間的抽象化の再構成
Reconciling Spatial and Temporal Abstractions for Goal Representation ( http://arxiv.org/abs/2401.09870v2 ) ライセンス: Link先を確認 | Mehdi Zadem, Sergio Mover, Sao Mai Nguyen, | (参考訳) ゴール表現は、複雑な学習問題をより簡単なサブタスクに分解することで階層強化学習(HRL)アルゴリズムの性能に影響を与える。
近年の研究では、時間的に抽象的な環境動態を保った表現が難題の解決に成功し、最適性の理論的保証が得られている。
しかし、これらの手法は、環境力学が複雑さを増すタスク、すなわち時間的に抽象的な遷移関係がより多くの変数に依存するタスクにスケールできない。
一方,従来の課題を緩和するために空間的抽象化を利用することも試みている。
その制限には、高次元環境へのスケーラビリティと、事前の知識への依存が含まれる。
本稿では,空間的および時間的目標抽象化の両方において,階層の異なるレベルにおいて,新しい3層HRLアルゴリズムを提案する。
学習した政策の後悔の限界に関する理論的研究を行う。
本研究では、複雑な連続制御タスクに対するアプローチを評価し、このアプローチによって学習された空間的および時間的抽象化の有効性を実証する。
https://github.com/cosynus-lix/STAR.com でオープンソースコードを確認する。
Goal representation affects the performance of Hierarchical Reinforcement Learning (HRL) algorithms by decomposing the complex learning problem into easier subtasks. Recent studies show that representations that preserve temporally abstract environment dynamics are successful in solving difficult problems and provide theoretical guarantees for optimality. These methods however cannot scale to tasks where environment dynamics increase in complexity i.e. the temporally abstract transition relations depend on larger number of variables. On the other hand, other efforts have tried to use spatial abstraction to mitigate the previous issues. Their limitations include scalability to high dimensional environments and dependency on prior knowledge. In this paper, we propose a novel three-layer HRL algorithm that introduces, at different levels of the hierarchy, both a spatial and a temporal goal abstraction. We provide a theoretical study of the regret bounds of the learned policies. We evaluate the approach on complex continuous control tasks, demonstrating the effectiveness of spatial and temporal abstractions learned by this approach. Find open-source code at https://github.com/cosynus-lix/STAR. | 翻訳日:2024-07-02 15:28:10 公開日:2024-06-30 |
# CFMatch: オープンドメイン質問応答のための専門家判断による回答等価性評価の自動化
CFMatch: Aligning Automated Answer Equivalence Evaluation with Expert Judgments For Open-Domain Question Answering ( http://arxiv.org/abs/2401.13170v4 ) ライセンス: Link先を確認 | Zongxia Li, Ishani Mondal, Yijun Liang, Huy Nghiem, Jordan Boyd-Graber, | (参考訳) 質問応答(QA)は、答えが正しいかどうかを知る場合にのみ進行するが、最も困難で興味深いQAの例では、回答等価性(AE)を決定するための現在の評価指標は、人間の判断と一致しないことが多い。
データの欠如とモデルが大きすぎるという2つの課題がある: LLMベースのスコアラは人間の判断とよりよく相関できるが、このタスクは限定的なQAデータセットでのみテストされている。
プロの人間QAコンテストから採用したマシンQAにおいて、AEを評価するための明確で一貫したガイドラインを提供することで、これらの問題を是正する。
また,標準評価と,より効率的で堅牢で軽量な識別型AE分類器ベースのマッチング手法(CFMatch, 1 MB未満)を導入し,人間の判断に適合した専門家によるAE規則に従って,回答の正当性をより正確に評価するよう訓練・検証した。
Question answering (QA) can only make progress if we know if an answer is correct, but for many of the most challenging and interesting QA examples, current evaluation metrics to determine answer equivalence (AE) often do not align with human judgments, particularly more verbose, free-form answers from large language models (LLM). There are two challenges: a lack of data and that models are too big: LLM-based scorers can correlate better with human judges, but this task has only been tested on limited QA datasets, and even when available, update of the model is limited because LLMs are large and often expensive. We rectify both of these issues by providing clear and consistent guidelines for evaluating AE in machine QA adopted from professional human QA contests. We also introduce a combination of standard evaluation and a more efficient, robust, and lightweight discriminate AE classifier-based matching method (CFMatch, smaller than 1 MB), trained and validated to more accurately evaluate answer correctness in accordance with adopted expert AE rules that are more aligned with human judgments. | 翻訳日:2024-07-02 15:28:10 公開日:2024-06-30 |
# 拡張ネットワークにおける連続学習のためのトポロジ対応組込みメモリ
Topology-aware Embedding Memory for Continual Learning on Expanding Networks ( http://arxiv.org/abs/2401.13200v3 ) ライセンス: Link先を確認 | Xikun Zhang, Dongjin Song, Yixin Chen, Dacheng Tao, | (参考訳) メモリリプレイに基づく手法は、漸進的に蓄積されたユークリッドデータによる継続的な学習において大きな成功を収めている。
しかし、ネットワークの継続的な拡張にそれらを直接適用することは、代表ノードとその関連するトポロジ的近傍構造をバッファリングする必要があるため、潜在的なメモリ爆発問題を引き起こす。
この目的のために,メモリ爆発問題における主要な課題を体系的に分析し,この課題に対処するために,パラメータ分離グラフニューラルネットワーク(PDGNN)とトポロジ対応埋め込みメモリ(TEM)を併用した一般的なフレームワークである「textit{i.e.}」を提案する。
提案されたフレームワークは、メモリ空間の複雑さを$\mathcal{O}(nd^L)$から$\mathcal{O}(n)$~\footnote{$n$:Memory budget, $d$: average node degree, $L$: the radius of the GNN receptive field} に還元するだけでなく、メモリ再生のためのトポロジ情報を完全に活用する。
具体的には、PDGNNは、訓練可能なパラメータを演算エゴ・サブネットワークから \textit{Topology-aware Embeddings} (TEs) を介して分離し、エゴ・サブネットワークをコンパクトなベクトル(\textit{i.e.}, TEs)に圧縮し、メモリ消費を減らす。
この枠組みに基づいて,拡張ネットワークにおける連続学習におけるユニークな \textit{pseudo-training effect} を発見し,その効果は,厳密なメモリ予算で性能を向上させる新しい \textit{coverage maximization sample} 戦略を開発する動機となる。
メモリ爆発問題に対処し、トポロジカル情報をメモリリプレイに組み込むことで、TEMを用いたPDGNNは、特に挑戦的なクラスインクリメンタルセッティングにおいて、最先端技術よりも著しく優れていることを示した。
Memory replay based techniques have shown great success for continual learning with incrementally accumulated Euclidean data. Directly applying them to continually expanding networks, however, leads to the potential memory explosion problem due to the need to buffer representative nodes and their associated topological neighborhood structures. To this end, we systematically analyze the key challenges in the memory explosion problem, and present a general framework, \textit{i.e.}, Parameter Decoupled Graph Neural Networks (PDGNNs) with Topology-aware Embedding Memory (TEM), to tackle this issue. The proposed framework not only reduces the memory space complexity from $\mathcal{O}(nd^L)$ to $\mathcal{O}(n)$~\footnote{$n$: memory budget, $d$: average node degree, $L$: the radius of the GNN receptive field}, but also fully utilizes the topological information for memory replay. Specifically, PDGNNs decouple trainable parameters from the computation ego-subnetwork via \textit{Topology-aware Embeddings} (TEs), which compress ego-subnetworks into compact vectors (\textit{i.e.}, TEs) to reduce the memory consumption. Based on this framework, we discover a unique \textit{pseudo-training effect} in continual learning on expanding networks and this effect motivates us to develop a novel \textit{coverage maximization sampling} strategy that can enhance the performance with a tight memory budget. Thorough empirical studies demonstrate that, by tackling the memory explosion problem and incorporating topological information into memory replay, PDGNNs with TEM significantly outperform state-of-the-art techniques, especially in the challenging class-incremental setting. | 翻訳日:2024-07-02 15:18:25 公開日:2024-06-30 |
# AdaTreeFormer: 単一高分解能画像からの樹木数に対するショット領域適応
AdaTreeFormer: Few Shot Domain Adaptation for Tree Counting from a Single High-Resolution Image ( http://arxiv.org/abs/2402.02956v4 ) ライセンス: Link先を確認 | Hamed Amini Amirkolaee, Miaojing Shi, Lianghua He, Mark Mulligan, | (参考訳) 測光とリモートセンシングの分野では,1つの空中・衛星画像のみを用いて木密度を推定・計数する作業は難しい課題である。
しかし、森林管理において重要な役割を担っている。
様々な地形の多種多様な木は、木を数えてうまく機能させるのを著しく妨げている。
本研究の目的は,ソースドメインから十分なラベル付き木を用いて学習し,限られたラベル付き木数で対象ドメインに適応するフレームワークを提案することである。
我々の手法はAdaTreeFormerと呼ばれ、ソースとターゲットドメインからロバストな特徴を抽出する階層的特徴抽出方式を備えた1つの共有エンコーダを含んでいる。
また、ソースドメインとターゲットドメインから自己ドメインアテンションマップを抽出する2つのサブネットと、クロスドメインアテンションマップを抽出する1つのサブネットで構成されている。
後者では,木密度マップの生成中に異なるドメインから関連情報を抽出するアテンション・ツー・アダプティブ・メカニズムを導入し,ソース・ターゲット領域の特徴を段階的に整列する階層的クロスドメイン特徴アライメントスキームを提案する。
我々はまた、ソースドメインとターゲットドメインのギャップをさらに減らすために、フレームワークに敵対的学習を取り入れています。
我々のAdaTreeFormerは,3つのツリーカウントデータセット,Shaie Jiangsu,Yosemite,Londonの6つの設計されたドメイン適応タスクで評価されている。
実験の結果、AdaTreeFormerはヨセミテから江蘇データセットのクロスドメインにおける最先端の \eg を著しく上回り、絶対的なカウント誤差と検出された木の位置の精度の10.8\%の増加から15.9ポイントの削減を実現していることがわかった。
コードとデータセットはhttps://github.com/HAAClassic/AdaTreeFormer.comで公開されている。
The process of estimating and counting tree density using only a single aerial or satellite image is a difficult task in the fields of photogrammetry and remote sensing. However, it plays a crucial role in the management of forests. The huge variety of trees in varied topography severely hinders tree counting models to perform well. The purpose of this paper is to propose a framework that is learnt from the source domain with sufficient labeled trees and is adapted to the target domain with only a limited number of labeled trees. Our method, termed as AdaTreeFormer, contains one shared encoder with a hierarchical feature extraction scheme to extract robust features from the source and target domains. It also consists of three subnets: two for extracting self-domain attention maps from source and target domains respectively and one for extracting cross-domain attention maps. For the latter, an attention-to-adapt mechanism is introduced to distill relevant information from different domains while generating tree density maps; a hierarchical cross-domain feature alignment scheme is proposed that progressively aligns the features from the source and target domains. We also adopt adversarial learning into the framework to further reduce the gap between source and target domains. Our AdaTreeFormer is evaluated on six designed domain adaptation tasks using three tree counting datasets, \ie Jiangsu, Yosemite, and London. Experimental results show that AdaTreeFormer significantly surpasses the state of the art, \eg in the cross domain from the Yosemite to Jiangsu dataset, it achieves a reduction of 15.9 points in terms of the absolute counting errors and an increase of 10.8\% in the accuracy of the detected trees' locations. The codes and datasets are available at https://github.com/HAAClassic/AdaTreeFormer. | 翻訳日:2024-07-02 15:18:25 公開日:2024-06-30 |
# 2層ネットワークにおけるグラディエントダイスのためのバッチの再利用効果:情報量とプループ指数を破る
The Benefits of Reusing Batches for Gradient Descent in Two-Layer Networks: Breaking the Curse of Information and Leap Exponents ( http://arxiv.org/abs/2402.03220v3 ) ライセンス: Link先を確認 | Yatin Dandi, Emanuele Troiani, Luca Arnaboldi, Luca Pesce, Lenka Zdeborová, Florent Krzakala, | (参考訳) マルチインデックスターゲット関数を学習する際の2層ニューラルネットワークのトレーニングダイナミクスについて検討する。
本稿では,複数回バッチを再利用するマルチパス勾配勾配(GD)に着目し,単一パス勾配勾配よりも学習可能な関数の結論を大きく変えることを示す。
特に、有限段差をもつマルチパスGDは、目標関数の情報指数 (Ben Arous et al , 2021) と跳躍指数 (Abbe et al , 2023) によって与えられる勾配流とシングルパスGDの限界を克服する。
本研究では, 階段特性を満足しない関数に対しても, ネットワークは2段階に留まらず, 目標部分空間と重なり合うことを実証する(Abbe et al , 2021)。
有限時間で効率的に学習された関数の(広さの)クラスを特徴づける。
この結果の証明は、動的平均場理論(DMFT)の分析に基づいている。
さらに、重みの低次元射影の動的過程の閉形式記述と、その理論を説明する数値実験について述べる。
We investigate the training dynamics of two-layer neural networks when learning multi-index target functions. We focus on multi-pass gradient descent (GD) that reuses the batches multiple times and show that it significantly changes the conclusion about which functions are learnable compared to single-pass gradient descent. In particular, multi-pass GD with finite stepsize is found to overcome the limitations of gradient flow and single-pass GD given by the information exponent (Ben Arous et al., 2021) and leap exponent (Abbe et al., 2023) of the target function. We show that upon re-using batches, the network achieves in just two time steps an overlap with the target subspace even for functions not satisfying the staircase property (Abbe et al., 2021). We characterize the (broad) class of functions efficiently learned in finite time. The proof of our results is based on the analysis of the Dynamical Mean-Field Theory (DMFT). We further provide a closed-form description of the dynamical process of the low-dimensional projections of the weights, and numerical experiments illustrating the theory. | 翻訳日:2024-07-02 15:18:25 公開日:2024-06-30 |
# 2つのトレードはバッフルされない:グラフを合理的なグラディエントマッチングで凝縮する
Two Trades is not Baffled: Condensing Graph via Crafting Rational Gradient Matching ( http://arxiv.org/abs/2402.04924v3 ) ライセンス: Link先を確認 | Tianle Zhang, Yuchen Zhang, Kun Wang, Kai Wang, Beining Yang, Kaipeng Zhang, Wenqi Shao, Ping Liu, Joey Tianyi Zhou, Yang You, | (参考訳) 大規模グラフの学習はグラフ表現学習において顕著な成果を上げてきたが、そのコストと記憶力の増大が懸念されている。
最も有望な方向の1つとして、グラフ凝縮法は勾配マッチングを用いてこれらの問題に対処し、全グラフをより簡潔で情報に富んだ合成集合に凝縮することを目的としている。
これらの戦略は励まされるが、主に勾配の一致方向を強調し、訓練軌道のずれにつながる。
このような偏差は、凝縮と評価相の違いによってさらに拡大され、凝縮グラフの性能に有害な累積誤差が決定される。
そこで本研究では,従来のデータセットの特徴分布に近い最適化された出発点と,勾配マッチングのためのより洗練された戦略を提供する,新しいグラフ凝縮法である \textbf{C}raf\textbf{T}ing \textbf{R}ationa\textbf{L} トラジェクトリ(\textbf{CTRL})を提案する。
理論的には、CTRLは凝縮グラフの性能に対する累積誤差の影響を効果的に中和することができる。
我々は、CTRLの有効性をサポートするために、様々なグラフデータセットと下流タスクについて広範な実験を行った。
コードはhttps://github.com/NUS-HPC-AI-Lab/CTRLで公開されている。
Training on large-scale graphs has achieved remarkable results in graph representation learning, but its cost and storage have raised growing concerns. As one of the most promising directions, graph condensation methods address these issues by employing gradient matching, aiming to condense the full graph into a more concise yet information-rich synthetic set. Though encouraging, these strategies primarily emphasize matching directions of the gradients, which leads to deviations in the training trajectories. Such deviations are further magnified by the differences between the condensation and evaluation phases, culminating in accumulated errors, which detrimentally affect the performance of the condensed graphs. In light of this, we propose a novel graph condensation method named \textbf{C}raf\textbf{T}ing \textbf{R}ationa\textbf{L} trajectory (\textbf{CTRL}), which offers an optimized starting point closer to the original dataset's feature distribution and a more refined strategy for gradient matching. Theoretically, CTRL can effectively neutralize the impact of accumulated errors on the performance of condensed graphs. We provide extensive experiments on various graph datasets and downstream tasks to support the effectiveness of CTRL. Code is released at https://github.com/NUS-HPC-AI-Lab/CTRL. | 翻訳日:2024-07-02 15:08:40 公開日:2024-06-30 |
# シンボリックマルチステップ推論タスクで学習した変圧器の力学解析
A Mechanistic Analysis of a Transformer Trained on a Symbolic Multi-Step Reasoning Task ( http://arxiv.org/abs/2402.11917v3 ) ライセンス: Link先を確認 | Jannik Brinkmann, Abhay Sheshadri, Victor Levoso, Paul Swoboda, Christian Bartelt, | (参考訳) トランスフォーマーは、様々な推論ベンチマークで印象的なパフォーマンスを示します。
これらの能力が実際の推論の結果である程度を評価するために、既存の研究は行動研究のための洗練されたベンチマークの開発に重点を置いてきた。
しかし、これらの研究は、観測能力を駆動する内部メカニズムに関する洞察を与えていない。
変圧器の内部機構の理解を深めるため, 合成推論タスクで訓練した変圧器の包括的力学解析を行った。
モデルがタスクの解決に使用する解釈可能なメカニズムのセットを特定し,相関的および因果的証拠を用いた結果の検証を行った。
提案手法は, 並列に動作し, 中間結果を選択したトークン位置に格納する, 深さ境界の繰り返し機構を実装していることを示唆する。
私たちが合成設定で特定したモチーフは、トランスフォーマーのより広範な動作原理に関する貴重な洞察を与え、より複雑なモデルを理解するための基盤となることを期待する。
Transformers demonstrate impressive performance on a range of reasoning benchmarks. To evaluate the degree to which these abilities are a result of actual reasoning, existing work has focused on developing sophisticated benchmarks for behavioral studies. However, these studies do not provide insights into the internal mechanisms driving the observed capabilities. To improve our understanding of the internal mechanisms of transformers, we present a comprehensive mechanistic analysis of a transformer trained on a synthetic reasoning task. We identify a set of interpretable mechanisms the model uses to solve the task, and validate our findings using correlational and causal evidence. Our results suggest that it implements a depth-bounded recurrent mechanisms that operates in parallel and stores intermediate results in selected token positions. We anticipate that the motifs we identified in our synthetic setting can provide valuable insights into the broader operating principles of transformers and thus provide a basis for understanding more complex models. | 翻訳日:2024-07-02 15:08:40 公開日:2024-06-30 |
# 光ツイーザを用いた原子時計干渉計測
Atomic clock interferometry using optical tweezers ( http://arxiv.org/abs/2402.14412v2 ) ライセンス: Link先を確認 | Ilan Meltzer, Yoav Sagi, | (参考訳) クロック干渉法(Clock interferometry)は、時計を2つの異なる経路に分割し、それらの間の適切な時間差を明らかにする方法で再結合することを指す。
2つの別々のクロックの比較とは異なり、このアプローチは非平坦な時空が量子コヒーレンスにどのように影響するかをテストすることができる。
現在、原子時計はデバイスを維持するのに最も正確な時間である。
本稿では、クロック干渉計を実装するための光ツイーザを提案する。
提案するクロック干渉計は、光学トラップに保持されるアルカリ性アース様原子を魔法の波長で利用している。
断熱型, トウィーザ型, スプリッティング, リコンビネート方式と, 時計状態のラムゼイ系列を改良することにより, 重力時間拡張に対する線形感度を実現する。
さらに、時間拡張の測定はツイーザービームの強度の相対的なゆらぎに敏感である。
我々は、ツイーザークロック干渉計を解析し、現在の技術能力で実現可能であることを示す。
提案された干渉計は、重力赤方偏移が量子コヒーレンスに与える影響をテストし、量子双対パラドックスを実装した。
Clock interferometry refers to the coherent splitting of a clock into two different paths and recombining in a way that reveals the proper time difference between them. Unlike the comparison of two separate clocks, this approach allows testing how non-flat spacetime influences quantum coherence. Atomic clocks are currently the most accurate time keeping devices. Here we propose using optical tweezers to implement clock interferometry. Our proposed clock interferometer employs an alkaline-earth-like atom held in an optical trap at the magic wavelength. Through a combination of adiabatic, tweezer-based, splitting and recombining schemes and a modified Ramsey sequence on the clock states, we achieve a linear sensitivity to the gravitational time dilation. Moreover, the measurement of the time dilation is insensitive to relative fluctuations in the intensity of the tweezer beams. We analyze the tweezer clock interferometer and show that it is feasible with current technological capabilities. The proposed interferometer could test the effect of gravitational redshift on quantum coherence, and implement the quantum twin paradox. | 翻訳日:2024-07-02 14:58:55 公開日:2024-06-30 |
# NaVid:ビデオベースのVLMが視覚・言語ナビゲーションの次のステップを計画
NaVid: Video-based VLM Plans the Next Step for Vision-and-Language Navigation ( http://arxiv.org/abs/2402.15852v7 ) ライセンス: Link先を確認 | Jiazhao Zhang, Kunyu Wang, Rongtao Xu, Gengze Zhou, Yicong Hong, Xiaomeng Fang, Qi Wu, Zhizheng Zhang, He Wang, | (参考訳) VLN(Vision-and-Language Navigation)は、エージェントが言語命令に従って見えない環境でナビゲートできるようにすることを目的とした、Embodied AIの重要な研究課題である。
この分野での一般化は、流通外のシーンやSimからRealまで、長年にわたる課題である。
本稿では,映像ベース大規模視覚言語モデル(VLM)であるNaVidを提案する。
NaVidは、地図、オドメーター、深度入力を使わずに最先端のナビゲーション性能を実現するVLMの能力を示す最初の試みである。
人間の指示に従って、NaVidはロボットに搭載された単眼のRGBカメラから、次のステップのアクションを出力するオンザフライビデオストリームのみを必要とする。
我々の定式化は、オドメーターノイズによる問題と、地図や深度入力からのSim2Realギャップを人間がどのようにナビゲートし、自然に取り除くかを模倣する。
さらに,ビデオに基づく手法により,ロボットの歴史的観察を時空間的文脈として効果的にエンコードし,意思決定と指導を行う。
アクションプランニングと命令推論のサンプルを含む連続環境から収集した510kのナビゲーションサンプルと763kの大規模WebデータでNaVidをトレーニングする。
大規模な実験により、NaVidはシミュレーション環境と実世界において最先端のパフォーマンスを達成し、優れたクロスデータセットとSim2Real転送を示す。
そこで我々は,本提案のVLMアプローチが,ナビゲーションエージェントだけでなく,本研究分野の次のステップを計画していると信じている。
Vision-and-language navigation (VLN) stands as a key research problem of Embodied AI, aiming at enabling agents to navigate in unseen environments following linguistic instructions. In this field, generalization is a long-standing challenge, either to out-of-distribution scenes or from Sim to Real. In this paper, we propose NaVid, a video-based large vision language model (VLM), to mitigate such a generalization gap. NaVid makes the first endeavor to showcase the capability of VLMs to achieve state-of-the-art level navigation performance without any maps, odometers, or depth inputs. Following human instruction, NaVid only requires an on-the-fly video stream from a monocular RGB camera equipped on the robot to output the next-step action. Our formulation mimics how humans navigate and naturally gets rid of the problems introduced by odometer noises, and the Sim2Real gaps from map or depth inputs. Moreover, our video-based approach can effectively encode the historical observations of robots as spatio-temporal contexts for decision making and instruction following. We train NaVid with 510k navigation samples collected from continuous environments, including action-planning and instruction-reasoning samples, along with 763k large-scale web data. Extensive experiments show that NaVid achieves state-of-the-art performance in simulation environments and the real world, demonstrating superior cross-dataset and Sim2Real transfer. We thus believe our proposed VLM approach plans the next step for not only the navigation agents but also this research field. | 翻訳日:2024-07-02 14:58:55 公開日:2024-06-30 |
# 推薦のための大規模言語モデルの効率的かつ効果的な非学習に向けて
Towards Efficient and Effective Unlearning of Large Language Models for Recommendation ( http://arxiv.org/abs/2403.03536v2 ) ライセンス: Link先を確認 | Hangyu Wang, Jianghao Lin, Bo Chen, Yang Yang, Ruiming Tang, Weinan Zhang, Yong Yu, | (参考訳) 大規模言語モデル(LLM)の大幅な進歩は、将来性のある研究方向、すなわちLLMRecとしてLLMを活用することにつながる。
LLMRecの有効性は、LLMに固有のオープンワールドの知識と推論能力から生じる。
LLMRecはユーザインタラクションデータに基づいた命令チューニングを通じてレコメンデーション機能を取得する。
しかし、ユーザのプライバシ保護とユーティリティの最適化のためには、LLMRecが特定のユーザデータを意図的に忘れることも重要です。
LLMの時代において、レコメンデーションアンラーニングは \textit{inefficiency} と \textit{in Effectiveness} という用語で LLMRec に新たな課題をもたらす。
既存の未学習メソッドでは、LLMRecで数十億のパラメータを更新する必要がある。
さらに、アンラーニングプロセス中のモデルユーティリティにも影響を与えます。
この目的のために, LLM に対する最初の \underline{E}fficient および \underline{E}ffective \underline{U}nlearning 法である \textbf{E2URec} を提案する。
提案するE2URecは,数個のLoRAパラメータのみを更新することで学習効率を向上し,教師学習フレームワークを用いて学習効率を向上させる。
大規模な実験により、E2URecは2つの実世界のデータセットで最先端のベースラインを上回ります。
具体的には、E2URecはレコメンデーションパフォーマンスに影響を与えることなく、特定のデータを効率的に忘れることができる。
ソースコードは \url{https://github.com/justarter/E2URec} にある。
The significant advancements in large language models (LLMs) give rise to a promising research direction, i.e., leveraging LLMs as recommenders (LLMRec). The efficacy of LLMRec arises from the open-world knowledge and reasoning capabilities inherent in LLMs. LLMRec acquires the recommendation capabilities through instruction tuning based on user interaction data. However, in order to protect user privacy and optimize utility, it is also crucial for LLMRec to intentionally forget specific user data, which is generally referred to as recommendation unlearning. In the era of LLMs, recommendation unlearning poses new challenges for LLMRec in terms of \textit{inefficiency} and \textit{ineffectiveness}. Existing unlearning methods require updating billions of parameters in LLMRec, which is costly and time-consuming. Besides, they always impact the model utility during the unlearning process. To this end, we propose \textbf{E2URec}, the first \underline{E}fficient and \underline{E}ffective \underline{U}nlearning method for LLM\underline{Rec}. Our proposed E2URec enhances the unlearning efficiency by updating only a few additional LoRA parameters, and improves the unlearning effectiveness by employing a teacher-student framework, where we maintain multiple teacher networks to guide the unlearning process. Extensive experiments show that E2URec outperforms state-of-the-art baselines on two real-world datasets. Specifically, E2URec can efficiently forget specific data without affecting recommendation performance. The source code is at \url{https://github.com/justarter/E2URec}. | 翻訳日:2024-07-02 14:49:11 公開日:2024-06-30 |
# ゴール指向セマンティック通信のための動的相対表現
Dynamic Relative Representations for Goal-Oriented Semantic Communications ( http://arxiv.org/abs/2403.16986v2 ) ライセンス: Link先を確認 | Simone Fiorellino, Claudio Battiloro, Emilio Calvanese Strinati, Paolo Di Lorenzo, | (参考訳) 将来の6G無線ネットワークでは、意味と関連性を伝達に取り入れることで、コミュニケーションのセマンティクスと効果の側面が基本的役割を果たす。
しかし、デバイスが多種多様な言語、論理、あるいは内部表現を使用すると、意味的なミスマッチが発生し、理解を阻害する可能性がある。
潜時空間通信において、この課題は、ディープニューラルネットワークがデータをエンコードする高次元表現における誤調整として現れる。
本稿では、相対表現を利用して、潜在空間アライメントによる意味ミスマッチを緩和する、ゴール指向のセマンティックコミュニケーションのための新しいフレームワークを提案する。
本稿では,相対表現,通信パラメータ,計算資源をエネルギー効率,低レイテンシ,目標指向のセマンティック通信に適用する動的最適化手法を提案する。
シミュレーションの結果,装置間のミスマッチを軽減し,エネルギー消費,遅延,有効性を最適化する手法の有効性が示された。
In future 6G wireless networks, semantic and effectiveness aspects of communications will play a fundamental role, incorporating meaning and relevance into transmissions. However, obstacles arise when devices employ diverse languages, logic, or internal representations, leading to semantic mismatches that might jeopardize understanding. In latent space communication, this challenge manifests as misalignment within high-dimensional representations where deep neural networks encode data. This paper presents a novel framework for goal-oriented semantic communication, leveraging relative representations to mitigate semantic mismatches via latent space alignment. We propose a dynamic optimization strategy that adapts relative representations, communication parameters, and computation resources for energy-efficient, low-latency, goal-oriented semantic communications. Numerical results demonstrate our methodology's effectiveness in mitigating mismatches among devices, while optimizing energy consumption, delay, and effectiveness. | 翻訳日:2024-07-02 14:39:26 公開日:2024-06-30 |
# データ直交からバイアスへの変換による対物フェアネス
Counterfactual Fairness through Transforming Data Orthogonal to Bias ( http://arxiv.org/abs/2403.17852v2 ) ライセンス: Link先を確認 | Shuyi Chen, Shixiang Zhu, | (参考訳) 機械学習モデルは、さまざまな領域にまたがる複雑な問題を解決するのに、非常に優れた技術を示している。
しかし、これらのモデルは時に偏りのある意思決定を示し、異なるグループの不平等な扱いをもたらすことがある。
反ファクトフェアネスに関するかなりの研究にもかかわらず、多変量変数と連続感度変数が意思決定結果に与える影響を減らす方法はまだ未開発である。
本稿では,連続的な変数群の影響を排除し,機械学習アプリケーションにおける非現実的公正性を促進するために,新しいデータ前処理アルゴリズムOrthogonal to Bias(OB)を提案する。
本手法は,構造因果モデル (SCM) 内の連立正規分布の仮定に基づいて,観測された感度変数の直交性を保証することにより,対実的公正性を実現することができることを示す。
OBアルゴリズムはモデルに依存しないため、幅広い機械学習モデルやタスクに適用できる。
さらに、正規化による数値安定性を改善するためのスパース変種を含んでいる。
シミュレーションと実世界の両方のデータセットに対する実験的な評価は、個別変数と連続変数の両方で設定を包含することで、精度を損なうことなく、より公平な結果を効果的に促進することを示す。
Machine learning models have shown exceptional prowess in solving complex issues across various domains. However, these models can sometimes exhibit biased decision-making, resulting in unequal treatment of different groups. Despite substantial research on counterfactual fairness, methods to reduce the impact of multivariate and continuous sensitive variables on decision-making outcomes are still underdeveloped. We propose a novel data pre-processing algorithm, Orthogonal to Bias (OB), which is designed to eliminate the influence of a group of continuous sensitive variables, thus promoting counterfactual fairness in machine learning applications. Our approach, based on the assumption of a jointly normal distribution within a structural causal model (SCM), demonstrates that counterfactual fairness can be achieved by ensuring the data is orthogonal to the observed sensitive variables. The OB algorithm is model-agnostic, making it applicable to a wide range of machine learning models and tasks. Additionally, it includes a sparse variant to improve numerical stability through regularization. Empirical evaluations on both simulated and real-world datasets, encompassing settings with both discrete and continuous sensitive variables, show that our methodology effectively promotes fairer outcomes without compromising accuracy. | 翻訳日:2024-07-02 14:39:26 公開日:2024-06-30 |
# CachedAttention付きマルチターン会話のためのコスト効率の良い大言語モデル
Cost-Efficient Large Language Model Serving for Multi-turn Conversations with CachedAttention ( http://arxiv.org/abs/2403.19708v3 ) ライセンス: Link先を確認 | Bin Gao, Zhuomin He, Puru Sharma, Qingxuan Kang, Djordje Jevdjic, Junbo Deng, Xingkun Yang, Zhou Yu, Pengfei Zuo, | (参考訳) マルチターン会話を通して人間と対話することは、大きな言語モデル(LLM)の基本的特徴である。
しかし、過去のトークンのキー値(KV)キャッシュを何度も計算する必要があるため、既存のLLMサービスエンジンは効率が悪く、高いサービスコストがかかる。
そこで本研究では,KVキャッシュのマルチターン会話における再利用を可能にする新しいアテンション機構であるCachedAttentionを提案する。
CachedAttentionは、コスト効率のよいメモリ/ストレージ媒体を活用して、すべての要求に対してKVキャッシュを保存する階層的なKVキャッシュシステムを維持している。
遅い媒体からKVキャッシュアクセスオーバーヘッドを低減するため、CachedAttentionでは、KVキャッシュアクセスとGPU計算を重複させるために、レイヤワイズプレロードと非同期セーブ方式を採用している。
アクセスすべきKVキャッシュが最高速階層に置かれるように、CachedAttentionはスケジューラ対応のフェッチとエビクションスキームを使用して、推論ジョブスケジューラのヒントに基づいて、KVキャッシュを異なるレイヤに意識的に配置する。
コンテキストウィンドウオーバーフローによって発生する保存されたKVキャッシュの無効化を回避するため、CachedAttentionは、保存されたKVキャッシュを位置エンコーディングを分離し、KVキャッシュを効果的に停止することで有効にすることができる。
大規模な実験結果から、CachedAttentionは第1トークン(TTFT)までの時間を最大87%削減し、マルチターン会話のスループットを最大7.8$\times$に改善し、エンドツーエンドの推論コストを最大70%削減した。
Interacting with humans through multi-turn conversations is a fundamental feature of large language models (LLMs). However, existing LLM serving engines executing multi-turn conversations are inefficient due to the need to repeatedly compute the key-value (KV) caches of historical tokens, incurring high serving costs. To address the problem, this paper proposes CachedAttention, a new attention mechanism that enables reuse of KV caches across multi-turn conversations, significantly reducing the repetitive computation overheads. CachedAttention maintains a hierarchical KV caching system that leverages cost-effective memory/storage mediums to save KV caches for all requests. To reduce KV cache access overheads from slow mediums, CachedAttention employs layer-wise pre-loading and asynchronous saving schemes to overlap the KV cache access with the GPU computation. To ensure that the KV caches to be accessed are placed in the fastest hierarchy, CachedAttention employs scheduler-aware fetching and eviction schemes to consciously place the KV caches in different layers based on the hints from the inference job scheduler. To avoid the invalidation of the saved KV caches incurred by context window overflow, CachedAttention enables the saved KV caches to remain valid via decoupling the positional encoding and effectively truncating the KV caches. Extensive experimental results demonstrate that CachedAttention significantly decreases the time to the first token (TTFT) by up to 87%, improves the prompt prefilling throughput by up to 7.8$\times$ for multi-turn conversations, and reduces the end-to-end inference cost by up to 70%. | 翻訳日:2024-07-02 14:39:26 公開日:2024-06-30 |
# InstantSplat:40秒でスパースビューのないガウススプラッティング
InstantSplat: Unbounded Sparse-view Pose-free Gaussian Splatting in 40 Seconds ( http://arxiv.org/abs/2403.20309v2 ) ライセンス: Link先を確認 | Zhiwen Fan, Wenyan Cong, Kairun Wen, Kevin Wang, Jian Zhang, Xinghao Ding, Danfei Xu, Boris Ivanovic, Marco Pavone, Georgios Pavlakos, Zhangyang Wang, Yue Wang, | (参考訳) スパース画像からの新規ビュー合成(NVS)は3次元コンピュータビジョンにおいて著しく進歩しているが、Structure-from-Motion (SfM) を用いたカメラパラメータの正確な初期推定に依存している。
例えば、最近開発されたガウススプラッティングは、SfM由来の点とポーズの精度に大きく依存している。
しかし、SfMプロセスは時間がかかり、スパースビューのシナリオでは信頼できないことがしばしばある。
本研究では,スパースビュー画像から堅牢なNVSを向上するための,新規で効率的なフレームワークを提案する。
我々のフレームワークであるInstantSplatは、マルチビューステレオ(MVS)予測とポイントベース表現を統合して、スパースビューデータから大規模シーンの3Dガウスアンを秒単位で構築し、前述のSfMによる性能と効率の問題に対処する。
具体的には、InstantSplatは、すべてのトレーニングビューにまたがって密集した表面点を生成し、ピクセルアライメントを用いて初期カメラパラメータを決定する。
それでも、MVSポイントはグローバルに正確ではなく、全てのビューからのピクセルワイズ予測はガウス数の過大な結果となり、トレーニング速度と精度の両方を損なう過度なパラメータ化されたシーン表現をもたらす。
この問題に対処するために、グリッドベースで信頼性に配慮したFarthest Point Smplingを用いて、代表地点で戦略的にポイントプリミティブを並列に配置する。
次に、自己スーパービジョンからの勾配に基づく共同最適化フレームワークを用いて、ポーズ精度を高め、シーンパラメータをチューニングする。
この単純化されたフレームワークを使用することで、InstantSplatは数時間からほんの数秒までのトレーニング時間を大幅に短縮し、多様なデータセットでさまざまなビューにわたって堅牢なパフォーマンスを示す。
While novel view synthesis (NVS) from a sparse set of images has advanced significantly in 3D computer vision, it relies on precise initial estimation of camera parameters using Structure-from-Motion (SfM). For instance, the recently developed Gaussian Splatting depends heavily on the accuracy of SfM-derived points and poses. However, SfM processes are time-consuming and often prove unreliable in sparse-view scenarios, where matched features are scarce, leading to accumulated errors and limited generalization capability across datasets. In this study, we introduce a novel and efficient framework to enhance robust NVS from sparse-view images. Our framework, InstantSplat, integrates multi-view stereo(MVS) predictions with point-based representations to construct 3D Gaussians of large-scale scenes from sparse-view data within seconds, addressing the aforementioned performance and efficiency issues by SfM. Specifically, InstantSplat generates densely populated surface points across all training views and determines the initial camera parameters using pixel-alignment. Nonetheless, the MVS points are not globally accurate, and the pixel-wise prediction from all views results in an excessive Gaussian number, yielding a overparameterized scene representation that compromises both training speed and accuracy. To address this issue, we employ a grid-based, confidence-aware Farthest Point Sampling to strategically position point primitives at representative locations in parallel. Next, we enhance pose accuracy and tune scene parameters through a gradient-based joint optimization framework from self-supervision. By employing this simplified framework, InstantSplat achieves a substantial reduction in training time, from hours to mere seconds, and demonstrates robust performance across various numbers of views in diverse datasets. | 翻訳日:2024-07-02 14:39:26 公開日:2024-06-30 |
# 医学教科書から推論スキルの強化を学習する小言語モデル
Small Language Models Learn Enhanced Reasoning Skills from Medical Textbooks ( http://arxiv.org/abs/2404.00376v2 ) ライセンス: Link先を確認 | Hyunjae Kim, Hyeon Hwang, Jiwoo Lee, Sihyeon Park, Dain Kim, Taewhoo Lee, Chanwoong Yoon, Jiwoong Sohn, Donghee Choi, Jaewoo Kang, | (参考訳) 近年の商業的大規模言語モデル(LM)の進歩は医療タスクにおいて有望な結果を示しているが、そのクローズドソースの性質は、プライバシーとセキュリティの重大な懸念を招き、医療分野での利用を妨げている。
オープンソースのモデルを作る努力にもかかわらず、それらの限られたパラメータは複雑な医療問題を解決するのに必要な多段階推論能力に不足をもたらすことが多い。
この問題を解決するために、70億から700億のパラメータからなる医療AIシステムの新しいファミリーであるMeerkatを紹介します。
モデルは18の医学教科書から得られた高品質なチェーン・オブ・シンセサイティングパスと、多様なインストラクション・フォロー・データセットからなる、我々の新しい合成データセットを用いて訓練された。
当システムでは,メディトロンやBioMistral,GPT-3.5といった従来のベストモデルよりも大きなマージンで,6つのベンチマークで顕著な精度を実現した。
特に、Meerkat-7Bは7Bパラメーターモデルで米国医学ライセンス試験(USMLE)の通過閾値を初めて上回り、Meerkat-70BはGPT-4を平均1.3%上回った。
さらに、Meerkat-70Bは38例のうち21例を正しく診断し、ヒトの13.8を上回り、GPT-4の21.8と密接に一致している。
提案システムでは,既存の小型モデルと比較して,より詳細なフリーフォーム応答が提供され,大規模商用モデルの性能レベルに近づいた。
これにより、大規模なLMとパフォーマンスギャップが著しく狭まり、複雑な医療課題に対処する上での有効性が示される。
While recent advancements in commercial large language models (LM) have shown promising results in medical tasks, their closed-source nature poses significant privacy and security concerns, hindering their widespread use in the medical field. Despite efforts to create open-source models, their limited parameters often result in insufficient multi-step reasoning capabilities required for solving complex medical problems. To address this, we introduce Meerkat, a new family of medical AI systems ranging from 7 to 70 billion parameters. The models were trained using our new synthetic dataset consisting of high-quality chain-of-thought reasoning paths sourced from 18 medical textbooks, along with diverse instruction-following datasets. Our systems achieved remarkable accuracy across six medical benchmarks, surpassing the previous best models such as MediTron and BioMistral, and GPT-3.5 by a large margin. Notably, Meerkat-7B surpassed the passing threshold of the United States Medical Licensing Examination (USMLE) for the first time for a 7B-parameter model, while Meerkat-70B outperformed GPT-4 by an average of 1.3%. Additionally, Meerkat-70B correctly diagnosed 21 out of 38 complex clinical cases, outperforming humans' 13.8 and closely matching GPT-4's 21.8. Our systems offered more detailed free-form responses to clinical queries compared to existing small models, approaching the performance level of large commercial models. This significantly narrows the performance gap with large LMs, showcasing its effectiveness in addressing complex medical challenges. | 翻訳日:2024-07-02 14:39:26 公開日:2024-06-30 |
# サブポピュレーションシフトによる新しいノードカテゴリー検出
Novel Node Category Detection Under Subpopulation Shift ( http://arxiv.org/abs/2404.01216v2 ) ライセンス: Link先を確認 | Hsing-Huan Chung, Shravan Chaudhari, Yoav Wald, Xing Han, Joydeep Ghosh, | (参考訳) 実世界のグラフデータでは、新しいカテゴリの出現や既存のカテゴリの相対比の変化など、分布シフトが様々な方法で現れる。
安全性や洞察発見の目的のために、そのような分布シフトの下で、新しいカテゴリのノードを検出することがしばしば重要である。
本稿では,Recall-Constrained Optimization with Selective Link Prediction (RECO-SLIP)を提案する。
ReCO-SLIPは、リコール制約付き学習フレームワークとサンプル効率のよいリンク予測機構を統合することにより、サブポピュレーションシフトに対するレジリエンスの2つの課題と、グラフ構造を効果的に活用する。
複数のグラフデータセットにまたがる広範な経験的評価は、既存の手法よりも優れたRECO-SLIP性能を示す。
実験コードはhttps://github.com/hsinghuan/novel-node-category-detectionで公開されている。
In real-world graph data, distribution shifts can manifest in various ways, such as the emergence of new categories and changes in the relative proportions of existing categories. It is often important to detect nodes of novel categories under such distribution shifts for safety or insight discovery purposes. We introduce a new approach, Recall-Constrained Optimization with Selective Link Prediction (RECO-SLIP), to detect nodes belonging to novel categories in attributed graphs under subpopulation shifts. By integrating a recall-constrained learning framework with a sample-efficient link prediction mechanism, RECO-SLIP addresses the dual challenges of resilience against subpopulation shifts and the effective exploitation of graph structure. Our extensive empirical evaluation across multiple graph datasets demonstrates the superior performance of RECO-SLIP over existing methods. The experimental code is available at https://github.com/hsinghuan/novel-node-category-detection. | 翻訳日:2024-07-02 14:39:26 公開日:2024-06-30 |
# Vectorized Kernel Mixture (VecKM) を用いた線形時間空間局所点雲幾何エンコーダ
A Linear Time and Space Local Point Cloud Geometry Encoder via Vectorized Kernel Mixture (VecKM) ( http://arxiv.org/abs/2404.01568v4 ) ライセンス: Link先を確認 | Dehao Yuan, Cornelia Fermüller, Tahseen Rabbani, Furong Huang, Yiannis Aloimonos, | (参考訳) 本稿では,ローカルポイントクラウド幾何エンコーダであるVecKMを提案する。
VecKMは、局所点雲を表すためにカーネル混合物をベクトル化することで、ユニークなアプローチを採用している。
そのような表現の記述性は、局所的な形状の類似性を再構築し保存する能力を検証する2つの定理によって支持される。
局所点クラウドをダウンサンプリングする既存のエンコーダとは異なり、VecKMはすべての近傍点を用いて局所幾何学的エンコーディングを構築し、より記述的なエンコーダを生成する。
VecKMはメモリコストを$(n^2+nKd)$から$(nd+np)$に削減し、主要なランタイムコストを$nK$ MLPsから$n$ MLPsに削減します。
この効率性は、VecKM の特異な分解可能な性質により、点を隣人に明示的にグループ化する必要がなくなるためである。
通常の推定タスクでは、VecKMは推測速度を100倍速くするだけでなく、高い精度と強靭性を示す。
分類とセグメンテーションタスクでは、前処理モジュールとしてVecKMを統合することで、PointNet、PointNet++、ポイントトランスフォーマーベースラインよりも一貫してパフォーマンスが向上し、最大10倍高速に動作する。
We propose VecKM, a local point cloud geometry encoder that is descriptive and efficient to compute. VecKM leverages a unique approach by vectorizing a kernel mixture to represent the local point cloud. Such representation's descriptiveness is supported by two theorems that validate its ability to reconstruct and preserve the similarity of the local shape. Unlike existing encoders downsampling the local point cloud, VecKM constructs the local geometry encoding using all neighboring points, producing a more descriptive encoding. Moreover, VecKM is efficient to compute and scalable to large point cloud inputs: VecKM reduces the memory cost from $(n^2+nKd)$ to $(nd+np)$; and reduces the major runtime cost from computing $nK$ MLPs to $n$ MLPs, where $n$ is the size of the point cloud, $K$ is the neighborhood size, $d$ is the encoding dimension, and $p$ is a marginal factor. The efficiency is due to VecKM's unique factorizable property that eliminates the need of explicitly grouping points into neighbors. In the normal estimation task, VecKM demonstrates not only 100x faster inference speed but also highest accuracy and strongest robustness. In classification and segmentation tasks, integrating VecKM as a preprocessing module achieves consistently better performance than the PointNet, PointNet++, and point transformer baselines, and runs consistently faster by up to 10 times. | 翻訳日:2024-07-02 14:39:26 公開日:2024-06-30 |
# 最適化型タスク・アンド・モーションプランニングに関する調査研究:古典的アプローチから学習的アプローチへ
A Survey of Optimization-based Task and Motion Planning: From Classical To Learning Approaches ( http://arxiv.org/abs/2404.02817v4 ) ライセンス: Link先を確認 | Zhigen Zhao, Shuo Cheng, Yan Ding, Ziyi Zhou, Shiqi Zhang, Danfei Xu, Ye Zhao, | (参考訳) タスク・アンド・モーション・プランニング(TAMP)は、高レベルのタスク・プランニングと低レベルのモーション・プランニングを統合し、ロボットに自律性を持たせ、長期の動的タスクを効果的に推論する。
最適化ベースのTAMPは、目的関数を介して目標条件を定義し、ロボットと環境の間のオープンな目標、ロボット力学、物理的相互作用を扱うことができるハイブリッド最適化アプローチに焦点を当てている。
したがって、最適化に基づくTAMPは、高度に複雑で接触に富んだ移動と操作の問題を解くのに特に適している。
この調査は最適化に基づくTAMPの包括的なレビューを提供する。
一 動作記述言語及び時間論理を含むドメイン表現の計画
(II)AI計画・軌道最適化(TO)を含むTAMPコンポーネントの個別ソリューション戦略
三 論理ベースのタスク計画とモデルベースのTOの動的相互作用
この調査の特に焦点は、TAMP、特に階層的および分散的アプローチを効率的に解くアルゴリズム構造を明らかにすることである。
さらに、この調査は古典的手法と大規模言語モデルのような現代的学習に基づく革新との相乗効果を強調している。
さらに,この調査では,TAMPの今後の研究方向性について論じ,アルゴリズムとアプリケーション固有の課題を取り上げている。
Task and Motion Planning (TAMP) integrates high-level task planning and low-level motion planning to equip robots with the autonomy to effectively reason over long-horizon, dynamic tasks. Optimization-based TAMP focuses on hybrid optimization approaches that define goal conditions via objective functions and are capable of handling open-ended goals, robotic dynamics, and physical interaction between the robot and the environment. Therefore, optimization-based TAMP is particularly suited to solve highly complex, contact-rich locomotion and manipulation problems. This survey provides a comprehensive review on optimization-based TAMP, covering (i) planning domain representations, including action description languages and temporal logic, (ii) individual solution strategies for components of TAMP, including AI planning and trajectory optimization (TO), and (iii) the dynamic interplay between logic-based task planning and model-based TO. A particular focus of this survey is to highlight the algorithm structures to efficiently solve TAMP, especially hierarchical and distributed approaches. Additionally, the survey emphasizes the synergy between the classical methods and contemporary learning-based innovations such as large language models. Furthermore, the future research directions for TAMP is discussed in this survey, highlighting both algorithmic and application-specific challenges. | 翻訳日:2024-07-02 14:29:42 公開日:2024-06-30 |
# オープンメタバースの基盤としてのWebXR, Aフレーム, Networked-Aframe
WebXR, A-Frame and Networked-Aframe as a Basis for an Open Metaverse: A Conceptual Architecture ( http://arxiv.org/abs/2404.05317v5 ) ライセンス: Link先を確認 | Giuseppe Macario, | (参考訳) 本研究では、オープンでアクセス可能で相互運用可能なメタバースの開発を容易にするために、Aフレームフレームワークとネットワークフレームフレームワークを活用する、WebXRベースのクロスプラットフォーム概念アーキテクチャを提案する。
空間的ウェブアプリの概念を導入することにより、この研究はメタバースについての議論に寄与し、仮想環境へのアクセスを民主化し、ウェブを通じて現実を拡張したアーキテクチャを提供し、Tim Berners-Lee氏のWorld Wide Webという当初のビジョンをデジタル領域のオープンプラットフォームとして扱う。
This work proposes a WebXR-based cross-platform conceptual architecture, leveraging the A-Frame and Networked-Aframe frameworks, in order to facilitate the development of an open, accessible, and interoperable metaverse. By introducing the concept of spatial web app, this research contributes to the discourse on the metaverse, offering an architecture that democratizes access to virtual environments and extended reality through the web, and aligns with Tim Berners-Lee's original vision of the World Wide Web as an open platform in the digital realm. | 翻訳日:2024-07-02 14:29:42 公開日:2024-06-30 |
# 頭頸部プロトン処理計画のための高品質MR-CT合成のための拡散シュレーディンガーブリッジモデル
Diffusion Schrödinger Bridge Models for High-Quality MR-to-CT Synthesis for Head and Neck Proton Treatment Planning ( http://arxiv.org/abs/2404.11741v2 ) ライセンス: Link先を確認 | Muheng Li, Xia Li, Sairos Safai, Damien Weber, Antony Lomax, Ye Zhang, | (参考訳) 近年のプロトン療法の進歩により,従来のCT法と比較して放射線曝露を最小化するため,MRベースの治療計画が勢いを増している。
この遷移は、正確な陽子線量計算に欠かせないMR-to-CT画像合成の重要な必要性を浮き彫りにする。
本研究は,高品位MR-CT合成のための革新的なアプローチであるDiffusion Schr\"odinger Bridge Models (DSBM)を紹介する。
DSBMはMRとCTデータの非線型拡散過程を学習する。
この方法はガウス分布よりも先行分布から合成を開始することによって従来の拡散モデルを改善し、生成品質と効率を両立させる。
頭頸部癌データセットにおけるDSBMの有効性を検証し,画像レベルの評価と線量レベルの評価により従来の画像合成法よりも優れていることを示した。
MRベースのプロトン治療計画におけるDSBMの有効性は、様々な臨床シナリオにおいて重要なツールとしての可能性を示している。
In recent advancements in proton therapy, MR-based treatment planning is gaining momentum to minimize additional radiation exposure compared to traditional CT-based methods. This transition highlights the critical need for accurate MR-to-CT image synthesis, which is essential for precise proton dose calculations. Our research introduces the Diffusion Schr\"odinger Bridge Models (DSBM), an innovative approach for high-quality MR-to-CT synthesis. DSBM learns the nonlinear diffusion processes between MR and CT data distributions. This method improves upon traditional diffusion models by initiating synthesis from the prior distribution rather than the Gaussian distribution, enhancing both generation quality and efficiency. We validated the effectiveness of DSBM on a head and neck cancer dataset, demonstrating its superiority over traditional image synthesis methods through both image-level and dosimetric-level evaluations. The effectiveness of DSBM in MR-based proton treatment planning highlights its potential as a valuable tool in various clinical scenarios. | 翻訳日:2024-07-02 14:29:42 公開日:2024-06-30 |
# 宝物ではなく、ガーディアンを要塞化する:レジリエントな敵検知器
Fortify the Guardian, Not the Treasure: Resilient Adversarial Detectors ( http://arxiv.org/abs/2404.12120v2 ) ライセンス: Link先を確認 | Raz Lapid, Almog Dubin, Moshe Sipper, | (参考訳) 本稿では,適応攻撃に対する対向検知器の堅牢性を向上し,分類器の性能を維持しつつ,RADAR-Robust Adversarial Detectionを適応的リトレーニング(Adversarial Retraining)によるアプローチを提案する。
アダプティブアタックとは、攻撃者が防御を意識し、その戦略を適応させる攻撃である。
提案手法は, クリーンな精度を損なうことなく, 敵の訓練を活用して攻撃を検知する能力を強化する。
トレーニングフェーズでは、分類器と逆検出器の両方を騙すように最適化されたデータセットの逆検出例を統合し、逆検出器が潜在的な攻撃シナリオを学習し適応できるようにする。
CIFAR-10とSVHNデータセットの実験的評価により、提案アルゴリズムは、クリーンな精度を犠牲にすることなく、検出器の適応的敵攻撃を正確に識別する能力を大幅に改善することを示した。
This paper presents RADAR-Robust Adversarial Detection via Adversarial Retraining-an approach designed to enhance the robustness of adversarial detectors against adaptive attacks, while maintaining classifier performance. An adaptive attack is one where the attacker is aware of the defenses and adapts their strategy accordingly. Our proposed method leverages adversarial training to reinforce the ability to detect attacks, without compromising clean accuracy. During the training phase, we integrate into the dataset adversarial examples, which were optimized to fool both the classifier and the adversarial detector, enabling the adversarial detector to learn and adapt to potential attack scenarios. Experimental evaluations on the CIFAR-10 and SVHN datasets demonstrate that our proposed algorithm significantly improves a detector's ability to accurately identify adaptive adversarial attacks -- without sacrificing clean accuracy. | 翻訳日:2024-07-02 14:29:42 公開日:2024-06-30 |
# 貯留層計算を用いた周波位相シフトによる強制ファンデルポル方程式の予測
Forecasting the Forced van der Pol Equation with Frequent Phase Shifts Using Reservoir Computing ( http://arxiv.org/abs/2404.14651v2 ) ライセンス: Link先を確認 | Sho Kuno, Hiroshi Kori, | (参考訳) 我々は貯水池計算(RC)の性能を,ある非自律力学系の力学を予測するために検証した。
具体的には,頻繁に位相シフトを伴う周期的な外力を受けるファンデルポル発振器について検討した。
特定の位相シフトのために生成されたシミュレーションデータを用いて訓練され、最適化された貯水池コンピュータは、位相シフトの異なる周期的な外部力の下での振動ダイナミクスを予測するように設計された。
以上の結果から,トレーニングデータにある程度の複雑さがある場合,異なる位相シフトに曝される発振ダイナミクスを定量的に予測できることが示唆された。
本研究は、シフトワーカーの概日リズムを予測し、各個人により良いシフト作業スケジュールを設計することによるものである。
この結果から,RCを応用できる可能性が示唆された。
We tested the performance of reservoir computing (RC) in predicting the dynamics of a certain non-autonomous dynamical system. Specifically, we considered a van del Pol oscillator subjected to periodic external force with frequent phase shifts. The reservoir computer, which was trained and optimized with simulation data generated for a particular phase shift, was designed to predict the oscillation dynamics under periodic external forces with different phase shifts. The results suggest that if the training data have some complexity, it is possible to quantitatively predict the oscillation dynamics exposed to different phase shifts. The setting of this study was motivated by the problem of predicting the state of the circadian rhythm of shift workers and designing a better shift work schedule for each individual. Our results suggest that RC could be exploited for such applications. | 翻訳日:2024-07-02 14:29:42 公開日:2024-06-30 |
# BMapEst:微分MRIシミュレータによる脳組織確率マップの推定
BMapEst: Estimation of Brain Tissue Probability Maps using a Differentiable MRI Simulator ( http://arxiv.org/abs/2404.14739v2 ) ライセンス: Link先を確認 | Utkarsh Gupta, Emmanouil Nikolakakis, Moritz Zaiss, Razvan Marinescu, | (参考訳) 個々の被験者に対するボクセルベースの多チャンネル組織確率マップの形でデジタル脳ファントムを再構成することは、脳の解剖学的変動を捉え、神経疾患を理解し、画像処理方法をテストするのに不可欠である。
脳組織の確率マップ(Grey Matter - GM, White Matter - WM, Cerebrospinal fluid - CSF)を物理ベースの微分MRIシミュレータを用いて推定し, 体積のボクセルごとに磁化信号をモデル化した。
測定されたT_1$/$T_2$-weighted MRIスキャン,対応する臨床MRIシーケンス,MRIの微分可能シミュレータを用いて,シミュレータの出力とT_1$/$T_2$-weightedスキャンとの間のL2損失をバックプロパゲートすることにより,シミュレータの入力確率マップを推定する。
このアプローチには、トレーニングデータに頼らず、MRIシミュレータの強い誘導バイアスを使用するという大きな利点がある。
我々は、BrainWebデータベースから20のスキャンでモデルを検証し、GM、WM、CSFの高精度な再構成を実証した。
ソースコードはオンラインで入手できる。 https://github.com/BioMedAI-UCSC/BMapEst。
Reconstructing digital brain phantoms in the form of voxel-based, multi-channeled tissue probability maps for individual subjects is essential for capturing brain anatomical variability, understanding neurological diseases, as well as for testing image processing methods. We demonstrate the first framework that estimates brain tissue probability maps (Grey Matter - GM, White Matter - WM, and Cerebrospinal fluid - CSF) with the help of a Physics-based differentiable MRI simulator that models the magnetization signal at each voxel in the volume. Given an observed $T_1$/$T_2$-weighted MRI scan, the corresponding clinical MRI sequence, and the MRI differentiable simulator, we estimate the simulator's input probability maps by back-propagating the L2 loss between the simulator's output and the $T_1$/$T_2$-weighted scan. This approach has the significant advantage of not relying on any training data and instead uses the strong inductive bias of the MRI simulator. We tested the model on 20 scans from the BrainWeb database and demonstrated a highly accurate reconstruction of GM, WM, and CSF. Our source code is available online: https://github.com/BioMedAI-UCSC/BMapEst. | 翻訳日:2024-07-02 14:29:42 公開日:2024-06-30 |
# AnoFPDM:脳MRIにおける拡散モデルの前方プロセスによる異常セグメンテーション
AnoFPDM: Anomaly Segmentation with Forward Process of Diffusion Models for Brain MRI ( http://arxiv.org/abs/2404.15683v2 ) ライセンス: Link先を確認 | Yiming Che, Fazle Rafsani, Jay Shah, Md Mahfuzur Rahman Siddiquee, Teresa Wu, | (参考訳) 画像レベルのラベルを活かした異常セグメンテーションにおける弱教師付き拡散モデル(DM)は、教師なし手法に比べて優れた性能で注目されている。
トレーニングにおけるピクセルレベルのラベルの必要性を排除し、教師付きメソッドよりもコスト効率の良い代替手段を提供する。
しかし、既存の手法は、推論におけるハイパーパラメータチューニングのためのコストのかかるピクセルレベルのラベルに大きく依存するため、完全には教師されない。
この課題に対処するために、ピクセルレベルのラベルを必要とせずに動作する、完全に弱い教師付きフレームワークであるAnoFPDM(Anomaly Segmentation with Forward Process of Diffusion Models)を導入する。
誘導前処理の基準として誘導前処理を応用し,ノイズスケール,セグメンテーションしきい値,誘導強度などのハイパーパラメータを選択する。
導出前処理から異常マップを集約し,異常領域の信号強度を向上させる。
また,提案手法は,画素レベルのラベルを使わずに,最新の最先端の弱教師付きアプローチよりも優れていた。
Weakly-supervised diffusion models (DMs) in anomaly segmentation, leveraging image-level labels, have attracted significant attention for their superior performance compared to unsupervised methods. It eliminates the need for pixel-level labels in training, offering a more cost-effective alternative to supervised methods. However, existing methods are not fully weakly-supervised because they heavily rely on costly pixel-level labels for hyperparameter tuning in inference. To tackle this challenge, we introduce Anomaly Segmentation with Forward Process of Diffusion Models (AnoFPDM), a fully weakly-supervised framework that operates without the need of pixel-level labels. Leveraging the unguided forward process as a reference for the guided forward process, we select hyperparameters such as the noise scale, the threshold for segmentation and the guidance strength. We aggregate anomaly maps from guided forward process, enhancing the signal strength of anomalous regions. Remarkably, our proposed method outperforms recent state-of-the-art weakly-supervised approaches, even without utilizing pixel-level labels. | 翻訳日:2024-07-02 14:29:42 公開日:2024-06-30 |
# 大規模言語モデルの継続的な学習:包括的調査
Continual Learning of Large Language Models: A Comprehensive Survey ( http://arxiv.org/abs/2404.16789v2 ) ライセンス: Link先を確認 | Haizhou Shi, Zihao Xu, Hengyi Wang, Weiyi Qin, Wenyuan Wang, Yibin Wang, Zifeng Wang, Sayna Ebrahimi, Hao Wang, | (参考訳) 最近の大規模言語モデル(LLM)の成功は、静的で、事前にコンパイルされた一般的なデータセットに基づいて訓練され、多くの研究の方向性と応用を引き起こした。
そのような方向の1つは、トレーニング済みのLLMを動的データ分散、タスク構造、ユーザの好みに組み込むという、簡単ではない課題に対処する。
特定のニーズに合わせて調整された事前訓練されたLLMは、しばしば「破滅的な忘れ物」として知られる、以前の知識領域で顕著なパフォーマンス劣化を経験する。
CL(Continuous Learning)コミュニティで広く研究されているが、LSMの領域では新たなマニフェストが提示されている。
本稿では,CL の文脈における LLM 研究の現状について概観する。
縦連続性(縦連続性学習)、一般から特定の能力への連続的適応(横連続性学習)、横連続性(横連続性学習)、時間と領域をまたいだ連続的適応(第3部)の2つの方向からなる連続的学習 LLM の概要を最初に記述する(第3部)。
次に,CPT(Continuous Pre-Training),DAP(Domain-Adaptive Pre-Training),CFT(Continuous Fine-Tuning)(Section 4)の3つの段階について述べる。
次に、LLMを用いた連続学習のための評価プロトコルの概要と、現在利用可能なデータソースについて概説する(第5部)。
最後に,LLMの継続学習に関する興味深い疑問について論じる(第6部)。
この調査で調査された論文の完全なリストはhttps://github.com/Wang-ML-Lab/llm-continual-learning-surveyで公開されている。
The recent success of large language models (LLMs) trained on static, pre-collected, general datasets has sparked numerous research directions and applications. One such direction addresses the non-trivial challenge of integrating pre-trained LLMs into dynamic data distributions, task structures, and user preferences. Pre-trained LLMs, when tailored for specific needs, often experience significant performance degradation in previous knowledge domains -- a phenomenon known as "catastrophic forgetting". While extensively studied in the continual learning (CL) community, it presents new manifestations in the realm of LLMs. In this survey, we provide a comprehensive overview of the current research progress on LLMs within the context of CL. This survey is structured into four main sections: we first describe an overview of continually learning LLMs, consisting of two directions of continuity: vertical continuity (or vertical continual learning), i.e., continual adaptation from general to specific capabilities, and horizontal continuity (or horizontal continual learning), i.e., continual adaptation across time and domains (Section 3). We then summarize three stages of learning LLMs in the context of modern CL: Continual Pre-Training (CPT), Domain-Adaptive Pre-training (DAP), and Continual Fine-Tuning (CFT) (Section 4). Then we provide an overview of evaluation protocols for continual learning with LLMs, along with the current available data sources (Section 5). Finally, we discuss intriguing questions pertaining to continual learning for LLMs (Section 6). The full list of papers examined in this survey is available at https://github.com/Wang-ML-Lab/llm-continual-learning-survey. | 翻訳日:2024-07-02 14:19:57 公開日:2024-06-30 |
# 大規模言語モデルを用いた機能オントロジーの生成について
On the Use of Large Language Models to Generate Capability Ontologies ( http://arxiv.org/abs/2404.17524v3 ) ライセンス: Link先を確認 | Luis Miguel Vieira da Silva, Aljosha Köcher, Felix Gehlhoff, Alexander Fay, | (参考訳) 機能オントロジーは、システムやマシンの機能のモデル化にますます利用されている。
あらゆる性質と能力の制約を持つそのような存在論的モデルの作成は非常に複雑であり、オントロジーの専門家によってのみ可能である。
しかし、Large Language Models (LLMs) は、自然言語テキスト入力から機械解釈可能なモデルを生成することができ、したがってエンジニアやオントロジーの専門家をサポートすることを示した。
そこで本研究では,LLMを用いて機能オントロジーを創出する方法について検討する。
本稿では、異なるプロンプト技術と異なるLLMを用いて、様々な複雑さを持つ能力を生成する一連の実験について述べる。
生成されたオントロジーのエラーを記録し、比較する。
生成されたオントロジーの品質を分析するために、RDF構文チェック、OWL推論、SHACL制約に基づく半自動アプローチを用いる。
この研究結果は、複雑な能力であっても生成したオントロジにはほとんど誤りがないため、非常に有望である。
Capability ontologies are increasingly used to model functionalities of systems or machines. The creation of such ontological models with all properties and constraints of capabilities is very complex and can only be done by ontology experts. However, Large Language Models (LLMs) have shown that they can generate machine-interpretable models from natural language text input and thus support engineers / ontology experts. Therefore, this paper investigates how LLMs can be used to create capability ontologies. We present a study with a series of experiments in which capabilities with varying complexities are generated using different prompting techniques and with different LLMs. Errors in the generated ontologies are recorded and compared. To analyze the quality of the generated ontologies, a semi-automated approach based on RDF syntax checking, OWL reasoning, and SHACL constraints is used. The results of this study are very promising because even for complex capabilities, the generated ontologies are almost free of errors. | 翻訳日:2024-07-02 14:19:57 公開日:2024-06-30 |
# PANGeA: ターン型ビデオゲームのための生成AIを用いた手続き型人工物語
PANGeA: Procedural Artificial Narrative using Generative AI for Turn-Based Video Games ( http://arxiv.org/abs/2404.19721v2 ) ライセンス: Link先を確認 | Steph Buongiorno, Lawrence Jake Klinkert, Tanishq Chawla, Zixin Zhuang, Corey Clark, | (参考訳) 本研究では,大規模言語モデル(LLM)を活用するための構造化アプローチであるPANGeA(Procedural Artificial Narrative Using Generative AI)を紹介した。
ゲームデザインに使用されるLLMの以前の応用とは違って、PANGeAはゲームレベルデータ(設定、キーアイテム、非プレイ可能な文字(NPC)を含むものではない)を生成するだけでなく、プレイヤーとプロシージャゲーム物語に沿った環境との間の動的で自由な相互作用を育むことで革新する。
PANGeAが生成するNPCは人格バイアスを受けており、生成した応答においてBig 5 Personality Modelの特徴を表現している。
PANGeAは、ゲームナラティブの範囲を超えてLSM応答を促せる自由形式のテキスト入力の取り込みの背景にある課題に対処する。
LLMのインテリジェンスを利用した新しいバリデーションシステムは,テキスト入力を評価し,生成した応答を展開物語と整合させる。
これらのインタラクションを可能にするために、PANGeAは、生成されたレスポンスを拡張するためのコンテキストを提供するカスタムメモリシステムをホストするサーバによってサポートされ、手続き的な物語と整合する。
幅広いアプリケーションのために、サーバにはRESTインターフェースがあり、任意のゲームエンジンがPANGeAと直接統合できる。
2種類のデモゲームの実証実験とアブレーションテストにより, PANGeAの動的物語生成をプロシージャ物語に整合させることで, 動的物語生成を促進できることを示す。
これらは、ブラウザベースのカスタムGPTとUnityのデモだ。
結果が示すように、PANGeAは、可変かつ予測不能な自由形式のテキスト入力が提供された場合でも、ゲームデザイナーがLSMを使用して物語に一貫性のあるコンテンツを生成するのを支援する可能性がある。
This research introduces Procedural Artificial Narrative using Generative AI (PANGeA), a structured approach for leveraging large language models (LLMs), guided by a game designer's high-level criteria, to generate narrative content for turn-based role-playing video games (RPGs). Distinct from prior applications of LLMs used for video game design, PANGeA innovates by not only generating game level data (which includes, but is not limited to, setting, key items, and non-playable characters (NPCs)), but by also fostering dynamic, free-form interactions between the player and the environment that align with the procedural game narrative. The NPCs generated by PANGeA are personality-biased and express traits from the Big 5 Personality Model in their generated responses. PANGeA addresses challenges behind ingesting free-form text input, which can prompt LLM responses beyond the scope of the game narrative. A novel validation system that uses the LLM's intelligence evaluates text input and aligns generated responses with the unfolding narrative. Making these interactions possible, PANGeA is supported by a server that hosts a custom memory system that supplies context for augmenting generated responses thus aligning them with the procedural narrative. For its broad application, the server has a REST interface enabling any game engine to integrate directly with PANGeA, as well as an LLM interface adaptable with local or private LLMs. PANGeA's ability to foster dynamic narrative generation by aligning responses with the procedural narrative is demonstrated through an empirical study and ablation test of two versions of a demo game. These are, a custom, browser-based GPT and a Unity demo. As the results show, PANGeA holds potential to assist game designers in using LLMs to generate narrative-consistent content even when provided varied and unpredictable, free-form text input. | 翻訳日:2024-07-02 14:19:57 公開日:2024-06-30 |
# AB-Training:分散低ランク学習のためのコミュニケーション効率の良いアプローチ
AB-Training: A Communication-Efficient Approach for Distributed Low-Rank Learning ( http://arxiv.org/abs/2405.01067v2 ) ライセンス: Link先を確認 | Daniel Coquelin, Katherina Flügel, Marie Weiel, Nicholas Kiefer, Muhammed Öz, Charlotte Debus, Achim Streit, Markus Götz, | (参考訳) 通信ボトルネックは、特に高性能コンピューティング(HPC)環境で、分散ニューラルネットワークトレーニングのスケーラビリティを著しく損なう。
我々は、低ランク表現と独立した訓練グループを活用して、通信オーバーヘッドを大幅に削減する新しいデータ並列手法であるABトレーニングを導入する。
実験では,様々なスケーリングシナリオにおけるネットワークトラフィックの約70.31\%の削減,通信制約付きシステムのトレーニング可能性の向上,大規模コンバージェンスの向上を実証した。
ABトレーニングはまた、より小さなスケールで顕著な正規化効果を示し、トレーニング時間を維持したり減らしたりしながら一般化を改善する。
我々は、CIFAR-10でトレーニングされたVGG16の44.14 : 1圧縮比を極小精度で達成し、ImageNet-2012でトレーニングされたResNet-50で従来のデータ並列トレーニングを1.55\%上回った。
ABトレーニングが有望である一方で、我々の研究結果は、大規模なバッチ効果が低ランク状態でも持続していることも示しており、大規模分散トレーニングのための最適化された更新メカニズムのさらなる研究の必要性を強調している。
Communication bottlenecks severely hinder the scalability of distributed neural network training, particularly in high-performance computing (HPC) environments. We introduce AB-training, a novel data-parallel method that leverages low-rank representations and independent training groups to significantly reduce communication overhead. Our experiments demonstrate an average reduction in network traffic of approximately 70.31\% across various scaling scenarios, increasing the training potential of communication-constrained systems and accelerating convergence at scale. AB-training also exhibits a pronounced regularization effect at smaller scales, leading to improved generalization while maintaining or even reducing training time. We achieve a remarkable 44.14 : 1 compression ratio on VGG16 trained on CIFAR-10 with minimal accuracy loss, and outperform traditional data parallel training by 1.55\% on ResNet-50 trained on ImageNet-2012. While AB-training is promising, our findings also reveal that large batch effects persist even in low-rank regimes, underscoring the need for further research into optimized update mechanisms for massively distributed training. | 翻訳日:2024-07-02 14:19:57 公開日:2024-06-30 |
# 異常検出のためのブラインドフーリエ継続と回帰
Braced Fourier Continuation and Regression for Anomaly Detection ( http://arxiv.org/abs/2405.03180v2 ) ライセンス: Link先を確認 | Josef Sabuda, | (参考訳) 本研究では, ブラスフーリエ継続回帰(BFCR)の概念を導入する。
BFCRは、任意の1次元データセットにおいて非線形回帰やトレンド線を見つけるための、新しく、計算的に効率的な方法である。
Braced Fourier Continuation (BFC) と BFCR のアルゴリズムが最初に概説され、続いてBFCRの特性に関する議論と、任意の1次元データセットのエッジ内およびエッジにおいて、BFCR のトレンド線を効果的に検出する方法の実証が行われた。
最後に, 異常検出にBFCRを用いた場合の潜在的な問題点と緩和技術について概説する。
すべてのソースコードとサンプルデータセットはGitHub経由で参照または利用可能であり、関連するコードはすべてPythonで書かれている。
In this work, the concept of Braced Fourier Continuation and Regression (BFCR) is introduced. BFCR is a novel and computationally efficient means of finding nonlinear regressions or trend lines in arbitrary one-dimensional data sets. The Braced Fourier Continuation (BFC) and BFCR algorithms are first outlined, followed by a discussion of the properties of BFCR as well as demonstrations of how BFCR trend lines may be used effectively for anomaly detection both within and at the edges of arbitrary one-dimensional data sets. Finally, potential issues which may arise while using BFCR for anomaly detection as well as possible mitigation techniques are outlined and discussed. All source code and example data sets are either referenced or available via GitHub, and all associated code is written entirely in Python. | 翻訳日:2024-07-02 14:10:11 公開日:2024-06-30 |
# ニューラル・ディバイサル不変学習による異種環境からの因果関係の探索
Causality Pursuit from Heterogeneous Environments via Neural Adversarial Invariance Learning ( http://arxiv.org/abs/2405.04715v2 ) ライセンス: Link先を確認 | Yihong Gu, Cong Fang, Peter Bühlmann, Jianqing Fan, | (参考訳) データから因果関係を抽出することは、科学的発見、治療介入、伝達学習における根本的な問題である。
本稿では,応答変数と共変量の共分散が変化する複数の環境における回帰モデルにおける非パラメトリックな不変性と因果学習に対処するアルゴリズムを提案するが,擬似因果変数の未知集合が与えられた結果の条件付き期待は不変である。
そのような未知の準因数変数や不変変数を見つけるという課題は、異なる環境にまたがって不均一な影響を持つ内在変数の存在によって複雑化される。
提案したFAIRフレームワークは、バリアを分解する革新的なミニマックス最適化アプローチを利用して、逆方向のテストを通じて回帰モデルを予測不変のソリューションに向けて駆動する。
ニューラルネットワークの表現力を活用して、因果探索のためにFAIR-NN(FAIR-NN)を導入する。
FAIR-NNは最小の識別条件下で不変変数や準因果変数を見つけることができ、その結果の手順が非漸近解析において低次元の組成構造に適応していることが示されている。
構造因果モデルの下では、FAIR-NNで同定された変数は実用的因果性を表し、十分な不均一性の条件下で正確な因果性機構を確実に一致させる。
FAIR-NNは、温度の低下と確率勾配勾配上昇アルゴリズムを備えた新しいガンベル近似を用いている。
これらの手順は、シミュレートされた実データ例を用いて、説得力のある実証を行う。
Pursuing causality from data is a fundamental problem in scientific discovery, treatment intervention, and transfer learning. This paper introduces a novel algorithmic method for addressing nonparametric invariance and causality learning in regression models across multiple environments, where the joint distribution of response variables and covariates varies, but the conditional expectations of outcome given an unknown set of quasi-causal variables are invariant. The challenge of finding such an unknown set of quasi-causal or invariant variables is compounded by the presence of endogenous variables that have heterogeneous effects across different environments, including even one of them in the regression would make the estimation inconsistent. The proposed Focused Adversial Invariant Regularization (FAIR) framework utilizes an innovative minimax optimization approach that breaks down the barriers, driving regression models toward prediction-invariant solutions through adversarial testing. Leveraging the representation power of neural networks, FAIR neural networks (FAIR-NN) are introduced for causality pursuit. It is shown that FAIR-NN can find the invariant variables and quasi-causal variables under a minimal identification condition and that the resulting procedure is adaptive to low-dimensional composition structures in a non-asymptotic analysis. Under a structural causal model, variables identified by FAIR-NN represent pragmatic causality and provably align with exact causal mechanisms under conditions of sufficient heterogeneity. Computationally, FAIR-NN employs a novel Gumbel approximation with decreased temperature and stochastic gradient descent ascent algorithm. The procedures are convincingly demonstrated using simulated and real-data examples. | 翻訳日:2024-07-02 14:10:11 公開日:2024-06-30 |
# 共有変数埋め込みを用いた解釈可能なマルチタスク学習
Interpretable Multi-task Learning with Shared Variable Embeddings ( http://arxiv.org/abs/2405.06330v2 ) ライセンス: Link先を確認 | Maciej Żelaszczyk, Jacek Mańdziuk, | (参考訳) 本稿では,共有情報を用いた一般的な解釈可能な予測システムを提案する。
システムは、異なるタスクが同じ入力/出力構造を持たないマルチタスク設定で予測を行うことができる。
共通空間における入力変数と出力変数の埋め込みが得られ、タスク間で再利用される共有埋め込みの集合への参加を通じて入力埋め込みが生成される。
すべての埋め込みはモデルパラメータとして扱われ、学習される。
共有埋め込みの空間と注意機構の空間性に関する具体的な制約を考察する。
実験により,バニラ変数埋込法により得られた結果が,共有埋込法の導入によって損なわれることはないことが示された。
私たちはさらに多くの努力を払っている。
注意機構のスパーシリティを誘導すると、精度が向上し、必要なトレーニングステップの数が大幅に減少する。
共有埋め込みは、質的評価と特定の共有埋め込みを、考慮されたモデルに適合しない事前定義された概念にマッピングする能力の両方の観点から解釈可能性の尺度を提供する。
正確性と解釈可能性の間にはトレードオフがあるようだ。
基本共有埋め込み法は解釈可能性を好むが、スパースアテンション法は精度を高める。
その結果,変数埋め込み法は情報共有によって拡張され,解釈可能性や精度が向上する可能性が示唆された。
This paper proposes a general interpretable predictive system with shared information. The system is able to perform predictions in a multi-task setting where distinct tasks are not bound to have the same input/output structure. Embeddings of input and output variables in a common space are obtained, where the input embeddings are produced through attending to a set of shared embeddings, reused across tasks. All the embeddings are treated as model parameters and learned. Specific restrictions on the space of shared embedings and the sparsity of the attention mechanism are considered. Experiments show that the introduction of shared embeddings does not deteriorate the results obtained from a vanilla variable embeddings method. We run a number of further ablations. Inducing sparsity in the attention mechanism leads to both an increase in accuracy and a significant decrease in the number of training steps required. Shared embeddings provide a measure of interpretability in terms of both a qualitative assessment and the ability to map specific shared embeddings to pre-defined concepts that are not tailored to the considered model. There seems to be a trade-off between accuracy and interpretability. The basic shared embeddings method favors interpretability, whereas the sparse attention method promotes accuracy. The results lead to the conclusion that variable embedding methods may be extended with shared information to provide increased interpretability and accuracy. | 翻訳日:2024-07-02 14:10:11 公開日:2024-06-30 |
# CDFormer:Blind Image Super-Resolutionのための拡散モデルを考慮した劣化予測時
CDFormer:When Degradation Prediction Embraces Diffusion Model for Blind Image Super-Resolution ( http://arxiv.org/abs/2405.07648v2 ) ライセンス: Link先を確認 | Qingguo Liu, Chenyi Zhuang, Pan Gao, Jie Qin, | (参考訳) 既存のBlind Image Super-Resolution (BSR)法は、カーネルまたは劣化情報を推定することに重点を置いているが、重要な内容の詳細を長い間見落としてきた。
本稿では,コンテンツ認識型劣化駆動トランスフォーマ (CDFormer) を用いた新しいBSR手法を提案する。
しかし、低解像度画像は十分な内容の詳細を提供できないため、拡散ベースのモジュールである$CDFormer_{diff}$を導入し、低解像度画像と高解像度画像の両方でコンテンツ劣化優先順位(CDP)を学習し、低解像度情報のみを与えられた実分布を近似する。
さらに,適応SRネットワーク$CDFormer_{SR}$を適用し,CDPを有効活用して機能を洗練する。
従来の拡散型SR法と比較して,拡散モデルを高価なサンプリング時間と過剰な多様性の限界を克服できる推定器として扱う。
実験によると、CDFormerは既存のメソッドよりも優れており、ブラインド設定下で様々なベンチマークで新しい最先端のパフォーマンスを確立することができる。
コードとモデルは \href{https://github.com/I2-Multimedia-Lab/CDFormer}{https://github.com/I2-Multimedia-Lab/CDFormer} で入手できる。
Existing Blind image Super-Resolution (BSR) methods focus on estimating either kernel or degradation information, but have long overlooked the essential content details. In this paper, we propose a novel BSR approach, Content-aware Degradation-driven Transformer (CDFormer), to capture both degradation and content representations. However, low-resolution images cannot provide enough content details, and thus we introduce a diffusion-based module $CDFormer_{diff}$ to first learn Content Degradation Prior (CDP) in both low- and high-resolution images, and then approximate the real distribution given only low-resolution information. Moreover, we apply an adaptive SR network $CDFormer_{SR}$ that effectively utilizes CDP to refine features. Compared to previous diffusion-based SR methods, we treat the diffusion model as an estimator that can overcome the limitations of expensive sampling time and excessive diversity. Experiments show that CDFormer can outperform existing methods, establishing a new state-of-the-art performance on various benchmarks under blind settings. Codes and models will be available at \href{https://github.com/I2-Multimedia-Lab/CDFormer}{https://github.com/I2-Multimedia-Lab/CDFormer}. | 翻訳日:2024-07-02 14:00:18 公開日:2024-06-30 |
# 三次元感情認識における音声・視覚融合のための不整合性を考慮したクロスアテンション
Inconsistency-Aware Cross-Attention for Audio-Visual Fusion in Dimensional Emotion Recognition ( http://arxiv.org/abs/2405.12853v2 ) ライセンス: Link先を確認 | G Rajasekhar, Jahangir Alam, | (参考訳) モーダル性にまたがる相補的関係の活用は、近年、マルチモーダル感情認識において多くの注目を集めている。
既存のアプローチのほとんどは、モダリティ間の相補的な関係を捉えるために、クロスアテンションを探索した。
しかし、モダリティはまた、弱相補的関係を示す可能性があり、それが交差した特徴を悪化させ、結果としてマルチモーダルな特徴表現が低下する可能性がある。
この問題に対処するために,音声と視覚の相補的関係に基づいて,最も関連性の高い特徴を適応的に選択できるIACAを提案する。
具体的には、弱い相補関係を扱うための適切な特徴を適応的に選択できる2段階ゲーティング機構を設計する。
Aff-Wild2データセットを用いて,提案モデルのロバスト性を示す実験を行った。
Leveraging complementary relationships across modalities has recently drawn a lot of attention in multimodal emotion recognition. Most of the existing approaches explored cross-attention to capture the complementary relationships across the modalities. However, the modalities may also exhibit weak complementary relationships, which may deteriorate the cross-attended features, resulting in poor multimodal feature representations. To address this problem, we propose Inconsistency-Aware Cross-Attention (IACA), which can adaptively select the most relevant features on-the-fly based on the strong or weak complementary relationships across audio and visual modalities. Specifically, we design a two-stage gating mechanism that can adaptively select the appropriate relevant features to deal with weak complementary relationships. Extensive experiments are conducted on the challenging Aff-Wild2 dataset to show the robustness of the proposed model. | 翻訳日:2024-07-02 14:00:18 公開日:2024-06-30 |
# Mamo: 数理モデリングベンチマーク
Mamo: a Mathematical Modeling Benchmark with Solvers ( http://arxiv.org/abs/2405.13144v2 ) ライセンス: Link先を確認 | Xuhan Huang, Qingning Shen, Yan Hu, Anningzhe Gao, Benyou Wang, | (参考訳) 数学的モデリングは、実世界の現象、システム、あるいはそれらの振る舞いを分析し、理解し、予測するために数学的表現と方程式を用いて問題を表現する。
このプロセスは通常経験豊富な専門家を必要とするため、Large Language Models (LLMs) が人的労働力を減らすために数学的モデリングを行うことができるかどうかを探求することに興味がある。
数学的モデリングにおけるLLMの評価のために,従来の結果指向評価を超越した新しいベンチマークであるMamoを導入する。
数学問題に対する解の精度に基づいてLLMを評価する従来の手法とは異なり、本手法はモデリングプロセス自体について深い洞察を与える。
最終的な解決策の正しさよりも、LCMが実行しているプロセスに焦点を合わせることで、Mamoは新たな評価パラダイムを開拓した。
このシフトは、LLMの本質的なモデリング能力を理解することの重要性を浮き彫りにし、彼らの問題解決戦略をより微妙で包括的な分析する道を開いた。
本研究は,LLMのモデリングプロセスの評価を単なる正解性よりも重視することにより,今後の研究に向けた新たな方向性を示唆するものである。
このベンチマークは、LLMの数学的モデリング能力の理解を深めるだけでなく、複雑な問題解決シナリオにおけるそれらの性能を評価するための新しい標準も設定する。
Mathematical modeling involves representing real-world phenomena, systems, or problems using mathematical expressions and equations to analyze, understand, and predict their behavior. Given that this process typically requires experienced experts, there is an interest in exploring whether Large Language Models (LLMs) can undertake mathematical modeling to potentially decrease human labor. To evaluate of LLMs in mathematical modeling, we introduce a new benchmark, Mamo, that transcends traditional result-oriented assessments. Unlike conventional methods that primarily assess LLMs based on the accuracy of solutions to mathematical problems, our approach offers deeper insight into the modeling process itself. By focusing on the processes LLMs undertake rather than the correctness of their final solutions, Mamo pioneers a novel evaluation paradigm. This shift underscores the importance of understanding the inherent modeling capabilities of LLMs, paving the way for a more nuanced and comprehensive analysis of their problem-solving strategies. Our work marks a significant advancement in the field, suggesting a new direction for future research by emphasizing the evaluation of LLMs' modeling processes over the mere correctness of answers. This benchmark not only facilitates a better understanding of LLMs' mathematical modeling capabilities but also sets a new standard for evaluating their performance in complex problem-solving scenarios. | 翻訳日:2024-07-02 14:00:18 公開日:2024-06-30 |
# コンフォーマルデプレッション予測
Conformal Depression Prediction ( http://arxiv.org/abs/2405.18723v2 ) ライセンス: Link先を確認 | Yonghong Li, Shan Qu, Xiuzhuang Zhou, | (参考訳) 深層学習に基づく既存の抑うつ予測手法は将来性を示すが、それらの実践的応用は信頼性の欠如によって妨げられ、深層モデルはしばしば「textit{black box}」モデルとして展開されるため、モデル予測の信頼性について不透明なままである。
うつ病予測のようなリスクの高い臨床応用では、不確実性定量化は意思決定に不可欠である。
本稿では,共形予測(CP)に基づく不確定な量化を伴う抑うつ予測手法である共形抑うつ予測(CDP)を導入する。
CDPはプラグ・アンド・プレイのモジュールで、モデルの再トレーニングも、うつ病データ分布の仮定も必要としない。
CDPは、入力毎の性能保証よりも、全ての入力に対する平均カバレッジ保証しか提供しないため、近似条件付き共形予測であるCDP-ACCも提案する。
CDP-ACCは、まず、近傍緩和により予測分布を推定し、次に、ネストしたシーケンスを構成することで共形スコア関数を導入し、それぞれの入力に対してより厳密な予測間隔を提供する。
AVEC 2013 と AVEC 2014 データセットに対する CDP-ACC の有効性と優位性を実証的に示す。
While existing depression prediction methods based on deep learning show promise, their practical application is hindered by the lack of trustworthiness, as these deep models are often deployed as \textit{black box} models, leaving us uncertain about the confidence of the model predictions. For high-risk clinical applications like depression prediction, uncertainty quantification is essential in decision-making. In this paper, we introduce conformal depression prediction (CDP), a depression prediction method with uncertainty quantification based on conformal prediction (CP), giving valid confidence intervals with theoretical coverage guarantees for the model predictions. CDP is a plug-and-play module that requires neither model retraining nor an assumption about the depression data distribution. As CDP provides only an average coverage guarantee across all inputs rather than per-input performance guarantee, we further propose CDP-ACC, an improved conformal prediction with approximate conditional coverage. CDP-ACC firstly estimates the prediction distribution through neighborhood relaxation, and then introduces a conformal score function by constructing nested sequences, so as to provide a tighter prediction interval for each specific input. We empirically demonstrate the application of CDP in uncertainty-aware depression prediction, as well as the effectiveness and superiority of CDP-ACC on the AVEC 2013 and AVEC 2014 datasets. | 翻訳日:2024-07-02 13:50:34 公開日:2024-06-30 |
# 視覚指向型意思決定のための固有ダイナミクス駆動型一般化可能なシーン表現
Intrinsic Dynamics-Driven Generalizable Scene Representations for Vision-Oriented Decision-Making Applications ( http://arxiv.org/abs/2405.19736v2 ) ライセンス: Link先を確認 | Dayang Liang, Jinyang Lai, Yunlong Liu, | (参考訳) シーン表現の能力向上は、ビジョン指向意思決定アプリケーションにおいて重要な問題であり、現状のアプローチでは、この問題を解決するために視覚強化学習の中でタスク関連の状態表現を学習する。
従来の作業では、観察からタスク関連状態情報を抽出するために、要素(例えば、報酬や行動)を1段階の行動類似度指標として導入するが、正確な表現を学ぶのに不可欠な要素間の固有のダイナミクス関係を無視することが多く、長期的ダイナミクス遷移における短期的な類似したタスク/行動情報の識別を妨げている。
この問題を軽減するために,視覚的強化学習(DSR)におけるシーケンスモデルを用いた固有ダイナミクス駆動表現学習法を提案する。
具体的には、DSRは、パラメータ化エンコーダを基礎システムの状態遷移ダイナミクスによって最適化し、潜時符号化情報を状態遷移過程を満たすように促し、状態空間とノイズ空間を区別することができる。
類似したタスクを符号化する上でのDSRの表現能力をさらに向上するために、シーケンシャル要素の周波数領域とマルチステップ予測を採用し、固有ダイナミクスを逐次モデル化する。
最後に、実験結果から、DSRは視覚的抽出DMControl制御タスクにおいて、特に背骨ベースライン平均78.9\%で大幅な性能改善を達成していることが示された。
さらに,CARLAシミュレータ上での現実の自律運転アプリケーションにおいて,最高の性能を達成できることが示唆された。
さらに、定性的な解析結果から、視覚タスクにおける一般化可能なシーン表現を学習する能力に優れた方法があることが検証された。
ソースコードはhttps://github.com/DMU-XMU/DSRで公開されている。
How to improve the ability of scene representation is a key issue in vision-oriented decision-making applications, and current approaches usually learn task-relevant state representations within visual reinforcement learning to address this problem. While prior work typically introduces one-step behavioral similarity metrics with elements (e.g., rewards and actions) to extract task-relevant state information from observations, they often ignore the inherent dynamics relationships among the elements that are essential for learning accurate representations, which further impedes the discrimination of short-term similar task/behavior information in long-term dynamics transitions. To alleviate this problem, we propose an intrinsic dynamics-driven representation learning method with sequence models in visual reinforcement learning, namely DSR. Concretely, DSR optimizes the parameterized encoder by the state-transition dynamics of the underlying system, which prompts the latent encoding information to satisfy the state-transition process and then the state space and the noise space can be distinguished. In the implementation and to further improve the representation ability of DSR on encoding similar tasks, sequential elements' frequency domain and multi-step prediction are adopted for sequentially modeling the inherent dynamics. Finally, experimental results show that DSR has achieved significant performance improvements in the visual Distracting DMControl control tasks, especially with an average of 78.9\% over the backbone baseline. Further results indicate that it also achieves the best performances in real-world autonomous driving applications on the CARLA simulator. Moreover, qualitative analysis results validate that our method possesses the superior ability to learn generalizable scene representations on visual tasks. The source code is available at https://github.com/DMU-XMU/DSR. | 翻訳日:2024-07-02 13:50:34 公開日:2024-06-30 |
# 司法手続における主題の暴露:インドとイギリスにおける法的文書のトピックモデリングを用いたクロスカウンタリー研究
Unveiling Themes in Judicial Proceedings: A Cross-Country Study Using Topic Modeling on Legal Documents from India and the UK ( http://arxiv.org/abs/2406.00040v2 ) ライセンス: Link先を確認 | Krish Didwania, Dr. Durga Toshniwal, Amit Agarwal, | (参考訳) 法律文書は法律実務に欠かせないものであり、前回の事件や雇用法に関する主要な情報源として機能している。
今日の世界では、司法事件が増えているため、過去の事件を体系的にサブグループに分類することが重要であり、今後の事件や慣行に利用できるようになる。
この取り組みの主な焦点は、インドとイギリスからの長い法的文書の収集のために、レイト・ディリクレ・アロケーション、非負行列因子化、ベルトトピックといったトピックモデリングアルゴリズムを使用した事例を注釈することであった。
このステップは、2つの国間で生成されたラベルを区別するために重要であり、各管轄区域で発生するケースの種類の違いを強調している。
さらに、インドからの事例の時系列分析を行い、長年の有力トピックの進化を解明した。
Legal documents are indispensable in every country for legal practices and serve as the primary source of information regarding previous cases and employed statutes. In today's world, with an increasing number of judicial cases, it is crucial to systematically categorize past cases into subgroups, which can then be utilized for upcoming cases and practices. Our primary focus in this endeavor was to annotate cases using topic modeling algorithms such as Latent Dirichlet Allocation, Non-Negative Matrix Factorization, and Bertopic for a collection of lengthy legal documents from India and the UK. This step is crucial for distinguishing the generated labels between the two countries, highlighting the differences in the types of cases that arise in each jurisdiction. Furthermore, an analysis of the timeline of cases from India was conducted to discern the evolution of dominant topics over the years. | 翻訳日:2024-07-02 13:50:34 公開日:2024-06-30 |
# 格子振動によるアンダーソン局在の上昇と低下--時間依存機械学習アプローチ
Rise and Fall of Anderson Localization by Lattice Vibrations: A Time-Dependent Machine Learning Approach ( http://arxiv.org/abs/2406.00042v2 ) ライセンス: Link先を確認 | Yoel Zimmermann, Joonas Keski-Rahkonen, Anton M. Graf, Eric J. Heller, | (参考訳) 電子と結晶格子の間の複雑な関係は凝縮物質のリンチピンであり、伝統的に最低階格子-電子結合を含むFr\"ohlichモデルによって記述されている。
近年開発された量子音響学は、格子振動の波動特性を強調しており、摂動理論のような従来の道具ではアクセスできない、未耕起の電子-格子相互作用の領域の探索を可能にしている。
この文脈では、ここでの議題は2つです。
まず、電子の微妙な相互作用と動的格子の風景の中で様々な相互作用様式を分類するための機械学習手法の適用について述べる。
第二に、我々は機械学習アプローチによって同定された電子力学の負の領域に光を当て、それを過渡的局所化(英語版)とみなし、そこで強い格子振動が、後に格子の進化によって解放される電子ウェーブパペットのための一時的なアンダーソン刑務所(英語版)に繋がる。
全体として、我々の研究は、過渡的な局在化のようなFr\ohlichモデル内の力学スペクトルを照らし、これは奇妙な金属を取り巻く謎に寄与する重要な要因であると考えられている。
さらに、これは機械学習技術における時間依存的な視点を利用して、電子格子特性を調整した材料を設計する方法である。
The intricate relationship between electrons and the crystal lattice is a linchpin in condensed matter, traditionally described by the Fr\"ohlich model encompassing the lowest-order lattice-electron coupling. Recently developed quantum acoustics, emphasizing the wave nature of lattice vibrations, has enabled the exploration of previously uncharted territories of electron-lattice interaction not accessible with conventional tools such as perturbation theory. In this context, our agenda here is two-fold. First, we showcase the application of machine learning methods to categorize various interaction regimes within the subtle interplay of electrons and the dynamical lattice landscape. Second, we shed light on a nebulous region of electron dynamics identified by the machine learning approach and then attribute it to transient localization, where strong lattice vibrations result in a momentary Anderson prison for electronic wavepackets, which are later released by the evolution of the lattice. Overall, our research illuminates the spectrum of dynamics within the Fr\"ohlich model, such as transient localization, which has been suggested as a pivotal factor contributing to the mysteries surrounding strange metals. Furthermore, this paves the way for utilizing time-dependent perspectives in machine learning techniques for designing materials with tailored electron-lattice properties. | 翻訳日:2024-07-02 13:50:34 公開日:2024-06-30 |
# モデル予測制御と強化学習:動的プログラミングに基づく統一フレームワーク
Model Predictive Control and Reinforcement Learning: A Unified Framework Based on Dynamic Programming ( http://arxiv.org/abs/2406.00592v3 ) ライセンス: Link先を確認 | Dimitri P. Bertsekas, | (参考訳) 本稿では、近似動的プログラミング(DP)、モデル予測制御(MPC)、強化学習(RL)を結合する新しい概念フレームワークについて述べる。
このフレームワークは2つのアルゴリズムを中心に設計されており、ニュートンの手法の強力なメカニズムを通じて互いに独立に設計され、シナジーで動作している。
オフライントレーニングとオンラインプレイアルゴリズムと呼んでいます。
主な例として、2017年のAlphaZeroプログラム(チェス、[SHS17]、[SSS17])、1990年代のTD-Gammonプログラム(バックギャモン、[Tes94]、[Tes95]、[TeG96])などがある。
これらのゲームコンテキストにおいて、オフライントレーニングアルゴリズムは、プログラムに位置を評価し、任意の位置で良い動きを生成する方法を教える方法であり、オンラインプレイアルゴリズムは、人間やコンピュータの対戦相手に対してリアルタイムにプレイする手法である。
重要なことに、オフライントレーニングとオンラインプレイの相乗効果は、MPC(および他のシーケンシャルな決定問題の主要なクラス)の基盤にもなり、実際、MPC設計アーキテクチャはAlphaZeroとTD-Gammonのものと非常によく似ている。
この概念的な洞察は、RLとMPCの文化的ギャップを埋める手段を提供し、MPCの基本的な問題に新たな光を当てる。
これには、ロールアウトによる安定性の強化、確実性等価性による不確実性処理、システムパラメータの変更を含む適応制御設定におけるMPCのレジリエンス、ニュートン法によって示唆された超線形性能境界による洞察などが含まれる。
In this paper we describe a new conceptual framework that connects approximate Dynamic Programming (DP), Model Predictive Control (MPC), and Reinforcement Learning (RL). This framework centers around two algorithms, which are designed largely independently of each other and operate in synergy through the powerful mechanism of Newton's method. We call them the off-line training and the on-line play algorithms. The names are borrowed from some of the major successes of RL involving games; primary examples are the recent (2017) AlphaZero program (which plays chess, [SHS17], [SSS17]), and the similarly structured and earlier (1990s) TD-Gammon program (which plays backgammon, [Tes94], [Tes95], [TeG96]). In these game contexts, the off-line training algorithm is the method used to teach the program how to evaluate positions and to generate good moves at any given position, while the on-line play algorithm is the method used to play in real time against human or computer opponents. Significantly, the synergy between off-line training and on-line play also underlies MPC (as well as other major classes of sequential decision problems), and indeed the MPC design architecture is very similar to the one of AlphaZero and TD-Gammon. This conceptual insight provides a vehicle for bridging the cultural gap between RL and MPC, and sheds new light on some fundamental issues in MPC. These include the enhancement of stability properties through rollout, the treatment of uncertainty through the use of certainty equivalence, the resilience of MPC in adaptive control settings that involve changing system parameters, and the insights provided by the superlinear performance bounds implied by Newton's method. | 翻訳日:2024-07-02 13:40:49 公開日:2024-06-30 |
# メル周波数ケプストラム係数を用いた心音の高次分類と単組とアンサンブルの分類法の比較分析
Enhanced Heart Sound Classification Using Mel Frequency Cepstral Coefficients and Comparative Analysis of Single vs. Ensemble Classifier Strategies ( http://arxiv.org/abs/2406.00702v4 ) ライセンス: Link先を確認 | Amir Masoud Rahmani, Amir Haider, Mohammad Adeli, Olfa Mzoughi, Entesar Gemeay, Mokhtar Mohammadi, Hamid Alinejad-Rokny, Parisa Khoshvaght, Mehdi Hosseinzadeh, | (参考訳) 本稿では,Mel Frequency Cepstral Coefficients (MFCCs) を用いた2つの分類法について検討した。
心臓の音はまずノイズを取り除くために前処理され、その後S1, systole, S2, diastoleの間隔に区切られ、各セグメントから13個のMFCCが推定され、1ビートあたり52個のMFCCが生成される。
最終的に、MFCCは心臓音の分類に使用された。
その目的のために、単一の分類器戦略において、9つの連続したビートからのMFCCを平均して、単一の分類器(SVM)、k近傍の隣人(kNN)、または決定木(DT)のいずれかで心臓音を分類した。
逆に、アンサンブル分類法では9つの分類器(9つのSVM、9つのkNN分類器、または9つのDT)を用いて、個々のビートを正常または異常として評価し、全体分類は多数決に基づいて行った。
どちらの方法も一般に公開されている心電図データベース上でテストされた。
心臓音の分類精度はSVMが91.95%、kNNが91.9%、DTが87.33%であった。
また、SVMでは93.59%、kNNでは91.84%、アンサンブル分類法では92.22%の精度であった。
その結果, アンサンブル分類法はDTとSVMの精度を4.89%, 1.64%改善し, MFCCを時間, 時間周波数, 統計的特徴など他の特徴よりも有効であることを確認した。
This paper explores the efficacy of Mel Frequency Cepstral Coefficients (MFCCs) in detecting abnormal heart sounds using two classification strategies: a single classifier and an ensemble classifier approach. Heart sounds were first pre-processed to remove noise and then segmented into S1, systole, S2, and diastole intervals, with thirteen MFCCs estimated from each segment, yielding 52 MFCCs per beat. Finally, MFCCs were used for heart sound classification. For that purpose, in the single classifier strategy, the MFCCs from nine consecutive beats were averaged to classify heart sounds by a single classifier (either a support vector machine (SVM), the k nearest neighbors (kNN), or a decision tree (DT)). Conversely, the ensemble classifier strategy employed nine classifiers (either nine SVMs, nine kNN classifiers, or nine DTs) to individually assess beats as normal or abnormal, with the overall classification based on the majority vote. Both methods were tested on a publicly available phonocardiogram database. The heart sound classification accuracy was 91.95% for the SVM, 91.9% for the kNN, and 87.33% for the DT in the single classifier strategy. Also, the accuracy was 93.59% for the SVM, 91.84% for the kNN, and 92.22% for the DT in the ensemble classifier strategy. Overall, the results demonstrated that the ensemble classifier strategy improved the accuracies of the DT and the SVM by 4.89% and 1.64%, establishing MFCCs as more effective than other features, including time, time-frequency, and statistical features, evaluated in similar studies. | 翻訳日:2024-07-02 13:40:49 公開日:2024-06-30 |
# Scaffoldが仮想スクリーニング性能を過大評価
Scaffold Splits Overestimate Virtual Screening Performance ( http://arxiv.org/abs/2406.00873v2 ) ライセンス: Link先を確認 | Qianrong Guo, Saiveth Hernandez-Hernandez, Pedro J Ballester, | (参考訳) 人工知能(AI)モデルでガイドされた膨大な複合ライブラリの仮想スクリーニング(VS)は、初期の薬物発見に対する極めて生産的なアプローチである。
このようなAIモデルのより良いベンチマークには、データの分割が不可欠だ。
従来のランダムデータ分割は、トレーニングとテストセットの間に類似した分子を生成し、主に構造的に異なる化合物を含むVSライブラリの現実と矛盾する。
共有コア構造によって分子をグループ化するスカフォード分割は、この現実世界のシナリオを反映していると広く考えられている。
しかしここでは、スキャフォールドの分割がVSのパフォーマンスを過大評価していることを示す。
理由は、異なる化学的足場を持つ分子はしばしば類似しており、それゆえ、足場が分裂した後に、訓練分子とテスト分子の間に非現実的に高い類似性をもたらすからである。
NCI-60データセットの3つの代表的AIモデルについて検討し、それぞれ3万から5万の分子を異なるがん細胞株でテストした。
各データセットは、足場、Butinaクラスタリング、より正確なUniform Manifold Approximation and Projection(UMAP)クラスタリングの3つの方法に分けられた。
モデルにかかわらず、モデル性能は、各アルゴリズムでトレーニングされ評価された2100モデルの結果と、各アルゴリズムで評価された2100モデルの結果とを UMAP の分割で比較すると、はるかに悪化する。
これらの堅牢な結果は、VSのチューニング、比較、選択のためのより現実的なデータ分割の必要性を示している。
これらの結果を再現するコードはhttps://github.com/ScaffoldSplitsOverestimateVSで公開されている。
Virtual Screening (VS) of vast compound libraries guided by Artificial Intelligence (AI) models is a highly productive approach to early drug discovery. Data splitting is crucial for better benchmarking of such AI models. Traditional random data splits produce similar molecules between training and test sets, conflicting with the reality of VS libraries which mostly contain structurally distinct compounds. Scaffold split, grouping molecules by shared core structure, is widely considered to reflect this real-world scenario. However, here we show that the scaffold split also overestimates VS performance. The reason is that molecules with different chemical scaffolds are often similar, which hence introduces unrealistically high similarities between training molecules and test molecules following a scaffold split. Our study examined three representative AI models on 60 NCI-60 datasets, each with approximately 30,000 to 50,000 molecules tested on a different cancer cell line. Each dataset was split with three methods: scaffold, Butina clustering and the more accurate Uniform Manifold Approximation and Projection (UMAP) clustering. Regardless of the model, model performance is much worse with UMAP splits from the results of the 2100 models trained and evaluated for each algorithm and split. These robust results demonstrate the need for more realistic data splits to tune, compare, and select models for VS. For the same reason, avoiding the scaffold split is also recommended for other molecular property prediction problems. The code to reproduce these results is available at https://github.com/ScaffoldSplitsOverestimateVS | 翻訳日:2024-07-02 13:40:49 公開日:2024-06-30 |
# ディープ・ラーニングのアウト・オブ・ディストリビューション領域への一般化の検証
Verifying the Generalization of Deep Learning to Out-of-Distribution Domains ( http://arxiv.org/abs/2406.02024v3 ) ライセンス: Link先を確認 | Guy Amir, Osher Maayan, Tom Zelazny, Guy Katz, Michael Schapira, | (参考訳) ディープラーニング(Deep Neural Network, DNN)は、機械学習の分野において重要な役割を担い、さまざまなアプリケーションドメインにわたる最先端のパフォーマンスを示す。
しかし、その成功にもかかわらず、DNNベースのモデルは時折一般化の難しさを示すことがある。
この制限は、安全なクリティカルなタスクのためのディープラーニングをデプロイする上で、大きな課題になります。
本稿では,DNN による決定ルールを識別するために,DNN 検証技術を活用する新しい手法を提案する。
本手法は,この領域における入力に対して,独立に訓練された深層ニューラルネットワーク間の一致度を測定することにより,入力領域内の一般化を評価する。
また、市販のDNN検証エンジンを用いて、我々のアプローチを効率よく実現し、インターネット混雑制御のための深層強化学習(DRL)システムを含む教師付きおよび教師なしのDNNベンチマークでこれを広範囲に評価し、我々のアプローチを実世界の設定に適用可能であることを示す。
さらに,本研究では,実世界のシナリオにおけるDNN駆動システムの展開に伴う課題を軽減し,形式検証の新たな目標を提案する。
Deep neural networks (DNNs) play a crucial role in the field of machine learning, demonstrating state-of-the-art performance across various application domains. However, despite their success, DNN-based models may occasionally exhibit challenges with generalization, i.e., may fail to handle inputs that were not encountered during training. This limitation is a significant challenge when it comes to deploying deep learning for safety-critical tasks, as well as in real-world settings characterized by substantial variability. We introduce a novel approach for harnessing DNN verification technology to identify DNN-driven decision rules that exhibit robust generalization to previously unencountered input domains. Our method assesses generalization within an input domain by measuring the level of agreement between independently trained deep neural networks for inputs in this domain. We also efficiently realize our approach by using off-the-shelf DNN verification engines, and extensively evaluate it on both supervised and unsupervised DNN benchmarks, including a deep reinforcement learning (DRL) system for Internet congestion control -- demonstrating the applicability of our approach for real-world settings. Moreover, our research introduces a fresh objective for formal verification, offering the prospect of mitigating the challenges linked to deploying DNN-driven systems in real-world scenarios. | 翻訳日:2024-07-02 13:40:49 公開日:2024-06-30 |
# ViDiT-Q:画像・映像生成のための拡散変換器の効率的かつ高精度な量子化
ViDiT-Q: Efficient and Accurate Quantization of Diffusion Transformers for Image and Video Generation ( http://arxiv.org/abs/2406.02540v2 ) ライセンス: Link先を確認 | Tianchen Zhao, Tongcheng Fang, Enshu Liu, Rui Wan, Widyadewi Soedarmadji, Shiyao Li, Zinan Lin, Guohao Dai, Shengen Yan, Huazhong Yang, Xuefei Ning, Yu Wang, | (参考訳) 拡散変換器(DiT)は、テキスト命令に基づいて現実的な画像やビデオを生成するなど、視覚生成タスクにおいて顕著な性能を示した。
しかし、より大きなモデルサイズとビデオ生成のためのマルチフレーム処理により、計算コストとメモリコストが増大し、エッジデバイスに実用的なデプロイを行う上での課題が浮かび上がった。
ポストトレーニング量子化(PTQ)は、メモリコストと計算複雑性を低減する効果的な方法である。
拡散変圧器の量子化では,U-Net用に設計された既存の拡散量子化手法が品質維持の課題に直面していることがわかった。
拡散変換器の量子化に関する主要な課題を分析した後、これらの問題に対処するために改良された量子化スキーム"ViDiT-Q": Video and Image Diffusion Transformer Quantization"を設計する。
さらに、低ビット幅の量子化を妨げる高感度層と時間ステップを同定する。
そこで我々は,新しい距離分離型混合精度量子化法(ViDiT-Q-MP)により,ViDiT-Qを改善する。
様々なテキスト・ツー・イメージ・ビデオ・モデルにおけるViDiT-Qの有効性を検証する。
ベースライン量子化法はW8A8で失敗し、W4A8で読めないコンテンツを生成するが、ViDiT-Qは損失のないW8A8量子化を実現する。
ViDiTQ-MPは、視覚的品質の劣化を無視してW4A8を実現し、2.5倍のメモリ最適化と1.5倍のレイテンシ高速化を実現している。
Diffusion transformers (DiTs) have exhibited remarkable performance in visual generation tasks, such as generating realistic images or videos based on textual instructions. However, larger model sizes and multi-frame processing for video generation lead to increased computational and memory costs, posing challenges for practical deployment on edge devices. Post-Training Quantization (PTQ) is an effective method for reducing memory costs and computational complexity. When quantizing diffusion transformers, we find that applying existing diffusion quantization methods designed for U-Net faces challenges in preserving quality. After analyzing the major challenges for quantizing diffusion transformers, we design an improved quantization scheme: "ViDiT-Q": Video and Image Diffusion Transformer Quantization) to address these issues. Furthermore, we identify highly sensitive layers and timesteps hinder quantization for lower bit-widths. To tackle this, we improve ViDiT-Q with a novel metric-decoupled mixed-precision quantization method (ViDiT-Q-MP). We validate the effectiveness of ViDiT-Q across a variety of text-to-image and video models. While baseline quantization methods fail at W8A8 and produce unreadable content at W4A8, ViDiT-Q achieves lossless W8A8 quantization. ViDiTQ-MP achieves W4A8 with negligible visual quality degradation, resulting in a 2.5x memory optimization and a 1.5x latency speedup. | 翻訳日:2024-07-02 13:40:49 公開日:2024-06-30 |
# Solovay-Kitaev理論を使わずに効率的なフォールトトレラント単一量子ゲート近似とユニバーサル量子計算
Efficient Fault-Tolerant Single Qubit Gate Approximation And Universal Quantum Computation Without Using The Solovay-Kitaev Theorem ( http://arxiv.org/abs/2406.04846v2 ) ライセンス: Link先を確認 | H. F. Chau, | (参考訳) クリフォードゲートZ, S, CNOTと非クリフォードゲートを用いて、任意に正確なフォールトトレラント(FT)普遍量子計算を行うことができる。
さらに、KuperbergによるSolovay-Kitaev定理の最近の改良により、任意の単一キュービットゲートを$\epsilon > 0$ の精度で近似するには$\text{O}(\log^c[1/\epsilon])$ $c > 1.44042$ の量子ゲートが必要である。
良いことはできるのか?
これはNielsenとChuangの量子計算教科書で質問された質問である。
具体的には、有限集合から選択した$\Omega(\log[1/\epsilon])$ gatesを使って、単一量子ゲート、フォールトトレラント、あるいはそれ以外を効率的に近似するチャレンジをポストした。
ここで、この疑問に対する部分的な答えは、$\text{O}(\log[1/\epsilon] \log\log[1/\epsilon] \log\log[1/\epsilon] \cdots)$ FT ゲートが $\epsilon$ の値に依存する有限集合から選択されることを示している。
鍵となる考え方は、任意の精度$\epsilon > 0$に再帰することで、FT方式で任意の位相ゲートの近似を構築することである。
この方法は簡単に実装でき、理解しやすく、興味深いことにソロワ=キタエフの定理を含まない。
Arbitrarily accurate fault-tolerant (FT) universal quantum computation can be carried out using the Clifford gates Z, S, CNOT plus the non-Clifford T gate. Moreover, a recent improvement of the Solovay-Kitaev theorem by Kuperberg implies that to approximate any single-qubit gate to an accuracy of $\epsilon > 0$ requires $\text{O}(\log^c[1/\epsilon])$ quantum gates with $c > 1.44042$. Can one do better? That was the question asked by Nielsen and Chuang in their quantum computation textbook. Specifically, they posted a challenge to efficiently approximate single-qubit gate, fault-tolerantly or otherwise, using $\Omega(\log[1/\epsilon])$ gates chosen from a finite set. Here I give a partial answer to this question by showing that this is possible using $\text{O}(\log[1/\epsilon] \log\log[1/\epsilon] \log\log\log[1/\epsilon] \cdots)$ FT gates chosen from a finite set depending on the value of $\epsilon$. The key idea is to construct an approximation of any phase gate in a FT way by recursion to any given accuracy $\epsilon > 0$. This method is straightforward to implement, easy to understand, and interestingly does not involve the Solovay-Kitaev theorem. | 翻訳日:2024-07-02 13:40:49 公開日:2024-06-30 |
# AIM: マルチモーダルな大規模言語モデルにインコンテキスト学習を効果的に実施させる
AIM: Let Any Multi-modal Large Language Models Embrace Efficient In-Context Learning ( http://arxiv.org/abs/2406.07588v2 ) ライセンス: Link先を確認 | Jun Gao, Qian Qiao, Ziqiang Cao, Zili Wang, Wenjie Li, | (参考訳) In-context Learning(ICL)は、数十億のパラメータを更新することなく、下流タスクに創発的な能力を示すLarge Language Models(LLM)を容易にする。
しかし、MLLM(Multi-modal Large Language Models)の分野では、2つの問題がマルチモーダルICLの適用を妨げる。
2)デモの増加に伴い,数千の視覚トークンがハードウェアに挑戦し,ICL性能を低下させた。
予備的な調査では、内部のLLMは、応答を生成するためのマルチモーダルな実演において、言語的モダリティに重点を置いていることが判明した。
そこで本稿では, 対応する言語部分の高密度潜在空間に対して, <textbf{A}mage information of \textbf{M}ultimodal demonstrations を集約することで, 上記の問題に対処するための, 汎用的で軽量なフレームワークである \textbf{AIM} を提案する。
具体的には、AIMはまず凍結したバックボーンMLLMを使用して各画像テキストのデモを読み出し、テキストの上のベクトル表現を抽出する。
これらのベクトルは自然に画像とテキストのペアに関する情報を融合させ、AIMはそれらを訓練可能な投影層を介して内部LLMに許容される融合仮想トークンに変換する。
最終的に、これらの融合トークンはマルチモーダルなデモの変種として機能し、MLLMに入力され、通常通り現在のクエリに応答する。
これらの融合トークンは、画像とテキストのペアのテキストコンポーネントに由来するため、マルチモーダルなデモはほぼ純粋なテキストによるデモに還元され、任意のMLLMにシームレスに適用される。
実のMLLMを凍結することで、AIMはパラメータ効率が良く、下流のテストタスクとは無関係な公開マルチモーダルウェブコーパスでトレーニングする。
In-context learning (ICL) facilitates Large Language Models (LLMs) exhibiting emergent ability on downstream tasks without updating billions of parameters. However, in the area of multi-modal Large Language Models (MLLMs), two problems hinder the application of multi-modal ICL: (1) Most primary MLLMs are only trained on single-image datasets, making them unable to read multi-modal demonstrations. (2) With the demonstrations increasing, thousands of visual tokens highly challenge hardware and degrade ICL performance. During preliminary explorations, we discovered that the inner LLM tends to focus more on the linguistic modality within multi-modal demonstrations to generate responses. Therefore, we propose a general and light-weighted framework \textbf{AIM} to tackle the mentioned problems through \textbf{A}ggregating \textbf{I}mage information of \textbf{M}ultimodal demonstrations to the dense latent space of the corresponding linguistic part. Specifically, AIM first uses the frozen backbone MLLM to read each image-text demonstration and extracts the vector representations on top of the text. These vectors naturally fuse the information of the image-text pair, and AIM transforms them into fused virtual tokens acceptable for the inner LLM via a trainable projection layer. Ultimately, these fused tokens function as variants of multi-modal demonstrations, fed into the MLLM to direct its response to the current query as usual. Because these fused tokens stem from the textual component of the image-text pair, a multi-modal demonstration is nearly reduced to a pure textual demonstration, thus seamlessly applying to any MLLMs. With its de facto MLLM frozen, AIM is parameter-efficient and we train it on public multi-modal web corpora which have nothing to do with downstream test tasks. | 翻訳日:2024-07-02 13:30:57 公開日:2024-06-30 |
# Flash-VStream: 長いビデオストリームのためのメモリベースのリアルタイム理解
Flash-VStream: Memory-Based Real-Time Understanding for Long Video Streams ( http://arxiv.org/abs/2406.08085v2 ) ライセンス: Link先を確認 | Haoji Zhang, Yiqin Wang, Yansong Tang, Yong Liu, Jiashi Feng, Jifeng Dai, Xiaojie Jin, | (参考訳) 大規模言語モデルの進歩とクロスモーダルなアライメントにより、既存のマルチモーダルビデオ理解手法はオフラインシナリオにおいて顕著なパフォーマンスを実現している。
しかし、オンラインビデオストリームは、現実世界で最も一般的なメディアフォーマットの1つであり、注目されることはめったにない。
オフラインビデオと比較して、オンラインビデオストリームの「ダイナミック」な性質は、既存のモデルを直接適用する上での課題を提起し、極端に長期的な情報の保存、継続的な視覚的コンテンツ間の相互作用、そして「非同期」ユーザ質問といった新しい問題を導入している。
そこで本稿では,人間の記憶機構をシミュレートしたビデオ言語モデルFlash-VStreamを提案する。
我々のモデルは、非常に長いビデオストリームをリアルタイムで処理し、同時にユーザクエリに応答することができる。
既存のモデルと比較して、Flash-VStreamは推論遅延とVRAM消費の大幅な削減を実現している。
さらに、既存のビデオ理解ベンチマークがオフラインのシナリオに集中していることを踏まえ、オンラインビデオストリーミング理解に特化した新しい質問応答ベンチマークであるVStream-QAを提案する。
提案したベンチマークにおける既存手法との比較により,このような課題に対して,提案手法の優位性を示す。
提案手法の一般化性を検証するため,既存のビデオ理解ベンチマークでさらに評価し,オフラインシナリオでも最先端のパフォーマンスを実現する。
すべてのコード、モデル、データセットはhttps://invinciblewyq.github.io/vstream-page/で入手できる。
Benefiting from the advancements in large language models and cross-modal alignment, existing multi-modal video understanding methods have achieved prominent performance in offline scenario. However, online video streams, as one of the most common media forms in the real world, have seldom received attention. Compared to offline videos, the 'dynamic' nature of online video streams poses challenges for the direct application of existing models and introduces new problems, such as the storage of extremely long-term information, interaction between continuous visual content and 'asynchronous' user questions. Therefore, in this paper we present Flash-VStream, a video-language model that simulates the memory mechanism of human. Our model is able to process extremely long video streams in real-time and respond to user queries simultaneously. Compared to existing models, Flash-VStream achieves significant reductions in inference latency and VRAM consumption, which is intimately related to performing understanding of online streaming video. In addition, given that existing video understanding benchmarks predominantly concentrate on offline scenario, we propose VStream-QA, a novel question answering benchmark specifically designed for online video streaming understanding. Comparisons with popular existing methods on the proposed benchmark demonstrate the superiority of our method for such challenging setting. To verify the generalizability of our approach, we further evaluate it on existing video understanding benchmarks and achieves state-of-the-art performance in offline scenarios as well. All code, models, and datasets are available at the https://invinciblewyq.github.io/vstream-page/ | 翻訳日:2024-07-02 13:30:57 公開日:2024-06-30 |
# 400以上の疾患の知識を有するビジョン・ランゲージ・ファンデーションモデルを用いた共通および希少なファンドス病の同定
Common and Rare Fundus Diseases Identification Using Vision-Language Foundation Model with Knowledge of Over 400 Diseases ( http://arxiv.org/abs/2406.09317v2 ) ライセンス: Link先を確認 | Meng Wang, Tian Lin, Aidi Lin, Kai Yu, Yuanyuan Peng, Lianyu Wang, Cheng Chen, Ke Zou, Huiyu Liang, Man Chen, Xue Yao, Meiqin Zhang, Binwei Huang, Chaoxin Zheng, Peixin Zhang, Wei Chen, Yilong Luo, Yifan Chen, Honghe Xia, Tingkun Shi, Qi Zhang, Jinming Guo, Xiaolin Chen, Jingcheng Wang, Yih Chung Tham, Dianbo Liu, Wendy Wong, Sahil Thakur, Beau Fenner, Danqi Fang, Siying Liu, Qingyun Liu, Yuqiang Huang, Hongqiang Zeng, Yanda Meng, Yukun Zhou, Zehua Jiang, Minghui Qiu, Changqing Zhang, Xinjian Chen, Sophia Y Wang, Cecilia S Lee, Lucia Sobrin, Carol Y Cheung, Chi Pui Pang, Pearse A Keane, Ching-Yu Cheng, Haoyu Chen, Huazhu Fu, | (参考訳) 以前の網膜画像の基礎モデルは、限られた疾患カテゴリと知識ベースで事前訓練された。
ここでは、400以上の基礎疾患からの知識を活用するビジョン言語基盤モデルであるRetiZeroを紹介する。
RetiZeroの事前トレーニングのために、公開データセット、眼科文献、オンラインリソースから得られたテキスト記述と組み合わせた341,896の画像を作成し、複数の民族や国にまたがるさまざまな病気を網羅した。
RetiZeroは、ゼロショット病の認識、画像と画像の検索、内部およびドメイン間の疾患の識別など、いくつかの下流タスクにおいて優れたパフォーマンスを示す。
ゼロショットのシナリオでは、RetiZeroは15の眼底疾患で0.8430、52の眼底疾患で0.7561、Top5の精度スコアを達成している。
画像検索では、同じ疾患セットに対して、それぞれ0.9500と0.8860のTop5スコアを達成している。
臨床評価によると、RetiZeroのゼロショットの成績は、シンガポール、中国、米国からの平均19人の眼科医を上回っている。
さらに、RetiZeroは、基礎疾患の診断における臨床医の精度を著しく向上させる。
これらの知見は, RetiZero ファンデーションモデルを様々な基礎疾患に遭遇した臨床環境に組み込むことの価値を浮き彫りにした。
Previous foundation models for retinal images were pre-trained with limited disease categories and knowledge base. Here we introduce RetiZero, a vision-language foundation model that leverages knowledge from over 400 fundus diseases. To RetiZero's pre-training, we compiled 341,896 fundus images paired with text descriptions, sourced from public datasets, ophthalmic literature, and online resources, encompassing a diverse range of diseases across multiple ethnicities and countries. RetiZero exhibits superior performance in several downstream tasks, including zero-shot disease recognition, image-to-image retrieval, and internal- and cross-domain disease identification. In zero-shot scenarios, RetiZero achieves Top5 accuracy scores of 0.8430 for 15 fundus diseases and 0.7561 for 52 fundus diseases. For image retrieval, it achieves Top5 scores of 0.9500 and 0.8860 for the same disease sets, respectively. Clinical evaluations show that RetiZero's Top3 zero-shot performance surpasses the average of 19 ophthalmologists from Singapore, China and the United States. Furthermore, RetiZero significantly enhances clinicians' accuracy in diagnosing fundus disease. These findings underscore the value of integrating the RetiZero foundation model into clinical settings, where a variety of fundus diseases are encountered. | 翻訳日:2024-07-02 13:30:57 公開日:2024-06-30 |
# DAG-Plan:Dual-Arm協調計画のための直接非循環依存グラフの生成
DAG-Plan: Generating Directed Acyclic Dependency Graphs for Dual-Arm Cooperative Planning ( http://arxiv.org/abs/2406.09953v2 ) ライセンス: Link先を確認 | Zeyu Gao, Yao Mu, Jinye Qu, Mengkang Hu, Lingyue Guo, Ping Luo, Yanfeng Lu, | (参考訳) デュアルアームロボットは、複数のオブジェクトを同時に操作したり、両方のアームを使ってタスクを協調的に実行することで、シングルアームロボットよりも汎用性と効率性が向上する。
しかし、複雑な長距離作業のために両腕を効果的に調整することは重要な課題である。
既存のタスク計画手法は、主にシングルアームロボットに焦点をあてるか、あるいは事前に定義されたバイマニュアル操作に依存しており、デュアルアームシステムの能力を十分に活用できていない。
この制限に対処するために、デュアルアームロボットに適した構造化タスク計画フレームワークであるDAG-Planを導入する。
DAG-Planは、大規模言語モデル(LLM)を使用して、複雑なタスクを有向非巡回グラフ(DAG)内のノードとして表される実行可能なサブタスクに分解する。
批判的に言えば、DAG-Planはこれらのサブタスクをリアルタイム環境観測に基づく適切なアームに動的に割り当て、並列かつ適応的な実行を可能にする。
78のサブタスクと26のオブジェクトからなる9つの逐次タスクからなるDual-Arm Kitchen BenchmarkでDAG-Planを評価した。
DAG-Plan が LLM を直接使用して計画を生成するよりも優れており、シングルアームのタスク計画ベースラインに比べて50%近く効率が良く、デュアルアームのタスク計画ベースラインの成功率がほぼ2倍である。
Dual-arm robots offer enhanced versatility and efficiency over single-arm counterparts by enabling concurrent manipulation of multiple objects or cooperative execution of tasks using both arms. However, effectively coordinating the two arms for complex long-horizon tasks remains a significant challenge. Existing task planning methods predominantly focus on single-arm robots or rely on predefined bimanual operations, failing to fully leverage the capabilities of dual-arm systems. To address this limitation, we introduce DAG-Plan, a structured task planning framework tailored for dual-arm robots. DAG-Plan harnesses large language models (LLMs) to decompose intricate tasks into actionable sub-tasks represented as nodes within a directed acyclic graph (DAG). Critically, DAG-Plan dynamically assigns these sub-tasks to the appropriate arm based on real-time environmental observations, enabling parallel and adaptive execution. We evaluate DAG-Plan on the novel Dual-Arm Kitchen Benchmark, comprising 9 sequential tasks with 78 sub-tasks and 26 objects. Extensive experiments demonstrate the superiority of DAG-Plan over directly using LLM to generate plans, achieving nearly 50% higher efficiency compared to the single-arm task planning baseline and nearly double the success rate of the dual-arm task planning baseline. | 翻訳日:2024-07-02 13:21:08 公開日:2024-06-30 |
# カプセル内視鏡診断のための基礎モデルDINOv2の学習
Learning to Adapt Foundation Model DINOv2 for Capsule Endoscopy Diagnosis ( http://arxiv.org/abs/2406.10508v2 ) ライセンス: Link先を確認 | Bowen Zhang, Ying Chen, Long Bai, Yan Zhao, Yuxiang Sun, Yixuan Yuan, Jianhua Zhang, Hongliang Ren, | (参考訳) ファンデーションモデルはコンピュータビジョンにおいて顕著になり、様々なタスクで顕著な成功を収めている。
しかし、その有効性は、広範囲なデータセットによる事前トレーニングに大きく依存する。
基礎モデルをスクラッチからカプセル内視鏡画像の小さなデータセットに直接適用することは困難である。
幅広い一般的なビジョンデータセットの事前トレーニングは、特定のタスクのためにモデルを微調整するのに不可欠です。
本研究では,カスタマイズを容易にするローランク適応(LoRA)技術を用いたアダプティブ・ファンデーション・モデル(Adapt foundation model)を提案する。
DINOv2ファンデーションモデルにインスパイアされた本手法は,カプセル内視鏡診断を効果的に行うための基礎モデルに低ランク適応学習を適用した。
従来の微調整方法とは異なり、我々は特定の外科領域の知識を吸収するように設計されたLoRAレイヤーを含む。
トレーニングプロセス中、メインモデル(バックボーンエンコーダ)を固定し、LoRA層と疾患分類成分の最適化に集中する。
本手法をカプセル内視鏡疾患分類のための2つの公開データセットで検証した。
その結果、我々のモデルはKvasir-Capsuleデータセットで97.75%、Kvasirv2データセットで98.81%の精度で得られた。
本ソリューションは, 基礎モデルがカプセル内視鏡診断に適応できることを示し, 一般的なコンピュータビジョンタスクからの直感的な微調整や事前訓練によるモデルへの依存が, このような特定の応用には不十分であることを強調した。
Foundation models have become prominent in computer vision, achieving notable success in various tasks. However, their effectiveness largely depends on pre-training with extensive datasets. Applying foundation models directly to small datasets of capsule endoscopy images from scratch is challenging. Pre-training on broad, general vision datasets is crucial for successfully fine-tuning our model for specific tasks. In this work, we introduce a simplified approach called Adapt foundation models with a low-rank adaptation (LoRA) technique for easier customization. Our method, inspired by the DINOv2 foundation model, applies low-rank adaptation learning to tailor foundation models for capsule endoscopy diagnosis effectively. Unlike traditional fine-tuning methods, our strategy includes LoRA layers designed to absorb specific surgical domain knowledge. During the training process, we keep the main model (the backbone encoder) fixed and focus on optimizing the LoRA layers and the disease classification component. We tested our method on two publicly available datasets for capsule endoscopy disease classification. The results were impressive, with our model achieving 97.75% accuracy on the Kvasir-Capsule dataset and 98.81% on the Kvasirv2 dataset. Our solution demonstrates that foundation models can be adeptly adapted for capsule endoscopy diagnosis, highlighting that mere reliance on straightforward fine-tuning or pre-trained models from general computer vision tasks is inadequate for such specific applications. | 翻訳日:2024-07-02 13:21:08 公開日:2024-06-30 |
# StrucText-Eval:構造化リッチテキスト理解における大規模言語モデルの能力評価のための自動生成ベンチマーク
StrucText-Eval: An Autogenerated Benchmark for Evaluating Large Language Model's Ability in Structure-Rich Text Understanding ( http://arxiv.org/abs/2406.10621v2 ) ライセンス: Link先を確認 | Zhouhong Gu, Haoning Ye, Zeyang Zhou, Hongwei Feng, Yanghua Xiao, | (参考訳) 多くの企業が保持する大量の構造化データを考えると、Large Language Models(LLM)は構造化されていない形式で構造化されたテキストを直接理解できるようになり、様々なビジネスシナリオにおけるそれらの能力を大幅に向上させることができる。
そこで本研究では,手作業による質問テンプレートと生成規則に基づいて,制御可能な複雑性の構造化データを生成する構造化リッチテキストの理解能力を評価するための評価データ生成手法を提案する。
本研究では,8言語にまたがる6,032の質問と29の特定のタスクからなるベンチマークであるStrucText-Evalを提案する。
さらに,ルールベースタスクにおける人間の習熟度を考慮したStrucText-Eval-Hardを提案する。
その結果、現在最高の性能のLCMはStrucText-Eval-Hardで65.0\%、人間の精度は95.7\%に達することがわかった。
さらに、StrucText-Evalを使った微調整により、既存のLLMのすべての構造化言語に対する理解が向上するが、すべてのタスクタイプでパフォーマンスが向上するとは限らない。
ベンチマークと生成コードはhttps://github.com/MikeGu721/StrucText-Evalで公開されている。
Given the substantial volumes of structured data held by many companies, enabling Large Language Models (LLMs) to directly understand structured text in non-structured forms could significantly enhance their capabilities across various business scenarios. To this end, we propose evaluation data generation method for assessing LLM's ability in understanding the structure-rich text, which generates structured data of controllable complexity based on manually crafted question templates and generation rules. Building on this generation method, we introduce StrucText-Eval, a benchmark comprising 6,032 questions across 8 different structured languages and 29 specific tasks. Furthermore, considering human proficiency in rule-based tasks, we also present StrucText-Eval-Hard, which includes 3,016 questions designed to further examine the gap between LLMs and human performance. Results indicate that the best-performing LLM currently achieve an accuracy of 65.0\% on StrucText-Eval-Hard, while human accuracy reaches up to 95.7\%. Moreover, while fine-tuning using StrucText-Eval can enhance existing LLMs' understanding of all structured languages, it does not necessarily improve performance across all task types. The benchmark and generation codes are open sourced in https://github.com/MikeGu721/StrucText-Eval | 翻訳日:2024-07-02 13:21:08 公開日:2024-06-30 |
# ファインチューニングかファインフィリングか? 大規模言語モデルにおけるパフォーマンスの謎を解き明かす
Fine-Tuning or Fine-Failing? Debunking Performance Myths in Large Language Models ( http://arxiv.org/abs/2406.11201v2 ) ライセンス: Link先を確認 | Scott Barnett, Zac Brannelly, Stefanus Kurniawan, Sheng Wong, | (参考訳) 大きな言語モデル(LLM)は、入力クエリから人間のようなテキストを理解し、生成するユニークな機能を持つ。
微調整すると、これらのモデルではドメイン固有のクエリのパフォーマンスが向上する。
OpenAIは、細調整のプロセスを強調し、「モデルを微調整するには、少なくとも10の例を提供する必要がある。通常、50から100のトレーニング例で微調整から明らかな改善が見られるが、正しい数は正確なユースケースによって大きく異なる。」と述べている。
本研究では、この概念を、情報検索に外部コーパスデータを活用することにより、精度と妥当性を向上させることを目的とした、レトリーバル拡張ジェネレーション(RAG)パイプライン内のLLMの統合に拡張する。
しかしながら、最適なレスポンスを提供するというRAGの約束は、複雑なクエリシナリオでは不十分であることが多い。
本研究の目的は,複数の領域にまたがるRAGシステムの性能を高めるために,微調整LDMがコンテキストデータを抽出・統合する能力に与える影響を具体的に検討することである。
複数のドメインからのデータセット間のベースライン性能に対する微調整モデルの精度と完全性を比較することにより,データ抽出と文脈理解におけるLCMの能力に及ぼす微調整の影響を評価する。
その結果,OpenAI が提案するスタンドアロン LLM アプリケーションで見られる改善とは対照的に,ファインチューニングはベースラインモデルに比べて性能が低下することがわかった。
本研究は、ドメイン固有タスクのための細調整モデルの精力的な調査と検証の必要性を強調した。
Large Language Models (LLMs) have the unique capability to understand and generate human-like text from input queries. When fine-tuned, these models show enhanced performance on domain-specific queries. OpenAI highlights the process of fine-tuning, stating: "To fine-tune a model, you are required to provide at least 10 examples. We typically see clear improvements from fine-tuning on 50 to 100 training examples, but the right number varies greatly based on the exact use case." This study extends this concept to the integration of LLMs within Retrieval-Augmented Generation (RAG) pipelines, which aim to improve accuracy and relevance by leveraging external corpus data for information retrieval. However, RAG's promise of delivering optimal responses often falls short in complex query scenarios. This study aims to specifically examine the effects of fine-tuning LLMs on their ability to extract and integrate contextual data to enhance the performance of RAG systems across multiple domains. We evaluate the impact of fine-tuning on the LLMs' capacity for data extraction and contextual understanding by comparing the accuracy and completeness of fine-tuned models against baseline performances across datasets from multiple domains. Our findings indicate that fine-tuning resulted in a decline in performance compared to the baseline models, contrary to the improvements observed in standalone LLM applications as suggested by OpenAI. This study highlights the need for vigorous investigation and validation of fine-tuned models for domain-specific tasks. | 翻訳日:2024-07-02 13:21:08 公開日:2024-06-30 |
# 長所のLLM審査員は、多所的なインテクスト学習が役に立つか?
Can Many-Shot In-Context Learning Help Long-Context LLM Judges? See More, Judge Better! ( http://arxiv.org/abs/2406.11629v3 ) ライセンス: Link先を確認 | Mingyang Song, Mao Zheng, Xuan Luo, | (参考訳) LLMのパフォーマンスを判断する裁判官として,LLM(Large Language Models)を活用することが近年注目を集めている。
しかし、このようなアプローチはLLMの潜在的なバイアスに影響され、評価結果の信頼性に対する懸念が高まる。
この問題を軽減するため,本論文では,LLM,Reinforced ICL,Unsupervised ICLの潜在的なバイアスを軽減するため,GPT-4o-as-a-Judgeを単一回答グレーディングで支援するために,Multi-shot ICLの既存の2つの設定に依存するマルチショットインコンテキストプロンプトの2つのバージョンを提案し,検討する。
具体的には、前者はモデル生成的理性を持つ文脈内例を使用し、後者は無意味である。
設計したプロンプトに基づいて,文脈内サンプルのスケーリングが判定結果の一貫性と品質に与える影響について検討する。
さらに, GPT-4o-as-a-Judgeの相互比較に隠されたシンボルバイアスを明らかにし, その軽減のための簡易かつ効果的なアプローチを提案する。
GPT-4oのような長文LLMは、ゼロショット方式よりも多ショット方式の方が優れていることを示す実験結果が得られた。
一方,実験結果は,シンボルバイアス緩和手法の有効性をさらに検証した。
Leveraging Large Language Models (LLMs) as judges for judging the performance of LLMs has recently garnered attention. However, this type of approach is affected by the potential biases in LLMs, raising concerns about the reliability of the evaluation results. To mitigate this issue, we propose and study two versions of many-shot in-context prompts, which rely on two existing settings of many-shot ICL for helping GPT-4o-as-a-Judge in single answer grading to mitigate the potential biases in LLMs, Reinforced ICL and Unsupervised ICL. Concretely, the former utilizes in-context examples with model-generated rationales, and the latter without. Based on the designed prompts, we investigate the impact of scaling the number of in-context examples on the consistency and quality of the judgment results. Furthermore, we reveal the symbol bias hidden in the pairwise comparison of GPT-4o-as-a-Judge and propose a simple yet effective approach to mitigate it. Experimental results show that advanced long-context LLMs, such as GPT-4o, perform better in the many-shot regime than in the zero-shot regime. Meanwhile, the experimental results further verify the effectiveness of the symbol bias mitigation approach. | 翻訳日:2024-07-02 13:11:23 公開日:2024-06-30 |
# 機械的解釈可能性によるモデル性能のコンパクト証明
Compact Proofs of Model Performance via Mechanistic Interpretability ( http://arxiv.org/abs/2406.11779v6 ) ライセンス: Link先を確認 | Jason Gross, Rajashree Agrawal, Thomas Kwa, Euan Ong, Chun Hei Yip, Alex Gibson, Soufiane Noubir, Lawrence Chan, | (参考訳) 本研究では,モデル性能の形式的保証を導出し,コンパクトに証明するために,機械的解釈可能性 (リバースエンジニアリングモデルウェイトを人間解釈可能なアルゴリズムに変換する技術) を用いることを提案する。
提案手法は, 最大K$タスクで訓練した151個の小型変圧器の精度について, 下限を正式に証明して試作する。
我々は,コンピュータ支援型証明戦略を102種類作成し,それぞれのモデルに対して,その長さと厳密さを評価する。
定量的な測定値を用いることで、より短い証明が必要になり、より機械的な理解が得られます。
さらに、より忠実なメカニスティックな理解が、パフォーマンス境界の厳密化につながることが分かっています。
これらの関係は、証明のサブセットを質的に検証することで確認する。
最後に, モデル性能に関するコンパクトな証明を生成するために, 機械的解釈可能性を利用する上で重要な課題として, 合成構造のないノイズを同定する。
In this work, we propose using mechanistic interpretability -- techniques for reverse engineering model weights into human-interpretable algorithms -- to derive and compactly prove formal guarantees on model performance. We prototype this approach by formally proving lower bounds on the accuracy of 151 small transformers trained on a Max-of-$K$ task. We create 102 different computer-assisted proof strategies and assess their length and tightness of bound on each of our models. Using quantitative metrics, we find that shorter proofs seem to require and provide more mechanistic understanding. Moreover, we find that more faithful mechanistic understanding leads to tighter performance bounds. We confirm these connections by qualitatively examining a subset of our proofs. Finally, we identify compounding structureless noise as a key challenge for using mechanistic interpretability to generate compact proofs on model performance. | 翻訳日:2024-07-02 13:11:23 公開日:2024-06-30 |
# MedCalc-Bench:医学計算のための大規模言語モデルの評価
MedCalc-Bench: Evaluating Large Language Models for Medical Calculations ( http://arxiv.org/abs/2406.12036v4 ) ライセンス: Link先を確認 | Nikhil Khandekar, Qiao Jin, Guangzhi Xiong, Soren Dunn, Serina S Applebaum, Zain Anwar, Maame Sarfo-Gyamfi, Conrad W Safranek, Abid A Anwar, Andrew Zhang, Aidan Gilson, Maxwell B Singer, Amisha Dave, Andrew Taylor, Aidong Zhang, Qingyu Chen, Zhiyong Lu, | (参考訳) 計算と論理ベースの推論を評価するのとは対照的に、医学における大規模言語モデル(LLM)を評価するための現在のベンチマークは、主にドメイン知識と記述的推論を含む質問応答に焦点を当てている。
このような定性的な能力は医学的診断に不可欠であるが、現実のシナリオでは、医師はしばしば、定量的方程式に従う臨床電卓と、エビデンスベースの意思決定支援のためのルールベースの推論パラダイムを使用する。
この目的のために, LLMの医療計算能力を評価することを目的とした, 第一種データセットであるMedCalc-Benchを提案する。
MedCalc-Benchには、55の異なる医療計算タスクから1000以上のレビュー済みのインスタンスの評価セットが含まれている。
MedCalc-Benchの各インスタンスは、患者ノート、特定の医学的価値の計算を要求する質問、真実の答え、そしてその答えがどのように得られるかを示すステップバイステップの説明からなる。
以上の結果から, 当科におけるLSMsの有用性が示唆されるが, 臨床検査に十分な効果は得られていない。
一般的な問題としては、不正なエンティティを抽出すること、計算タスクに正しい方程式や規則を使わないこと、計算の算術を誤って実行することなどがある。
医療現場におけるLSMの量的知識と推論のギャップを強調し,様々な臨床計算タスクにおけるLCMの今後の改善を促すことを願っている。
As opposed to evaluating computation and logic-based reasoning, current benchmarks for evaluating large language models (LLMs) in medicine are primarily focused on question-answering involving domain knowledge and descriptive reasoning. While such qualitative capabilities are vital to medical diagnosis, in real-world scenarios, doctors frequently use clinical calculators that follow quantitative equations and rule-based reasoning paradigms for evidence-based decision support. To this end, we propose MedCalc-Bench, a first-of-its-kind dataset focused on evaluating the medical calculation capability of LLMs. MedCalc-Bench contains an evaluation set of over 1000 manually reviewed instances from 55 different medical calculation tasks. Each instance in MedCalc-Bench consists of a patient note, a question requesting to compute a specific medical value, a ground truth answer, and a step-by-step explanation showing how the answer is obtained. While our evaluation results show the potential of LLMs in this area, none of them are effective enough for clinical settings. Common issues include extracting the incorrect entities, not using the correct equation or rules for a calculation task, or incorrectly performing the arithmetic for the computation. We hope our study highlights the quantitative knowledge and reasoning gaps in LLMs within medical settings, encouraging future improvements of LLMs for various clinical calculation tasks. | 翻訳日:2024-07-02 13:11:23 公開日:2024-06-30 |
# スロット状態空間モデル
Slot State Space Models ( http://arxiv.org/abs/2406.12272v4 ) ライセンス: Link先を確認 | Jindong Jiang, Fei Deng, Gautam Singh, Minseung Lee, Sungjin Ahn, | (参考訳) S4、S5、Mambaのような最近の状態空間モデル(SSM)は、長距離時間依存性モデリングにおいて顕著な計算上の利点を示している。
しかし、多くのシーケンスモデリング問題において、基礎となるプロセスは本質的にモジュラーであり、このモジュラー構造を模倣する帰納的バイアスを持つことは興味深い。
本稿では,情報分離の維持・促進を目的として,独立したメカニズムをSSMに組み込む新しいフレームワークであるSlotSSMを紹介する。
モノリシックな状態ベクトルを保持する従来のSSMとは異なり、SlotSSMはスロットと呼ばれる複数のベクトルの集合として状態を維持する。
重要なことは、状態遷移はスロットごとに独立に行われ、自己注意のボトルネックを通じて実装されたスロット間の疎相互作用である。
実験では,オブジェクト中心の映像理解,3次元視覚推論,映像予測タスクにおいて,複数のオブジェクトとその長距離時間依存性のモデル化を含むモデルを評価する。
提案手法は,既存のシーケンス・モデリング手法に比べて性能が大幅に向上することがわかった。
Recent State Space Models (SSMs) such as S4, S5, and Mamba have shown remarkable computational benefits in long-range temporal dependency modeling. However, in many sequence modeling problems, the underlying process is inherently modular and it is of interest to have inductive biases that mimic this modular structure. In this paper, we introduce SlotSSMs, a novel framework for incorporating independent mechanisms into SSMs to preserve or encourage separation of information. Unlike conventional SSMs that maintain a monolithic state vector, SlotSSMs maintains the state as a collection of multiple vectors called slots. Crucially, the state transitions are performed independently per slot with sparse interactions across slots implemented via the bottleneck of self-attention. In experiments, we evaluate our model in object-centric video understanding, 3D visual reasoning, and video prediction tasks, which involve modeling multiple objects and their long-range temporal dependencies. We find that our proposed design offers substantial performance gains over existing sequence modeling methods. | 翻訳日:2024-07-02 13:11:23 公開日:2024-06-30 |
# 臨床適応を考慮した生体医用ビジュアルインストラクションチューニング
Biomedical Visual Instruction Tuning with Clinician Preference Alignment ( http://arxiv.org/abs/2406.13173v2 ) ライセンス: Link先を確認 | Hejie Cui, Lingjun Mao, Xin Liang, Jieyu Zhang, Hui Ren, Quanzheng Li, Xiang Li, Carl Yang, | (参考訳) マルチモーダル基礎モデルの最近の進歩は、視覚情報やテキスト情報による理解と推論において、印象的な能力を示した。
これらの基礎モデルをバイオメディシンのような特殊なドメインに適用するには、大規模なドメイン固有の命令データセットが必要である。
既存の作業では、そのようなデータセットを自動的にキュレーションする方法が検討されているが、結果のデータセットは、ドメインの専門知識と明確に一致していない。
本研究では,臨床医の嗜好をバイオメディカル・マルチモーダル基礎モデルのチューニングのための指導データの生成と選択の両段階に組み込むデータ中心型ビオメディカル・ビジュアル・インストラクション・チューニング(BioMed-VITAL)を提案する。
まず,GPT-4Vジェネレータに,好みに整合したデータ候補生成のための多種多様なクリニック選択による実演を誘導する。
そして、選択期間中に、臨床医と政策指導を受けたモデルの選別を評価関数に明示的に蒸留して、医用指導のための高品質なデータを選択する別個の選別モデルを訓練する。
その結果,提案手法から得られた指示追従データに調整したモデルでは,オープン・ビジュアル・チャット(18.5%)と医療用VQA(81.73%)の大幅な改善が見られた。
BioMed-VITAL.github.ioでは、インストラクション追跡データとモデルが利用可能です。
Recent advancements in multimodal foundation models have showcased impressive capabilities in understanding and reasoning with visual and textual information. Adapting these foundation models trained for general usage to specialized domains like biomedicine requires large-scale domain-specific instruction datasets. While existing works have explored curating such datasets automatically, the resultant datasets are not explicitly aligned with domain expertise. In this work, we propose a data-centric framework, Biomedical Visual Instruction Tuning with Clinician Preference Alignment (BioMed-VITAL), that incorporates clinician preferences into both stages of generating and selecting instruction data for tuning biomedical multimodal foundation models. First, during the generation stage, we prompt the GPT-4V generator with a diverse set of clinician-selected demonstrations for preference-aligned data candidate generation. Then, during the selection phase, we train a separate selection model, which explicitly distills clinician and policy-guided model preferences into a rating function to select high-quality data for medical instruction tuning. Results show that the model tuned with the instruction-following data from our method demonstrates a significant improvement in open visual chat (18.5% relatively) and medical VQA (win rate up to 81.73%). Our instruction-following data and models are available at BioMed-VITAL.github.io. | 翻訳日:2024-07-02 13:11:23 公開日:2024-06-30 |
# LLM批判は、数学におけるバッチバグを助ける: 自然言語フィードバックによる数学的検証の改善を目指して
LLM Critics Help Catch Bugs in Mathematics: Towards a Better Mathematical Verifier with Natural Language Feedback ( http://arxiv.org/abs/2406.14024v2 ) ライセンス: Link先を確認 | Bofei Gao, Zefan Cai, Runxin Xu, Peiyi Wang, Ce Zheng, Runji Lin, Keming Lu, Junyang Lin, Chang Zhou, Wen Xiao, Junjie Hu, Tianyu Liu, Baobao Chang, | (参考訳) 数学的頂点は、解の正しさを検証することによって数学的推論タスクで成功する。
しかし、既存の検証器はバイナリ分類ラベルで訓練されているため、モデルが解を正確に評価するのに十分な情報がない。
上記の2進ラベルの不十分さを軽減するため、段階的な自然言語フィードバックを有理ラベル(現在のステップの正しさと説明文)として導入する。
本稿では,自動生成したトレーニングデータと,効果的なトレーニングと効率的な推論のための2段階トレーニングパラダイムを構築することで,自然言語フィードバックの強化された検証手法である「textbf{Math-Minos}」を提案する。
実験の結果,GSM8Kでは 1.6 % (86.6 % $\rightarrow$88.2 %) ,MATHでは 0.8 % (37.8 % $\rightarrow$38.6 %) の精度で検証器の性能を大幅に向上させることができることがわかった。
さらなる調査のために、コードとデータをリリースしました。
Mathematical verfier achieves success in mathematical reasoning tasks by validating the correctness of solutions. However, existing verifiers are trained with binary classification labels, which are not informative enough for the model to accurately assess the solutions. To mitigate the aforementioned insufficiency of binary labels, we introduce step-wise natural language feedbacks as rationale labels (i.e., the correctness of the current step and the explanations). In this paper, we propose \textbf{Math-Minos}, a natural language feedback enhanced verifier by constructing automatically-generated training data and a two-stage training paradigm for effective training and efficient inference. Our experiments reveal that a small set (30k) of natural language feedbacks can significantly boost the performance of the verifier by the accuracy of 1.6\% (86.6\% $\rightarrow$ 88.2\%) on GSM8K and 0.8\% (37.8\% $\rightarrow$ 38.6\%) on MATH. We have released our code and data for further exploration. | 翻訳日:2024-07-02 13:11:23 公開日:2024-06-30 |
# UIトラジェクトリからユーザ目標を識別する
Identifying User Goals from UI Trajectories ( http://arxiv.org/abs/2406.14314v2 ) ライセンス: Link先を確認 | Omri Berkovitch, Sapir Caduri, Noam Kahlon, Anatoly Efros, Avi Caciularu, Ido Dagan, | (参考訳) グラフィカルユーザインタフェース(GUI)と対話する自律エージェントは、ユーザエクスペリエンスを向上させる大きな可能性を秘めている。
これらの体験をさらに改善するためには、エージェントをパーソナライズし、積極的に行う必要がある。
アクションやGUIとのインタラクションを通じてユーザの意図を効果的に理解することで、エージェントはこれらの目標を達成するのに適しているでしょう。
本稿では,GUIのインタラクションに基づいてユーザの意図したタスクを推測することを目的として,観測されたUIトラジェクトリから目標を識別するタスクを提案する。
特定のUI環境における2つのタスク記述がパラフレーズであるかどうかを評価するための新しい評価基準を提案する。
UI自動化タスクとの逆関係を活用することで、Android-In-The-WildデータセットとMind2Webデータセットを実験に利用しました。
測定値とこれらのデータセットを用いて,人間と最先端モデル,特に GPT-4 と Gemini-1.5 Pro を比較した実験を行った。
以上の結果から,GeminiはGPTよりも優れた性能を示したが,人間に比べてまだ性能が劣っていることが示唆された。
Autonomous agents that interact with graphical user interfaces (GUIs) hold significant potential for enhancing user experiences. To further improve these experiences, agents need to be personalized and proactive. By effectively comprehending user intentions through their actions and interactions with GUIs, agents will be better positioned to achieve these goals. This paper introduces the task of goal identification from observed UI trajectories, aiming to infer the user's intended task based on their GUI interactions. We propose a novel evaluation metric to assess whether two task descriptions are paraphrases within a specific UI environment. By Leveraging the inverse relation with the UI automation task, we utilized the Android-In-The-Wild and Mind2Web datasets for our experiments. Using our metric and these datasets, we conducted several experiments comparing the performance of humans and state-of-the-art models, specifically GPT-4 and Gemini-1.5 Pro. Our results show that Gemini performs better than GPT but still underperforms compared to humans, indicating significant room for improvement. | 翻訳日:2024-07-02 13:01:27 公開日:2024-06-30 |
# TemPrompt: RAGベースのクラウドソーシングシステムにおける時間関係抽出のためのマルチタスクプロンプト学習
TemPrompt: Multi-Task Prompt Learning for Temporal Relation Extraction in RAG-based Crowdsourcing Systems ( http://arxiv.org/abs/2406.14825v3 ) ライセンス: Link先を確認 | Jing Yang, Yu Zhao, Yang Linyao, Xiao Wang, Long Chen, Fei-Yue Wang, | (参考訳) 時間的関係抽出(TRE)は、イベントや行動の進化を把握し、関連するタスクのワークフローを形成することを目的としており、クラウドソーシングシステムにおける要求者によるタスク要求の理解を支援することを約束している。
しかし、既存のメソッドは限定的で不均一に分散されたアノテートデータに苦戦している。
そこで本研究では,TRE(TemPrompt)のためのマルチタスク・プロンプト学習フレームワークを提案する。
PLMのより効果的なプロンプトを引き出すため,タスク指向のプロンプト構築手法を導入し,TREの無数の要因を自動プロンプト生成に深く取り込む。
さらに、時間的事象推論をモデルがイベントや時間的手がかりに焦点を合わせるための補足として提示する。
実験結果によると、TemPromptは標準設定と少数ショット設定の両方で、ほとんどのメトリクスで比較されたベースラインを上回っている。
クラウドソーシングシナリオにおける有効性を検証するためのケーススタディが提供されている。
Temporal relation extraction (TRE) aims to grasp the evolution of events or actions, and thus shape the workflow of associated tasks, so it holds promise in helping understand task requests initiated by requesters in crowdsourcing systems. However, existing methods still struggle with limited and unevenly distributed annotated data. Therefore, inspired by the abundant global knowledge stored within pre-trained language models (PLMs), we propose a multi-task prompt learning framework for TRE (TemPrompt), incorporating prompt tuning and contrastive learning to tackle these issues. To elicit more effective prompts for PLMs, we introduce a task-oriented prompt construction approach that thoroughly takes the myriad factors of TRE into consideration for automatic prompt generation. In addition, we present temporal event reasoning as a supplement to bolster the model's focus on events and temporal cues. The experimental results demonstrate that TemPrompt outperforms all compared baselines across the majority of metrics under both standard and few-shot settings. A case study is provided to validate its effectiveness in crowdsourcing scenarios. | 翻訳日:2024-07-02 13:01:27 公開日:2024-06-30 |
# LongRAG:Long-context LLMを用いた検索拡張ジェネレーションの実現
LongRAG: Enhancing Retrieval-Augmented Generation with Long-context LLMs ( http://arxiv.org/abs/2406.15319v2 ) ライセンス: Link先を確認 | Ziyan Jiang, Xueguang Ma, Wenhu Chen, | (参考訳) 従来のRAGフレームワークでは、基本的な検索ユニットは通常短い。
DPRのような一般的なレトリバーは、通常100ワードのウィキペディアの段落で機能する。
このような設計は、レトリバーが大きなコーパスを探索して 'needle' ユニットを見つけることを強制する。
対照的に、読者は短い検索単位からのみ回答を抽出する。
このような不均衡な‘heavy’レトリバーと‘light’リーダの設計は、準最適パフォーマンスをもたらす可能性がある。
本研究では,この不均衡を緩和するために,「ロングレトリバー」と「ロングレトリバー」からなる新しいフレームワークであるLongRAGを提案する。
LongRAGはウィキペディア全体を4Kトーケン単位に処理し、これは以前より30倍長くなる。
ユニットサイズを大きくすることで、総ユニット数を2200万から700万に大幅に削減する。
回答リコール@1=71%(以前は52%)、回答リコール@2=72%(以前は47%)はHotpotQA(Full-wiki)である。
次に、取得したトップk単位($30K トークン)を既存の長文 LLM に供給し、ゼロショット応答抽出を行う。
トレーニングを必要とせずに、LongRAGはNQで62.7%のEMを達成している。
LongRAGはまた、SoTAモデルと同等のHotpotQA(Full-wiki)で64.3%を達成した。
本稿では,RAGと長期LLMを組み合わせるための今後のロードマップについて考察する。
In traditional RAG framework, the basic retrieval units are normally short. The common retrievers like DPR normally work with 100-word Wikipedia paragraphs. Such a design forces the retriever to search over a large corpus to find the `needle' unit. In contrast, the readers only need to extract answers from the short retrieved units. Such an imbalanced `heavy' retriever and `light' reader design can lead to sub-optimal performance. In order to alleviate the imbalance, we propose a new framework LongRAG, consisting of a `long retriever' and a `long reader'. LongRAG processes the entire Wikipedia into 4K-token units, which is 30x longer than before. By increasing the unit size, we significantly reduce the total units from 22M to 700K. This significantly lowers the burden of retriever, which leads to a remarkable retrieval score: answer recall@1=71% on NQ (previously 52%) and answer recall@2=72% (previously 47%) on HotpotQA (full-wiki). Then we feed the top-k retrieved units ($\approx$ 30K tokens) to an existing long-context LLM to perform zero-shot answer extraction. Without requiring any training, LongRAG achieves an EM of 62.7% on NQ, which is the best known result. LongRAG also achieves 64.3% on HotpotQA (full-wiki), which is on par of the SoTA model. Our study offers insights into the future roadmap for combining RAG with long-context LLMs. | 翻訳日:2024-07-02 13:01:26 公開日:2024-06-30 |
# SPADアレイの背景から2光子干渉効果としての画素間クロストーク
Inter-pixel cross-talk as background to two-photon interference effects in SPAD arrays ( http://arxiv.org/abs/2406.15323v2 ) ライセンス: Link先を確認 | Sergei Kulkov, Tereza Potuckova, Ermanno Bernasconi, Claudio Bruschini, Tommaso Milanese, Edoardo Charbon, Mst Shamim Ara Shawkat, Andrei Nomerotski, Peter Svihra, | (参考訳) クロストークは単光子雪崩検出器のよく知られた特徴である。
この効果は、センサによって登録された2つ以上の光子の偶然を含む応用において特に重要である。
本研究では,LinoSPAD2検出器のクロストークを特徴付けるとともに,クロストークとハンベリー・ブラウン・ツイス2光子干渉の同時測定を行い,両効果の比較と相互校正を行う。
125 cps/ピクセルの平均暗カウントレートでは、近隣住民の平均クロストーク確率は0.22〜\%であり、最大20ピクセルのチャンネルで分離された2ドル10^{-5}〜\%の長距離クロストークも観測する。
Cross-talk is a well-known feature of single-photon avalanche detectors. It is especially important to account for this effect in applications involving coincidences of two or more photons registered by the sensor since in this case the cross-talk may mimic the useful signal. In this work, we characterize the cross-talk of the LinoSPAD2 detector, as well as perform joint measurements of the cross-talk and Hanbury Brown - Twiss two-photon interference, comparing and cross-calibrating both effects. With a median dark count rate of 125 cps/pixel, we report the average cross-talk probability of $0.22~\%$ for the nearest neighbor and also observe a long-range cross-talk of the order $2 \cdot 10^{-5}~\%$ for channels separated by up to 20 pixels. | 翻訳日:2024-07-02 13:01:26 公開日:2024-06-30 |
# LLMによる説明:サブグラフ推論による勧告の展開
LLM-Powered Explanations: Unraveling Recommendations Through Subgraph Reasoning ( http://arxiv.org/abs/2406.15859v2 ) ライセンス: Link先を確認 | Guangsi Shi, Xiaofeng Deng, Linhao Luo, Lijuan Xia, Lei Bao, Bei Ye, Fei Du, Shirui Pan, Yuxiao Li, | (参考訳) リコメンダシステムは、ユーザとアイテム間の複雑な関係を分析することによって、さまざまなWebアプリケーションにおけるユーザエクスペリエンスの向上に重要な役割を果たす。
知識グラフ(KG)は、推薦システムの性能を高めるために広く使われている。
しかしながら、KGsはノイズが多く不完全であることが知られており、推奨結果に対して信頼できる説明を提供するのは難しい。
説明可能なレコメンデータシステムは、製品開発とその後の意思決定に不可欠である。
これらの課題に対処するため,我々は,Large Language Models (LLMs) とKGsを相乗的に導入し,レコメンデーションを強化し,解釈可能な結果を提供する新しいレコメンデータを提案する。
具体的には、まずLLMのパワーを活用してKG再構成を増強する。
LLMはユーザレビューを理解して、KGに追加される新しいトリプルに分解する。
このようにして、ユーザの好みを表す説明可能なパスでKGを豊かにすることができる。
拡張KGのレコメンデーションを強化するために,ノードの重要性を効果的に測定し,レコメンデーションのレコメンデーションを発見する新しいサブグラフ推論モジュールを提案する。
最後に、これらの推論経路をLSMに入力し、レコメンデーション結果の解釈可能な説明を生成する。
提案手法はレコメンデータシステムの有効性と解釈性を両立させ,特に従来の手法が失敗するクロスセールスシナリオにおいて顕著に促進する。
提案手法の有効性は4つのオープンな実世界のデータセットで厳密に検証され,従来の最先端技術よりも平均12%向上した。
多国籍技術系企業のクロスセールスレコメンデーションシステムへの私たちのモデルの適用は、その実用性と、精度の向上とユーザ信頼を通じてレコメンデーションプラクティスを再定義する可能性をさらに強調する。
Recommender systems are pivotal in enhancing user experiences across various web applications by analyzing the complicated relationships between users and items. Knowledge graphs(KGs) have been widely used to enhance the performance of recommender systems. However, KGs are known to be noisy and incomplete, which are hard to provide reliable explanations for recommendation results. An explainable recommender system is crucial for the product development and subsequent decision-making. To address these challenges, we introduce a novel recommender that synergies Large Language Models (LLMs) and KGs to enhance the recommendation and provide interpretable results. Specifically, we first harness the power of LLMs to augment KG reconstruction. LLMs comprehend and decompose user reviews into new triples that are added into KG. In this way, we can enrich KGs with explainable paths that express user preferences. To enhance the recommendation on augmented KGs, we introduce a novel subgraph reasoning module that effectively measures the importance of nodes and discovers reasoning for recommendation. Finally, these reasoning paths are fed into the LLMs to generate interpretable explanations of the recommendation results. Our approach significantly enhances both the effectiveness and interpretability of recommender systems, especially in cross-selling scenarios where traditional methods falter. The effectiveness of our approach has been rigorously tested on four open real-world datasets, with our methods demonstrating a superior performance over contemporary state-of-the-art techniques by an average improvement of 12%. The application of our model in a multinational engineering and technology company cross-selling recommendation system further underscores its practical utility and potential to redefine recommendation practices through improved accuracy and user trust. | 翻訳日:2024-07-02 13:01:26 公開日:2024-06-30 |
# PUDD:ロバストなマルチモーダルプロトタイプベースディープフェイク検出に向けて
PUDD: Towards Robust Multi-modal Prototype-based Deepfake Detection ( http://arxiv.org/abs/2406.15921v2 ) ライセンス: Link先を確認 | Alvaro Lopez Pellcier, Yi Li, Plamen Angelov, | (参考訳) ディープフェイク技術は、非常にリアルなデータを生成するため、人間が実際の画像と人工的な画像を区別することは困難である。
近年,ディープラーニングに基づくディープフェイク検出法,特に拡散モデルが進歩している。
しかし、見えない個人、ディープフェイク技術、シナリオを検出する現実世界のアプリケーションに対する需要は増えている。
本稿では,この制限に対処するため,Pepfake Detection (PUDD) のためのプロトタイプベースの統一フレームワークを提案する。
PUDDは類似性に基づく検出システムを提供し、入力データをビデオ分類のための既知のプロトタイプと比較し、類似性のあるドロップを分析して、潜在的なディープフェイクや以前は見つからなかったクラスを特定する。
1) PUDDはCeleb-DFで95.1%の精度を実現し,(2) PUDDはトレーニング中の上流タスクとして画像分類を活用し,推論中の画像分類と深度検出タスクの両方において有望な性能を示す。
Deepfake techniques generate highly realistic data, making it challenging for humans to discern between actual and artificially generated images. Recent advancements in deep learning-based deepfake detection methods, particularly with diffusion models, have shown remarkable progress. However, there is a growing demand for real-world applications to detect unseen individuals, deepfake techniques, and scenarios. To address this limitation, we propose a Prototype-based Unified Framework for Deepfake Detection (PUDD). PUDD offers a detection system based on similarity, comparing input data against known prototypes for video classification and identifying potential deepfakes or previously unseen classes by analyzing drops in similarity. Our extensive experiments reveal three key findings: (1) PUDD achieves an accuracy of 95.1% on Celeb-DF, outperforming state-of-the-art deepfake detection methods; (2) PUDD leverages image classification as the upstream task during training, demonstrating promising performance in both image classification and deepfake detection tasks during inference; (3) PUDD requires only 2.7 seconds for retraining on new data and emits 10$^{5}$ times less carbon compared to the state-of-the-art model, making it significantly more environmentally friendly. | 翻訳日:2024-07-02 13:01:26 公開日:2024-06-30 |
# 一般関数近似を用いた不確かさを意識した再帰探索
Uncertainty-Aware Reward-Free Exploration with General Function Approximation ( http://arxiv.org/abs/2406.16255v2 ) ライセンス: Link先を確認 | Junkai Zhang, Weitong Zhang, Dongruo Zhou, Quanquan Gu, | (参考訳) 環境における探索と学習を通じて複数のタスクをマスターすることは、強化学習(RL)において大きな課題となる。
教師なしのRLは、本質的な報酬ではなく、本質的な報酬で政策を訓練することでこの問題に対処するために導入された。
しかしながら、現在の固有報酬設計と教師なしRLアルゴリズムは、しばしば収集されたサンプルの不均一性を見落とし、サンプル効率を低下させる。
この制限を克服するために,本稿では,報酬のないRLアルゴリズムである \alg を提案する。
我々のアルゴリズムの背後にある重要なアイデアは、環境を探索する上で不確実性を認識した本質的な報酬と、異なるサンプルで不均一性を扱うための不確実性重み付き学習プロセスである。
理論的には、$\epsilon$-optimal Policyを見つけるためには、GFA-RFEが$\tilde{O} (H^2 \log N_{\mathcal F} (\epsilon) \mathrm{dim} (\mathcal F) / \epsilon^2 )$のエピソード数を集める必要がある。
このような結果は、既存の報酬のないRLアルゴリズムよりも優れている。
我々はさらに、DeepMind Control SuiteのさまざまなドメインやタスクにまたがってGFA-RFEを実装し、評価する。
実験の結果、GFA-RFEは最先端の教師なしRLアルゴリズムよりも優れ、あるいは同等であることがわかった。
Mastering multiple tasks through exploration and learning in an environment poses a significant challenge in reinforcement learning (RL). Unsupervised RL has been introduced to address this challenge by training policies with intrinsic rewards rather than extrinsic rewards. However, current intrinsic reward designs and unsupervised RL algorithms often overlook the heterogeneous nature of collected samples, thereby diminishing their sample efficiency. To overcome this limitation, in this paper, we propose a reward-free RL algorithm called \alg. The key idea behind our algorithm is an uncertainty-aware intrinsic reward for exploring the environment and an uncertainty-weighted learning process to handle heterogeneous uncertainty in different samples. Theoretically, we show that in order to find an $\epsilon$-optimal policy, GFA-RFE needs to collect $\tilde{O} (H^2 \log N_{\mathcal F} (\epsilon) \mathrm{dim} (\mathcal F) / \epsilon^2 )$ number of episodes, where $\mathcal F$ is the value function class with covering number $N_{\mathcal F} (\epsilon)$ and generalized eluder dimension $\mathrm{dim} (\mathcal F)$. Such a result outperforms all existing reward-free RL algorithms. We further implement and evaluate GFA-RFE across various domains and tasks in the DeepMind Control Suite. Experiment results show that GFA-RFE outperforms or is comparable to the performance of state-of-the-art unsupervised RL algorithms. | 翻訳日:2024-07-02 12:51:40 公開日:2024-06-30 |
# EAGLE-2:動的ドラフト木を用いた言語モデルの高速推論
EAGLE-2: Faster Inference of Language Models with Dynamic Draft Trees ( http://arxiv.org/abs/2406.16858v2 ) ライセンス: Link先を確認 | Yuhui Li, Fangyun Wei, Chao Zhang, Hongyang Zhang, | (参考訳) 現代の大規模言語モデル(LLM)による推論は高価で時間を要するものであり、投機的サンプリングは効果的な解であることが証明されている。
EAGLEのような投機的サンプリング手法の多くは静的なドラフトツリーを使用しており、ドラフトトークンの受け入れ率はそれらの位置のみに依存すると暗黙的に仮定している。
興味深いことに、ドラフトトークンの受け入れ率も文脈に依存していることがわかった。
本稿では,EAGLEをベースとしたEAGLE-2を提案する。
この改善は、ERGLEのドラフトモデルが十分に校正されているという事実を活用している。
EAGLE-2 の高速化比 3.05x-4.26x は EAGLE-1 よりも20%-40% 高速である。
EAGLE-2はまた、生成されたテキストの分布が変わらないことを保証する。
Inference with modern Large Language Models (LLMs) is expensive and time-consuming, and speculative sampling has proven to be an effective solution. Most speculative sampling methods such as EAGLE use a static draft tree, implicitly assuming that the acceptance rate of draft tokens depends only on their position. Interestingly, we found that the acceptance rate of draft tokens is also context-dependent. In this paper, building upon EAGLE, we propose EAGLE-2, which introduces a new technique of context-aware dynamic draft tree into drafting modeling. This improvement leverages the fact that the draft model of EAGLE is well-calibrated: the confidence scores from the draft model approximate acceptance rates with small errors. We conducted extensive evaluations on three series of LLMs and six tasks, with EAGLE-2 achieving speedup ratios 3.05x-4.26x, which is 20%-40% faster than EAGLE-1. EAGLE-2 also ensures that the distribution of the generated text remains unchanged, making it a lossless acceleration algorithm. | 翻訳日:2024-07-02 12:51:40 公開日:2024-06-30 |
# ディラック分散関係を持つ粒子浴のマルコビアン性と非マルコビアン性
Markovianity and non-Markovianity of Particle Bath with Dirac Dispersion Relation ( http://arxiv.org/abs/2406.17436v2 ) ライセンス: Link先を確認 | Takano Taira, Naomichi Hatano, Akinori Nishino, | (参考訳) オープン量子系の量子粒子の崩壊速度は、実験による経験的予測と、対応する量子状態のマルコフ力学による理論的予測に基づいて、伝統的に指数関数として知られていた。
しかし、理論的な予測と実験的な観察の両方が、この指数関数的崩壊、特に短期と長期の体制からの逸脱を示唆している。
本研究では, ギャップ$m$とエネルギーカットオフ$L$のエネルギースペクトルを特徴とする環境中での単一ディラック粒子の自然放出について検討した。
その結果、スペクトルカットオフ$L$のような高エネルギー構造が、短時間の非指数崩壊を駆動する上で重要な役割を担っていることが明らかとなった。
対照的に、長時間の崩壊は、ディラックギャップ$m$のような低エネルギー構造の影響を主に受けている。
驚いたことに、エネルギーカットオフ$L$が無限でエネルギーギャップ$m$がゼロである極限において、質量を持たないディラック粒子の崩壊ダイナミクスはボルン・マルコフ近似のような従来の近似を必要としないマルコフの挙動を示す。
この研究は、粒子エネルギー特性と崩壊ダイナミクスの間の複雑な相互作用を強調し、量子崩壊過程に関する新たな洞察を与える。
The decay rate of quantum particles in open quantum systems has traditionally been known as exponential, based on empirical predictions from experiments and theoretical predictions from the Markovian dynamics of the corresponding quantum states. However, both theoretical predictions and experimental observations suggest deviations from this exponential decay, particularly in the short and long time regimes. In this study, we explore the spontaneous emission of a single Dirac particle within an environment characterized by an energy spectrum with a gap $m$ and an energy cutoff $L$. Our results reveal that high-energy structures, such as the spectral cutoff $L$, play a critical role in driving the short-time non-exponential decay. In contrast, the long-time decay is predominantly influenced by low-energy structures, such as the Dirac gap $m$. Surprisingly, we find that in the limits where the energy cutoff $L$ is infinite and the energy gap $m$ is zero, the decay dynamics of massless Dirac particles exhibit Markovian behavior without the need for conventional approximations like the Born-Markov approximation. This work underscores the complex interplay between particle energy properties and decay dynamics, providing new insights into quantum decay processes. | 翻訳日:2024-07-02 12:51:40 公開日:2024-06-30 |
# 単純X線撮影:レイマン用語を用いた放射線診断レポートの作成と評価
X-ray Made Simple: Radiology Report Generation and Evaluation with Layman's Terms ( http://arxiv.org/abs/2406.17911v2 ) ライセンス: Link先を確認 | Kun Zhao, Chenghao Xiao, Chen Tang, Bohao Yang, Kai Ye, Noura Al Moubayed, Liang Zhan, Chenghua Lin, | (参考訳) ラジオロジーレポート生成(RRG)は多モード生成モデルの進歩によって大きな進歩を遂げた。
しかし、ドメインの評価は公平で堅牢なメトリクスの欠如に悩まされている。
既存の語彙ベースのメトリクス(例えばBLEU)を使用したRRGのハイパフォーマンスは、単なるミラージュ(mirage)である可能性がある。
これらの報告が高度にパターン化されているため、RRGにとってこれは緊急の問題となっている。
本研究では,日常言語でRRGを体系的に改善するレイマンの用語ベースのデータセット,評価およびトレーニングフレームワークであるRRGフレームワークを提案することによって,この問題に非意図的にアプローチする。
まず最初に、翻訳されたレイマンの用語データセットをコントリビュートする。
このデータセットをベースとしたセマンティックスに基づく評価手法を提案し,BLEUの膨らみを緩和し,より公平な評価を行う。
最後に、レイマン用語データセットのトレーニングは、レポートテンプレートの学習に過度に適合するのではなく、レポートのセマンティクスに集中するようモデルに促すことを示す。
トレーニングサンプルの数とデータセットが提供するセマンティックスの間の有望なスケーリング法則を、元のフォーマットがもたらす逆パターンと比較して明らかにする。
私たちのコードは \url{https://github.com/hegehongcha/LaymanRRG} で利用可能です。
Radiology Report Generation (RRG) has achieved significant progress with the advancements of multimodal generative models. However, the evaluation in the domain suffers from a lack of fair and robust metrics. We reveal that, high performance on RRG with existing lexical-based metrics (e.g. BLEU) might be more of a mirage - a model can get a high BLEU only by learning the template of reports. This has become an urgent problem for RRG due to the highly patternized nature of these reports. In this work, we un-intuitively approach this problem by proposing the Layman's RRG framework, a layman's terms-based dataset, evaluation and training framework that systematically improves RRG with day-to-day language. We first contribute the translated Layman's terms dataset. Building upon the dataset, we then propose a semantics-based evaluation method, which is proved to mitigate the inflated numbers of BLEU and provides fairer evaluation. Last, we show that training on the layman's terms dataset encourages models to focus on the semantics of the reports, as opposed to overfitting to learning the report templates. We reveal a promising scaling law between the number of training examples and semantics gain provided by our dataset, compared to the inverse pattern brought by the original formats. Our code is available at \url{https://github.com/hegehongcha/LaymanRRG}. | 翻訳日:2024-07-02 12:41:53 公開日:2024-06-30 |
# SimsChat: カスタマイズ可能なペルソナ駆動ロールプレイングエージェント
SimsChat: A Customisable Persona-Driven Role-Playing Agent ( http://arxiv.org/abs/2406.17962v2 ) ライセンス: Link先を確認 | Bohao Yang, Dong Liu, Chen Tang, Chenghao Xiao, Kun Zhao, Chao Li, Lin Yuan, Guang Yang, Lanxiao Huang, Chenghua Lin, | (参考訳) 大きな言語モデル(LLM)は、人間の指示を理解し、高品質なテキストを生成する優れた能力を持ち、人間の振る舞いをシミュレートするエージェントとして機能する。
この能力により、LSMは単純な人間の行動を複製するだけでなく、より高度な方法で人間をエミュレートすることができる。
しかし、いくつかの側面から文字を作るのにLLMを活用することを検討することの欠如がある。
本研究では, LLMを用いて, ユーザの好みに応じて自由にカスタマイズできる実世界の文字をシミュレートする Customisable Conversation Agent Framework を紹介する。
カスタマイズ可能なフレームワークは、人間の好みに応じてカスタマイズ可能なキャラクタとロールプレイングエージェントを設計するのに役立ちます。
まず68種類のカスタマイズ文字と1,360個のマルチターンロールプレイングダイアログからなるSimsConvデータセットを提案し,合計13,971個の対話対話を包含する。
キャラクターは、キャリア、願望、特性、スキルなど、いくつかの現実世界の要素から作られる。
これらの基盤の上に構築されたSimsChatは、自由にカスタマイズ可能なロールプレイングエージェントである。
異なる現実世界のシーンとトピック固有のキャラクターの対話、様々なシナリオにおけるキャラクターの生活経験のシミュレート、特定の感情とのトピック固有の相互作用を取り入れている。
実験の結果,提案するフレームワークは望ましい性能を達成し,将来人体のより優れたシミュラクラを構築する上で有用なガイドラインを提供することがわかった。
私たちのデータとコードはhttps://github.com/Bernard-Yang/SimsChat.comで公開されています。
Large Language Models (LLMs) possess the remarkable capability to understand human instructions and generate high-quality text, enabling them to act as agents that simulate human behaviours. This capability allows LLMs to emulate human beings in a more advanced manner, beyond merely replicating simple human behaviours. However, there is a lack of exploring into leveraging LLMs to craft characters from several aspects. In this work, we introduce the Customisable Conversation Agent Framework, which employs LLMs to simulate real-world characters that can be freely customised according to different user preferences. The customisable framework is helpful for designing customisable characters and role-playing agents according to human's preferences. We first propose the SimsConv dataset, which comprises 68 different customised characters, 1,360 multi-turn role-playing dialogues, and encompasses 13,971 interaction dialogues in total. The characters are created from several real-world elements, such as career, aspiration, trait, and skill. Building on these foundations, we present SimsChat, a freely customisable role-playing agent. It incorporates different real-world scenes and topic-specific character interaction dialogues, simulating characters' life experiences in various scenarios and topic-specific interactions with specific emotions. Experimental results show that our proposed framework achieves desirable performance and provides helpful guideline for building better simulacra of human beings in the future. Our data and code are available at https://github.com/Bernard-Yang/SimsChat. | 翻訳日:2024-07-02 12:41:53 公開日:2024-06-30 |
# スピン-$\frac{1}{2}$ Square $J_{1}-J_{2}$Heisenberg模型の短期量子スピンシミュレーション
Near-Term Quantum Spin Simulation of the Spin-$\frac{1}{2}$ Square $J_{1}-J_{2}$ Heisenberg Model ( http://arxiv.org/abs/2406.18474v2 ) ライセンス: Link先を確認 | Dylan Sheils, Trevor David Rhone, | (参考訳) 複雑なスピン系のシミュレーションは、高いフラストレーションと絡み合いで知られており、複雑なエネルギーの景観のために大きな課題を呈している。
この研究は、強い相関を持つスピン系を研究するために、正方格子上の豊富な位相挙動で有名な$J_{1}-J_{2}$ハイゼンベルクモデルに焦点をあてる。
我々は117キュービットのIBM Rensselear Eagleプロセッサと変分量子固有解法(VQE)アルゴリズムを用いて,このモデルに関する最初の実験的検討を行った。
従来の温暖化開始 (+40\%) と新たに開発されたアンサッツ (+9.31\%) を用いて、16サイト変種に対する基底状態近似の精度を向上し、約10^{3} の繰り返しで使用可能な結果を得ることができ、従来の理論研究で提案された10^{4}-10^{5} のステップよりもはるかに少ない。
提案手法は,従来の誤り軽減手法を応用し,新しい古典的強化型VQE誤り軽減方式を導入し,量子モーメントアルゴリズムでは8.7 %,標準誤差軽減では60 %と,9,3 %の精度を実現した。
これらの戦略は、観測可能な予測の平均誤差を$\approx 20\%$から$5\%$に減らし、質的から量的アライメントへの位相予測を強化した。
さらに,変分ファストフォワード (VFF) を用いたQuantum Lanczos (QLanczos) アルゴリズムを 4-qubit サイト上で実験し,基底状態近似を$\approx 97\%で実現した。
理論シミュレーションにより、クリロフ法はVQEよりも優れており、Lanczos法はリアルタイム法よりも速く収束していることが示された。
本研究は、J_1-J_2$Heisenbergモデルに対して、短期量子デバイスが位相関連オブザーバブルを予測し、理論から実験へ焦点を移し、VQEに基づく手法の一般的な改善を提案できることを示す。
Simulating complex spin systems, known for high frustration and entanglement, presents significant challenges due to their intricate energy landscapes. This study focuses on the $J_{1}-J_{2}$ Heisenberg model, renowned for its rich phase behavior on the square lattice, to investigate strongly correlated spin systems. We conducted the first experimental quantum computing study of this model using the 127-qubit IBM Rensselear Eagle processor and the Variational Quantum Eigensolver (VQE) algorithm. By employing classical warm-starting ($+40\%$ ground state energy approximation) and a newly developed ansatz ($+9.31\%$ improvement compared to prior best), we improved ground state approximation accuracy on the 16-site variant, achieving usable results with approximately $10^{3}$ iterations, significantly fewer than the $10^{4}-10^{5}$ steps proposed by previous theoretical studies. We utilized existing error mitigation strategies and introduced a novel Classically-Reinforced VQE error mitigation scheme, achieving $93\%$ ground state accuracy, compared to $83.7\%$ with the Quantum Moments algorithm and $60\%$ with standard error mitigation. These strategies reduced the average error of observable prediction from $\approx 20\%$ to $5\%$, enhancing phase prediction from qualitative to quantitative alignment. Additionally, we explored an experimental implementation of the Quantum Lanczos (QLanczos) algorithm using Variational-Fast Forwarding (VFF) on a 4-qubit site, achieving $\approx 97\%$ ground state approximation. Theoretical simulations indicated that Krylov-based methods outperform VQE, with the Lanczos basis converging faster than the real-time basis. Our study demonstrates that near-term quantum devices can predict phase-relevant observables for the $J_1-J_2$ Heisenberg model, transitioning focus from theoretical to experimental, and suggesting general improvements to VQE-based methods. | 翻訳日:2024-07-02 12:41:53 公開日:2024-06-30 |
# Vox-UDA:Voxel-wise Unsupervised Domain Adaptation for Cryo-Electron Subtomogram Segmentation with Denoized Pseudo Labeling (特集:バイオサイバネティックスとバイオサイバネティックス)
Vox-UDA: Voxel-wise Unsupervised Domain Adaptation for Cryo-Electron Subtomogram Segmentation with Denoised Pseudo Labeling ( http://arxiv.org/abs/2406.18610v2 ) ライセンス: Link先を確認 | Haoran Li, Xingjian Li, Jiahua Shi, Huaming Chen, Bo Du, Daisuke Kihara, Johan Barthelemy, Jun Shen, Min Xu, | (参考訳) クライオ・エレクトロン・トモグラフィー(Cryo-Electron Tomography, Cryo-ET)は、分子構造の研究を容易にする3次元イメージング技術である。
近年のCryo-ET画像におけるボリュームセグメンテーションのアプローチは,生物分野に広く関心を寄せている。
しかし、既存の手法は手動でラベル付けされたデータに大きく依存しており、非常に専門的なスキルを必要とするため、Cryo-ETイメージに完全に教師付きアプローチを採用するのを妨げている。
非教師なし領域適応(UDA)アプローチは、ラベルなしデータを用いてセグメンテーションネットワークの性能を向上させるように設計されている。
しかし、これらの手法をCryo-ET画像のセグメント化タスクに直接適用することは、主な2つの問題により、依然として困難である。
1) 実世界のシナリオから直接収集した対象データには予測不可能なノイズレベルがあるのに対し, シミュレーションにより得られる音源データは, 一定のノイズレベルを含む。
2) トレーニングに使用されるソースデータは一般に既知のマクロ分子から構成されるが,対象のドメインデータはよく分かっていないため,モデルのセグメンタが既知のマクロ分子に偏っているため,ドメインシフト問題が発生する。
これらの課題に対処するため、本研究では、Vox-UDAと呼ばれる、Voxel-wise unsupervised domain adapt approachを導入し、特にCreo-ETサブトモグラムのセグメンテーションについて述べる。
Vox-UDAは、ノイズ生成モジュールを組み込んで、ソースデータセットのターゲットのようなノイズをシミュレートし、クロスノイズレベルを適応させる。
さらに、ドメインシフト問題を軽減するために、改良されたバイラテラルフィルタに基づく擬似ラベル方式を提案する。
シミュレーションおよび実Creo-ETサブトモグラムデータセットによる実験結果から,提案手法が最先端UDA法よりも優れていることを示す。
Cryo-Electron Tomography (cryo-ET) is a 3D imaging technology facilitating the study of macromolecular structures at near-atomic resolution. Recent volumetric segmentation approaches on cryo-ET images have drawn widespread interest in biological sector. However, existing methods heavily rely on manually labeled data, which requires highly professional skills, thereby hindering the adoption of fully-supervised approaches for cryo-ET images. Some unsupervised domain adaptation (UDA) approaches have been designed to enhance the segmentation network performance using unlabeled data. However, applying these methods directly to cryo-ET images segmentation tasks remains challenging due to two main issues: 1) the source data, usually obtained through simulation, contain a certain level of noise, while the target data, directly collected from raw-data from real-world scenario, have unpredictable noise levels. 2) the source data used for training typically consists of known macromoleculars, while the target domain data are often unknown, causing the model's segmenter to be biased towards these known macromolecules, leading to a domain shift problem. To address these challenges, in this work, we introduce the first voxel-wise unsupervised domain adaptation approach, termed Vox-UDA, specifically for cryo-ET subtomogram segmentation. Vox-UDA incorporates a noise generation module to simulate target-like noises in the source dataset for cross-noise level adaptation. Additionally, we propose a denoised pseudo-labeling strategy based on improved Bilateral Filter to alleviate the domain shift problem. Experimental results on both simulated and real cryo-ET subtomogram datasets demonstrate the superiority of our proposed approach compared to state-of-the-art UDA methods. | 翻訳日:2024-07-02 12:41:53 公開日:2024-06-30 |
# 深部強化学習による新しい閉鎖5棒アクティブサスペンションの自律制御
Autonomous Control of a Novel Closed Chain Five Bar Active Suspension via Deep Reinforcement Learning ( http://arxiv.org/abs/2406.18899v2 ) ライセンス: Link先を確認 | Nishesh Singh, Sidharth Ramesh, Abhishek Shankar, Jyotishka Duttagupta, Leander Stephen D'Souza, Sanjay Singh, | (参考訳) 惑星探査には、荒れ果てた地形のある環境での移動が必要である。
加えて、火星探査機や他の惑星探査ロボットは、機械的な損傷から守らなければならない、敏感な科学実験や部品を搭載できることが多い。
本稿では、シャシー安定化に着目したアクティブサスペンションシステムと、避けられない障害物に遭遇しながら効率的なトラバース法について述べる。
SAC(Soft Actor-Critic)とPID(Proportional Integral Derivative)制御を併用してシャシーを安定化し、低速で大きな障害物を横切る。
モデルは、周囲の障害物からの距離、障害物の高さ、シャシーの向きを利用して、サスペンションの制御リンクを正確に作動させる。
ガゼボ環境でのシミュレーションは,提案したアクティブシステムを検証するために用いられている。
Planetary exploration requires traversal in environments with rugged terrains. In addition, Mars rovers and other planetary exploration robots often carry sensitive scientific experiments and components onboard, which must be protected from mechanical harm. This paper deals with an active suspension system focused on chassis stabilisation and an efficient traversal method while encountering unavoidable obstacles. Soft Actor-Critic (SAC) was applied along with Proportional Integral Derivative (PID) control to stabilise the chassis and traverse large obstacles at low speeds. The model uses the rover's distance from surrounding obstacles, the height of the obstacle, and the chassis' orientation to actuate the control links of the suspension accurately. Simulations carried out in the Gazebo environment are used to validate the proposed active system. | 翻訳日:2024-07-02 12:30:11 公開日:2024-06-30 |
# 自動画像データアノテーションのためのセグメント任意のモデル:DINOのテキストプロンプトを用いた実証的研究
Segment Anything Model for automated image data annotation: empirical studies using text prompts from Grounding DINO ( http://arxiv.org/abs/2406.19057v2 ) ライセンス: Link先を確認 | Fuseini Mumuni, Alhassan Mumuni, | (参考訳) グラウンディングDINOとSAMは、ゼロショットオブジェクト検出とイメージセグメンテーションにおいて、それぞれ優れた性能を達成している。
同時に、ゼロショットセマンティックセグメンテーションやデータアノテーションのアプリケーションに革命をもたらす大きな可能性を秘めている。
しかし、医学的イメージセグメンテーションのような特殊なドメインでは、興味の対象(臓器、組織、腫瘍など)は既存のクラス名に該当しない可能性がある。
この問題に対処するために、DINOの参照表現理解(REC)能力を活用し、言語記述による任意のターゲットの検出を行う。
しかし,近年の研究では,対象画像にターゲットが存在しない場合に偽陽性の予測を行う傾向から,RECフレームワークの厳しい制限が強調されている。
また、このボトルネックは、オープンセットセマンティックセグメンテーションの展望の中心であるが、予測誤差を研究することで、どの程度の改善が達成できるかは、いまだに不明である。
この目的のために、異なるドメインで利用可能な6つのデータセットに関する実証的研究を行い、これらのエラーが常に予測可能なパターンに従っていることを明らかにする。
具体的には、評価可能な信頼スコアを持つ偽陽性検出は、一般的に大きな画像領域を占有し、通常、相対的なサイズでフィルタリングできることを示す。
さらに重要なことは、これらの観測がRECに基づく検出と自動セグメンテーションを改善するための将来の研究を刺激することを期待している。
一方,各種専門分野の複数のデータセットを対象としたSAMの性能評価を行い,手動によるセグメンテーション性能とアノテーションの保存時間を大幅に改善したことを報告した。
Grounding DINO and the Segment Anything Model (SAM) have achieved impressive performance in zero-shot object detection and image segmentation, respectively. Together, they have a great potential to revolutionize applications in zero-shot semantic segmentation or data annotation. Yet, in specialized domains like medical image segmentation, objects of interest (e.g., organs, tissues, and tumors) may not fall in existing class names. To address this problem, the referring expression comprehension (REC) ability of Grounding DINO is leveraged to detect arbitrary targets by their language descriptions. However, recent studies have highlighted severe limitation of the REC framework in this application setting owing to its tendency to make false positive predictions when the target is absent in the given image. And, while this bottleneck is central to the prospect of open-set semantic segmentation, it is still largely unknown how much improvement can be achieved by studying the prediction errors. To this end, we perform empirical studies on six publicly available datasets across different domains and reveal that these errors consistently follow a predictable pattern and can, thus, be mitigated by a simple strategy. Specifically, we show that false positive detections with appreciable confidence scores generally occupy large image areas and can usually be filtered by their relative sizes. More importantly, we expect these observations to inspire future research in improving REC-based detection and automated segmentation. Meanwhile, we evaluate the performance of SAM on multiple datasets from various specialized domains and report significant improvements in segmentation performance and annotation time savings over manual approaches. | 翻訳日:2024-07-02 12:30:11 公開日:2024-06-30 |